Abstract
- Language model의 사이즈를 키우는 것(scaling up)이 과제에 유연한 few-shot 성능을 크게 상승시킴
- gradient update나 fine-tuning없이 모델과의 상호 작용으로 모든 과제에 대응 가능
- 인간 평가자가 분간하기 어려울 정도의 news articles를 생성할 수 있음
1. Introduction
- 기존 패러다임의 문제점 : 과제 특정적인 데이터셋과 과제 특정 fine-tuning이 필요
- meta-learning
2. Approach
- Fine-Tuning (FT)
- Few-Shot (FS)
- One-Shot (1S)
- Zero-Shot (0S)
2.1 Model and Architecture
2.2 Training Dataset
- Common Crawl dataset
- Contamination(오염, development set이나 test set에 train data가 포함되는 것)을 막기 위해 모든 벤치마크에서 중복값들을 제거
2.3 Training Process