LLM의 Emergence와 인간 Alignment
GPT 시리즈의 진화단순히 모델 크기와 데이터만 늘렸는데, 가르쳐주지 않은 능력들이 창발하기 시작했다(Emergent Ability). GPT-1사전 학습(Pre-training) 개념을 정립 GPT-2 - Zero-shot의 발견데이터를 40GB로 늘렸더니, 별도의 파인 튜닝 없이도 번역, 요약 등을 수행하는 Zero-shot 능력이 나타났다. 예전에는 번역 모델, 요약 모델을 따로 만들었는데, 이제는 모델 하나에 "이거 요약해줘"라고 지시(Prompt)만 하면 알아서 하는 시대가 온 것. GPT-3 - Few-shot의 완성파라미터를 175B(1,750억 개)로 극단적으로 키웠더니, 예시를 몇 개 보여주면(Few-shot) 성능이 비약적으로 상승하는 In-context Learning 능력이 폭발했습..