LLM의 Emergence와 인간 Alignment
by Ungbae

GPT 시리즈의 진화
단순히 모델 크기와 데이터만 늘렸는데, 가르쳐주지 않은 능력들이 창발하기 시작했다(Emergent Ability).
GPT-1
사전 학습(Pre-training) 개념을 정립
GPT-2 - Zero-shot의 발견
데이터를 40GB로 늘렸더니, 별도의 파인 튜닝 없이도 번역, 요약 등을 수행하는 Zero-shot 능력이 나타났다.
예전에는 번역 모델, 요약 모델을 따로 만들었는데, 이제는 모델 하나에 "이거 요약해줘"라고 지시(Prompt)만 하면 알아서 하는 시대가 온 것.
GPT-3 - Few-shot의 완성
파라미터를 175B(1,750억 개)로 극단적으로 키웠더니, 예시를 몇 개 보여주면(Few-shot) 성능이 비약적으로 상승하는 In-context Learning 능력이 폭발했습니다 .
- In-context Learning: 파라미터 업데이트(학습) 없이, 프롬프트 문맥 안에서 패턴을 파악하고 따라 하는 능력이다.
In - Context Learning 문맥 내 학습
모델을 다시 학습(Fine-tuning) 시키지 않고, 입력(Prompt)만 잘 넣어주면 성능을 끌어올릴 수 있다는 개념
Zero-shot
예시 없이 지시만 입력
e.g. 영어를 한국어로 번역해 -> Cheese =>
One-shot
예시 1개 제공
e.g. Sea otter => 해달 -> Cheese =>
Few-shot
예시 여러 개 제공. 모델 사이즈가 클수록 효과가 강력하다.
InstructGPT & ChatGPT - 인간의 뜻대로 / RLHF
GPT-3는 말은 잘하지만, 툭하면 거짓말(Hallucination)을 하거나 편향된 말을 뱉었다. 이를 인간의 의도(Helpful, Harmness, Honest)에 맞게 교정하는 과정이 RLHF(Reinforcement Learning from Human Feedback)
이 과정은 3단계로 이루어진다.
Step 1. SFT / Supervised Fine-Tuning
인간이 직접 작성한 '질문 - 답변' 데이터셋(약 1만 - 10만개)으로 GPT-3를 지도 학습
'조선시대 설명해줘' 라는 질문에 이상한 말을 하지 않도록, 사람이 모범 답안을 써서 가르치는 단계. 하지만 데이터를 무한정 만드는 건 너무 비싸다.
Step 2. RM 학습 / Reward Model, 보상 모델
모델이 생성한 여러 답변(A, B, C, D)을 보고, 인간 라벨러가 이게 더 낫다 고 순위(Ranking)을 매긴다. 이 데이터를 학습하여, 답변을 보면 점수(Reward)를 매겨주는 채점 모델(Reward Model)을 만든다.
여기서 핵심은
직접 답을 쓰는 것보다 채점하는 게 훨씬 싸고 빠르기 때문에 데이터 효율이 좋다.
Step 3. PPO / Proximal Policy Optimization, 강화학습
이제 인간 대신 보상 모델(RM)이 점수를 준다. 모델(Agent)은 이 점수(Reward)를 최대화하는 방향으로 스스로 답변 생성 정책(Policy)을 수정한다.
KL Divergence Penalty
모델이 점수만 잘 받으려고 꼼수(Reward Hacking)를 부리거나 원래 모델(Step 1 모델)에서 너무 멀어지는 것을 방지하기 위해 제약(Penalty)를 건다.
Limitation
라벨러 편향
평가하는 인간 라벨러의 주관이나 편향이 모델에 그대로 반영될 수 있다.
할루시네이션(Hallucination)
그럴듯한 거짓말을 하는 문제는 여전히 완벽히 해결되지 않았다.
보안 이슈
Jailbreakin(탈옥, 안전장치 우회)이나 Prompt Injection(프롬프트 조작) 같은 공격에 취약
'CS & AI > Generative Learning' 카테고리의 다른 글
| RAG(Retrieval-Augmented Generation) (1) | 2025.12.09 |
|---|---|
| Prompt Engineering & Advanced Techinques (0) | 2025.12.09 |
| PLM의 전성기 / BERT, BART, T5 & GPT (0) | 2025.12.09 |
| Attention & Transformer / All you need (0) | 2025.12.09 |
| 텍스트에 대한 기본 모델링 (0) | 2025.12.09 |
블로그의 정보
그럼에도 불구하고
Ungbae