NEVERTHELESS

LLM의 Emergence와 인간 Alignment

by Ungbae

 

 

 

 

GPT 시리즈의 진화

단순히 모델 크기와 데이터만 늘렸는데, 가르쳐주지 않은 능력들이 창발하기 시작했다(Emergent Ability).

 

GPT-1

사전 학습(Pre-training) 개념을 정립

 

GPT-2 - Zero-shot의 발견

데이터를 40GB로 늘렸더니, 별도의 파인 튜닝 없이도 번역, 요약 등을 수행하는 Zero-shot 능력이 나타났다.

예전에는 번역 모델, 요약 모델을 따로 만들었는데, 이제는 모델 하나에 "이거 요약해줘"라고 지시(Prompt)만 하면 알아서 하는 시대가 온 것.

 

GPT-3 - Few-shot의 완성

파라미터를 175B(1,750억 개)로 극단적으로 키웠더니, 예시를 몇 개 보여주면(Few-shot) 성능이 비약적으로 상승하는 In-context Learning 능력이 폭발했습니다 .

  • In-context Learning: 파라미터 업데이트(학습) 없이, 프롬프트 문맥 안에서 패턴을 파악하고 따라 하는 능력이다.

 


In - Context Learning 문맥 내 학습

모델을 다시 학습(Fine-tuning) 시키지 않고, 입력(Prompt)만 잘 넣어주면 성능을 끌어올릴 수 있다는 개념

 

Zero-shot

예시 없이 지시만 입력

e.g. 영어를 한국어로 번역해 -> Cheese =>

 

One-shot

예시 1개 제공

e.g. Sea otter => 해달   ->    Cheese =>

Few-shot

 

예시 여러 개 제공. 모델 사이즈가 클수록 효과가 강력하다.

 


InstructGPT & ChatGPT - 인간의 뜻대로 / RLHF

GPT-3는 말은 잘하지만, 툭하면 거짓말(Hallucination)을 하거나 편향된 말을 뱉었다. 이를 인간의 의도(Helpful, Harmness, Honest)에 맞게 교정하는 과정이 RLHF(Reinforcement Learning from Human Feedback)

 

이 과정은 3단계로 이루어진다.

 

Step 1. SFT / Supervised Fine-Tuning

인간이 직접 작성한 '질문 - 답변' 데이터셋(약 1만 - 10만개)으로 GPT-3를 지도 학습

'조선시대 설명해줘' 라는 질문에 이상한 말을 하지 않도록, 사람이 모범 답안을 써서 가르치는 단계. 하지만 데이터를 무한정 만드는 건 너무 비싸다.

 

 

Step 2. RM 학습 / Reward Model, 보상 모델

모델이 생성한 여러 답변(A, B, C, D)을 보고, 인간 라벨러가 이게 더 낫다 고 순위(Ranking)을 매긴다. 이 데이터를 학습하여, 답변을 보면 점수(Reward)를 매겨주는 채점 모델(Reward Model)을 만든다.

 

여기서 핵심은

직접 답을 쓰는 것보다 채점하는 게 훨씬 싸고 빠르기 때문에 데이터 효율이 좋다.

 

 

Step 3. PPO / Proximal Policy Optimization, 강화학습

이제 인간 대신 보상 모델(RM)이 점수를 준다. 모델(Agent)은 이 점수(Reward)를 최대화하는 방향으로 스스로 답변 생성 정책(Policy)을 수정한다.

 

KL Divergence Penalty

모델이 점수만 잘 받으려고 꼼수(Reward Hacking)를 부리거나 원래 모델(Step 1 모델)에서 너무 멀어지는 것을 방지하기 위해 제약(Penalty)를 건다.

 


Limitation

 

라벨러 편향

평가하는 인간 라벨러의 주관이나 편향이 모델에 그대로 반영될 수 있다.

 

할루시네이션(Hallucination)

그럴듯한 거짓말을 하는 문제는 여전히 완벽히 해결되지 않았다.

 

보안 이슈

Jailbreakin(탈옥, 안전장치 우회)이나 Prompt Injection(프롬프트 조작) 같은 공격에 취약

 

 

 

 

블로그의 정보

그럼에도 불구하고

Ungbae

활동하기