NEVERTHELESS

Study Flow of Generative Learning

by Ungbae

 

 

 

 

  1. 기초 모델링 
    • RNN의 한계와 LSTM / GRU의 게이트 구조, 그리고 Seq2Seq에서 Attention 메커니즘으로의 발전 과정
  2. Transformer & PLM
    • Self-Attention 수식, Positional Encoding, 그리고 BERT(Encoder) vs GPT(Decoder) vs BART / T5(Encoder-Decoder)의 차이점 및 학습 방식
  3. LLM 심화 vs GPT vs BART / T5
    • In-context Learning, Chain-of-Thought(CoT), 그리고 instructGPT의 핵심인 RLHF(SFT -> RM -> PPO) 파이프라인
  4. RAG & Search + RAG material
    • Hallucination 해결을 위한 Retrieval 과정, 유사도 계산(Cosine/Euclidean), Re-ranking 알고리즘(MMR etc.)
  5. Safety & Prompting(Watermarking / Prompting Material) 
    • 텍스트 워터마킹 알고리즘(KGW, Unigram, WatME etc.)의 원리와 Prompt Engineering 기법 및 보안 이슈(Jailbreaking etc.)

 


 

 

 

모델 발전의 흐름과 필연성

RNN -> LSTM -> Seq2Seq -> Attention

 

RNN의 한계(Long-term dependency)를 극복하기 위해 LSTM / GRU가 나왔고, Seq2Seq의 Bottelneck(Context Vector 하나에 압축)을 해결하기 위해 Attention이 등장했다.

 

 


 

BERT, BART 그리고 GPT

  • BERT : Encoder only. NLU(이해)에 강하며 CLS 토큰을 활용한다.
  • BART : Encoder - Decoder. 생성(Generation) 능력을 강화하기 위해 다양한 노이즈(Token Masking, Deletion, Infilling, Permutation 등)를 주어 학습. 특히, 분류 문제에서도 BART 인코더가 BERT보다 좋을 수 있다는 점이 언급됨.
  • GPT : 디코더 기반. 생성 특화. 데이터와 모델 사이즈를 키워 Zero-shot / Few-shot(In-context Learning) 능력을 발현시킨다. 

Korean GPT(HyperCLOVA) : 영어 모델과 달리 한국어 특성(자모 등)을 고려한 Morpheme-aware Tokenization의 중요성 강조

 

 

 


 

LLM 시대의 새로운 패러다임

 

Fine-tuning -> Prompt Engineering

  • 모델 파라미터를 바꾸는게 아니라, 입력(Prompt)으르 바꿔서 성능을 높이는 방식으로 전환

CoT(Chain-of-Thought)

  • 모델 사이즈가 클수록 효과적이며, 추론 과정을 유도하며 성능 향상

Self-Consistency

  • 앙상블 효과를 내기 위해 여러 번 생성 후 Majority Voting(단, 정답 포맷이 명확할 때 유리)

 

InstructGPT & RLHF

단순 텍스트 생성이 아닌, 인간의 선호도(Helpful, Harmless 등)에 맞추기 위해 SFT -> RM(Reward Model) -> PPO(강화학습) 단계로 학습

 

 


RAG(Retrieval-Augmented Generation)

Hallucination과 Knowledge Cutoff 문제를 해결하기 위해 외부 DB를 검색

  • 단순 NN(Nearest Neighbor) 방식의 문제점(다양성 부족)
  • 이를 해결하기 위한 MMR(Relevance와 Diversity를 동시에 고려)
  • MMR의 연산 비용 문제를 해결하기 위한 DL-MMR(길이 정보를 활용해 효율성 증대)

 

 

Text Watermerking

  • AI 생성 텍스트 탐지(Detection)의 필요성. 기존 Post-hoc 방식의 한계로 인해 모델 생성 단계에 개입

 

KGW(Biased Setting)

  • Vocabulary를 Green / Red List로 나누고(Hash 활용), Green 토큰에 Logit Bias(δ)를 주어 선택 확률을 높임
  • Trade-off : Watermarking 강도가 세면(Bias ↑) Detection은 잘 되지만 Text Quality는 떨어짐

 

Advanced Methods

  • Unigram : 파티션을 한 번만 수행하여 일관성 유지
  • SWEET(Low Entropy) : 확신이 강한 구간(Entropy low)에서는 워터마킹을 건너뛰어 코드 생성 등의 성능 저하 방지

블로그의 정보

그럼에도 불구하고

Ungbae

활동하기