Watermarking
by Ungbae
이거 너가 한 거 맞아?
Post-hoc Detectio(사후 탐지)
이미 만들어진 글을 보고 판단하는 분류기(Classifier)를 만드는 방식이었다. 예를 들면 BERT 기반 탐지기.
하지만 LLM이 사람처럼 글을 잘 쓰게 되면서 점점 구분이 어려워졌다.
Watermarking(생성 단계 개입)
아예 글을 쓸 때(Generation), 기계만 알 수 있는 비밀 패턴을 심어놓는 방식이다.
KGW(Standard Approach) / 금지어 게임
이전 단어(토큰)를 해시(hash) 함수에 넣어 숫자로 바꾼다.
이 숫자를 시드(Seed)로 사용해 전체 단어장(Vocabulary)을 초록색 리스트(Green list)와 빨간색 리스트(Red list)로 무작위로 나눈다.
생성할 때 초록색 리스트에 있는 단어의 확률(Logit)을 높여준다(Bias). 즉, 초록색 단어를 쓸 확률이 올라간다.
어떤 글을 봤는데 초록색 단어가 통계적으로 너무 많이 쓰였다면?
"아, 이건 워터마크가 박힌 AI 글이구나!"
라고 판단(Z-score 검정)합니다.
Trade-off
편향(Bias)을 너무 많이 주면 탐지는 잘 되지만, 문맥에 안 맞는 단어를 억지로 써서 글의 품질(Quality)이 떨어진다.
고급 워터마킹 기법(Advanced Methods)
KGW의 단점(품질 저하, 공격 취약성)을 보완하기 위한 연구들
Unigram Watermark
매번 리스트를 나누지 않고 한 번만 나눠서 일관성을 유지
WatMe(Watermarking with Mutual Exclusion)
동의어(Synonym) 관계를 고려한다. "바다"와 "해양"이 있으면 하나는 초록, 하나는 빨강으로 보내서 의미 손상을 최소화
SWEET
엔트로피(Entropy)가 낮은 구간(정답이 뻔한 구간, e.g. "대한민국의 수도는?")에서는 워터마킹을 하지 않는다. 건드리면 오답이 될 확률이 높기 때문이다.
Unbiased Watermarking(STA-1)
확률 분포(Logit)을 인위적으로 조작하지 않고, 샘플링 과정에서 교묘하게 워터미크를 심어 텍스트 품질을 보존하는 방식
'CS & AI > Generative Learning' 카테고리의 다른 글
| RAG(Retrieval-Augmented Generation) (1) | 2025.12.09 |
|---|---|
| Prompt Engineering & Advanced Techinques (0) | 2025.12.09 |
| LLM의 Emergence와 인간 Alignment (0) | 2025.12.09 |
| PLM의 전성기 / BERT, BART, T5 & GPT (0) | 2025.12.09 |
| Attention & Transformer / All you need (0) | 2025.12.09 |
블로그의 정보
그럼에도 불구하고
Ungbae