Watermarking
Ungbae
이거 너가 한 거 맞아? Post-hoc Detectio(사후 탐지)이미 만들어진 글을 보고 판단하는 분류기(Classifier)를 만드는 방식이었다. 예를 들면 BERT 기반 탐지기.하지만 LLM이 사람처럼 글을 잘 쓰게 되면서 점점 구분이 어려워졌다. Watermarking(생성 단계 개입)아예 글을 쓸 때(Generation), 기계만 알 수 있는 비밀 패턴을 심어놓는 방식이다. KGW(Standard Approach) / 금지어 게임 이전 단어(토큰)를 해시(hash) 함수에 넣어 숫자로 바꾼다.이 숫자를 시드(Seed)로 사용해 전체 단어장(Vocabulary)을 초록색 리스트(Green list)와 빨간색 리스트(Red list)로 무작위로 나눈다.생성할 때 초록색 리스트에 있는 단어의 확..