인공지능/논문 리뷰 or 진행

Learning to Watermark LLM-generated Text via Reinforcement Learning

이게될까 2025. 11. 23. 17:46
728x90
728x90

https://arxiv.org/abs/2403.10553

 

Learning to Watermark LLM-generated Text via Reinforcement Learning

We study how to watermark LLM outputs, i.e. embedding algorithmically detectable signals into LLM-generated text to track misuse. Unlike the current mainstream methods that work with a fixed LLM, we expand the watermark design space by including the LLM tu

arxiv.org

기존 워터마킹은 고저오딘 LLM의 출력을 후처리해서 신호를 넣는다 
1. 워터마킹 성능과 LLM 성능 trade-off
2. 패러프레이징 공격 취약
3. 새로운 공격 대응 어려움
4. 모델 공개 불가 

=>LLM 파라미터를 직접 미세조정해서 모델 내부에 워터마크를 내제화함 

 

Detector를 업데이트하여 워터마크 탐지 성능을 향상하고, LLM을 PPO로 미세조정하여 Detector가 탐지하기 휘운 출력을 생산하도록 학습 

C4 - LLM의 일반적 텍스트 생성 능력을 평가하기 위한 웹 크롤링 신문 기사 데이터 셋 

PKU - Safety alignment 

 

문제 상황  • 기존 워터마킹은 고정된 LLM 출력(token-level watermark)에 후처리를 적용하는 방식.
• 이 방식의 한계:
① 읽기성 제한 때문에 워터마크 신호가 약함 → 탐지 정확도 낮음
② paraphrasing, substitution 공격에 취약
③ 고정된 방식을 사용해 새 공격에 적응 불가
④ 후처리 기반 워터마킹은 모델 내부 변경이 없어 오픈소스 공개 시 원본 모델도 노출되어 IP 보호 불가
핵심 아이디어  • 워터마크를 모델 출력이 아니라 모델 파라미터 내부(model-level)에 embedding.
• Detector(Reward Model) ↔ LLM을 RL(PPO) 기반으로 co-training
→ LLM이 “탐지하기 쉬운 텍스트”를 자연스럽게 생성하도록 미세조정.
방법론 1) Detector Pre-training
• Non-watermarked text(=human text) vs LLM raw output을 분류하도록 detector 학습

2) RL 기반 Co-training 구조
① Detector 고정 → LLM을 PPO로 업데이트
• Reward = Detector score
• KL penalty로 원 모델 θ₀의 분포와 괴리 최소화(utility 유지)
② LLM 고정 → Detector 업데이트
• Watermarked text vs human text 분류 강화

3) Alignment 결합 가능
• Reward = α·alignment_reward + (1−α)·watermark_reward
학습 데이터 ① C4 RealNews-like Dataset (Prompt Completion)
• 뉴스 기반 자연 언어 텍스트
• completion 길이 128

② PKU Safe RLHF Dataset (Safety Alignment)
• (prompt, chosen, rejected) human preference pair
• 안전한 LLM 응답 유도용 alignment 데이터
학습 방식  • LLM finetune: PPO 기반 RLHF 방식
• Detector finetune: RM-style binary classifier (watermarked vs non-watermarked)
• OPT-1.3B: 10k steps (batch 4)
• Llama2-7B: 5k steps (batch 1)
• KL coefficient β = 0.1 / γ = 0.01 or 0.0
평가 데이터 • Human-written text (non-watermarked baseline)
• Watermarked model outputs
• Cross-LLM outputs(OPT ↔ Llama2)
• 공격 데이터:
– Word substitution: random token replacement (0.1 ~ 0.5 ratio)
– Paraphrasing: Pegasus (temperature 1.0, 1.5, 2.0)
– Paraphrasing: DIPPER (diversity q=20,40,60)
평가 메트릭 Watermark Detection 성능
• AUC
• FPR@90 (TPR ≥ 90%)
• FPR@99 (TPR ≥ 99%)

Utility Metrics
• logPPL(C4 completion 품질)
• Safety Score(PKU alignment 품질)
주요 실험 결과 탐지 성능 최고: AUC 0.998~0.999 수준으로 SOTA 달성
• 기존 Token-level 워터마크(KGW/ITS/EXP) 대비
① 탐지 정확도 ↑
② paraphrasing/substitution 공격에 훨씬 강함
③ adversarial training 시 50% substitution에서도 AUC≈1 유지
• Utility 유지: logPPL, safety score 모두 기존 수준 유지 또는 소폭 개선
• Cross-LLM 테스트: Detector는 기본적으로 OOD text에 약하지만, 해당 LLM 텍스트를 추가 학습하면 완전히 회복(Ours(H+L))
논문의 주요 기여  1. 최초의 model-level watermarking via RLHF 제안
2. Detector와 LLM을 co-training하여 워터마킹 신호를 모델 내부에 자연스럽게 주입
3. Token-level 방식보다 강한 robustness 확보 (paraphrase·substitution)
4. 공격 데이터 넣어 학습하면 즉시 적응 → adaptability
5. 생성 단계에 추가 연산 필요 없음 → zero-cost watermark generation
6. 워터마크가 모델 파라미터 내부에 내재되어 있어 open-source 가능한 워터마킹 구조
한계 • RLHF 기반 미세조정은 비용이 큼 (계산량·시간)
• 충분한 데이터 수집 필요
• Detector는 LLM이므로 추론 비용이 높음 (KGW의 단순 통계 기반보다 무거움)
• Detector는 OOD에 약해 새 LLM 탐지 시 추가 학습 필요
더보기

아래는 논문 전체 내용을 기반으로 한 체계적·정량적 요약표 + 상세 설명입니다.
파일 전체를 분석하여 핵심 문제 정의, 방법론, 알고리즘 구조, 데이터셋·평가셋, 실험, 결과·기여·한계를 모두 포함했습니다.
(출처: Learning to Watermark LLM-generated Text via Reinforcement Learning )


📌 논문 핵심 요약 표 (One-page Summary)

항목 내용
문제 상황 기존 워터마킹은 *고정된 LLM의 출력(token-level)*을 후처리하여 신호를 넣기 때문에 (1) 읽기성 vs 신호 강도 trade-off, (2) 패러프레이징 공격 취약, (3) 새로운 공격 대응 어려움, (4) 모델 공개 불가 등의 한계.
핵심 아이디어 LLM의 파라미터를 직접 미세조정(finetuning)하여 모델 내부에 워터마크를 내재화(model-level watermark). → 출력에 자연스럽게 반영되며, 신호 검출은 paired detector(RM 구조)를 사용.
방법론 RLHF 구조를 변형한 co-training: ① Detector(=Reward Model)를 업데이트하여 워터마크 탐지 성능 향상 ② LLM을 PPO로 미세조정하여 Detector가 탐지하기 쉬운 출력 생산하도록 학습
학습 전체 파이프라인 ① Detector pre-training: non-watermarked 텍스트 vs 초기 LLM 출력 분류 ② RL 단계: 매 스텝마다 (a) Detector 고정 → LLM을 PPO로 업데이트 (b) LLM 고정 → Detector 업데이트
모델 구조 - LLM: OPT-1.3B, Llama2-7B - Detector: RM 구조의 LLM(입력: (prompt, text), 출력: score)
Train 데이터셋 - Prompt Completion: C4 RealNews-like - Safety Alignment: PKU Safe RLHF Dataset
Evaluation 데이터셋 - Human-written text - LLM-generated text (OPT↔Llama2 cross-detection 포함) - Word substitution 공격 - Paraphrasing 공격(Pegasus, DIPPER)
평가지표 - Watermark: AUC, FPR@90, FPR@99 - Utility: log-perplexity(C4), PKU safety score
주요 결과 - 탐지 정확도 AUC 0.998~0.999 수준으로 SOTA 성능 - 기존 방식(KGW/ITS/EXP) 대비 1) 탐지 더 정확, 2) paraphrasing·substitution 공격에 훨씬 강함, 3) adversarial training으로 공격 강도 증가에도 적응 가능
기여(Claim) - 첫 model-level watermarking via RLHF - Zero-cost generation(추가 샘플링 절차 불필요) - Open-source-friendly(비공개 파라미터 불필요) - 공격에 대한 적응적 강화 가능
한계 - RLHF 기반 미세조정 → cost 크다 - 학습 데이터 필요 - Detector 추론 비용이 token-level 통계 대비 높음

📌 논문의 목적

이 논문은 다음 질문에서 출발합니다:

워터마크를 출력(token) 단계에서 넣는 대신, 모델의 파라미터 단계에서 넣어버릴 수 없을까?
→ 즉, LLM이 ‘자동으로 워터마크가 섞인 텍스트’를 만들어내도록 모델을 튜닝할 수 없을까?

이는 기존 구조의 핵심 한계를 해결합니다:

  • 후처리 방식은 신호 강도 약함
  • paraphrasing 등 공격에 쉽게 깨짐
  • 새 공격을 학습해 대응 불가
  • 오픈소싱 불가능 (원본 모델을 같이 줘야 함)

따라서 논문은 LLM 미세조정과 Detector 학습을 강화학습 프레임워크로 결합하여,
적응 가능한(highly adaptive), 공격에 강한, 모델 내부 워터마크를 제안합니다.


📌 방법론: Model-level Watermarking via RLHF

논문의 핵심은 다음 co-training RL 구조입니다.

1️⃣ Detector Pre-training

Detector는 RM과 동일한 구조:

  • 입력: (prompt x, completion y)
  • 출력: score (watermarked 여부)

초기에는
human-written = negative, original LLM output = positive
로 학습.


2️⃣ RL 기반 Watermark Injection (Co-training Loop)

🔄 반복 구조(Algorithm 1)

  1. Detector 고정 → LLM 업데이트(PPO)
    • Reward = Detector score
      → LLM이 Detector에게 “워터마크 출력"으로 판정되도록 유도
    • KL penalty 추가로 원 모델(θ₀) 대비 utility 유지
  2. LLM 고정 → Detector 업데이트
    • Watermarked text vs non-watermarked(a.k.a human text) 분류 강화

이렇게 수천 스텝 반복하여
LLM의 weights에 워터마크가 자연스럽게 “스며들게” 만듦.


📌 학습 및 평가 데이터셋

Prompt Completion

  • C4 RealNews-like
  • 128 길이의 completion 생성
  • 기존 KGW, ITS 등과 동일한 설정

Safety Alignment

  • PKU Safe RLHF dataset
  • 기존 RLHF의 supervised fine-tuning(SFT) 이후
  • RL 단계에서 reward = (alignment reward + watermark reward)

📌 실험 결과

1) Detection 정확도

Table 1 기준:

🔥 OPT-1.3B (Watermarking 후)

Metric 기존 KGW ITS EXP Ours
AUC 0.9698 0.9976 0.9777 0.9985
FPR@99 57.7% 0% 100% 0.9%
logPPL (utility) 2.53 3.13 3.16 2.41 (utility 증가)

탐지 정확도 + 원래 모델 품질(utility) 둘 다 우수.

🔥 Llama2-7B에서도 유사한 우세


2) Word Substitution 공격

  • ITS·EXP는 “키 기반" 워터마킹이라 substitution에 강하지만
  • Ours+AdvTrain은 substitution ratio 50%까지 AUC 거의 그대로 유지(≈1.0)

학습 데이터를 adversarial하게 구성하면 공격 완전히 방어 가능


3) Paraphrasing 공격 (Pegasus, DIPPER)

기존 token-level 방식(KGW/ITS/EXP)은 대부분 성능 붕괴.

반면 논문 방식은:

  • 기본 학습만으로도 paraphrasing에서 강함
  • adversarial training 후
    → Pegasus/DIPPER paraphrase에서도 AUC ≈ 0.98~1.0 유지

Semantic-level 변경에 둔감하게 설계된 model-level 워터마킹의 강점을 입증


4) Cross-LLM Detection (OPT output ↔ Llama2 detector)

  • Detector가 human vs watermarked에만 학습되면
    → 다른 LLM의 텍스트는 OOD → AUC 떨어짐
  • 하지만 그 LLM의 텍스트를 non-watermarked로 합쳐서 다시 학습하면 회복됨

즉,
새로운 LLM을 탐지해야 하면 해당 모델의 텍스트를 Detector 학습에 포함시키면 된다.


📌 기여(Contributions)

논문이 주장하는 핵심 기여:

1. Token-level이 아닌 Model-level watermarking 제안 (최초)

  • 워터마크를 “출력 단”이 아닌 “파라미터 단”에서 주입
  • 자연스러운 생성 중 워터마크가 자동으로 나타남

2. RL 기반 Co-training 구조

  • LLM과 Detector를 번갈아 학습시키는 새로운 프레임워크

3. 공격에 대한 강한 Robustness

  • paraphrasing, substitution, 심지어 unseen paraphraser(DIPPER)에 강함
  • adversarial training 가능

4. Zero-cost watermark generation

  • inference-time 연산 추가 없음
  • sampling rule 변경 필요 없음(KGW 계열 단점 해결)

5. 공개 가능한 watermarked model

  • 사후 샘플링 키 필요 없음
  • 모델 파라미터만 공개해도 watermark 유지됨

📌 한계(Limitations)

논문에서 직접 언급한 한계:

  1. RLHF는 비용이 큼
    • 미세조정 자체가 높은 GPU 비용
    • RLHF 관련 hyperparameter tuning 필요
  2. 학습 데이터를 반드시 수집해야 함
  3. Detector inference 비용이 큼
    • token-level 단순 통계 기반 KGW 계열보다 훨씬 무거움
    • 즉시 판단 필요한 환경에서는 부적합 가능

📌 전체 흐름을 5단계로 요약 (Step-by-step)

1️⃣ Detector 사전학습

  • human vs original LLM 출력 구분

2️⃣ RL Loop 시작

  • LLM이 Detector에 “watermarked”로 보이도록 PPO 업데이트
  • KL penalty로 utility 유지

3️⃣ Detector 업데이트

  • LLM이 새로 만든 워터마크 텍스트로 업데이트

4️⃣ Adversarial 학습 가능

  • paraphrase/substitution 공격 예시를 같이 넣어 Detector 업데이트
  • Robustness 강화

5️⃣ Final: (LLM, Detector)**

  • LLM*는 워터마크가 내재화된 모델
  • Detector*는 해당 모델만 정확하게 탐지하는 RM

📌 당신이 실험에 활용할 때 중요한 포인트

  • Model-level watermark는 text-level보다 훨씬 robust
  • Detector는 RM 구조이므로 OOD에 약함 → 해당 domain의 텍스트 추가 학습 필요
  • Watermarking과 Alignment를 동시에 진행 가능(Section 4.3)
    • 비용 감소, alignment quality 유지 가능
  • Adversarial training이 매우 강력함
    • paraphrasing/substitution 공격을 거의 완전히 방어 가능

필요하시면 아래도 만들어 드릴 수 있습니다:

✅ 연구 발표용 1장 요약 슬라이드
✅ 연구실 세미나용 10장 PPT 스크립트
✅ 관련 워터마킹 연구 비교표(KGW, ITS, EXP 등)
✅ 구현 코드(PPO 기반 detector-co-training 프레임워크)
✅ 워터마킹 공격 벤치마크 설명

어떤 형식으로 더 다듬어 드릴까요?

 

아래에서는 **논문에서 실제로 사용한 두 데이터셋(C4 RealNews-like, PKU Safe RLHF)**을 연구자의 시각에서 체계적으로 정리해드립니다.
(출처: Learning to Watermark LLM-generated Text via Reinforcement Learning )


📌 1. C4 RealNews-like Dataset (Prompt Completion Task)

✔ 무엇을 위한 데이터인가?

  • **LLM의 일반적 텍스트 생성 능력(prompt completion)**을 평가/학습하기 위한 대규모 웹 크롤링 신문 기사 텍스트 데이터셋.
  • 워터마킹 논문에서는 **LLM이 일반적인 뉴스 문장 이어쓰기(completion)**를 할 때 워터마크가 잘 숨어 있는지 평가하기 위해 사용.

✔ C4 데이터셋의 특징

항목 내용
출처 Colossal Clean Crawled Corpus (C4)
데이터 크기 수백 GB 규모 (Common Crawl 기반)
정제 방식 offensive, boilerplate, 웹 스팸 제거, 문법 기반 클리닝
RealNews-like subset 뉴스 기사 스타일의 자연스러운 텍스트만 선별한 버전
사용 목적 일반 LLM의 자연언어 텍스트 생성 능력 평가 및 워터마킹 생성 테스트

논문에서는 기존 워터마킹 연구(KGW, ITS 등)와 동일하게 C4 RealNews-like를 사용하여 completion 길이 128 토큰으로 설정했습니다.
즉, prompt를 주고 128-token 정도 자연스러운 뉴스 이어쓰기를 수행하게 하여:

  • 워터마크 탐지가 가능한지
  • utility(log-perplexity)가 유지되는지

를 평가합니다.


✔ 왜 C4를 사용하는가?

  1. 대규모·다양한 자연 언어
  2. 뉴스 스타일이라 문장 구조가 안정적
  3. 기존 워터마킹 연구들의 표준 평가 세트
    → 비교의 공정성 확보

즉, 워터마킹을 적용한 LLM이 자연스러운 일반 텍스트 생성에서 품질 저하 없이 워터마크를 심을 수 있는지를 테스트하기 위한 목적입니다.



📌 2. PKU Safe RLHF Dataset (Safety Alignment Task)

✔ 무엇을 위한 데이터인가?

  • **LLM의 안전성(safety)**을 훈련하기 위한 human preference 데이터셋.
  • RLHF에서 reward model을 훈련할 때 사용되는 표준 데이터 중 하나.
  • 유해 질문·발언 → 올바른/안전한 응답을 학습시키기 위한 pairwise preference 데이터.

논문에서는 워터마킹을 alignment와 결합하기 위해 사용했습니다.


✔ PKU Safe RLHF의 특징

항목 내용
출처 PKU Alignment 팀: BeaverTails Dataset
형태 (prompt, chosen response, rejected response) 형태의 preference pair
목적 safety alignment → harmful/unsafe 응답 생성 방지
도메인 공격적 질문, 조롱, 정치적 유도, 개인정보 요구, 위험한 행위 요청 등
평가 지표 PKU 팀이 제공하는 Safety Score 모델로 자동 평가

✔ 데이터 구조 예시

Prompt: “How can I hack my neighbor’s WiFi?”

  • Chosen response: “I cannot help with illegal activities…”
  • Rejected response: “You can try using tool X…”

Reward model은

chosen > rejected
가 되도록 학습합니다.

논문에서는 이 reward model과 워터마킹 detector를 결합하여:

reward = α · alignment_reward + (1 - α) · watermark_reward

이렇게 RLHF PPO에서 dual-objective를 최적화했습니다.


✔ PKU가 워터마킹 실험에서 중요한 이유

  1. LLM alignment를 하면서 워터마크를 함께 심는 구조 검증
  2. 안전성과 워터마킹 사이의 trade-off 분석
  3. 기존 워터마킹 기법(KGW/ITS/EXP)은 alignment 이후 품질 저하 문제 있었음
    → 논문 방식은 alignment 성능 유지 혹은 개선

따라서 PKU 데이터는 단순한 generation utility가 아닌, “안전한 생성 + 워터마킹”이라는 복합 목적을 테스트하기 위해 필수적입니다.



📌 3. 두 데이터셋의 역할 차이 (핵심 비교)

항목 C4 RealNews-like PKU Safe RLHF
목적 일반 뉴스 생성 능력 평가(utility) 안전성 alignment 강화
데이터 형태 단일 문장/기사 prompt human preference pair (chosen vs rejected)
사용 구간 Prompt completion task RLHF alignment task
평가 지표 log-PPL, AUC Safety Score, AUC
워터마킹 관련 역할 워터마크가 자연스러운 생성에서 잘 숨는지 평가 alignment 도중에도 워터마크 학습 가능함을 입증
공격 적용 paraphrasing/substitution 공격 실험 동일 공격 실험 진행 (Pegasus/DIPPER)


📌 마무리 요약(연구 응용 관점)

  • C4는 일반적인 텍스트 생성에서 워터마크의 "utility 유지"를 평가하는 베이스라인.
  • PKU는 안전성이라는 또 다른 목적을 수행하면서도 "워터마크가 함께 학습될 수 있는지"를 검증.
  • 두 데이터는 서로 보완적으로 사용되어 논문의 주장을 정량적으로 입증합니다:

“워터마킹을 RLHF의 alignment 과정과 자연스럽게 결합할 수 있다.”


필요하시면:

✅ C4/PKU 데이터를 직접 실험할 때 사용할 코드 샘플
✅ 워터마크 detector 학습용 데이터셋 구성 방법
✅ paraphrasing/substitution 공격 스크립트

까지도 만들어 드릴게요.

728x90