https://aclanthology.org/2025.findings-emnlp.1148/
Watermark under Fire: A Robustness Evaluation of LLM Watermarking
Jiacheng Liang, Zian Wang, Spencer Hong, Shouling Ji, Ting Wang. Findings of the Association for Computational Linguistics: EMNLP 2025. 2025.
aclanthology.org
LLM이 강해질수록 허위 정보나 피싱, 학업 부정등의 위험이 증가 및 AI가 생성한 텍스트를 식별하는 기능이 필요해짐
단순 LLM text classifier는 LLM의 발전으로 인해 신뢰도가 낮아져 생성 시점에 워터마크를 삽입하는 접근이 부상
그러나 공백이 존재함! - 여러 워터마커가 있지만 통합 평가 플랫폼이 없고, 로버스트 분석이 부족하며 설계 요소 영향이 체계적으로 분석된 적 없음
| 구성요소 | 내용 |
| 워터마커 | 12개 (TGRL, UG, UPV, SIR, RDF, UB, GO, DIP 등) |
| 공격 | 12개 (Linguistic variation, Typo, Synonym, Swapping, Paraphrasing, Text-mixing 등) |
| 지표 | TPR, FPR, AUC, BLEU, WER, BERTScore, P-SP, MAUVE |

공격자는 워터마크 알고리즘을 모르지만 워터마킹된 샘플과 워터마킹 되지 않은 샘플을 가져 제거 공격을 통해 Detector를 속임
워터마킹 방식의 3대 요소
1) Context dependency (문맥 의존성)
- Text-dependent: 이전 단어들을 보고 워터마크를 결정
→ 문장 구조가 바뀌면 신호가 깨짐 - Context-free: 문맥 상관없이 고정된 규칙 적용
→ 공격에 더 강한 구조
2) Generation strategy (워터마크 삽입 방식)
- Distribution shift: 특정 단어의 점수(logit)에 작은 +δ를 더함
→ 자연스러운 문장 유지 / 워터마크는 약함 - Distribution transform: 샘플링 방식 자체를 바꿈(거의 deterministic)
→ 매우 강한 워터마크 / 문장 품질은 조금 더 변함 - Distribution reweight: 단어 확률 전체를 다시 조정
→ 품질 또는 강인성 둘 다 불안정할 수도 있음
3) Detection method (검출 방식)
- Score-based: 각 단어 신호를 합산하는 단순 검출
- Edit-based: 문장이 변형돼도 alignment를 맞추는 robust 검출
- Model-based: 신경망으로 텍스트 특징을 보고 판단
→ 오히려 paraphrasing에 매우 취약!
| 공격 | 설명 |
| Linguistic variation | 단순하고 안전한 변화: 소문자화, 축약/확장 같은 가벼운 변형 |
| Lexical editing | 단어 교체·오타·동의어 치환 등 단어 자체를 공격 |
| Text-mixing (Copy-paste) | 워터마크가 있는 문장 일부에 비워터마크 문장을 섞기 |
| Paraphrasing | 문장 재작성 공격(LLM으로 문장 구조·표현을 크게 바꾸기) |

| 데이터셋 | 설명 | 사용 목적 |
| C4 | Web crawl 기반 일반 문서 | 기본 일반 텍스트 워터마킹 성능 평가 |
| HC3 | Human vs ChatGPT QA | 모델/인간 텍스트 분류 성능 비교 및 워터마킹 영향 |
| Law StackExchange | 법률 전문 Q&A | 전문 도메인에서 paraphrasing, synonym 영향 조사 |
| Story Completion | 텍스트 생성/이어쓰기 | LLM generation task에서 watermark 신호 유지 여부 |
| Paper Conclusion | 논문 결론 문장 | 길고 구조적 문장에서 text-mixing·paraphrasing 평가 |

| 문제 상황 | - LLM이 생성한 텍스트를 구분해야 하는 필요성이 크게 증가함(허위 정보, 사기, 학업 부정 등). - 기존 분류기(classifier) 기반 검출은 LLM의 고도화로 인해 신뢰도가 떨어짐. - 생성 과정에 워터마크를 심는 기법이 떠오르지만, 워터마커별 강인성(robustness) 비교 연구가 부족. - 특히 paraphrasing, synonym, text-mixing과 같은 현실적인 공격에 대한 체계적인 평가가 없었음. |
| 방법론 | - WATERPARK: 최초의 대규모 LLM 워터마킹 강인성 평가 플랫폼 구축. • 12개의 워터마킹 알고리즘 (TGRL, UG, UPV, UB, SIR, RDF, GO, DIP 등) • 12개 공격 유형 (Linguistic variation, typo, synonym, swap, paraphrase(Dipper), translation, composite attack, text-mixing 등) • 8개 평가 지표(TPR/FPR, BLEU, BERTScore, WER, MAUVE, P-SP 등) - Threat Model: 공격자는 알고리즘을 모르지만, 유사 텍스트 자료는 가지고 있다고 가정(black-box). |
| 실험 설정 | 모델: - OPT-1.3B - LLaMA3-8B-chat - Qwen2.5-14B 데이터셋: - C4: 일반 오픈웹 텍스트 - HC3: 인간 vs LLM QA - Law StackExchange: 법률 질의응답 - Story Completion: 스토리 이어쓰기 - Paper Conclusion: 논문 결론 문장 → 다양한 도메인에서 워터마킹 성능과 강인성 검증 평가 지표: - TPR / FPR / AUC: 워터마크 탐지 정확도 - BLEU / BERTScore: 문장 의미 보존 측정 - WER: 단어 단위 변형 계측 - MAUVE / P-SP: 문장 유창성/자연스러움 품질 측정 |
| 결과 | 1) 공격 강인성 - 가장 강함: RDF, GO, UG - 중간: TGRL - 매우 취약: UPV, UB, SIR 2) 공격 유형별 차이: - Linguistic Variation: 대부분 견딤, UPV/SIR 취약 - Lexical editing(동의어, 오타): RDF/GO 최강 - Text-mixing: RDF/GO만 안정적, UPV/UB 붕괴 - Paraphrasing: UG/RDF 우수, neural detector 기반 UPV/SIR 붕괴 3) 설계 요소의 영향 (논문 핵심 분석) - Context-free > text-dependent (문맥 의존성이 높을수록 취약) - Distribution-transform > distribution-shift (품질은 떨어지지만 robustness는 최강) - Edit-based detector > score-based > neural detector |
| 기여 | - 최초의 대규모 워터마킹 robustness benchmark 구축(WATERPARK). - 워터마커 12개, 공격 12개, 모델 3개, 데이터셋 5개를 통합 분석. - 워터마킹의 설계 요소(문맥 의존성, 삽입 방식, 검출 방식)가 robustness에 미치는 영향 정량 분석. - “품질–강인성” 근본적 trade-off 존재를 증명. - 실제 배포 시 어떤 워터마킹 방식이 적합한지 가이드라인 제공. |
| 한계 | - 매우 강력한 paraphraser(GPT-4, GPT-4o 등)가 실제 상황에서 더 큰 위협이 될 수 있으나, threat model에서 제외됨. - 공격자는 알고리즘 자체를 모른다는 black-box 가정이 실제 악성 행위자보다 온건함. - 텍스트 길이가 매우 짧은 short-form text에 대한 논의는 부족. - 워터마킹이 텍스트 생성 품질에 미치는 영향은 더 다양한 task에서 추가 분석 필요. |
다음은 업로드한 논문 **“Watermark under Fire: A Robustness Evaluation of LLM Watermarking”**의 핵심 내용을 연구자가 빠르게 파악할 수 있도록 체계적으로 요약한 것이다. 모든 내용은 논문 원문 기반이다.
📌 논문 전체 구조 요약
이 논문은 LLM 텍스트 워터마킹의 공격 강인성(robustness)을 체계적으로 벤치마크한 최초의 종합 연구이다.
특히 WATERPARK라는 평가 플랫폼을 구축하여,
- 12개의 워터마커
- 12개의 공격
- 8개의 평가 지표
를 통합해 비교 분석한다.
연구 목표는 다음 세 가지 연구 질문(RQ)을 해결하는 것이다:
- 워터마커들의 장점/한계, 특히 공격 강인성
- 설계 선택(context dependency, generation strategy, detection method)이 강인성에 미치는 영향
- 실전 환경에서 어떤 방식으로 워터마킹을 운영해야 하는가
📌 1. 문제 상황 (Problem)
LLM이 강력해짐에 따라,
- 허위 정보
- 피싱
- 학업 부정
등의 위험이 증가했고, AI가 생성한 텍스트를 식별하는 기능이 필요해졌다.
초기 방식(LLM text classifier)은 LLM의 발전으로 인해 신뢰도가 낮아져,
생성 시점에 워터마크를 삽입하는 접근이 부상하였다.
그러나 현재 워터마커 연구에는 중요한 공백이 있다:
- 여러 워터마커가 있지만 통합된 평가 플랫폼 부재
- 기존 연구는 효과성(effectiveness) 중심
- 공격 강인성(robustness) 분석이 부족
- 설계 요소(컨텍스트 의존성, sampling 방식, detector)의 영향이 체계적으로 분석된 적 없음
📌 2. 방법론: WATERPARK 플랫폼
WATERPARK는 통합 및 체계적 LLM 워터마킹 공격 평가 플랫폼이다. (Figure 1, Page 1)
포함 요소
구성요소 내용| 워터마커 | 12개 (TGRL, UG, UPV, SIR, RDF, UB, GO, DIP 등) |
| 공격 | 12개 (Linguistic variation, Typo, Synonym, Swapping, Paraphrasing, Text-mixing 등) |
| 지표 | TPR, FPR, AUC, BLEU, WER, BERTScore, P-SP, MAUVE |
Threat Model
- 공격자는 워터마크 알고리즘은 모르지만,
워터마킹된 텍스트 샘플과 비워터마킹 텍스트 샘플은 가질 수 있음 - 제거 공격을 수행하여 Detector를 속이는 것이 목표
- 텍스트 의미는 유지해야 함 (quality constraint)
Evaluation Datasets & Models
- LLM: OPT-1.3B, LLaMA3-7B-chat, Qwen2.5-14B
- 데이터셋: C4, HC3(QA), Story Completion, Law StackExchange, Paper Conclusion
📌 3. 주요 분석 결과 요약 (Step-by-step)
아래 표(Table 2, Page 4)는 Qwen-14B + Paper Conclusion 환경 기준 워터마커의 평균 강인성.
3.1 Linguistic Variation 공격
예: lowercasing, expanding, contracting 등
→ 대부분 강함
- 약함: UPV, SIR
- 강함: TGRL, UG, RDF, GO
UG·RDF는 context-free 또는 index-dependent 설계 덕분에 안정적.
3.2 Lexical Editing 공격
예: synonym, misspelling, typos, swap
- 가장 강함: RDF, GO, DIP
- 가장 취약: UB, SIR, UPV
특히 UB는 γ-reweight 방식(단어 절반 제거/2배)으로 인해 오히려 취약.
RDF는 edit-distance 기반 검출로 매우 강함.
3.3 Text Mixing 공격 (Copy-Paste)
워터마킹 텍스트를 non-watermarked 텍스트로 섞는 공격.
- 압도적 강함: RDF, GO
- 심각한 취약: UPV, UB
이유: RDF/GO는 distribution-transform 기반이라 신호가 강하며 per-token alignment에 덜 민감.
3.4 Paraphrasing 공격 (Dipper / Translate)
- 가장 강함: RDF, UG
- 가장 취약: UB, UPV
Translation 공격은 문장 길이를 크게 줄여 RDF도 취약하게 만듦.
3.5 Fidelity–Robustness Trade-off
(Section 4.4, Figure 11)
그룹 1: Quality 우선, Robustness 낮음
- TGRL, UG, UPV, SIR
- Distribution shift 사용 → 텍스트 품질 높음
- 대신 paraphrasing/Text-mixing에 취약
그룹 2: Robustness 우선, Quality 낮음
- RDF, GO
- Distribution transform 방식 → 신호 강력
- 대신 MAUVE, P-SP 낮음 (원본과 divergence 큼)
UB는 품질도 낮고 robustness도 낮은 독특한 케이스.
📌 4. 설계 요소별 원인 분석 (Controlled Studies)
Figure 3 (Page 6–7)의 비교가 핵심.
(1) Context Dependency
- Text-dependent(TGRL) < Context-free(UG)
→ UG가 압도적으로 강인
이유: 공격이 word order를 바꾸면 TGRL의 seed alignment가 깨짐.
(2) Generation Strategy
- Distribution-shift(TGRL) < Distribution-transform(GO)
→ GO가 text-mixing에 매우 강함
Transform은 deterministic sampling이라 신호 강도가 큼.
(3) Detection Method
- UPV(model-based) ≠ UPVstat(score-based)
→ model-based가 더 취약
→ neural signal은 paraphrasing에 쉽게 흐트러짐
RDF의 edit-based alignment가 가장 강한 이유가 여기에 있다.
📌 5. Advanced Attacks (Section 5)
A) 강도 조절 Paraphrasing (Dipper)
Attack intensity 증가(l=60%, o=40%):
- UG 안정적
- RDF 양호
- TGRL/GO는 일부 취약
- UPV, UB, SIR은 붕괴
B) Composite Attack
예: Synonym+Typo 같이 합성
→ SIR, UPV는 완전히 붕괴
→ RDF·UG는 여전히 강함
C) Adaptive Attack (surrogate detector 사용)
- Generic RoBERTa detector를 기반으로 gradient attack
- 대부분 워터마커가 10% 이하 TPR로 추락
- 그러나 UG, RDF는 여전히 비교적 방어 성공
D) GPT Class Paraphrasing
- ChatGPT 한 번 paraphrase 하면 대부분 TPR < 0.3
(논문에서도 powerful LLM 공격은 threat model 밖이라고 명시)
📌 6. 결론 (Conclusion)
논문의 핵심 결론:
1. 현존 워터마커는 공격 강인성 차이가 매우 큼
RDF/GO/UG는 강하지만, UPV/UB/SIR은 실전에서 상대적으로 취약.
2. 설계 선택이 강인성에 결정적
- context-free > text-dependent
- distribution-transform > distribution-shift
- score-based > model-based detector
3. Fidelity와 Robustness는 강한 트레이드오프
- 품질을 포기해야 강인성이 확보되는 구조
- 실전 적용 시 모델의 threat model 정의가 반드시 필요
📌 7. 이 논문의 기여 요약 (Table 형태)
항목 요약| 문제 | 워터마커 robustness 연구 부족 |
| 기여 | WATERPARK 구축, 12 워터마커·12 공격 통합 평가 |
| 분석 | 설계 요소(컨텍스트 의존·sampling·detection)의 영향 체계적 분석 |
| 결과 | RDF·GO·UG 강함, UPV·UB·SIR 매우 취약 |
| 트레이드오프 | 품질 ↔ 강인성의 구조적 trade-off 발견 |
| 가이드라인 | 평가·배포·detector 조합 전략 제안 |
📌 8. 연구자가 알아야 할 핵심 정리 (한 줄 요약)
👉 워터마킹은 품질을 희생하고 강력한 transform 방식을 써야 실전 공격에 견딜 수 있으며, UG·RDF·GO가 가장 robust한 현재 최선의 선택이다.
필요하다면 다음도 제공할 수 있다:
- 논문의 전 내용 표 형태 한 페이지 요약
- 설계 요소별(Generation Strategy, Detection) 심층 정리
- 각 워터마커별 robustness heatmap 재구성
- 연구 발표용 PPT 자료 형태 요약