https://arxiv.org/abs/2509.12574
Yet Another Watermark for Large Language Models
Existing watermarking methods for large language models (LLMs) mainly embed watermark by adjusting the token sampling prediction or post-processing, lacking intrinsic coupling with LLMs, which may significantly reduce the semantic quality of the generated
arxiv.org
기존 방법들은 텍스트 후처리하여 자연스러움이 손실되거나, logit 조작 기반으로 품질 저하되고, 파인튜닝 기반은 비용이 매우 큼!
=> 출력 레이어(LM Head)의 Weight, bias를 아주 작은 비율로 스케일링하여 특정 토큰 집합을 sampling 될 가능성을 높이자
즉 특정 Secret key로 생성된 토큰 집합 G에 대해선 스케일을 확장하고, 나머지는 줄인다.
G 토큰 등장 빈도 -> z-score 기반 통계를 진행함

알파가 증가함에 따라 검출력도 증가하지만 PPL도 동시에 증가
PPL이 그렇게 폭팔적으로 증가하지 않는 것을 볼 수 있따.

masking과 insertion에 대해서도 PPL이 거의 변하지 않는 모습을 보인다.
| 문제 상황 | • LLM 생성물의 출처 확인 필요성이 증가 • 후처리 기반 워터마킹은 텍스트 자연스러움 저하·공격에 취약 • sampling(logit) 기반 워터마킹은 강제적 조작으로 품질 저하 • 파인튜닝 기반 모델 워터마킹은 LLM 규모에서는 계산비용이 매우 큼 |
| 기존 방법의 한계 | 1) Post-processing: 단어 치환·문장 변경 → 의미 변형·공격에 쉽게 깨짐 2) Logit bias(red/green list): 내부 dynamics 반영 불가 → 품질 악화 3) Fine-tune watermark: LLM 재학습 불가 수준의 비용 → 품질·강건성·비용을 동시에 만족하는 방법 필요 |
| 방법론 | Output Linear Layer(W, b)의 특정 행(row) 스케일링을 통해 워터마크 삽입 • secret key → Gi(워터마크 토큰 집합) 선택 • Gi 토큰 row는 α↑, β↑로 스케일링 → sampling 확률 미세 상승 • 나머지 토큰은 α↓, β↓로 스케일링(혹은 그대로 유지) • 훈련 필요 없음(training-free) • 모델 내부 representation dynamics와 자연스럽게 결합 • 텍스트 품질(PPL) 훼손 최소 |
| Embedding 수식 | • 출력층: ( l = Wh + b ) • Gi 토큰에 대해: ( W[idx(g)] = α↑ W[idx(g)], b_{idx(g)} = β↑ b_{idx(g)} ) • 비-선택 토큰: ( W[idx(v)] = α↓ W[idx(v)], b_{idx(v)} = β↓ b_{idx(v)} ) • 실험에서는 단순화: α↑=α, α↓=β↑=β↓=1 |
| Extraction 방법 | • 선택 토큰 Gi의 등장 빈도를 기반으로 z-score 검정 수행 • 모델 접근(white-box) 불필요 → black-box 검출 가능 |
| 실험 환경 | • LLM: LLaMA3-8B • Prompt Dataset: C4(Corpus of Cleaned Web Text)에서 400개 랜덤 발췌 • 평가지표: – PPL(perplexity) → 텍스트 품질 – z-score → 워터마크 검출 신뢰도 • 공격 강건성 평가: masking / deletion / insertion 공격 • 파라미터 스윕: α ∈ [1.0, 1.5], γ ∈ [0.1, 0.5] |
| 결과 | 1) α tuning 효과 • α=1.05 → z-score 2.33(99% 검출 신뢰) 도달 • α=1.1 → z-score ≈ 6.5, PPL 원본에 거의 동일 2) γ(토큰 비율) 효과 • γ 너무 작으면 신호 약함 • γ≈0.5 부근에서 최적 3) 공격 강건성 • masking/insertion → z-score 거의 유지 • deletion → z-score 감소하지만 여전히 검출 가능 • masking/insertion은 PPL 변화 거의 없음 4) 기존 방법과 비교 • 기존 logit bias 방식은 z-score는 높지만 PPL 크게 악화 • 제안 방식은 높은 detectability + 최소 수준의 PPL 증가라는 최적 균형 확보 |
| 기여 | • 훈련 없이(Training-free) 워터마크 삽입 가능한 lightweight 기법 • Output-layer reparameterization 관점 제공 → 이론적 해석 용이 • 내부 파라미터 조정 기반으로 텍스트 자연스러움 유지 • black-box 검출 가능 → 실제 서비스 적용성 높음 • masking·insertion·paraphrasing 유사 공격에 강한 robustness 확보 • 기존 red/green list 방식 대비 distribution smoothness 높아 품질 저하 최소화 |
| 한계 | • α, γ 튜닝이 경험적 → 최적 자동화 연구 필요 • LM head를 재학습하거나 pruning해버리는 공격엔 취약 가능성 • multi-expert head(MoE·mixture LM head)에는 바로 적용 어려움 • Gi가 고정되면 통계적 패턴이 공격자에게 노출될 가능성 존재 |
아래는 업로드해준 “Yet Another Watermark for Large Language Models” 논문을 기반으로,
문제 상황 → 기존 한계 → 제안 방법 → 알고리즘 → 실험 → 결과 → 기여 → 한계까지
AI 연구자가 바로 실험에 적용할 수 있도록 체계적·정확·압축된 요약 표 + 상세 설명으로 정리한 내용이야.
(모든 내용은 업로드 PDF 기반임 )
🔍 논문 핵심 요약 표
항목 내용| 문제 상황 | 기존 LLM 워터마킹은 (1) 텍스트 후처리 기반이라 자연스러움 손실, (2) logits 조작 기반은 모델의 생성 dynamics 반영 부족으로 품질 저하, (3) 파인튜닝 기반은 비용이 매우 큼. |
| 기존 방법의 한계 | • Post-processing: 쉽게 깨짐, 의미 변형• Logit bias(red/green list): 강제적·거친 조작 → 품질 저하• Fine-tune watermark: LLM에 비현실적인 계산 비용 |
| 핵심 아이디어 | **LLM의 출력 레이어(Linear head)의 weight·bias를 아주 작은 비율로 스케일링(α↑, α↓, β↑, β↓)**하여 특정 토큰 집합을 sampling될 가능성을 은밀히 증가 → 파라미터 레벨 워터마킹 |
| 장점 | • 텍스트 자연스러움 유지• 모델 재학습 불필요• 블랙박스 검증 가능(모델 미접근)• 강한 강건성(masking/deletion 등 공격에도 유지)• 내부 generation dynamics와 결합된 워터마킹 |
| Embedding 방법 | 특정 secret key로 생성된 토큰 집합 Gi에 대해 출력층 W[idx(g),:]와 b를 α↑, β↑로 스케일 확장 / 나머지는 α↓, β↓로 축소. |
| Extraction 방법 | Gi 토큰 등장 빈도 → z-score 기반 통계 검정. |
| 실험 환경 | 모델: LLaMA3-8B, 데이터: C4 prompts 400개. PPL/ z-score / 공격 내성 평가. |
| 주요 결과 | α=1.1, γ=0.5에서 PPL 거의 동일하면서 z-score≈6.49 → 매우 높은 검출력. 기존 기법 대비 품질 유지 능력 우수. |
| 비교 성능 | 기존 logit watermark(예: Kirchenbauer et al.): z-score는 더 높지만 PPL 악화. 본 방법: z-score 상위권 + PPL 최소 증가. |
| 기여 | • 새로운 “파라미터 조정 기반 워터마킹” 제안• lightweight, scalable, training-free• 텍스트 품질·강건성·검출력 간 우수한 균형 |
| 한계 | • 최적 α, γ 선택에 경험적 튜닝 필요• W 조작이 너무 크면 의미 변형 위험• Multi-head LM head 구조나 mixture LM head에는 추가 연구 필요 |
🧠 논문 상세 정리 (AI 연구자용)
1. 문제 상황
최근 LLM 생성물의 출처 식별은 매우 중요한 문제.
그러나 기존 워터마킹 방식은 다음과 같은 문제가 있었다:
(1) 후처리 기반 워터마킹
텍스트를 생성한 뒤 특정 단어 치환 등으로 워터마크 삽입
→ 자연스러움 훼손, paraphrasing 등 공격에 쉽게 깨짐.
(2) logit 조작 기반(red/green list)
대표 연구: Kirchenbauer et al., 2023
logit에 일정한 bias를 더해 “green list” 토큰을 더 자주 출력
→ 모델 내부 dynamics와 무관한 억지 조작 → 텍스트 품질 저하
(3) LLM 재훈련 기반 워터마킹
fine-tune 모델로 워터마크 학습
→ LLM scale에서는 비용·시간이 비현실적.
2. 제안 방법 (Proposed Method)
논문의 핵심은 매우 명확함:
LLM의 출력층(Linear layer) weight W 및 bias b를 아주 미세하게 스케일 조정하여 특정 토큰 확률을 자연스럽게 증가시키는 방식.
🔧 Embedding 과정
① 토큰 집합 Gi 선택
secret key 기반 pseudo-random function으로 vocabulary에서 γ 비율로 선택:
[
G_i = TokenSelection(V, f(key_i), \gamma)
]
(실험에서는 모든 i에 동일 Gi 사용)
② LLM 마지막 Linear layer의 특정 행(row)만 조절
출력층:
[
l = W h + b
]
수정:
- 워터마크 토큰 g ∈ Gi:
[
W[idx(g)] = α↑ W[idx(g)], \quad b_{idx(g)} = β↑ b_{idx(g)}
] - 그 외 v ∉ Gi:
[
W[idx(v)] = α↓ W[idx(v)], \quad b_{idx(v)} = β↓ b_{idx(v)}
]
조건:
α↑ ≥ 1, β↑ ≥ 1 (강화)
α↓ ≤ 1, β↓ ≤ 1 (약화)
실험에서는 단순화된 설정:
[
α↑ = α,\quad α↓ = β↑ = β↓ = 1
]
즉: 워터마크 토큰만 weight 확장하고 나머지는 그대로
3. Extraction (검출)
Kirchenbauer et al.과 동일 방식의 z-score 사용:
Gi 토큰의 등장 빈도 관측 →
“워터마크 없음” 분포 대비 얼마나 유의하게 높은지 측정.
4. Experimental Results (실험 결과)
📌 4.1 α(스케일) 변화
- α = 1.05 → z-score > 2.33 (99% confidence)
- α = 1.1 → z-score ≈ 6.48
- α 증가해도 PPL 거의 변하지 않음 (품질 유지)
📌 Fig. 1 (page 3) — α 변화에 따른 z-score와 PPL
📌 4.2 γ(선택 토큰 비율)
- γ 너무 작으면 신호 약함 → z-score 낮음
- γ ≈ 0.5에서 최적
- γ 너무 크면 통계적 구분이 희석
📌 Fig. 2 (page 4) — γ 변화 실험
📌 4.3 공격 내성 실험
masking / deletion / insertion 공격을 적용해도:
- z-score는 상당히 유지
- 특히 masking·insertion은 PPL 거의 변하지 않음
- deletion은 PPL 증가하지만 정상적 반응
📌 Fig. 3 — 공격 내성
📌 4.4 기존 기법과 비교 (Table 1)
방법 z-score PPL| Non-watermarked | — | 3.82 |
| Kirchenbauer et al. | 7.34 | 5.08 |
| Lee et al. | 8.20 | 5.05 |
| Lu et al. | 8.50 | 5.03 |
| Dathathri et al. | 2.55 | 5.07 |
| Proposed | 6.49 | 3.93 |
해석:
- 다른 방법은 검출력(z-score)은 강하지만 텍스트 품질이 크게 떨어짐(PPL 상승)
- 제안 방식은 품질 유지(PPL 상승 최소) + 높은 z-score
5. 기여 (Contributions)
- 새로운 파라미터 조작 기반 워터마킹 제안
→ LLM의 dynamics에 내재적으로 결합되는 방식. - 훈련 불필요(Training-free)
→ LM head 가중치만 수정하면 됨. - 텍스트 품질(semantic fidelity) 유지
→ PPL 증가 최소. - 공격에 강한 워터마크
masking/deletion/insertion에서도 robust. - 블랙박스 검출 가능
→ 생성 텍스트만 있으면 z-score 기반 검출.
6. 한계 및 향후 연구
- α, γ 파라미터 선택이 경험적으로 결정됨
- LM head 구조가 변할 경우(예: Mixture LM head) 추가 연구 필요
- 공격자가 LM head를 다시 미세 조정하면 워터마크 제거 가능성 존재
- Gi를 고정하면 높은 detectability 확보 가능하지만 security 관점에서는 패턴 노출 위험
🔚 결론
이 논문은 기존 LLM 워터마킹과 달리 텍스트 생성 과정의 내부 파라미터(W, b)를 직접 조작하여 워터마크를 삽입하는 혁신적 방식이다.
학습 없이, 고품질 텍스트를 유지하면서, 강한 검출력과 공격 강건성을 확보한다는 점에서 실질적 활용 가치가 높다.
원하면 아래도 만들어줄게:
✅ 실험 재현 코드(PyTorch)
✅ 파라미터(α, γ) 최적값 선택 가이드
✅ 기존 방법 vs 본 방법 심층 비교표
✅ 리서치 발표용 슬라이드 구조
✅ 이 논문 기반 follow-up research 아이디어 10개