2025.12.08 - [인공지능/논문 리뷰 or 진행] - 세부 정리 - PrivacyRestore
세부 정리 - PrivacyRestore
https://aclanthology.org/2025.acl-long.532/ PrivacyRestore: Privacy-Preserving Inference in Large Language Models via Privacy Removal and RestorationZiqian Zeng, Jianwei Wang, Junyao Yang, Zhengdong Lu, Haoran Li, Huiping Zhuang, Cen Chen. Proceedings of t
yoonschallenge.tistory.com
실험이 좀 다양하게 진행된 것 같아서 하나 하나 까보려고 합니다.

https://arxiv.org/abs/1910.08902
Privacy- and Utility-Preserving Textual Analysis via Calibrated Multivariate Perturbations
Accurately learning from user data while providing quantifiable privacy guarantees provides an opportunity to build better ML models while maintaining user trust. This paper presents a formal approach to carrying out privacy preserving text perturbation us
arxiv.org
여기서 dχ-Privacy에 대해 나오네요
결국 dχ-Privacy는 기본 토큰 임베딩에 노이즈를 섞었을 때 원래 원본 토큰을 넣었을 때와 출력의 차이를 보고 이 논문에선 ε이 0이면 Privacy 보호가 잘 되지만 원본과 전혀 다른 출력이 나오고, ε가 커지면 이제 비슷한 분포가 되면서 출력이 비슷해지네요
ε를 적당히 5 정도로 보는 것 같습니다.

Sw - 한 단어를 1000번 교란했을 때 서로 다른 출력의 개수 - 적당해야 함
Nw - 그 1000번 중 원본 단어 w가 그대로 다시 출력된 횟수 - 적어야 함
프라이버시와 출력 간에 트레이드 오프가 있을텐데....


Precision - 공격자가 정답을 정확히 맞춘다
Recall - 공격자가 모든 원본 쿼리를 찾아낸다
Accuracy - 공격자 성공률
AUC - 공격 모델의 구분 능력
52가 되면 거의 다 털리는 것을 볼 수 있다.

일단 여기서 하나 하나 확인해보겠습니다.
No-Restoration : 프라이버시 그냥 지워서 준 경우
No Protection : 그냥 원본 준 경우

dχ-privacy : 전체 토큰 대상으로 임베딩에 노이즈 주입해서 토큰 변환
ϵ × dₑ x n => 149.5
dχ-privacy on privacy spans : 민감한 부분만 토큰 변환해서 변경
이제 여기는 n이 프라이버시 스펜만 해당하므로 n이 줄고, 입실론이 늘었음
Paraphrase : 원문과 의미가 유사하지만 다른 문장으로 재작성한 것으로 FLAN-T5-Base 모델로 진행 (클라이언트 환경은 연산 비용 제한이 있음)
2n / τ => 온도가 높을수록 프라이버시가 강해짐

EIA - GPT 2 20epoch 학습하여 진행
각 방법마다 진행해서 복구 진행
AIA - MLP Layer를 통해 Multi token prediction
dχ-privacy 와 같은 방법들은 바뀐 토큰들 GPT-2로 embedding layer 전환 후 입력으로 넣음
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration (0) | 2026.01.09 |
|---|---|
| Privacy AI 관련 조사 6 (0) | 2026.01.05 |
| 세부 정리 - PrivacyRestore (0) | 2025.12.08 |
| Privacy AI 관련 조사 5 (0) | 2025.12.06 |
| Privacy AI 관련 조사 4 (0) | 2025.12.05 |