인공지능/논문 리뷰 or 진행

Privacy AI 관련 조사 11

이게될까 2026. 1. 27. 02:30
728x90
728x90

https://arxiv.org/abs/2505.18332

 

An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs

Recent advances in Large Language Models (LLMs) have led to the widespread adoption of third-party inference services, raising critical privacy concerns. Existing methods of performing private third-party inference, such as Secure Multiparty Computation (S

arxiv.org

hidden state를 permutation해서 다른 서버에 제공해도 permutation 공간이 너무 커서 원문 복원이 실질적으로 불가능하다고 주장했지만 이 논문에서는 그 가정이 현실 llm에서는 성립하지 않음!

연구 배경 대규모 LLM은 자체 추론이 어려워 제3자 추론 서비스에 의존하며, 이 과정에서 사용자 입력 프라이버시 노출 문제가 발생
기존 접근 SMPC·암호기법은 계산 비용이 과도함 → 최근 연구들은 hidden state를 permutation하여 평문으로 제3자에 공개하는 방식 제안
기존 주장 permutation 공간이 매우 크므로 원문 복원은 실질적으로 불가능하며 안전하다는 주장 (PermLLM, STIP, Centaur 등)
논문의 핵심 문제 제기 이러한 permutation 기반 프라이버시 주장은 LLM hidden state의 실제 구조를 고려하지 않은 잘못된 가정에 기반함
공격 목표 permutation된 LLM hidden state로부터 원래 사용자 프롬프트(토큰 시퀀스)를 복원
핵심 공격 아이디어 (1) decoder-only LLM의 단방향 attention 구조
(2) hidden state의 강한 비충돌성(non-collision)
(3) 유한한 vocabulary를 이용한 순차적 토큰 복원
기본 공격 각 위치에서 모든 토큰을 대입해 hidden state를 비교 → 선형 시간(O(V·N))에 완전 복원
확장 공격 • Sequence permutation: 위치 추론 후 복원
• Hidden-dim permutation: 정렬 기반 거리 비교
• Factorized 2D permutation: 두 기법 결합
실험 모델 Gemma-2-2B-IT, Llama-3.1-8B-Instruct
공격 성능 • Unpermuted: 거의 100% 완전 복원
• 모든 permutation 설정에서도 약 97~99% 이상 완전 복원
주요 붕괴 대상 PermLLM, STIP, Centaur의 프라이버시 보장 가정이 실질적으로 무효
이론적 반박 distance correlation 기반 보안 증명은 복원 가능성(reconstructibility)을 보장하지 못함
핵심 통찰 통계적 비상관성 ≠ 복원 불가능성
LLM hidden state는 permutation 후에도 강한 식별성을 유지
방어 실험 Gaussian noise, random prefix, quantization 실험
방어 결론 permutation만으로는 불충분하며, noise + permutation 조합만이 부분적 방어 가능성
논문의 결론 Permutation 기반 private inference는 근본적으로 취약하며, hidden state 평문 공개는 안전하지 않음
연구적 의미 향후 LLM 프라이버시 연구는 “hidden state 노출 자체를 허용하지 않는 설계”가 필요함

 

https://aclanthology.org/2025.findings-acl.1174/

 

Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Tr

Toan Tran, Ruixuan Liu, Li Xiong. Findings of the Association for Computational Linguistics: ACL 2025. 2025.

aclanthology.org

2025 acl findings에 붙었습니다.

MIA는 샘플 전체가 아니라 일부 토큰에 의해 누적되어 발생 

토큰마다 아직 잘 못 배우는 토큰과 이미 과도하게 외운 토큰이 존재하며 Loss가 비정상적으로 낮은 토큰이 MIA에 가장 큰 기여를 함 => 모든 토큰을 동일하게 학습하는 것은 privacy 관점에서 비최적 

어려운 토큰은 더 배우고, 이미 외운 토큰은 안 배우게 만드는 이중목적 학습 프레임워크!

아직 못 맞추는 토큰은 높은 가중치를, 잘 맞추는 토큰은 낮은 가중치를 주게 학습하고, 나중에는 언러닝을 통해 오히려 너무 잘 학습된 토큰은 낮춰버려 utility랑 privacy를 챙김 

연구 배경 LLM은 학습 데이터의 memorization으로 인해 Membership Inference Attack (MIA) 에 취약함.
기존 방어 기법은 분류 모델 중심이거나 DP 기반으로, 순차적 토큰 구조를 갖는 LLM에 비효율적이며 성능 손실이 큼
문제 정의 LLM에서 모든 토큰이 동일하게 privacy risk에 기여하지 않음에도 불구하고, 기존 학습은 토큰을 균등 취급 → 불필요한 memorization 발생
핵심 관찰  MIA 위험은 소수의 “과도하게 외운 토큰”에서 집중적으로 발생하며, 샘플-level이 아닌 token-level 누적 효과로 나타남
핵심 아이디어 토큰을 Hard tokens (아직 못 배운 토큰)Memorized tokens (이미 외운 토큰) 으로 구분하여, 학습 중 선택적 학습 + 선택적 언러닝을 동시에 수행
제안 방법 DuoLearn: reference model을 활용한 동적 토큰 선택 + dual-purpose loss 기반 학습 프레임워크
Loss 설계 L_{dual}=L_{CE}(T_h)αL_{CE}(T_m)
• Hard tokens: gradient descent (learning)
• Memorized tokens: gradient ascent (unlearning)
학습 특징 • 단일 backward pass에서 학습·언러닝 동시 수행
• DP noise 없음
• reference model 1회 forward만 추가
실험 설정 모델: GPT-2 (124M), Pythia (1.4B), LLaMA-2 (7B)
데이터: Wikipedia, CC-News
공격: Loss, Ref-Loss, Min-K, Zlib
Privacy 성능 • MIA AUC ≈ 0.5 (random guess 수준)
• DPSGD와 동급 혹은 더 강한 방어
• Privacy backdoor (Precurious) 공격에도 강인
Utility 성능 • DPSGD 대비 Perplexity 손실 현저히 작음
• 경우에 따라 일반 fine-tuning 대비 PPL 개선 (≈10%)
비교 결과 Goldfish: memorization 일부 완화하나 MIA 방어 실패
DPSGD: 강력하나 성능 저하 큼
DuoLearn: privacy–utility Pareto optimal
추가 분석 • Token selection은 동적으로 변화
• 초기엔 학습 토큰 → 후반엔 언러닝 토큰으로 전환되는 경우 다수
확장 실험 1.5B 규모 pretraining에서도 MIA AUC 0.9 → 0.55로 감소, 성능 손실 제한적
한계점 • reference model 필요
• 대규모 pretraining은 제한적 실험
논문 기여 • 최초의 token-level MIA 방어 프레임워크
• 학습 단계에서 의도적 unlearning을 loss로 통합
• DP 없이 실용적 privacy 보호 달성
핵심 메시지 “LLM 프라이버시는 무엇을 더 배울지가 아니라, 무엇을 의도적으로 잊게 할지의 문제다.”

https://icml.cc/virtual/2025/poster/45395

 

ICML Poster EncryptedLLM: Privacy-Preserving Large Language Model Inference via GPU-Accelerated Fully Homomorphic Encryption

As large language models (LLMs) become more powerful, the computation required to run these models is increasingly outsourced to a third-party cloud. While this saves clients' computation, it risks leaking the clients' LLM queries to the cloud provider. Fu

icml.cc

여기서도 프롬프트의 노출을 가장 크게 생각합니다.

의료 금융 법률 등 고민감 도메인은 이 구조 자체가 실질적으로 사용 불가능하고, HE는 계산 비용이 너무 커서 실용성이 없음

그래서 HE에서 진짜 느린 부분은 어디냐!

Linear layer는 생각보다 싸지만 GeLU, Softmax, LayerNorm과 같은 부분이 병목이 큼 

이 비선형 연산을 저차 다항식으로 근사하여 GPU상에서 완전히 처리함 

성능이 유지되는 것을 볼 수 있음 => 근사에 강건함을 보여줌 

연산 시간도 수분으로 줄어든다. 

문제 정의 클라우드 기반 LLM 추론 시 사용자 입력 프롬프트가 서버에 노출됨 → 의료·금융·법률 등 고민감 도메인에서 사용 불가
핵심 질문 Fully Homomorphic Encryption(FHE)을 사용해 LLM 추론을 실용적인 시간 안에 수행할 수 있는가?
기본 접근 입력을 FHE로 암호화한 상태에서 서버가 LLM forward pass 수행, 결과는 암호화된 채로 사용자에게 반환
주요 병목 분석 Linear layer는 상대적으로 저렴 / GeLU, Softmax, LayerNorm 같은 비선형 함수 + Bootstrapping이 전체 비용의 대부분
핵심 아이디어 (1) 비선형 연산을 저차 다항식으로 근사
(2) CKKS FHE를 GPU에서 가속
(3) Softmax의 max 연산을 lookup table로 제거
암호 기법 CKKS (approximate FHE, 실수 연산 지원)
시스템 구현 OpenFHE를 확장한 GPU-Accelerated CKKS FHE 구현 (A100 80GB), bootstrapping 전체 GPU 상 처리
모델 대상 GPT-2 (Small 중심, Medium/Large는 정확도 검증)
모델 수정 방식 HuggingFace GPT-2를 포크하여 GeLU, LayerNorm, Softmax, Argmax를 FHE-friendly 근사로 치환
Activation 근사 GeLU: 구간별 다항식
LayerNorm: Newton iteration 기반 inverse sqrt
Softmax: Taylor exp + Goldschmidt division + max lookup
정확도 평가 HellaSwag, ARC, PIQA, Social IQA, MNLI, SST-2, ANLI, WiC
정확도 결과 Baseline 대비 경미한 성능 저하 또는 거의 동일 → LLM의 근사 강건성 확인
성능 결과 GPT-2 Small forward pass 기준 CPU 대비 약 200× 속도 향상 (수 시간 → 수 분)
Bootstrapping 성능 Output level 기준 180~220× GPU 가속
Batching 최적화 CKKS slot 활용 극대화를 통해 Softmax/LayerNorm 추가 가속
위협 모델 서버는 honest-but-curious 또는 악의적 가능, 입력·중간값·출력 모두 서버에 노출되지 않음
한계점 실시간 챗봇은 아직 비현실적, 고정밀 요구 모델(CV 등)은 비용 급증 가능
실용 가능 시나리오 문서 요약, 내부 보고서 분석, private fine-tuning, 비실시간 LLM 서비스
핵심 기여 요약 ▶ 최초의 공개 GPU-accelerated CKKS 구현
▶ FHE 기반 LLM 추론을 실용 영역으로 이동
▶ privacy-preserving LLM의 현실적 가능성 입증
논문의 메시지 “FHE 기반 LLM은 불가능한 실험이 아니라, 용도 제한 하에서 실용적인 기술이다.”

https://arxiv.org/abs/2411.05034

 

Eguard: Defending LLM Embeddings Against Inversion Attacks via Text Mutual Information Optimization

Embeddings have become a cornerstone in the functionality of large language models (LLMs) due to their ability to transform text data into rich, dense numerical representations that capture semantic and syntactic properties. These embedding vector database

arxiv.org

AAAI 2026에 붙었다네요 ㄷㄷ

텍스트 임베딩은 사실상 원문에 준하는 정보를 가지고 있음!

다양한 연구들에서 Embedding Inversion attack이 매우 높은 성공률로 원문을 복원함 

RAG, Vector DB, 장기 메모리 등에서 임베딩이 외부로 노출되는 구조로 프라이버시 리스크가 있음

기존 방법들은 embedding을 벡터로만 보고 텍스트, 임베딩, 복원이라는 정보 흐름 전체를 통제하진 못 함 

embedding과 공격자 사이에 projection network를 삽입해 semantic space를 새로운 functional space로 사상함 

 

원문 x와 보호된 embedding 사이의 통계적 의존성을 제거하는 것을 목표로 Global Mutual Information을 최소화 

그리고 의미 구분을 위해 핵심 키워드를 추출하여 그 것은 구분할 수 있도록 학습

연구 문제 텍스트 임베딩이 embedding inversion attack에 취약하여, embedding만으로도 원문 텍스트가 고확률로 복원됨.
기존 noise·DP·adversarial 기반 방어는 프라이버시–성능 트레이드오프가 심각
핵심 관점 Inversion 공격은 “복원 모델의 강함” 문제가 아니라, 원문과 embedding 사이의 정보량(Mutual Information) 문제
공격 모델링 텍스트 → 임베딩 → 복원 텍스트를 Markov Chain으로 정식화
핵심 아이디어 Embedding 뒤에 Projection Network를 추가해, 공격자가 관측하는 embedding과 원문 사이의 정보 흐름을 차단
전체 구조 x (text) → e (original embedding) → ê (secured embedding) → downstream task
방법론 1 (Global MI) Autoencoder latent z와 보호된 embedding ê 사이의 Global Mutual Information 최소화 → 원문 정보 제거
방법론 2 (Local MI) Keyword–Antonym 기반 Contrastive Learning으로 의미 구분 능력 유지
학습 목표 함수 Task Loss + α·Global MI Loss + β·Local MI Loss
이론적 근거 Data Processing Inequality 기반 Lemma 제시 → MI 감소 시 inversion 복원 불가 보장
Projection Network 24-layer RoBERTa Transformer (MLP, 얕은 모델은 실패)
방어 성능 (Privacy) Token inversion 성공률 ≈ 4–5%, 95% 이상 복원 차단
성능 유지 (Utility) SST, NLI, QR, Summarization에서 원본 대비 98% 이상 성능 유지
비교 우위 DP·FGSM·FreeLB 대비 방어 성능 ↑ + 다운스트림 성능 유지
강건성 평가 다른 decoder(GPT-2 → LLaMA, Gemma), 노이즈·양자화·PCA 환경에서도 일관된 방어
OpenAI Embedding 실험 text-embedding-3, ada-002에서도 inversion 성공률 3~5% 수준
한계점 Projection network 학습 비용 증가, embedding model 간 전이 시 성능 일부 저하
결론 (Takeaway) Embedding 보호의 본질은 노이즈 추가가 아니라 정보량 통제이며, Eguard는 MI 기반으로 프라이버시–유틸리티를 동시에 달성
728x90

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Privacy AI 관련 조사 10  (0) 2026.01.26
Privacy AI 관련 조사 9  (1) 2026.01.20
Privacy AI 관련 조사 8  (1) 2026.01.20
Privacy AI 관련 조사 7  (0) 2026.01.19
Multi-turn, Long-context Benchmark 논문 2  (0) 2026.01.18