https://arxiv.org/abs/2505.18332
An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs
Recent advances in Large Language Models (LLMs) have led to the widespread adoption of third-party inference services, raising critical privacy concerns. Existing methods of performing private third-party inference, such as Secure Multiparty Computation (S
arxiv.org
hidden state를 permutation해서 다른 서버에 제공해도 permutation 공간이 너무 커서 원문 복원이 실질적으로 불가능하다고 주장했지만 이 논문에서는 그 가정이 현실 llm에서는 성립하지 않음!

| 연구 배경 | 대규모 LLM은 자체 추론이 어려워 제3자 추론 서비스에 의존하며, 이 과정에서 사용자 입력 프라이버시 노출 문제가 발생 |
| 기존 접근 | SMPC·암호기법은 계산 비용이 과도함 → 최근 연구들은 hidden state를 permutation하여 평문으로 제3자에 공개하는 방식 제안 |
| 기존 주장 | permutation 공간이 매우 크므로 원문 복원은 실질적으로 불가능하며 안전하다는 주장 (PermLLM, STIP, Centaur 등) |
| 논문의 핵심 문제 제기 | 이러한 permutation 기반 프라이버시 주장은 LLM hidden state의 실제 구조를 고려하지 않은 잘못된 가정에 기반함 |
| 공격 목표 | permutation된 LLM hidden state로부터 원래 사용자 프롬프트(토큰 시퀀스)를 복원 |
| 핵심 공격 아이디어 | (1) decoder-only LLM의 단방향 attention 구조 (2) hidden state의 강한 비충돌성(non-collision) (3) 유한한 vocabulary를 이용한 순차적 토큰 복원 |
| 기본 공격 | 각 위치에서 모든 토큰을 대입해 hidden state를 비교 → 선형 시간(O(V·N))에 완전 복원 |
| 확장 공격 | • Sequence permutation: 위치 추론 후 복원 • Hidden-dim permutation: 정렬 기반 거리 비교 • Factorized 2D permutation: 두 기법 결합 |
| 실험 모델 | Gemma-2-2B-IT, Llama-3.1-8B-Instruct |
| 공격 성능 | • Unpermuted: 거의 100% 완전 복원 • 모든 permutation 설정에서도 약 97~99% 이상 완전 복원 |
| 주요 붕괴 대상 | PermLLM, STIP, Centaur의 프라이버시 보장 가정이 실질적으로 무효 |
| 이론적 반박 | distance correlation 기반 보안 증명은 복원 가능성(reconstructibility)을 보장하지 못함 |
| 핵심 통찰 | 통계적 비상관성 ≠ 복원 불가능성 LLM hidden state는 permutation 후에도 강한 식별성을 유지 |
| 방어 실험 | Gaussian noise, random prefix, quantization 실험 |
| 방어 결론 | permutation만으로는 불충분하며, noise + permutation 조합만이 부분적 방어 가능성 |
| 논문의 결론 | Permutation 기반 private inference는 근본적으로 취약하며, hidden state 평문 공개는 안전하지 않음 |
| 연구적 의미 | 향후 LLM 프라이버시 연구는 “hidden state 노출 자체를 허용하지 않는 설계”가 필요함 |
https://aclanthology.org/2025.findings-acl.1174/
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Tr
Toan Tran, Ruixuan Liu, Li Xiong. Findings of the Association for Computational Linguistics: ACL 2025. 2025.
aclanthology.org
2025 acl findings에 붙었습니다.
MIA는 샘플 전체가 아니라 일부 토큰에 의해 누적되어 발생

토큰마다 아직 잘 못 배우는 토큰과 이미 과도하게 외운 토큰이 존재하며 Loss가 비정상적으로 낮은 토큰이 MIA에 가장 큰 기여를 함 => 모든 토큰을 동일하게 학습하는 것은 privacy 관점에서 비최적

어려운 토큰은 더 배우고, 이미 외운 토큰은 안 배우게 만드는 이중목적 학습 프레임워크!
아직 못 맞추는 토큰은 높은 가중치를, 잘 맞추는 토큰은 낮은 가중치를 주게 학습하고, 나중에는 언러닝을 통해 오히려 너무 잘 학습된 토큰은 낮춰버려 utility랑 privacy를 챙김
| 연구 배경 | LLM은 학습 데이터의 memorization으로 인해 Membership Inference Attack (MIA) 에 취약함. 기존 방어 기법은 분류 모델 중심이거나 DP 기반으로, 순차적 토큰 구조를 갖는 LLM에 비효율적이며 성능 손실이 큼 |
| 문제 정의 | LLM에서 모든 토큰이 동일하게 privacy risk에 기여하지 않음에도 불구하고, 기존 학습은 토큰을 균등 취급 → 불필요한 memorization 발생 |
| 핵심 관찰 | MIA 위험은 소수의 “과도하게 외운 토큰”에서 집중적으로 발생하며, 샘플-level이 아닌 token-level 누적 효과로 나타남 |
| 핵심 아이디어 | 토큰을 Hard tokens (아직 못 배운 토큰) 과 Memorized tokens (이미 외운 토큰) 으로 구분하여, 학습 중 선택적 학습 + 선택적 언러닝을 동시에 수행 |
| 제안 방법 | DuoLearn: reference model을 활용한 동적 토큰 선택 + dual-purpose loss 기반 학습 프레임워크 |
| Loss 설계 | L_{dual}=L_{CE}(T_h)−αL_{CE}(T_m) • Hard tokens: gradient descent (learning) • Memorized tokens: gradient ascent (unlearning) |
| 학습 특징 | • 단일 backward pass에서 학습·언러닝 동시 수행 • DP noise 없음 • reference model 1회 forward만 추가 |
| 실험 설정 | 모델: GPT-2 (124M), Pythia (1.4B), LLaMA-2 (7B) 데이터: Wikipedia, CC-News 공격: Loss, Ref-Loss, Min-K, Zlib |
| Privacy 성능 | • MIA AUC ≈ 0.5 (random guess 수준) • DPSGD와 동급 혹은 더 강한 방어 • Privacy backdoor (Precurious) 공격에도 강인 |
| Utility 성능 | • DPSGD 대비 Perplexity 손실 현저히 작음 • 경우에 따라 일반 fine-tuning 대비 PPL 개선 (≈10%) |
| 비교 결과 | Goldfish: memorization 일부 완화하나 MIA 방어 실패 DPSGD: 강력하나 성능 저하 큼 DuoLearn: privacy–utility Pareto optimal |
| 추가 분석 | • Token selection은 동적으로 변화 • 초기엔 학습 토큰 → 후반엔 언러닝 토큰으로 전환되는 경우 다수 |
| 확장 실험 | 1.5B 규모 pretraining에서도 MIA AUC 0.9 → 0.55로 감소, 성능 손실 제한적 |
| 한계점 | • reference model 필요 • 대규모 pretraining은 제한적 실험 |
| 논문 기여 | • 최초의 token-level MIA 방어 프레임워크 • 학습 단계에서 의도적 unlearning을 loss로 통합 • DP 없이 실용적 privacy 보호 달성 |
| 핵심 메시지 | “LLM 프라이버시는 무엇을 더 배울지가 아니라, 무엇을 의도적으로 잊게 할지의 문제다.” |
https://icml.cc/virtual/2025/poster/45395
ICML Poster EncryptedLLM: Privacy-Preserving Large Language Model Inference via GPU-Accelerated Fully Homomorphic Encryption
As large language models (LLMs) become more powerful, the computation required to run these models is increasingly outsourced to a third-party cloud. While this saves clients' computation, it risks leaking the clients' LLM queries to the cloud provider. Fu
icml.cc
여기서도 프롬프트의 노출을 가장 크게 생각합니다.
의료 금융 법률 등 고민감 도메인은 이 구조 자체가 실질적으로 사용 불가능하고, HE는 계산 비용이 너무 커서 실용성이 없음
그래서 HE에서 진짜 느린 부분은 어디냐!

Linear layer는 생각보다 싸지만 GeLU, Softmax, LayerNorm과 같은 부분이 병목이 큼
이 비선형 연산을 저차 다항식으로 근사하여 GPU상에서 완전히 처리함

성능이 유지되는 것을 볼 수 있음 => 근사에 강건함을 보여줌
연산 시간도 수분으로 줄어든다.
| 문제 정의 | 클라우드 기반 LLM 추론 시 사용자 입력 프롬프트가 서버에 노출됨 → 의료·금융·법률 등 고민감 도메인에서 사용 불가 |
| 핵심 질문 | Fully Homomorphic Encryption(FHE)을 사용해 LLM 추론을 실용적인 시간 안에 수행할 수 있는가? |
| 기본 접근 | 입력을 FHE로 암호화한 상태에서 서버가 LLM forward pass 수행, 결과는 암호화된 채로 사용자에게 반환 |
| 주요 병목 분석 | Linear layer는 상대적으로 저렴 / GeLU, Softmax, LayerNorm 같은 비선형 함수 + Bootstrapping이 전체 비용의 대부분 |
| 핵심 아이디어 | (1) 비선형 연산을 저차 다항식으로 근사 (2) CKKS FHE를 GPU에서 가속 (3) Softmax의 max 연산을 lookup table로 제거 |
| 암호 기법 | CKKS (approximate FHE, 실수 연산 지원) |
| 시스템 구현 | OpenFHE를 확장한 GPU-Accelerated CKKS FHE 구현 (A100 80GB), bootstrapping 전체 GPU 상 처리 |
| 모델 대상 | GPT-2 (Small 중심, Medium/Large는 정확도 검증) |
| 모델 수정 방식 | HuggingFace GPT-2를 포크하여 GeLU, LayerNorm, Softmax, Argmax를 FHE-friendly 근사로 치환 |
| Activation 근사 | GeLU: 구간별 다항식 LayerNorm: Newton iteration 기반 inverse sqrt Softmax: Taylor exp + Goldschmidt division + max lookup |
| 정확도 평가 | HellaSwag, ARC, PIQA, Social IQA, MNLI, SST-2, ANLI, WiC |
| 정확도 결과 | Baseline 대비 경미한 성능 저하 또는 거의 동일 → LLM의 근사 강건성 확인 |
| 성능 결과 | GPT-2 Small forward pass 기준 CPU 대비 약 200× 속도 향상 (수 시간 → 수 분) |
| Bootstrapping 성능 | Output level 기준 180~220× GPU 가속 |
| Batching 최적화 | CKKS slot 활용 극대화를 통해 Softmax/LayerNorm 추가 가속 |
| 위협 모델 | 서버는 honest-but-curious 또는 악의적 가능, 입력·중간값·출력 모두 서버에 노출되지 않음 |
| 한계점 | 실시간 챗봇은 아직 비현실적, 고정밀 요구 모델(CV 등)은 비용 급증 가능 |
| 실용 가능 시나리오 | 문서 요약, 내부 보고서 분석, private fine-tuning, 비실시간 LLM 서비스 |
| 핵심 기여 요약 | ▶ 최초의 공개 GPU-accelerated CKKS 구현 ▶ FHE 기반 LLM 추론을 실용 영역으로 이동 ▶ privacy-preserving LLM의 현실적 가능성 입증 |
| 논문의 메시지 | “FHE 기반 LLM은 불가능한 실험이 아니라, 용도 제한 하에서 실용적인 기술이다.” |
https://arxiv.org/abs/2411.05034
Eguard: Defending LLM Embeddings Against Inversion Attacks via Text Mutual Information Optimization
Embeddings have become a cornerstone in the functionality of large language models (LLMs) due to their ability to transform text data into rich, dense numerical representations that capture semantic and syntactic properties. These embedding vector database
arxiv.org
AAAI 2026에 붙었다네요 ㄷㄷ
텍스트 임베딩은 사실상 원문에 준하는 정보를 가지고 있음!
다양한 연구들에서 Embedding Inversion attack이 매우 높은 성공률로 원문을 복원함
RAG, Vector DB, 장기 메모리 등에서 임베딩이 외부로 노출되는 구조로 프라이버시 리스크가 있음
기존 방법들은 embedding을 벡터로만 보고 텍스트, 임베딩, 복원이라는 정보 흐름 전체를 통제하진 못 함

embedding과 공격자 사이에 projection network를 삽입해 semantic space를 새로운 functional space로 사상함

원문 x와 보호된 embedding 사이의 통계적 의존성을 제거하는 것을 목표로 Global Mutual Information을 최소화
그리고 의미 구분을 위해 핵심 키워드를 추출하여 그 것은 구분할 수 있도록 학습
| 연구 문제 | 텍스트 임베딩이 embedding inversion attack에 취약하여, embedding만으로도 원문 텍스트가 고확률로 복원됨. 기존 noise·DP·adversarial 기반 방어는 프라이버시–성능 트레이드오프가 심각 |
| 핵심 관점 | Inversion 공격은 “복원 모델의 강함” 문제가 아니라, 원문과 embedding 사이의 정보량(Mutual Information) 문제 |
| 공격 모델링 | 텍스트 → 임베딩 → 복원 텍스트를 Markov Chain으로 정식화 |
| 핵심 아이디어 | Embedding 뒤에 Projection Network를 추가해, 공격자가 관측하는 embedding과 원문 사이의 정보 흐름을 차단 |
| 전체 구조 | x (text) → e (original embedding) → ê (secured embedding) → downstream task |
| 방법론 1 (Global MI) | Autoencoder latent z와 보호된 embedding ê 사이의 Global Mutual Information 최소화 → 원문 정보 제거 |
| 방법론 2 (Local MI) | Keyword–Antonym 기반 Contrastive Learning으로 의미 구분 능력 유지 |
| 학습 목표 함수 | Task Loss + α·Global MI Loss + β·Local MI Loss |
| 이론적 근거 | Data Processing Inequality 기반 Lemma 제시 → MI 감소 시 inversion 복원 불가 보장 |
| Projection Network | 24-layer RoBERTa Transformer (MLP, 얕은 모델은 실패) |
| 방어 성능 (Privacy) | Token inversion 성공률 ≈ 4–5%, 95% 이상 복원 차단 |
| 성능 유지 (Utility) | SST, NLI, QR, Summarization에서 원본 대비 98% 이상 성능 유지 |
| 비교 우위 | DP·FGSM·FreeLB 대비 방어 성능 ↑ + 다운스트림 성능 유지 |
| 강건성 평가 | 다른 decoder(GPT-2 → LLaMA, Gemma), 노이즈·양자화·PCA 환경에서도 일관된 방어 |
| OpenAI Embedding 실험 | text-embedding-3, ada-002에서도 inversion 성공률 3~5% 수준 |
| 한계점 | Projection network 학습 비용 증가, embedding model 간 전이 시 성능 일부 저하 |
| 결론 (Takeaway) | Embedding 보호의 본질은 노이즈 추가가 아니라 정보량 통제이며, Eguard는 MI 기반으로 프라이버시–유틸리티를 동시에 달성 |
'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글
| Privacy AI 관련 조사 10 (0) | 2026.01.26 |
|---|---|
| Privacy AI 관련 조사 9 (1) | 2026.01.20 |
| Privacy AI 관련 조사 8 (1) | 2026.01.20 |
| Privacy AI 관련 조사 7 (0) | 2026.01.19 |
| Multi-turn, Long-context Benchmark 논문 2 (0) | 2026.01.18 |