인공지능/논문 리뷰 or 진행

Privacy AI 관련 조사 6

이게될까 2026. 1. 5. 00:03
728x90
728x90

2025.12.06 - [인공지능/논문 리뷰 or 진행] - Privacy AI 관련 조사 5

 

Privacy AI 관련 조사 5

조금은 이제 알 것 같은....https://aclanthology.org/2025.acl-long.58/ ObfusLM: Privacy-preserving Language Model Service against Embedding Inversion AttacksYu Lin, Ruining Yang, Yunlong Mao, Qizhi Zhang, Jue Hong, Quanwei Cai, Ye Wu, Huiqi Liu, Zhi

yoonschallenge.tistory.com

논문 작성 중이라 바빠서 오랜만에 적어보네요 

User의 Prompt를 보호하기 위해 다양한 프라이버시 보호 방법이 나왔고, 이제 그 방법을 다시 부수는 공격 방법이 계속 나오고 있습니다.

그와 관련된 논문들입니다.

https://arxiv.org/abs/2503.09022

 

Prompt Inversion Attack against Collaborative Inference of Large Language Models

Large language models (LLMs) have been widely applied for their remarkable capability of content generation. However, the practical use of open-source LLMs is hindered by high resource requirements, making deployment expensive and limiting widespread devel

arxiv.org

초 대규모 LLM (수십 ~ 수백 B)은 개인이 돌리기 어렵다

그래서 Collaborative Inference라는 것이 등장하였고, 여러 참여자가 LLM Layer를 분할 보유하고 있고, 중간 Activation 만을 순차적으로 전달하면서 추론을 수행하여 PETALS, LocalAI등에서 사용중 

입력 프롬프트에 대한 개인 정보가 보호될 수 있을까? 복원할 수 있을까? 가 이 공격의 목표다 .

공격자는 자신의 Layer를 가지고 있고, 이전 참여자로부터 받은 Activation을 기록하여 시간 제약이 없는 상황이고, 두가지 설정을 가정한다.

White box로 전체 모델 파라미터를 알고있는 경우, Grey-box로 base 모델은 알고 있으나 다른 참여자의 LoRA adapter는 모르는 경우다. 

기존 Embedding Inversion은 LLM의 깊은 레이어, Softmax Attention, 강한 비선형성 때문에 실패한다고 말하고, soft max 구조상 gradient가 0에 수렴한다고 증명 

 

activation A가 주어졌을 때 입력 embedding을 직접 최적화한다. 

그다읍 embedding을 통해 가장 가까운 top-k 토큰을 고르고, 다음에 올 법한 토큰 top y를 예측한 뒤에 후보 토큰을 실제로 넣어봤을 때 activation이 가장 원본에 가까운 토큰을 선택하게 된다. 

 

시간을 통해 LoRA 파라미터도 찾는다고 하네요 

일단 제 것이랑 조건이 달라서 대충 읽고 넘기겠습니다.

https://arxiv.org/abs/2504.00147

 

Universal Zero-shot Embedding Inversion

Embedding inversion, i.e., reconstructing text given its embedding and black-box access to the embedding encoder, is a fundamental problem in both NLP and security. From the NLP perspective, it helps determine how much semantic information about the input

arxiv.org

기존 Embedding Inversion Attack는 임베딩 벡터와 쿼리를 가지고 있을 때 그걸 생성하는 decoder를 만들었지만 그건 encoder 마다 학습이 필요하고 데이터가 많이 필요하며 노이즈에 취약함!

여기선 LLM을 generator로 사용하지만 확률이 아니라 embedding similarity를 목표로 디코딩하자!

결국 decoder를 통해 랜덤 생성을 진행하고 그를 통해 그 embedding과 similarity를 높이는 방향으로 계속 생성하는 것이다. 

figure가 없어서 아쉽지만 결국

encoder 최대 길이까지 계속 cos sim을 높이는 방법을 선택해서 생성하고, 그 뒤부터 다시 이제 유사한 문장 생성해라 -> 다시 cos sim 최대인 토큰 선택하기! 이거네요 ㅎㅎ.....

이건 유사한 부분이 있어서 추가하겠습니다.

 

https://arxiv.org/abs/2508.03097

 

VFLAIR-LLM: A Comprehensive Framework and Benchmark for Split Learning of LLMs

With the advancement of Large Language Models (LLMs), LLM applications have expanded into a growing number of fields. However, users with data privacy concerns face limitations in directly utilizing LLM APIs, while private deployments incur significant com

arxiv.org

LLM의 특수 도메인 fine-tuning은 필요하지만 API는 프롬프트와 라벨 유출 위험이 있고, 온프레미스는 gpu가 겁나 필요함

Knowledge distillaition은 성능 저하가 있고, Federated Learning 은 LLM에 통신, 구조적 한계 존재 

모델의 일부 레이어를 쪼개서 진행 

 

tail까지 서버에 주면 answer가 유출되니 tail은 유저가 가져오는 버전도 있습니다. 

근데 통신비용이 엄청날 수 밖에 없는 구조네요 ....

DP - embedding이나 gradient에 laplace noise를 추가하는것으로 성능은 좋으나 성능 감소가 크다.

SP- 작은 값은 0으로 drop하여 프라이버시 보호 효과를 가져오려 했으나 성능 손실 큼 

Text level perturbation
SanText - 민감한 단어 일부를 의미적 가까운 단어로 치환하여 진행. classification에선 괜찮으나 생성 테스크에선 입력 붕괴 가능
CusText - 모든 단어를 작은 후보 집합 내에서 교란. 의미직 교란 증가 성능도...
RanText - 랜덤 인접 텍스트 치환. 그나마 성능 좋았음 

Model Head - Embedding 에 Dp noise를 추가하고, denoiser로 복원 
Inference 전용으로 분류 테스크에 한정함 

 

 

 

728x90