인공지능/논문 리뷰 or 진행

Privacy AI 관련 조사 12

이게될까 2026. 2. 2. 16:41
728x90
728x90

https://arxiv.org/abs/2505.12540

 

Harnessing the Universal Geometry of Embeddings

We introduce the first method for translating text embeddings from one vector space to another without any paired data, encoders, or predefined sets of matches. Our unsupervised approach translates any embedding to and from a universal latent representatio

arxiv.org

텍스트 임베딩은 검색, 분류, 클러스터링 등 다양한 곳에 쓰이지만 다른 임베딩 모델은 같은 텍스트라도 완전히 다른 벡터 공간에 매핑하여 모델간 임베딩 비교가 불가하고, 특정 임베딩만 유출되었을 때 그 의미를 해석하기 어려움

Strong Platonic Representation Hypothesis - 텍스트 임베딩 모델들은 서로 다른 구조와 데이터로 학습되었더라도 공통된 의미 공간(latent space)를 공유하여 짝지어진 데이터 없이도 학습 가능하다! 

기존에는 다른 모델이면 왼쪽 그림처럼 유사도가 높지 않아야 하는데 이 논문에서는 그 문제를 해결해서 의미별로 잘 뭉쳐있는 것을 볼 수 있음 

 

원본 텍스트는 없고, 임베딩 만든 모델 M1에 접근할 수 없으며 임베딩 벡터가 유출되어 그 것만 존재할 때 M1에서 생성된 임베딩이 M2 임베딩 공간으로 번역하여 이런 임베딩이 기하학적 구조를 유지하고, 의미 정보를 보존하여 작성 

어떤 것이 활용가능한지 볼 수 있다. 

번역된 임베딩으로부터 트위터 주제, 의료 질병 코드를 복구할 수 있고, 텍스트 근사도 가능함을 보여줌 

 

문제의식 서로 다른 텍스트 임베딩 모델은 동일 텍스트라도 완전히 다른 벡터 공간을 형성하여 비교·변환이 불가능하다고 여겨져 왔음.
임베딩만 유출될 경우 의미 정보가 안전한지에 대한 근본적 의문 제기
핵심 가설 Strong Platonic Representation Hypothesis:
서로 다른 구조·데이터로 학습된 텍스트 임베딩 모델들은 공통의 보편적(latent) 의미 기하 구조를 공유하며, 이는 짝지어진 데이터 없이도 학습 가능
연구 목표 (1) 비지도 환경에서 임베딩 공간 간 번역 가능성 검증
(2) 번역된 임베딩이 의미 정보를 얼마나 보존하는지 평가
(3) 임베딩 기반 정보 유출 위험 정량화
제안 방법 vec2vec: 입력 어댑터–공유 latent 변환기–출력 어댑터 구조를 갖는 비지도 임베딩 번역 프레임워크
학습 방식 완전 비지도 학습 (paired text/embedding 없음),
adversarial loss + cycle consistency + reconstruction + vector space preservation 결합
입력 가정 원본 텍스트 및 원래 임베딩 모델(M1) 접근 불가,
임베딩 벡터만 존재 / 다른 임베딩 모델(M2)은 사용 가능
실험 모델 GTR(T5), GTE·E5·Stella(BERT), Granite(RoBERTa), Qwen, CLIP(멀티모달)
데이터셋 학습: Natural Questions /
평가: NQ, TweetTopic, MIMIC-III(의료), Enron Emails, MS COCO
핵심 성능 결과 모델·백본이 다른 임베딩 간 번역에서 cosine similarity 최대 ~0.9, Top-1 매칭 정확도 최대 100%, OOD 데이터에서도 성능 유지
의미 보존 평가 번역된 임베딩으로 트윗 주제·의료 질병 코드 등 zero-shot attribute inference 가능
정보 유출 결과 번역 + zero-shot inversion을 통해 이메일·트윗의 60~80%에서 의미 있는 정보 유출 확인
비교 기준 Naïve(항등) 변환, Oracle-aided Optimal Transport 대비 전반적으로 우수한 성능
주요 기여 (1) 최초의 비지도 임베딩 공간 번역 방법 제시
(2) 텍스트 임베딩의 보편적 기하 구조 실증 (3) 임베딩 프라이버시 위험에 대한 강력한 실험적 증거
한계 GAN 기반 학습의 불안정성, 대규모 학습 비용, 완전한 텍스트 복원은 아님
핵심 메시지 임베딩은 안전한 표현이 아니며, 모델 간 번역을 통해 원문 의미가 상당 부분 복원될 수 있다
연구적 함의 임베딩 기반 프라이버시 보호 기법, RAG/벡터 DB 보안, 멀티모달 임베딩 정렬 연구에 직접적 영향

https://arxiv.org/abs/2507.18518

 

Transform Before You Query: A Privacy-Preserving Approach for Vector Retrieval with Embedding Space Alignment

Vector Database (VDB) can efficiently index and search high-dimensional vector embeddings from unstructured data, crucially enabling fast semantic similarity search essential for modern AI applications like generative AI and recommendation systems. Since c

arxiv.org

현행 벡터 DB 기반 RAG, 추천 시스템에서 질의 텍스트 자체가 서버에 노출되는 구조적 프라이버시 취약성을 지적한다.

임베딩 모델이 블랙박스 API 형태로 사용자가 원문 질의 텍스트를 그대로 전송해야 하므로 의료, 금융, 법률과 같은 민감 도메인에서 치명적인 정보 유출 위험을 내포함 

암호화는 연산 비용이 너무 크고, 익명화는 핵심 의미가 제거되어 검색 성능이 붕괴되고, DP는 무작위 노이즈로 인해 의미 구조가 깨져 검색 정확도가 급락

=> 임베딩 공간 간에는 구조적 alignment가 존재하여 서로 다른 임베딩 모델이라도 의미 공간의 상대적 기하 구조는 유사하며 이를 활용하면 서버 모델을 직접 쓰지 않아도 서버 임베딩 공간에서 유사한 위치를 갖는 벡터를 생성할 수 있다! 

STEER - 질의 텍스트를 보내지 말고 서버 임베딩을 근사해서 보내자! 

민감하지 않은 공용 텍스트 집합을 준비하여 서버 임베딩 모델 값과 사용자의 오픈소스 임베딩 모델 값을 통해 매핑 함수를 학습하고 선형 정렬, 비선형 정렬 하여 검색을 진행할 수 있음 

DP처럼 무작위 노이즈를 넣지 않고, 의미 구조를 보존하는 구조적 변환으로 편차를 생성하여 EIA를 실패하게 만든다. 

 

근데 이 방법은 결국 'Universal zero-shot embedding inversion' 논문과 같은 방법으로 뚤리는거 아니야???

더보기

짚은 포인트가 정확하다.
결론부터 말하면 “이론적으로는 뚫릴 가능성이 있다”가 맞고, 다만 STEER가 그대로 무력화되는 것은 아니다. 아래에서 왜 같은 공격 프레임으로 접근은 가능하지만, 동일한 수준의 성공을 기대하기는 어려운지를 구조적으로 정리하겠다.


1. Universal Zero-Shot Embedding Inversion이 보여준 핵심

Universal zero-shot embedding inversion(이하 U-ZEI)의 본질은 다음이다.

  • 가정
    • 공격자는 임의의 embedding space에 접근 가능
    • 해당 space가 어떤 모델에서 나왔는지 몰라도 됨
  • 핵심 주장
    • 자연언어 임베딩 공간에는 모델 불변적인(universal) 기하 구조가 존재
    • 충분히 강한 generative prior(LLM) + geometry alignment로
      zero-shot text reconstruction 가능
  • 중요한 점
    • “이 embedding이 어떤 모델에서 나왔는가”는 더 이상 핵심이 아님
    • embedding space 자체가 언어 정보를 이미 과도하게 포함하고 있다는 공격

이 논문은 사실상

“embedding ≈ compressed text”
라는 불편한 진실을 정면으로 보여준 작업이다.


2. 그럼 STEER는 같은 방식으로 뚫리는가?

✔️ 공격 시도 자체는 가능

STEER가 서버에 보내는 것은:

  • 원문 임베딩 ❌
  • 정렬된 근사 임베딩 (approximate embedding)

U-ZEI의 관점에서는:

“모델이 뭐든 상관없고, embedding이면 공격 대상”

이므로 공격 파이프라인을 적용하는 것 자체는 가능하다.
이 점에서 네 질문은 100% 타당하다.


3. 하지만 “같이 뚫린다” ≠ “동일한 위협 수준”

STEER가 완전히 같은 조건에 놓이지 않는 이유는 구조적으로 명확하다.

(1) 공격 대상 embedding의 정체가 다름

구분일반 embeddingSTEER embedding
생성 방식 단일 모델 f(x) φ(g(x))
공간 소속 특정 모델 space 어디에도 속하지 않는 합성 공간
공격자 prior 풍부 불완전

U-ZEI가 강력한 이유는

“이 embedding은 자연언어 embedding manifold 위에 있다
라는 가정을 깔고 가기 때문이다.

하지만 STEER의 embedding은:

  • 로컬 모델 g
  • 서버 모델 f
  • 정렬 함수 φ
    합성 결과

즉, 어느 단일 embedding manifold에도 정확히 속하지 않는다.


(2) STEER의 변환은 “alignment”이지 “reconstruction”이 아님

STEER는 의도적으로:

  • relative neighborhood만 맞추고
  • absolute semantic anchoring은 흐리게 만든다

논문에서도 명시적으로:

  • cosine similarity 상한
  • similarity penalty τ
    를 둬서 과도한 정렬(overfitting)을 금지한다.

이는 사실상:

“retrieval은 되되, decoding은 어렵게”
라는 공격 비우호적 설계다.

U-ZEI는 이 지점에서 성능이 급격히 나빠진다.


(3) 공격 성능은 “복원 가능성”이 아니라 “복원 정확도” 문제

STEER 논문에서도 스스로 인정한다:

완전한 정보이론적 안전은 아니다.

하지만 실험적으로:

  • Rouge-L: 16~30%
  • BLEU: 1~4%
    수준에 머무른다.

U-ZEI 기준으로 보면:

  • “문장 비슷하게 맞춘다” ❌
  • “키워드 몇 개 어렴풋이 찍는다” ⭕

즉,

  • semantic leakage는 존재
  • 하지만 실사용자 질의를 재식별할 수준은 아님

이건 binary security 문제가 아니라 risk attenuation 문제다.


4. 그래서 이 방법의 정확한 위치는?

STEER는 다음 중 어디에 있느냐면:

범주해당 여부
정보이론적 프라이버시 (DP, HE)
완전 복원 불가능
실용적 복구 저항 (practical resistance)
RAG/VDB 환경에서 즉시 적용

즉 STEER는:

“Universal inversion이 존재하는 세계에서,
그래도 가장 현실적인 피해 감소 전략 중 하나”

라는 위치에 있다.


5. 네가 지금 연구하는 방향과 연결하면 (중요)

너가 이미 고민 중인:

  • 토큰 space 난독화
  • 출력 ID permutation
  • embedding compression + noise
  • PPFT 스타일 privacy budget 관리

이런 것들은 전부 U-ZEI 이후 세계관에 더 적합한 대응이다.

솔직히 말하면:

  • STEER 단독 → U-ZEI 시대에는 충분 조건 아님
  • STEER + token-space / output-space 보호 → 훨씬 설득력 있음

이건 STEER의 약점이라기보다,

“embedding 자체를 쓰는 모든 방법의 근본적 한계”

다.


6. 한 줄 결론

맞다. Universal zero-shot embedding inversion의 공격 프레임으로 접근은 가능하다.
하지만 STEER는 ‘같은 방식으로, 같은 수준으로’ 뚫리지는 않는다.
이는 완전 방어가 아니라, 실용적 공격 난이도를 의도적으로 높인 설계다.

원하면 다음으로:

  • STEER + token permutation 결합 설계
  • U-ZEI 기준 threat model 재정의
  • “왜 우리는 DP가 아니라 복구저항을 택하는가” 논문용 문단

까지 바로 같이 짜줄 수 있다.


 

연구 배경 / 문제의식 상용 Vector DB는 프로프라이어터리 임베딩 모델을 블랙박스 API로 제공하여,
검색 시 사용자 질의 원문 텍스트가 서버에 노출됨. 의료·금융·법률 등 민감 도메인에서 심각한 프라이버시 위험 발생
기존 방법의 한계 (1) 암호화(FHE/MPC): 연산 비용 과다로 실용성 부족
(2) 익명화: 핵심 의미 제거로 검색 성능 급락
(3) Split Learning + DP: 무작위 노이즈로 의미 구조 파괴, 서버 수정 필요
핵심 관찰 서로 다른 임베딩 모델 간에도 의미 공간의 기하 구조가 부분적으로 정렬(alignment)되어 있으며, 상대적 위치 관계가 보존됨
제안 방법 STEER (Secure Transformed Embedding vEctor Retrieval):
로컬 임베딩 공간을 서버 임베딩 공간으로 정렬하는 변환 함수를 학습해 서버 임베딩의 근사 벡터로 검색 수행
시스템 구조 (1) Setup Phase: 비민감 공용 텍스트로 로컬–서버 임베딩 쌍 생성 후 공간 정렬 함수 학습
(2) Query Phase: 질의 텍스트 → 로컬 임베딩 → 변환 적용 → 근사 임베딩만 서버 전송
정렬 방식 선형 정렬(Least Squares) 및 비선형 정렬(MLP).
과도한 정렬로 인한 보안 위험을 방지하기 위해 유사도 패널티 기반 정규화 항 도입
프라이버시 보호 원리 서버는 원문 텍스트 및 로컬 모델·변환 함수에 접근 불가.
근사 임베딩은 특정 모델의 실제 임베딩 공간에 속하지 않아 Embedding Inversion Attack(EIA)에 강함
서버 수정 여부 불필요 (기존 VDB, 상용 API 그대로 사용 가능)
평가 데이터셋 BEIR benchmark: Natural Questions, Quora, ArguAna, SCIDOCS, SciFact (수천~수백만 문서 규모)
성능 지표 검색 성능: Recall@k /
보안성: Rouge-L, BLEU, Cosine Similarity (복원 공격 평가)
주요 실험 결과 – 성능 Recall@100 기준 성능 저하 1~4% 이내. 동일 프라이버시 수준에서 Split+DP 대비 Recall@20 최대 20~40% 향상
주요 실험 결과 – 보안 EIA 시 Rouge-L 16~30%, BLEU 0.8~4% 수준으로 복원 실패. 매핑 모델 용량 증가 시에도 공격 성공률 제한적
기술적 기여 (1) 암호화·노이즈 중심 접근을 넘어 임베딩 공간 정렬 기반 프라이버시 보호 제시
(2) 의미 보존형 구조적 변환의 우수성 실증
실용적 기여 서버 수정 없이 즉시 적용 가능, 대규모 VDB·RAG·추천 시스템에 범용적으로 활용 가능
적용 가능 영역 Privacy-preserving RAG, 민감 도메인 검색, 추천 시스템, LLM 추론 파이프라인 전반
한계 및 논의 완전한 이론적 프라이버시 보장(DP, 암호화)은 아님. 다만 실용 환경에서 보안–성능 균형 최적화에 초점
핵심 메시지 질의 텍스트를 숨기기 위해 의미를 버리지 않고, 의미 공간을 정렬해 서버 임베딩을 근사함으로써 프라이버시와 검색 성능을 동시에 달성

 

728x90