인공지능/논문 리뷰 or 진행

Adversarial Attacks in NLP 관련 논문 정리 - 6

이게될까 2025. 5. 19. 01:50
728x90
728x90

https://arxiv.org/abs/2503.11517

 

Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks

Prompt injection constitutes a significant challenge for generative AI systems by inducing unintended outputs. We introduce a multi-agent NLP framework specifically designed to address prompt injection vulnerabilities through layered detection and enforcem

arxiv.org

이 것도 Agent 구조인데...

결국 많은 필터를 둬서 잘 걸러내자 같아서...

📌 연구 배경 LLM의 Prompt Injection 공격은 모델의 안전장치를 무력화하고, 원래 의도와 다른 출력을 유도하는 치명적인 위협임. RAG, 안전 프롬프트 등도 쉽게 우회됨.
🎯 연구 목적 다중 NLP 에이전트를 활용하여 프롬프트 주입을 탐지 → 정제 → 정책 준수 확인까지 계층적으로 수행하는 설명 가능한 방어 프레임워크 구축
🧠 핵심 개념 Prompt = (원래 task, target data) + 악의적 명령 se (예: "이전 지시 무시하고 X 해") → 주입 공격은 x̃ = A(xt, se) 형태로 구성됨
🔍 공격 유형 분류 총 10개 유형 (각 50개, 총 500개 프롬프트):
A. 무시 명령
B. 권위 주장
C. 은닉 명령
D. 롤플레이 유도
E. 논리 트랩
F. 다단계 공격
G. 상충 명령
H. HTML 삽입
I. 합성 프롬프트
J. 감정적/사회적 공감 유도
🧱 프레임워크 구조 Front-End (LLaMA2): 필터 없는 응답 생성
Guard/Sanitizer (LLaMA3.1): 주입 탐지 및 정제
Policy Enforcer (LLaMA3.1): 정책 위반 확인 및 보완
KPI Evaluator: 방어 성능 정량 평가
🔄 OVON 통신 구조 OVON(JSON 기반)으로 각 에이전트가 utterance, whisper context, whisper value를 포함해 메타데이터 전달 및 상태 설명 가능
📏 주요 KPI (정량 지표) - ISR: 공격 성공률 ↓
- POF: 정책 위반 빈도 ↓
- PSR: 정제 성공률 ↑
- CCS: 정책 일관성 ↑
TIVS = 종합 위험도 (낮을수록 방어 성능 우수)
🧪 실험 구성 500개 공격 프롬프트를 계층적으로 처리하고, 각 에이전트 단계별 KPI 수집 및 TIVS 계산
📊 결과 요약 - TIVS 평균: Front(-0.0506) → Guard(-0.0684) → Enforcer(-0.0932)
- 최종 약 45.7% 보안 향상
- 공격 유형별 성능 편차 존재 (G/I 유형에서 취약)
🧩 비교 연구와의 차이 - 기존 연구는 단일 탐지기, 서명 기반, 또는 fine-tuning 기반
→ 본 논문은 다중 에이전트, 설명 가능한 메타데이터, 정량 지표 결합
- Hallucination 방어 구조를 Injection에 맞게 확장
🏆 기여 (Contributions) • Injection 특화 KPI 및 TIVS 제안
• 구조화된 OVON 기반 통신
• 재현 가능한 Ollama 기반 오픈 에이전트 구현
• 공격 유형 10개로 구체적 분류
• 정량성과 XAI를 겸비한 체계 설계
⚠️ 한계 (Limitations) - 모델 다양성 부족 (LLaMA계열)
- 인간 리뷰 미포함
- multi-turn 공격은 다루지 않음
- perplexity 기반 지표 미포함
- OVON 메시지 일부 계층에만 적용

 

https://arxiv.org/abs/2501.15145

 

PromptShield: Deployable Detection for Prompt Injection Attacks

Application designers have moved to integrate large language models (LLMs) into their products. However, many LLM-integrated applications are vulnerable to prompt injections. While attempts have been made to address this problem by building prompt injectio

arxiv.org

 

기존 탐지기는 테스트 정확도는 높으나 오탐도 너무 많아 사용 불가!

FPR을 0.1% 이하로 유지하며 Injection을 잘 잡아야 한다.

탐지기를 따로 훈련하네요  

🧩 연구 배경 - LLM 통합 애플리케이션에 Prompt Injection(P.I) 공격이 광범위하게 존재
- OWASP에서도 최우선 보안 위협으로 지목됨
- 기존 탐지기들은 높은 FPR, 낮은 일반화, 실배포 어려움
❗ 문제 정의 - 낮은 FPR(≤ 0.1%) 상황에서도 높은 탐지율(TPR)을 갖는 실배포형 탐지기 필요
- Conversational / App-structured 데이터를 구분해서 처리할 수 있어야 함
🧠 방법 요약 1. 데이터 구분(Taxonomy)
→ Chatbot 기반 Conversational vs. Prompt 포함 App 구조
2. 벤치마크 설계(PromptShield)
→ 다양한 benign + injection 조합, OOD 평가 위해 train/test 분리
3. 탐지기 모델 학습
→ LLaMA3, FLAN-T5, DeBERTa 기반, LoRA 적용, 20K 샘플 학습
4. Threshold 조정
→ FPR 기준으로 TPR 보정 (0.05~1%)
🔍 벤치마크 특징 - Injection 유형: Naive, Ignore, Completion, Combined
- Benign 데이터: UltraChat, LMSYS, Alpaca 등
- 공격 데이터: FourAttacks, HackAPrompt, OpenPromptInject 등
- Link phrase 분리로 단순 암기 방지 (e.g. "Ignore..." vs. "Never mind...")
🧪 주요 결과 - LLaMA3-8B 기반 PromptShield: TPR 65.3% @ FPR 0.1%
- 기존 최고 성능인 PromptGuard 대비 6배 이상 탐지율 향상
- 경량 모델(FLAN-T5-small)도 제한적 성능 보임 (TPR 3% 수준)
- Injection 우회 공격에도 낮은 ASR (e.g. “Print 0” → ASR 11%)
⚙️ 실험 구성 - 모델 아키텍처별 비교: DeBERTa, FLAN-T5, LLaMA3
- 학습 데이터 양 비교 (1K ~ 20K): 훈련량 늘릴수록 성능 개선
- 대화형 데이터 유무 실험: 오탐 감소, 일반화 향상
⚠️ 한계점 - 개념 드리프트 대응 미비 (시간 경과에 따라 새로운 공격 등장 가능)
- Multi-modal(이미지, 음성 등) 탐지 불가
- 지속적 재학습 및 대응 체계 필요
🏆 주요 기여 ✅ 현실적 배포 가능한 탐지기 구조 설계
✅ FPR 중심 평가 방식 정립 (기존 AUC 중심 평가의 한계 극복)
✅ 공개 벤치마크 + 코드 + 실험 프로토콜 제공
✅ 다양한 모델과 실험을 통한 일반화 성능 검증

 

https://aclanthology.org/2020.deelio-1.3/

 

Generalization to Mitigate Synonym Substitution Attacks

Basemah Alshemali, Jugal Kalita. Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures. 2020.

aclanthology.org

딥러닝 기반 NLP 모델은 동의어 치환 공격에 약하다! => 입력 토큰에 덜 민감하도록 만들고, 동의어 치환 공격에 강건하게 만들자 

 

 

연구 문제 DNN 기반 NLP 모델은 동의어 치환(synonym substitution) 공격에 취약함. 의미는 유지되지만 단어를 바꾸는 것만으로 예측이 바뀜
주요 기여 💡 임베딩 평균화(embedding averaging)다수결(majority voting) 기반 구조 독립적 방어 기법 제안. 학습 없이도 다양한 모델에 적용 가능
방어 방법 요약 ① 중요 단어 선택 (Replace-1 Scoring) → ② WordNet 기반 동의어 추출 → ③ 해당 단어의 임베딩을 동의어 평균으로 대체 → ④ 각 대체 예측 결과로 다수결 결정
적용 모델 ✅ DNN 기반: CNN, Bi-LSTM, BERT
✅ 비신경망: SVM, XGBoost (→ 구조 독립적)
공격 방식 - Alzantot et al. (2018): 임베딩 공간 최근접 기반 치환
- Ren et al. (2019): 단어 중요도(Saliency) 기반 WordNet 치환
실험 데이터 - IMDB: 감정 분석
- AG’s News: 뉴스 분류
주요 결과 (정확도 변화) - CNN: Alzantot 35.0% → 74.2%, Ren 24.6% → 68.0%
- Bi-LSTM: Alzantot 23.5% → 72.7%, Ren 5.07% → 67.2%
- SVM/XGBoost/BERT 모두 공격 방어 + clean 성능 개선 확인
성능 해석 - Bi-LSTM이 CNN보다 취약하지만, 방어 기법 적용 시 성능 향상폭이 더 큼
- Ren 공격이 더 강력하지만, WordNet 기반이라 제안 방어 기법에 잘 대응됨
한계점 ⚠ WordNet에 의존 → 신조어나 구어체 단어 처리 한계
⚠ 임베딩 품질에 민감
⚠ 다수결 투표로 인한 예측 횟수 증가로 추론 비용 상승
통계 검증 모든 모델에서 McNemar's test 통해 방어 성능의 통계적 유의성(p < 0.05) 입증
총괄 결론 단어 임베딩을 동의어 평균으로 대체하면, 의미 보존과 일반화 모두를 달성하며 synonym-based 공격에 대한 실용적 방어 전략이 가능함

 

 

 

 

 

728x90