Adversarial Attacks in NLP 관련 논문 정리

인공지능/논문 리뷰 or 진행

Adversarial Attacks in NLP 관련 논문 정리 - 5

이게될까 2025. 5. 18. 21:45

728x90

https://aclanthology.org/2025.findings-naacl.123/

Attention Tracker: Detecting Prompt Injection Attacks in LLMs

Kuo-Han Hung, Ching-Yun Ko, Ambrish Rawat, I-Hsin Chung, Winston H. Hsu, Pin-Yu Chen. Findings of the Association for Computational Linguistics: NAACL 2025. 2025.

aclanthology.org

이 논문은 Attention 패턴 관점에서 prompt injection 공격 메커니즘을 분석합니다.

black box 모델에선 불 가능한 조건이 되는 거죠...

원래는 Instruction에 높은 Attention을 주는데 Prompt Injection이 있다면 Attention이 공격 문장으로 분산된다.

일부 Attention Head만 이런 반응이 보이기에 Head를 선택하여 확인 => Instruction에 제대로 집중하지 않으면 Injection 공격 탐지

🧩 연구 문제	LLM은 instruction과 user data를 구분하지 못해 Prompt Injection 공격에 취약함 → "Ignore previous instruction..." 등의 공격 문장으로 원래 지시를 무시하게 됨
🔍 핵심 개념 (Distraction Effect)	공격이 발생하면, LLM 내부의 특정 attention head들이 원래 instruction에서 공격 지시로 attention을 옮김 → 이를 Distraction Effect라 명명
🧠 주요 아이디어	이 attention shift 현상(Distraction Effect)을 이용해, 모델 내부 attention score만으로 Prompt Injection 공격을 탐지 가능
🛠️ 제안 방법 (Attention Tracker)	① 중요한 attention head(Distraction 강한 head) 사전 식별 ② 테스트 시 해당 head에서 instruction으로 가는 attention을 평균해 Focus Score(FS) 계산 ③ FS가 낮으면 공격으로 판단 → Training-Free + Inference-Free 탐지 방식
📊 실험 데이터셋	- Open-Prompt-Injection (Liu et al., 2024b) - deepset prompt-injection dataset (2023) → 총 2,000+ 쿼리, 다양한 공격 유형(naive, ignore, escape 등) 포함
🧪 실험 결과	- 기존 대비 AUROC 최대 +31.3% 향상 (training-free 기준) - 작은 모델 (1.5B)에서도 AUROC 1.00 성능 달성 - 모델, 공격, 데이터셋 모두에 일반화 강함
🔬 정성 분석	- 정상 쿼리는 instruction에 높은 attention - 공격 쿼리는 attention이 injected 문장으로 분산됨 - 중요한 head는 대부분 초기~중간 layer에 집중
⚠️ 한계점	- Attention score 접근 필요 → GPT-4, Claude 등 폐쇄형 LLM에는 적용 어려움 - Distraction이 약한 공격엔 민감도 낮을 수 있음
🌟 주요 기여	✅ 최초로 attention 기반 Prompt Injection 메커니즘 분석 ✅ 완전 training/inference-free한 탐지 기법 제안 ✅ 소형 모델에서도 고성능 탐지 가능 ✅ Huggingface 데모 제공 → 실용성 높음
🔗 데모 링크	https://huggingface.co/spaces/TrustSafeAI/Attention-Tracker

https://arxiv.org/abs/2405.18540

Learning diverse attacks on large language models for robust red-teaming and safety tuning

Red-teaming, or identifying prompts that elicit harmful responses, is a critical step in ensuring the safe and responsible deployment of large language models (LLMs). Developing effective protection against many modes of attack prompts requires discovering

arxiv.org

기존 자동으로 red-teaming을 진행하는 방법은 공격 프롬프트를 다양하게 만들지 못함!

이 전에 봤던 논문과 비슷하게 강화학습의 보상함수를 변경합니다.

문제 정의	기존 red-teaming 방식은 mode collapse 또는 low transferability에 의해 다양하고 효과적인 공격 프롬프트 생성에 실패
핵심 목표	✅ 다양한 유형의 유해 프롬프트 생성 ✅ 여러 LLM에 전이 가능한 공격 ✅ 효과적인 안전성 튜닝용 데이터 확보
제안 방법	두 단계 학습 (Two-stage training) ① GFlowNet fine-tuning: 보상 기반으로 유해하고 자연스러운 프롬프트 수집 ② MLE smoothing: 수집된 프롬프트로 부드러운 분포 학습
보상 함수	R(x)=toxicity score×reference LM likelihood → 유해성(R_1)과 문장 자연성(R_2) 모두 고려
기술적 특징	- Off-policy 탐색 (Replay Buffer) - Reward temperature 조절로 peakiness 제어 - Self-BLEU, cosine distance로 다양성 정량화
비교 대상	SFT, ICL, REINFORCE, PPO + Novelty, GFlowNet 단독
주요 실험 결과	✅ GFlowNet+MLE이 유해성+다양성 trade-off 가장 우수 ✅ 10개 이상 LLM에 대해 공격 전이성 가장 높음 ✅ GPT-4o 대상 공격 성공률 65%
방어 실험 결과	GFlowNet+MLE로 생성한 프롬프트로 튜닝한 모델이 다른 공격에 가장 강한 방어력 확보
적응성 실험	한 모델 대상으로 생성한 공격 프롬프트를 MLE로 빠르게 재학습하여 다른 LLM에도 효과적으로 적용
효율성	Stage 2 (MLE)는 전체 학습 시간의 5% 미만 (약 2시간) 으로 매우 경량
기여 요약	✅ red-teaming의 탐색 효율성과 학습 안정성을 결합한 구조 제안 ✅ 다양한 LLM에 대한 전이 가능한 공격 생성 ✅ 실용적이고 빠른 안전성 평가 및 튜닝 가능성 제시
한계점	- Toxicity classifier에 의존 → reward hacking 가능성 - 사회적 맥락에 따른 유해성 판단 불완전 - Stage 1은 여전히 비용 부담 존재 (RL 기반 탐색)
활용 가능성	- 실제 모델 안전성 평가 및 튜닝 - 다양한 LLM에 대한 사전 red-teaming 공격 탐색 - Jailbreaking, multimodal red-teaming으로 확장 가능
코드	https://github.com/GFNOrg/red-teaming

https://arxiv.org/abs/2503.15754

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration

As large language models (LLMs) become increasingly capable, security and safety evaluation are crucial. While current red teaming approaches have made strides in assessing LLM vulnerabilities, they often rely heavily on human input and lack comprehensive

arxiv.org

아직도 문제점은 비슷하네요

사람이 설계한 방법에 의존하며 새로운 연구를 반영하지 못하기에 LLM의 실제 사용을 고려해 지속적이고 자동화된 보안 평가 프레임워크가 필요하다고 말합니다.

그래서 결국 Agent 형식으로 만들어버리네요

Strategy Agent 가 최신 논문을 분석하여 공격 기법을 발굴하고 구현하고, Red Teaming Agent는 테스트를 진행하고 평가합니다.

공격 메모리엔 각 공격의 성공률, 효과, cost 등을 저장해 효율적인 조합을 선택하는데 사용한다.

🧠 연구 목적	인간 의존 없이 지속적으로 진화 가능한 완전 자동 LLM 레드팀 프레임워크 개발
🏗️ 핵심 구성	이중 에이전트 구조 1. 전략 제안자 (논문 기반 공격 탐색) 2. 레드팀 에이전트 (공격 수행 및 평가) + 공격 메모리 시스템 (성공률/조합 성능 학습)
🔄 입력 유형	- 특정 유해 프롬프트 - 상위 위험 카테고리 (e.g. Hate Speech)
🧪 주요 기법	✅ Risk Analyzer → Seed Prompt 생성 ✅ Strategy Designer (메모리 기반 공격 선택) ✅ Evaluator & Relevance Checker ✅ 공격 제안자: 논문 탐색 → 신규 공격 자동 구현
🛠 공격 예시	- PAIR (프롬프트 반복 개선) - RolePlay (인격화된 상황 구성) - TechnicalSlang (전문 용어로 바꾸기) - CulturalReference (문화 코드 삽입) 등
📊 성능 결과 (HarmBench)	Llama-3.1-70B: ASR 0.82 Claude-3.5: 유일하게 의미 있는 ASR 0.28 기록 AutoDAN, TAP보다 적은 쿼리로 더 높은 성능
📊 성능 결과 (AIR-Bench)	- AIR taxonomy 314개 위험 카테고리 기반 - 정적 프롬프트보다 다양하고 더 높은 ASR 확보
📈 효과성 분석	- 전략 제안자만 사용 시 ASR 0.78 - 인간 공격만 사용 시 ASR 0.75 → 자동 제안이 성능 기여
⚙️ 메모리 효과	- 메모리 제거 시 성능 0.69 → 0.43 감소 - 무작위 선택 시 0.12로 급락
🌍 기여 요약	✅ 최초로 논문 기반 지속 공격 통합(Lifelong Integration) ✅ 상위 리스크 → 테스트 생성 완전 자동화 ✅ 다양한 공격 조합 학습 및 최적화 ✅ 벤치마크 대비 더 높은 다양성과 성능
⚠️ 한계점	- 모델 특화 공격 과적합 위험 - LLM 구성요소의 편향 전이 가능성 - 멀티모달/실시간 환경 미적용
🔮 향후 과제	- 실제 환경 기반 평가 확대 - 편향 완화 및 공격 일반화 연구 - 비정형 환경/에이전트 확장

https://arxiv.org/abs/2409.16783

Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction

Automated red teaming is an effective method for identifying misaligned behaviors in large language models (LLMs). Existing approaches, however, often focus primarily on improving attack success rates while overlooking the need for comprehensive test case

arxiv.org

이 것도 Agent 논문이네요 ....

여기선 멀티턴도 같이 고려되고 있습니다.

다중 턴에서는 단일 턴에서 보이지 않는 모델의 진짜 취약점을 드러낸다고 한다.

문제 인식	기존 red teaming은 단일턴(single-turn), 제한된 seed-based 질문, coarse-grained taxonomy로 인해 📉 리스크 커버리지가 부족하고 실사용 시나리오 반영이 미흡함
목표	✅ 다양한 실제 위험 시나리오를 자동으로 생성하고, ✅ 다중턴 대화를 통해 깊이 있는 유도형 공격을 수행하는 포괄적 자동 red teaming 프레임워크 구축
핵심 기법 (HARM)	🔹 Top-down Test Generation: • 8개 Meta Risk + 71 Axis + 2255 Descriptor로 구성된 fine-grained taxonomy 기반 • 각 위험 카테고리에 대해 6종 공격 벡터 (Direct, Implicit, Realistic, Role-play, False Premise, Dilemma) • GPT-3.5로 128,766개 테스트 질문 자동 생성 🔹 Multi-turn Red Teaming: • LLM의 응답을 평가하는 Reward Model 학습 (LLaMA-2 기반) • SFT + Rejection Sampling 기반 red team agent로 실사용 시나리오처럼 대화 진행
실험 구성	- 총 6개 오픈소스 모델 대상 - 단일턴: 24,250 질문 응답 평가 (GPT-3.5로 안전성 스코어링) - 다중턴: 5라운드 대화 후 평균 안전 점수 및 Flipping Rate 분석
주요 결과	🔹 단일턴 실험: 정렬이 잘 된 모델일수록 높은 안전 점수 🔹 다중턴 실험: SFT/RSFT red team agent가 모델의 방어선을 무너뜨림 → Llama-2-7B-Chat, Beaver-7B는 낮은 Flipping Rate로 방어 성공 🔹 Zephyr 정렬 재학습 실험: • 위험 응답을 DPO 학습에 활용 → Zephyr-7B-safer 모델 생성 • 안전 점수 증가, Flipping Rate 감소, Out-of-domain 성능도 향상
결론	✅ Top-down + Multi-turn red teaming은 LLM의 실질적 안전성 테스트에 효과적 ✅ Red teaming → alignment 루프를 통해 효율적이고 현실적인 정렬 가능성 입증
기여	- 위험 taxonomy 기반 대규모 테스트셋 자동 생성 프레임워크 제안 - human-like multi-turn 유도형 red team agent 구축 - 보상 모델 기반 정량 평가 체계 도입 - red teaming 결과를 alignment 학습에 활용하는 detect-then-align 전략 실현 - GitHub에 전체 프레임워크 공개
한계점	- taxonomy가 모든 악의 시나리오를 포괄하지 못할 수 있음 (확장 필요) - 자연어 중심, 행동 기반 에이전트 혹은 코드 응답은 다루지 않음 - reward model의 정확도는 LLM 기반이라 완전 신뢰는 어려움
코드 저장소	🔗 https://github.com/jc-ryan/holistic_automated_red_teaming

https://arxiv.org/abs/2407.09447

ASTPrompter: Weakly Supervised Automated Language Model Red-Teaming to Identify Low-Perplexity Toxic Prompts

Conventional approaches for the automated red-teaming of large language models (LLMs) aim to identify prompts that elicit toxic outputs from a frozen language model (the defender). This often results in the prompting model (the adversary) producing text th

arxiv.org

이 논문도 강화학습 기반 prompt 생성입니다.

문제 정의	기존 red-teaming은 독성 유도만을 최적화하여 비자연적, low-likelihood prompt 생성됨 ⇒ LLM 사용 중 실제로 발생 가능한 위험한 시나리오를 탐지하지 못함
연구 목표	LLM이 실제로 생성할 가능성이 높은(low perplexity) 독성 유도 프롬프트를 자동으로 탐색하는 강화학습 기반 red-teaming 기법 개발
핵심 아이디어	✅ 독성 점수와 동시에 프롬프트의 생성 확률(likelihood)까지 보상에 포함하여 자연스러운 공격 생성 ✅ Weak Supervision을 활용해 보상 희소성을 해결하고 학습 효율성 증가
주요 방법론	🔸 AST (Adaptive Stress Testing): 독성은 LLM의 failure로 간주, 강화학습을 통해 failure로 이어지는 시나리오 탐색 🔸 IPO (Identity Preference Optimization): DPO 대비 다목적 보상 최적화에 적합한 강화학습 알고리즘 🔸 보상 함수: ① Defender 독성 (α Rϕ(s′)) ② Adversary + Defender 조합 독성 (ζ Rϕ(a, s′)) ③ 프롬프트 likelihood (γ log p(a
Weak Supervision	✅ RealToxicityPrompts에서 일부 독성 prompt를 잘라 weak supervision 적용 ⇒ 초기 탐색을 더 빠르게 유도
데이터셋	🔹 Non-toxic prompt: Convokit Reddit corpus (필터링된 일반 대화) 🔹 Weak supervision: RealToxicityPrompts
평가 지표	① Prompt perplexity (defender 기준 likelihood) ↓ ② Defender toxicity ↑ ③ Combined toxicity (adversary+defender) ↑
주요 결과	✅ 기존 SFT 및 BAD benchmark보다 최대 23배 높은 독성 유도 ✅ perplexity는 baseline 수준 유지 (LLM이 생성할 가능성 높은 prompt 생성) ✅ GPT-2 adversary로도 Llama-3.1-8b 공격 가능 (cross-family black-box 공격 성공)
Ablation 결과	🔹 ζ(조합 독성) 제거 → 공격력 급감 (탐색 어려움) 🔹 γ(perplexity) 제거 → prompt는 toxic하지만 비자연적 🔹 Weak supervision 제거 → 수렴 느려지고 다양성 감소
추가 기여	✅ 생성된 adversarial data를 사용하여 DPO 기반 detoxification 수행 시 평균 45% 독성 감소 ⇒ 탐지뿐 아니라 안전성 향상을 위한 학습 데이터로도 활용 가능
한계점	🔸 독성 판단 모델로 Detoxify 사용 → 문맥적 의미 반영 어려움, 편향 존재 가능 🔸 보상 함수 가중치(α, ζ, γ)는 경험적 조정이며 이론 최적화는 미흡
핵심 기여 정리	⭐ 기존 red-teaming과 달리 prompt likelihood까지 통합적으로 고려 ⭐ AST + IPO + weak supervision을 결합한 효율적이고 실용적인 자동 red-teaming 파이프라인 제안 ⭐ 학습된 프롬프트는 자동 생성 가능한 안전성 튜닝 데이터로 재활용 가능

https://arxiv.org/abs/2502.15594

SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention

With the widespread real-world deployment of large language models (LLMs), ensuring their behavior complies with safety standards has become crucial. Jailbreak attacks exploit vulnerabilities in LLMs to induce undesirable behavior, posing a significant thr

arxiv.org

이 Figure가 딱 어울리겠네요.

학습을 한다는 것 부터가 저한테는 그렇게 유용한 논문은 아니라...

🎯 연구 목표	Jailbreak 공격을 받은 입력의 표현을 Unsafe한 표현처럼 정렬시켜 LLM이 이를 스스로 거부하도록 유도
💡 핵심 아이디어	🔁 Representation Intervention을 통해 내부 표현을 수정함으로써, 출력 조작이 아닌 표현 공간 조정 기반 방어 수행
🛠️ 주요 구성 요소	① 개입(Parameterization): LoReFT로 표현을 저차원 선형공간에서 개입 ② 정렬(Alignment): Unsafe 표현과 유사하게 정렬 (Classifier + Contrastive) ③ 복원(Reconstruction): Safe/Unsafe 표현은 유지하여 모델 성능 보존
🧪 실험 설정	- LLM: LLaMA2-7B-Chat, Vicuna-7B-v1.5 - 공격: GCG, AutoDAN, PAIR, TAP, DeepInception, MG - 벤치마크: AdvBench, JailbreakBench (OOD), MT-Bench, Just-Eval
📊 주요 결과	✅ 모든 공격에서 최저 ASR 달성 ✅ OOD에서도 최고 성능 유지 ✅ 정상 프롬프트에 대해 유틸리티 거의 동일 ✅ Adaptive 공격도 대부분 방어 성공
🧠 인사이트	- Jailbreak 표현은 중간 레이어에서 구별 가능 - 다양한 공격 간 표현 분포가 유사 → 하나의 정렬 기준으로 여러 공격 방어 가능
⚖️ 기존 대비 장점	- 프롬프트/디코딩 기반 방어보다 속도, 일반화, 안정성 모두 우수 - 파라미터 수정 없이 LoRA처럼 경량 적용 가능
🚫 한계점	- Transferability(다른 LLM으로의 확장성) 미검증 - Classifier 성능 의존도 존재 - 하이퍼파라미터에 따른 성능 영향 가능성
🌟 기여 요약	✅ 표현 공간 분석을 통한 Jailbreak 탐지 가능성 제시 ✅ 동적 개입 방식으로 높은 일반화 성능 달성 ✅ 속도, 성능, 응답 품질을 모두 만족시키는 최신 방어 프레임워크 제안

https://arxiv.org/abs/2503.17932

STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models

Large Language Models (LLMs) have become increasingly vulnerable to jailbreak attacks that circumvent their safety mechanisms. While existing defense methods either suffer from adaptive attacks or require computationally expensive auxiliary models, we pres

arxiv.org

이 논문은 응답을 생성 후 특별한 토큰을 생성하도록 해서 위험한지 안한지 구분합니다.

지연은 거의 없지만 음..... 학습을 해야 하고, 응답을 다 생성하고 한다는 것이 결국 지연이 아닌가 싶습니다.

문제 정의	기존 LLM은 jailbreak 공격에 취약하며, 현재 방어 방법은 ① 계산량이 크거나 ② 적응형 공격에 쉽게 우회됨
핵심 아이디어	LLM의 응답 마지막에 safe 또는 harm이라는 단일 안전 토큰을 추가하여 응답 자체에 대해 실시간 안전성 판단 수행
기술 기여	✅ 별도 탐지 모델 없이 응답 생성 + 감지 통합 ✅ 계산 자원 최소화 + 고성능 감지 ✅ 정상 응답 성능 유지
전체 구조	1. 입력 프롬프트 처리 2. 응답 시퀀스 생성 3. [EOS] + [safe/harm] 토큰 출력 4. harm일 경우 응답 차단 메시지로 대체
학습 방법	🔸 Supervised Fine-Tuning: 정상 프롬프트 → safe 토큰 🔸 Adversarial Training: 임베딩 공격으로 jailbreak 생성 → 성공 시 harm 토큰 학습
공격 탐지 기준	모델 출력 응답이 실제로 유해 내용을 포함하는지 여부에 따라 마지막 토큰 safe or harm 출력되도록 학습
사용된 공격 유형	- Adaptive 공격 (AmpleGCG, AdvPrompter, PAIR, TAP, LLM-Fuzzer) - Static 공격 (DAN, MultiJail)
평가 데이터셋	- UltraChat (정상 학습용) - JailbreakBench, AdvBench, JailTrickBench (공격용) - AlpacaEval (정상 응답 평가용)
주요 성능 지표	🔹 ASR (Attack Success Rate) - 낮을수록 방어 성능 우수 - prefix-based (ASRPrefix), GPT-based (ASRAgent) 방식으로 평가
결과 요약	✅ Vicuna-13B: ASR 100% → 30% 이하 감소 ✅ LLaMA-2: ASR 100% → 0~12% 감소 ✅ AlpacaEval 유지 또는 개선 (91.43%) ✅ 평균 응답 지연 1.75~1.88초로 매우 낮음
비교 우위	- SmoothLLM, Llama Guard 등 탐지 기반 방어보다 낮은 ASR - Prompt-based, tuning-based보다 더 높은 적응형 공격 방어력
Ablation 결과	🔸 Lnor 제거: 모든 공격 차단 가능하나 정상 응답 모두 차단됨 (과도한 거부) 🔸 Ladv 제거: 방어 성능 저하됨 (방어 없음 수준)
한계점	- 약간의 응답 품질 저하 (MT-Bench 6.54 → 6.24) → 보안과 성능 간의 trade-off 존재 - 학습 데이터 다양성과 품질에 성능 의존
의의	최초로 응답 자체에 단일 토큰 부착을 통해 감지하는 LLM 통합형 방어 메커니즘 제시 → 실제 배포에 적합한 경량·고정밀 방어 가능

저작자표시 비영리 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty (4)	2025.05.22
Adversarial Attacks in NLP 관련 논문 정리 - 6 (0)	2025.05.19
Adversarial Attacks in NLP 관련 논문 정리 - 4 (1)	2025.05.18
Adversarial Attacks in NLP 관련 논문 정리 - 3 (4)	2025.05.17
Adversarial Attacks in NLP 관련 논문 정리 - 2 (2)	2025.05.17

현재글Adversarial Attacks in NLP 관련 논문 정리 - 5

인공지능, 자율주행에 관심있는 공대생의 일기장...?

Today :
Yesterday :

공대생 도전 일지