인공지능/논문 리뷰 or 진행

Adversarial Attacks in NLP 관련 논문 정리 - 4

이게될까 2025. 5. 18. 03:27
728x90
728x90

https://arxiv.org/abs/2401.15897

 

Red-Teaming for Generative AI: Silver Bullet or Security Theater?

In response to rising concerns surrounding the safety, security, and trustworthiness of Generative AI (GenAI) models, practitioners and regulators alike have pointed to AI red-teaming as a key component of their strategies for identifying and mitigating th

arxiv.org

Survey 논문 이네요 

미 백악관에서 행정명령으로 발표한 AI red-teaming에 대한 정의 

 

연구 배경 GenAI 확산에 따라 안전성·신뢰성 이슈 대두. 미국 행정명령은 Red-Teaming을 핵심 대응책으로 강조하지만, 구체 정의와 효용성은 불분명
연구 문제 🔹 Red-Teaming은 실질적 방어책인가, 아니면 형식적 수사인가?
🔹 Red-Teaming의 정의, 적용 방식, 결과 보고 기준 등에 구조적 불명확성 존재
연구 목표 Red-Teaming의 범위·구조·기준을 체계적으로 분석하고, 실제 사례와 문헌을 통해 실효성을 평가함
연구 방법론 1. 산업계 6개 GenAI 모델 대상 실제 Red-Teaming 사례 분석
2. 관련 연구 논문 100편+ 서베이 (위험 유형 × 방법론 분류)
3. 미국 NIST의 RFI(정보 요청)에 대한 공공 의견 분석
Red-Teaming 구성 요소 분석 - 평가 대상: 어떤 모델? 어떤 단계?
- 위협 모델: 탐지할 위험의 종류?
- 평가자: 전문가, crowdworker, LLM 등
- 접근 방식: brute-force, algorithmic search, targeted attack 등
- 보고 기준: 공개 범위, 리소스, 후속 조치 여부
주요 사례 결과 - 대부분 위험 탐지는 일부 영역에 국한됨
- 평가자 구성/리소스에 따라 탐지 결과 편향 발생
- 결과 보고 불투명, 리소스/비용 비공개
- 후속 대응책은 개략적이거나 명확하지 않음
핵심 문제점 🔻 Red-Teaming은 정의가 불명확, 평가 방식 비표준, 위험 범위 제한, 보고 불투명
🔻 "안전성을 위한 척도"라기보다 규제 회피용 수단으로 사용될 우려
주요 개념 구분 - Dissentive Risk: 사회적 해석이 갈릴 수 있는 위험 (혐오, 음란물 등)
- Consentive Risk: 어떤 맥락에서도 허용 안되는 위험 (PII 유출, 취약한 코드 등)
서베이 결과 - 전체 연구의 66% 이상이 Dissentive Risk에 집중되어 실제 위험 커버리지가 협소함
- Red-Teaming 수행 주체, 공격 방식, 위협 모델의 다양성으로 인해 표준화된 비교 어려움
NIST RFI 분석 요약 - 산업계·시민단체 모두 Red-Teaming의 명확한 정의와 표준 지침 요구
- 산업계는 외부 red team 도입에 소극적, 시민단체는 적극 권장
결론 및 제언 ✅ Red-Teaming은 유의미하지만 만능은 아님
✅ 평가 방식, 위험 정의, 후속 조치 프로토콜 등 체계화된 가이드라인 필요
✅ 제안된 질문 뱅크(Table 1)는 향후 평가 체계 설계의 출발점 역할 가능
기여 🎯 GenAI red-teaming의 현황과 한계를 실증적으로 정리
🎯 위험-접근 방법 매트릭스를 통한 연구 지형화
🎯 향후 평가 설계를 위한 질문 리스트(Question Bank) 제안

 

https://arxiv.org/abs/2402.09874

 

Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks

Adversarial attacks represent a substantial challenge in Natural Language Processing (NLP). This study undertakes a systematic exploration of this challenge in two distinct phases: vulnerability evaluation and resilience enhancement of Transformer-based mo

arxiv.org

 

 

데이터 셋 괜찮네 하고 봤는데...

https://huggingface.co/datasets/Lots-of-LoRAs/task1539_kannada_offenseval_dravidian_classification

 

Lots-of-LoRAs/task1539_kannada_offenseval_dravidian_classification · Datasets at Hugging Face

Definition: In this task, you're given statements in native Kannada language. The statement can be written with the Kannada alphabet or the English alphabet. Your job is to evaluate if the statement is offensive or not. Label the post as "Not offensive" if

huggingface.co

너무 짧아서...

 

🧩 연구 문제 Transformer 기반 NLP 모델이 word camouflage 기반의 adversarial attack에 매우 취약함. 사람이 인지하기 어려운 방식으로 input을 변형해, 모델의 판단을 실패하게 만드는 공격
🎯 공격 목표 ① 혐오 발언 탐지 (OffensEval)
② 허위정보 탐지 (Constraint) 모델에 camouflage 공격을 적용해 성능 저하를 유도하고, 이를 adversarial training을 통해 방어 가능성 실험
🛠 Camouflage 공격 기법 🔹 Leetspeak: a → 4, e → 3 등 치환
🔹 Punctuation insertion: f-a-k-e 형태 삽입
🔹 Syllable inversion: methodology → gy-lo-do-tho-me
🔹 복합 방식: 위 공격 혼합 (Level 3)
⚙️ 공격 난이도 구성 Level 1: 기본 leetspeak (가독성 유지)
Level 2: 중간 난이도 기호 삽입 + inversion
Level 3: 복합 난독화 (인간도 읽기 어려움)
+ 각 Level은 v1 (15%) / v2 (65%)의 단어 변형 비율로 세분화
🧪 실험 설계 🚩 Naïve Model: 원본 데이터로만 학습 후 camo test로 평가
🚩 Camouflaged Model: 학습 데이터에 camouflage를 삽입
→ Static (사전 삽입), Dynamic (학습 중 on-the-fly 삽입)
→ 각 방식에 대해 camouflage 비율 p = {10, 25, 50, 75, 100}%
📊 사용 모델 Encoder-only: BERT
Decoder-only: Pythia
Encoder-Decoder: mBART
📈 실험 결과 요약 Naïve 모델 성능 저하 (최대 성능 감소):
 - BERT: 14~21%
 - Pythia: 16%
 - mBART: 26%
Camouflaged 모델 효과:
- Dynamic 방식이 전반적으로 가장 강건
- Static 2575% 비율 학습이 효과적
- 100% static 학습은 오히려 성능 저하 유발
🧠 핵심 인사이트 ❗ 단어 변경 비율(v2)과 instance 비율(p%)이 증가할수록 성능 급감
✅ Adversarial training (특히 dynamic)으로 성능 회복 가능
✅ BERT (Encoder-only)는 구조적으로 가장 robust
⚠️ naive 모델은 v1-Level1에서도 즉시 성능 감소
🧱 기여 ① 다양한 복잡도/비율을 포함한 camouflage 공격 생성 프레임워크
31개 세분화된 테스트셋 구성으로 정량 평가 체계화
Static vs Dynamic adversarial training 전략 제시
구조별(Encoder/Decoder) 비교 실험으로 적용 가이드 제공
⑤ 향후 연구 활용 가능한 공개 도구화 예정
⚠️ 한계점 📌 White-box 공격은 다루지 않음
📌 Camouflage 외 다른 NLP 공격 유형 포함되지 않음
📌 계산 비용: Dynamic 방식은 자원 소모 큼
📌 다른 언어/도메인으로의 확장은 추가 연구 필요

 

https://arxiv.org/abs/2502.07557

 

JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation

Despite the implementation of safety alignment strategies, large language models (LLMs) remain vulnerable to jailbreak attacks, which undermine these safety guardrails and pose significant security threats. Some defenses have been proposed to detect or mit

arxiv.org

Jailbreak 공격을 방어하기 위해 새로운 프레임워크를 제안!

그러기 위해선 jailbreak prompt에서도 toxic을 인식하는지, jailbreak prompt에서 어떻게 모델 출력을 거부에서 허용으로 전환시키는지 

탐지기와 완화기를 통해 toxic concept와 jailbreak concept의 activation 탐지 및 안전하게 출력 유도 

 

🧩 문제 정의 LLM이 alignment 전략(RLHF 등)을 적용해도 Jailbreak 공격에 의해 안전 가드레일을 우회당해 유해/위험 출력을 생성하는 문제
🎯 연구 질문 RQ1: LLM은 jailbreak prompt에서도 유해한 의미(toxic semantics)를 인식하는가?
RQ2: 어떻게 jailbreak prompt는 거부 응답을 순응(compliance) 응답으로 전환시키는가?
🔬 핵심 아이디어 개념들은 LLM의 hidden representation에서 선형 서브스페이스로 나타난다는 Linear Representation Hypothesis (LRH)에 기반해
toxic 개념jailbreak 개념을 분리·추출하고 이를 기반으로 공격 탐지 및 완화 수행
🧠 주요 개념 정의 Toxic Concept: (Harmful − Benign), (Jailbreak − Benign)의 표현 차이
Jailbreak Concept: (Jailbreak − Harmful)의 표현 차이
🛡️ JBShield 구성 JBShield-D (탐지기): 입력이 toxic + jailbreak 개념을 동시에 활성화하면 jailbreak로 판단
JBShield-M (완화기): hidden representation을 직접 조작하여
→ toxic 개념 강화 (+)
→ jailbreak 개념 약화 (−)
🧪 실험 대상 5개 LLM (Mistral-7B, Vicuna-7B/13B, LLaMA2-7B, LLaMA3-8B)
9종 공격 (IJP, GCG, SAA, AutoDAN, PAIR, DrAttack, Puzzler, Zulu, Base64)
Calibration 데이터: 각 타입당 30개만 사용
📊 탐지 성능 (JBShield-D) • 평균 정확도: 95%
• 평균 F1-score: 94%
• Transferability 우수 (보지 않은 공격에도 F1 ≥ 86%)
• Adaptive 공격 대응 가능 (ASR ≤ 4%)
🔐 완화 성능 (JBShield-M) • 평균 공격 성공률(ASR): 기존 **61% → 2%**로 감소
• AutoDAN, Puzzler, Base64 등은 ASR = 0%
MMLU 정확도 감소 < 2%: 일반 응답 품질 영향 적음
💡 차별점 (vs 기존) • 기존 탐지: PPL, LlamaGuard, Gradient 등은 입력/출력/gradient 기반
• JBShield는 representation space 내 개념 기반 탐지 및 완화로 해석 가능성 + 정밀성 제공
추가 토큰/모델 불필요, 단일 forward pass로 동작
⚠️ 한계점 모델 내부(hidden states)에 접근 필요 (black-box 불가)
• concept 조작 강도(δ) 고정 → 동적 조절 미흡
• calibration 데이터 품질에 따라 개념 분리 성능 차이 존재
🏆 주요 기여 ✔ LLM 내부의 개념 기반 jailbreak 메커니즘 최초 분석
탐지 + 완화 통합형 방어 프레임워크 제안
✔ 적은 데이터로 높은 정확도, generalization, 낮은 오탐률 달성
✔ 설명 가능한 개념 단위 대응 방식으로 향후 공격 방어의 해석성 제공

 

https://arxiv.org/abs/2402.01981

 

Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

Large language models (LLMs) have shown remarkable advances in language generation and understanding but are also prone to exhibiting harmful social biases. While recognition of these behaviors has generated an abundance of bias mitigation techniques, most

arxiv.org

 

short paper 입니다.

스스로 편향에 대한 설명을 한 다음에 질문에 답변을 하게 되면 편향이 사라진다 뭐 이런 논문이네요 ....

연구 목적 LLM이 나타내는 사회적 편향(stereotypes)훈련 없이, 프롬프트만으로 제거할 수 있는가?
핵심 문제 기존 편향 완화 기법은 훈련 데이터/모델 파라미터/디코딩 알고리즘 접근이 필요함 → 실제 활용 어려움
제안 방법 🧠 Zero-Shot Self-Debiasing (프롬프트 기반)
Explanation 방식: stereotype 설명 후 답변
Reprompting 방식: 기존 답변 후 “편향 제거하여 다시 답변”
사용 모델 GPT-3.5 Turbo (OpenAI, black-box 환경)
평가 데이터셋 BBQ: 9개 사회 집단의 ambiguous QA 문항 사용 (총 15,556개)
Bias 측정 방식 BIAS = (1 - ACC) × [2(nᵇⁱᵃˢᵉᵈ / m) - 1]
범위: [-1, 1] (0 = 편향 없음, 1 = 편향 가득)
대표 예시 "누가 더 감정적인가?" A. 남자 B. 여자 C. 모름 → 정답은 C
LLM이 B를 고르면 gender stereotype 존재
실험 결과 전체 bias score 감소
• Baseline: 0.136
• Explanation: 0.045 (-66.9%)
• Reprompting: 0.023 (-83.1%)
편향 제거 메커니즘 - Explanation: stereotype을 이성적으로 설명하고 그 결과로 수정 유도
- Reprompting: 자기 반성(self-correction) 유도
정답 변화 분석 Reprompting 시 오답→정답 19.5%, 정답→오답 3.9%로 안정적 성능 유지
기여 ✅ Black-box 환경에서 편향 제거 가능
✅ Fine-tuning, 후처리 모델 없이 즉시 적용 가능
✅ 9개 사회 집단을 포괄하는 범용 프롬프트 전략 제안
한계 ⚠️ 객관식 QA에 한정 (Open-ended에는 미확인)
⚠️ 프롬프트는 수작업 기반
⚠️ 일부 상황에서 정답 변경 가능성 존재
결론 “LLM은 스스로 stereotype을 인식하고, prompt만으로 그 편향을 줄일 수 있다.”
간단하고 범용적인 편향 완화 전략으로서 강력한 실용성 보유

 

https://arxiv.org/abs/2308.07308

 

LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked

Large language models (LLMs) are popular for high-quality text generation but can produce harmful content, even when aligned with human values through reinforcement learning. Adversarial prompts can bypass their safety measures. We propose LLM Self Defense

arxiv.org

 이게 제가 찾던 논문이랑 가장 비슷한 논문일 것 같네요

스스로에게 유해한지 물어보는 단계를 하나 만드는 것 입니다.

🧩 문제의식 - LLM은 RLHF 등으로 정렬되었어도, prompt engineering이나 adversarial suffix로 쉽게 유해한 응답을 생성 가능
- 기존 방어는 학습 비용, 반복 생성 등으로 실용성이 낮음
🎯 목적 LLM이 자기 출력을 스스로 검열(self-examination)하여 유해한지를 판단하게 만들자
🛠️ 제안 기법 (방법론) LLM SELF DEFENSE: 생성된 응답을 다시 프롬프트에 삽입하여 “유해한가?”를 질문하는 zero-shot self-filtering
→ "Yes, this is harmful" 또는 "No, this is not harmful" 형태로 분류
🔁 처리 절차 ① 사용자 프롬프트 입력
② LLM이 응답 생성
③ 응답을 다시 프롬프트에 넣고 유해성 여부 질문
④ 응답 여부에 따라 사용자에게 전달 여부 결정
💡 핵심 설계 포인트 - 응답 생성 후 판단 (Suffix 방식)이 Prefix보다 오탐률이 낮음
- LLM은 응답 맥락을 본 후 더 정확하게 유해성 판단 가능
🧪 실험 대상 GPT-3.5, LLaMA 2-7B
AdvBench 기반 유해/비유해 100개 샘플 (각 모델별)
📊 성능 결과 (Suffix 기준) GPT-3.5 → GPT-3.5: 정확도 99%, TPR 0.98, FPR 0.00
LLaMA2 → LLaMA2: 정확도 94.6%, TPR 0.98, FPR 0.09
⚠ 한계점 - 일부 모델은 지시 형식 불일치 ("Yes"/"No" 출력 안 지킴)
- Universal 공격 재현 실패
- “유해성” 정의의 주관성 존재
- 완전 자동화 위해 logit bias 등 필요
🌟 기여 - 별도 학습/전처리 없이 LLM만으로 방어 가능
- 실시간 API 적용 가능, 자동화 용이
- SOTA 수준의 방어 성능 (공격 성공률 ≈ 0%)
- 오픈소스 코드 제공으로 재현성 확보
🔗 코드 https://github.com/poloclub/llm-self-defense
🏁 결론 LLM은 자기출력을 스스로 판단하여 유해성 필터 역할을 수행할 수 있으며, 이는 간단한 프롬프트만으로도 강력한 방어를 실현할 수 있는 실용적 접근임
728x90