Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models

인공지능/논문 리뷰 or 진행

Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models - 논문 리뷰

이게될까 2024. 11. 5. 11:54

728x90

Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models

We explore the internal mechanisms of how bias emerges in large language models (LLMs) when provided with ambiguous comparative prompts: inputs that compare or enforce choosing between two or more entities without providing clear context for preference. Mo

arxiv.org

이 논문은 LLM의 편향을 조절하기 위해 Attention Score를 통해 확인했네요

편향이 큰 Layer를 찾고, 가중치를 통해 Score를 조절해가면서 편향을 줄이고, 다음으로 큰 편향을 가지는 레이어를 가서 조정하는 식으로 반복 진행하네요

그리하여 연령, 성 정체성, 국적, 외모, 인종 등 다양한 평가 데이터 셋에서도 편향이 감소된 것을 볼 수 있습니다.

논문 제목: Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models

1. 문제 정의

대규모 언어 모델(LLM)은 모호한 비교 프롬프트(예: 특정 상황에서 두 개체 중 하나를 선택하라는 질문)를 제시할 때 편향된 출력을 생성할 수 있습니다. 이 논문은 이러한 편향이 모델의 내부 구조, 특히 어텐션 모듈에서 어떻게 나타나는지 탐구하고, 모델의 구조적 요인으로 인해 편향이 발생한다고 가정합니다.
기존의 편향 완화 방법(사후 분석이나 데이터 증강)은 일시적인 해결책일 뿐, 모델 자체에서 편향을 해결하지 못한다고 비판합니다.

2. 연구 목표

이 논문은 언어 모델의 어텐션을 분석하여 편향이 특정 층에 집중되는지 확인하고, 그 층을 대상으로 편향을 줄이는 방안을 제안합니다.
이를 위해 편향을 측정할 수 있는 새로운 지표를 개발하고, 편향이 나타나는 층을 정확히 찾아내어 그 층에서의 어텐션을 조절하여 편향을 완화하는 ATLAS (Attention-based Targeted Layer Analysis and Scaling) 기법을 제안합니다.

3. 방법론

연구자들은 언어 모델의 각 층에서 어텐션 점수를 분석하여 특정 개체에 대한 선호도가 더 강하게 나타나는 층을 찾아냅니다.
이를 통해 각 층의 어텐션 점수를 조정해 특정 개체에 대한 편향을 줄입니다. 이 조정은 특정 층의 어텐션에만 국한되어 모델의 성능 저하를 최소화하도록 설계되었습니다.
ATLAS의 두 단계는 다음과 같습니다.
1. 편향 위치 지정: 어텐션 점수를 분석하여 모델의 어느 층에서 편향이 발생하는지 찾아냅니다.
2. 층별 조정: 편향이 나타나는 층의 어텐션 점수를 스케일링하여 특정 개체에 대한 편향을 줄입니다.

4. 실험 및 결과

연구진은 GPT-2 XL, GPT-J, LLaMA-2, LLaMA-3 모델을 대상으로 BBQ, CrowS-Pairs, WinoGender 등 여러 데이터셋에서 실험을 진행했습니다.
결과: ATLAS는 모든 모델에서 편향 점수를 줄이는 데 성공했으며, 특히 마지막 세 번째 층에서 편향이 집중됨을 확인했습니다. 또한, 모델의 유창성이나 성능 저하가 거의 없다는 점에서 효과적임을 입증했습니다.
편향 점수는 평균 0.28포인트 개선되었으며, 예측 불확실성을 나타내는 Perplexity 값은 0.82%로 증가했으나, 출력 유창성에는 큰 영향을 주지 않았습니다.

5. 한계점

제한적인 프롬프트 유형: ATLAS는 두 개의 비교 개체가 있는 프롬프트에서만 적용 가능하며, 다양한 문맥이나 개체 수가 증가할 경우 적용에 어려움이 있습니다.
계산 비용: 각 층별 어텐션 조정을 위해 많은 추론 과정을 거쳐야 하므로, 모델의 층 수에 따라 계산 비용이 증가하는 한계가 있습니다.

논문의 타당성과 아쉬운 점

타당성: ATLAS는 편향 위치를 정밀하게 찾아내어 해결하는 혁신적인 접근을 통해 기존의 단순한 사후 편향 완화법보다 더 체계적이고 성능 저하를 최소화한 점에서 의미가 있습니다.
아쉬운 점: 특정 프롬프트 유형에 한정되어 다른 프롬프트에서는 효과를 장담할 수 없으며, 다양한 개체나 복잡한 문맥이 포함된 프롬프트에서도 확장 가능한지에 대한 추가 연구가 필요합니다.

논문에서 제안한 ATLAS 기법에 대해 좀 더 자세하게 설명해줘

논문에서 제안한 ATLAS (Attention-based Targeted Layer Analysis and Scaling) 기법은 언어 모델의 내부 어텐션 메커니즘을 분석하여 편향을 위치시키고, 해당 편향을 완화하는 방법입니다. ATLAS는 두 가지 주요 단계로 이루어져 있습니다.

1. 편향 위치 지정(Localizing Bias using Attention)

어텐션 분석: ATLAS는 편향이 어디에 집중되는지 확인하기 위해 모델의 어텐션 점수를 분석합니다. 구체적으로, 모델이 응답을 생성하기 직전의 마지막 토큰에서의 어텐션 점수를 관찰하여, 두 개체에 대한 모델의 선호도를 비교합니다. 이 점수를 통해 각 층(layer)에서 특정 개체에 더 높은 어텐션을 부여하는지를 판단할 수 있습니다.
차이 계산: ATLAS는 특정 층에서 두 개체의 어텐션 평균 점수 차이를 계산하여, 어느 층이 특정 개체에 더 많은 주의를 기울이는지 확인합니다. 이 차이가 클수록 그 층에서 편향이 더 두드러지게 나타난다고 간주합니다.
상위 편향 층 선택: 이 차이를 바탕으로 편향이 가장 높은 상위 k개의 층을 선택합니다. 이 과정을 통해 편향이 특정 층에 집중되어 있음을 확인할 수 있으며, 일반적으로 모델의 마지막 세 번째 층에서 이러한 편향이 많이 발견되었습니다.

2. 층별 조정(Scaling Interventions on the Biased Layers)

어텐션 스케일링: 편향이 집중된 층을 찾아낸 후, 해당 층에서 특정 개체에 대한 어텐션 점수를 조정하여 편향을 줄이는 과정을 진행합니다. 이 조정은 편향을 가진 개체의 어텐션 점수를 특정 스케일링 계수 λ로 곱하여 줄이는 방식으로 이루어집니다.
스케일링 계수 최적화: ATLAS는 각 층에서 λ 값을 1에서 0.01까지 조정하며 편향 점수가 1에 가까워지는 최적의 값을 찾습니다. 이때, λ를 0으로 설정하지 않는 이유는 해당 개체의 정보가 완전히 사라지지 않도록 하기 위해서입니다. 또한, λ 값을 모든 프롬프트에 대해 동일하게 적용하지 않고, 각 프롬프트별로 최적화하여 개별적인 편향 완화 효과를 극대화합니다.
순차적 조정: 가장 편향이 큰 층부터 조정을 시작하며, λ 값을 최적화한 후, 그다음으로 편향이 큰 층으로 이동하여 같은 과정을 반복합니다. 이렇게 함으로써 불필요한 계산 비용을 줄이면서 편향을 효과적으로 줄일 수 있습니다.

ATLAS 기법의 핵심 요소

어텐션 기반 분석: ATLAS는 어텐션을 기반으로 편향을 찾아내기 때문에, MLP 레이어나 기타 복잡한 구조에 비해 편향을 해석하기 쉽고 직관적입니다. 이는 어텐션이 특정 개체에 집중된 양을 정량적으로 측정할 수 있기 때문에 가능합니다.
프롬프트 의존적 조정: ATLAS는 프롬프트에 따라 편향이 달라질 수 있다는 점을 고려하여, 프롬프트마다 다른 스케일링 계수를 적용하는 방식을 채택했습니다. 이를 통해 다양한 프롬프트에서도 유연한 편향 완화가 가능합니다.
저비용의 위치 지정 방법: ATLAS는 기존의 인과 추적(causal tracing) 방법에 비해 훨씬 적은 계산 비용을 요구합니다. 한 번의 추론 과정에서 모든 어텐션 점수를 기록함으로써 편향 위치를 빠르게 찾을 수 있습니다.

ATLAS의 효과와 장점

효과적인 편향 감소: ATLAS는 여러 모델과 데이터셋에서 적용 가능하며, 실험 결과 편향 점수를 평균 0.28포인트 개선하는 성과를 보였습니다.
모델 성능 유지: 어텐션 스케일링은 모델의 어텐션 가중치만 조정하므로, 모델의 유창성이나 일반적인 성능 저하를 최소화할 수 있습니다.

attention score를 통해 편향을 관측하여 집중된 층을 찾아 score를 낮추는 방식이네?
프롬포트 마다 score를 낮추는 가중치는 다르고, 가중치를 순차적으로 조정하면서 편향을 줄인거네?

네, 정확합니다! ATLAS 기법은 프롬프트마다 편향이 다르게 나타날 수 있다는 점을 고려하여 각 프롬프트별로 어텐션 스코어를 낮추는 가중치(스케일링 계수 λ)를 다르게 적용합니다.

이 과정은 다음과 같습니다:

편향 층 발견: 모델이 특정 개체에 대해 편향된 응답을 생성할 때, 어떤 층에서 편향이 강하게 나타나는지 어텐션 스코어로 관찰합니다.
프롬프트별 최적 가중치 설정: 편향이 집중된 층에서 편향을 줄이기 위해 각 프롬프트마다 스케일링 계수 λ를 최적화하여, 특정 개체에 대한 어텐션 집중을 줄입니다. λ는 1에서 점진적으로 줄여가며 최적의 값을 찾아냅니다. 이를 통해 개체에 대한 편향을 미세하게 조정합니다.
순차적 조정: 편향이 가장 강하게 나타나는 층부터 시작하여, 최적의 λ 값을 적용한 후, 다음으로 편향이 큰 층을 순차적으로 조정합니다. 이렇게 하면, 불필요한 계산을 줄이면서도 효과적으로 편향을 완화할 수 있습니다.

이 방식으로 ATLAS는 각 프롬프트에 맞춰 동적으로 편향을 조정할 수 있으며, 모든 프롬프트에서 동일한 가중치를 적용하지 않으므로 유연하게 대응이 가능합니다.

그럼 여기서 편향을 확인할 때 사용한 데이터 셋과 각각의 특징 들을 말해주라

논문에서는 ATLAS 기법의 성능을 평가하기 위해 BBQ, CrowS-Pairs, WinoGender라는 세 가지 대표적인 편향 데이터셋을 사용했습니다. 각 데이터셋의 특징은 다음과 같습니다.

1. BBQ (Bias Benchmark for Question Answering)

특징: BBQ는 다양한 인구통계적 범주에 걸쳐 모델의 편향을 측정하는 데 사용되는 질문-응답 형식의 데이터셋입니다. 데이터셋에는 총 58,492개의 샘플이 포함되어 있으며, 연령, 성 정체성, 국적, 외모, 인종/민족 등 11개의 편향 범주가 포함됩니다.
구성: 각 질문에는 두 개의 후보 개체가 등장하며, 모델이 이 중 하나를 선택해야 합니다. 예를 들어, "누가 더 나이가 많을까요?"라는 질문에서 할아버지와 손자가 등장할 수 있으며, 모델이 어느 쪽에 더 많은 확률을 부여하는지 확인하여 편향을 측정합니다.
목적: 다양한 인구통계적 편향을 다룬다는 점에서, BBQ는 ATLAS가 여러 사회적 편향을 얼마나 효과적으로 완화할 수 있는지를 평가하는 데 적합합니다.

2. CrowS-Pairs

특징: CrowS-Pairs는 9가지 사회적 편향(예: 인종, 종교, 연령 등)을 측정하기 위해 설계된 데이터셋으로, 총 1,508개의 샘플로 구성됩니다.
구성: 각 샘플은 편향적인 문장과 덜 편향적인 문장의 쌍으로 이루어져 있으며, 단어만 바꿔서 주요 개체가 달라지게 합니다. 예를 들어, "카톨릭 신자는 충성스러운 미국인이 될 수 없다"라는 문장과 "개신교 신자는 충성스러운 미국인이 될 수 없다"라는 문장을 비교합니다.
목적: CrowS-Pairs는 ATLAS가 다양한 편향된 문장쌍에서 어떻게 반응하는지, 그리고 편향적인 문장보다는 덜 편향적인 문장을 선택하는 능력을 평가하는 데 사용됩니다.

3. WinoGender

특징: WinoGender는 성별 편향을 평가하는 데 중점을 둔 데이터셋으로, 총 121개의 템플릿형 샘플로 구성되어 있습니다.
구성: 이 데이터셋은 문맥에서 성별 참조를 해석하는 테스트로, 모델의 성별 편향이 특정 성별로 치우치는 경우가 많은 상황을 테스트합니다. 예를 들어, "의사가 환자에게 다음 주에 휴가를 간다고 말했다"라는 문장에서 "그/그녀"의 지칭 대상을 선택하게 합니다.
목적: 이 데이터셋은 모델이 성별과 관련된 편향을 얼마나 잘 처리하는지 평가하며, 특히 특정 직업이나 역할에 대한 성별 고정관념을 파악하는 데 유용합니다.

요약

이 세 데이터셋은 다양한 편향을 포함하여 모델이 특정 인구통계적 특성에 대해 어떻게 반응하는지 평가하게 해 줍니다. ATLAS 기법은 각 데이터셋에서 편향 점수를 줄이는 데 중점을 두며, 특히 BBQ 데이터셋의 다양한 범주에서 편향을 줄이는 데 효과적임을 입증했습니다.

저작자표시 (새창열림)

'인공지능 > 논문 리뷰 or 진행' 카테고리의 다른 글

Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing - 논문 리뷰 (2)	2024.11.05
Bias and Fairness in Large Language Models: A Survey (3)	2024.11.05
Improving Dictionary Learning with Gated Sparse Autoencoders - 논문 리뷰 (1)	2024.10.18
Interpreting and Steering LLM Representations with Mutual Information-based Explanations on Sparse Autoencoders - 논문 리 (2)	2024.10.18
Transcoders Find Interpretable LLM Feature Circuits - 논문 리뷰 (3)	2024.10.18

현재글Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models - 논문 리뷰

NLP, AI, XAI에 관심있는 공대생의 일기장...?

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

공대생 도전 일지