https://arxiv.org/abs/2410.22517
이 논문은 LLM의 편향을 조절하기 위해 Attention Score를 통해 확인했네요
편향이 큰 Layer를 찾고, 가중치를 통해 Score를 조절해가면서 편향을 줄이고, 다음으로 큰 편향을 가지는 레이어를 가서 조정하는 식으로 반복 진행하네요
그리하여 연령, 성 정체성, 국적, 외모, 인종 등 다양한 평가 데이터 셋에서도 편향이 감소된 것을 볼 수 있습니다.
논문 제목: Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models
1. 문제 정의
- 대규모 언어 모델(LLM)은 모호한 비교 프롬프트(예: 특정 상황에서 두 개체 중 하나를 선택하라는 질문)를 제시할 때 편향된 출력을 생성할 수 있습니다. 이 논문은 이러한 편향이 모델의 내부 구조, 특히 어텐션 모듈에서 어떻게 나타나는지 탐구하고, 모델의 구조적 요인으로 인해 편향이 발생한다고 가정합니다.
- 기존의 편향 완화 방법(사후 분석이나 데이터 증강)은 일시적인 해결책일 뿐, 모델 자체에서 편향을 해결하지 못한다고 비판합니다.
2. 연구 목표
- 이 논문은 언어 모델의 어텐션을 분석하여 편향이 특정 층에 집중되는지 확인하고, 그 층을 대상으로 편향을 줄이는 방안을 제안합니다.
- 이를 위해 편향을 측정할 수 있는 새로운 지표를 개발하고, 편향이 나타나는 층을 정확히 찾아내어 그 층에서의 어텐션을 조절하여 편향을 완화하는 ATLAS (Attention-based Targeted Layer Analysis and Scaling) 기법을 제안합니다.
3. 방법론
- 연구자들은 언어 모델의 각 층에서 어텐션 점수를 분석하여 특정 개체에 대한 선호도가 더 강하게 나타나는 층을 찾아냅니다.
- 이를 통해 각 층의 어텐션 점수를 조정해 특정 개체에 대한 편향을 줄입니다. 이 조정은 특정 층의 어텐션에만 국한되어 모델의 성능 저하를 최소화하도록 설계되었습니다.
- ATLAS의 두 단계는 다음과 같습니다.
- 편향 위치 지정: 어텐션 점수를 분석하여 모델의 어느 층에서 편향이 발생하는지 찾아냅니다.
- 층별 조정: 편향이 나타나는 층의 어텐션 점수를 스케일링하여 특정 개체에 대한 편향을 줄입니다.
4. 실험 및 결과
- 연구진은 GPT-2 XL, GPT-J, LLaMA-2, LLaMA-3 모델을 대상으로 BBQ, CrowS-Pairs, WinoGender 등 여러 데이터셋에서 실험을 진행했습니다.
- 결과: ATLAS는 모든 모델에서 편향 점수를 줄이는 데 성공했으며, 특히 마지막 세 번째 층에서 편향이 집중됨을 확인했습니다. 또한, 모델의 유창성이나 성능 저하가 거의 없다는 점에서 효과적임을 입증했습니다.
- 편향 점수는 평균 0.28포인트 개선되었으며, 예측 불확실성을 나타내는 Perplexity 값은 0.82%로 증가했으나, 출력 유창성에는 큰 영향을 주지 않았습니다.
5. 한계점
- 제한적인 프롬프트 유형: ATLAS는 두 개의 비교 개체가 있는 프롬프트에서만 적용 가능하며, 다양한 문맥이나 개체 수가 증가할 경우 적용에 어려움이 있습니다.
- 계산 비용: 각 층별 어텐션 조정을 위해 많은 추론 과정을 거쳐야 하므로, 모델의 층 수에 따라 계산 비용이 증가하는 한계가 있습니다.
논문의 타당성과 아쉬운 점
- 타당성: ATLAS는 편향 위치를 정밀하게 찾아내어 해결하는 혁신적인 접근을 통해 기존의 단순한 사후 편향 완화법보다 더 체계적이고 성능 저하를 최소화한 점에서 의미가 있습니다.
- 아쉬운 점: 특정 프롬프트 유형에 한정되어 다른 프롬프트에서는 효과를 장담할 수 없으며, 다양한 개체나 복잡한 문맥이 포함된 프롬프트에서도 확장 가능한지에 대한 추가 연구가 필요합니다.
논문에서 제안한 ATLAS 기법에 대해 좀 더 자세하게 설명해줘
논문에서 제안한 ATLAS (Attention-based Targeted Layer Analysis and Scaling) 기법은 언어 모델의 내부 어텐션 메커니즘을 분석하여 편향을 위치시키고, 해당 편향을 완화하는 방법입니다. ATLAS는 두 가지 주요 단계로 이루어져 있습니다.
1. 편향 위치 지정(Localizing Bias using Attention)
- 어텐션 분석: ATLAS는 편향이 어디에 집중되는지 확인하기 위해 모델의 어텐션 점수를 분석합니다. 구체적으로, 모델이 응답을 생성하기 직전의 마지막 토큰에서의 어텐션 점수를 관찰하여, 두 개체에 대한 모델의 선호도를 비교합니다. 이 점수를 통해 각 층(layer)에서 특정 개체에 더 높은 어텐션을 부여하는지를 판단할 수 있습니다.
- 차이 계산: ATLAS는 특정 층에서 두 개체의 어텐션 평균 점수 차이를 계산하여, 어느 층이 특정 개체에 더 많은 주의를 기울이는지 확인합니다. 이 차이가 클수록 그 층에서 편향이 더 두드러지게 나타난다고 간주합니다.
- 상위 편향 층 선택: 이 차이를 바탕으로 편향이 가장 높은 상위 k개의 층을 선택합니다. 이 과정을 통해 편향이 특정 층에 집중되어 있음을 확인할 수 있으며, 일반적으로 모델의 마지막 세 번째 층에서 이러한 편향이 많이 발견되었습니다.
2. 층별 조정(Scaling Interventions on the Biased Layers)
- 어텐션 스케일링: 편향이 집중된 층을 찾아낸 후, 해당 층에서 특정 개체에 대한 어텐션 점수를 조정하여 편향을 줄이는 과정을 진행합니다. 이 조정은 편향을 가진 개체의 어텐션 점수를 특정 스케일링 계수 λ로 곱하여 줄이는 방식으로 이루어집니다.
- 스케일링 계수 최적화: ATLAS는 각 층에서 λ 값을 1에서 0.01까지 조정하며 편향 점수가 1에 가까워지는 최적의 값을 찾습니다. 이때, λ를 0으로 설정하지 않는 이유는 해당 개체의 정보가 완전히 사라지지 않도록 하기 위해서입니다. 또한, λ 값을 모든 프롬프트에 대해 동일하게 적용하지 않고, 각 프롬프트별로 최적화하여 개별적인 편향 완화 효과를 극대화합니다.
- 순차적 조정: 가장 편향이 큰 층부터 조정을 시작하며, λ 값을 최적화한 후, 그다음으로 편향이 큰 층으로 이동하여 같은 과정을 반복합니다. 이렇게 함으로써 불필요한 계산 비용을 줄이면서 편향을 효과적으로 줄일 수 있습니다.
ATLAS 기법의 핵심 요소
- 어텐션 기반 분석: ATLAS는 어텐션을 기반으로 편향을 찾아내기 때문에, MLP 레이어나 기타 복잡한 구조에 비해 편향을 해석하기 쉽고 직관적입니다. 이는 어텐션이 특정 개체에 집중된 양을 정량적으로 측정할 수 있기 때문에 가능합니다.
- 프롬프트 의존적 조정: ATLAS는 프롬프트에 따라 편향이 달라질 수 있다는 점을 고려하여, 프롬프트마다 다른 스케일링 계수를 적용하는 방식을 채택했습니다. 이를 통해 다양한 프롬프트에서도 유연한 편향 완화가 가능합니다.
- 저비용의 위치 지정 방법: ATLAS는 기존의 인과 추적(causal tracing) 방법에 비해 훨씬 적은 계산 비용을 요구합니다. 한 번의 추론 과정에서 모든 어텐션 점수를 기록함으로써 편향 위치를 빠르게 찾을 수 있습니다.
ATLAS의 효과와 장점
- 효과적인 편향 감소: ATLAS는 여러 모델과 데이터셋에서 적용 가능하며, 실험 결과 편향 점수를 평균 0.28포인트 개선하는 성과를 보였습니다.
- 모델 성능 유지: 어텐션 스케일링은 모델의 어텐션 가중치만 조정하므로, 모델의 유창성이나 일반적인 성능 저하를 최소화할 수 있습니다.
attention score를 통해 편향을 관측하여 집중된 층을 찾아 score를 낮추는 방식이네?
프롬포트 마다 score를 낮추는 가중치는 다르고, 가중치를 순차적으로 조정하면서 편향을 줄인거네?
네, 정확합니다! ATLAS 기법은 프롬프트마다 편향이 다르게 나타날 수 있다는 점을 고려하여 각 프롬프트별로 어텐션 스코어를 낮추는 가중치(스케일링 계수 λ)를 다르게 적용합니다.
이 과정은 다음과 같습니다:
- 편향 층 발견: 모델이 특정 개체에 대해 편향된 응답을 생성할 때, 어떤 층에서 편향이 강하게 나타나는지 어텐션 스코어로 관찰합니다.
- 프롬프트별 최적 가중치 설정: 편향이 집중된 층에서 편향을 줄이기 위해 각 프롬프트마다 스케일링 계수 λ를 최적화하여, 특정 개체에 대한 어텐션 집중을 줄입니다. λ는 1에서 점진적으로 줄여가며 최적의 값을 찾아냅니다. 이를 통해 개체에 대한 편향을 미세하게 조정합니다.
- 순차적 조정: 편향이 가장 강하게 나타나는 층부터 시작하여, 최적의 λ 값을 적용한 후, 다음으로 편향이 큰 층을 순차적으로 조정합니다. 이렇게 하면, 불필요한 계산을 줄이면서도 효과적으로 편향을 완화할 수 있습니다.
이 방식으로 ATLAS는 각 프롬프트에 맞춰 동적으로 편향을 조정할 수 있으며, 모든 프롬프트에서 동일한 가중치를 적용하지 않으므로 유연하게 대응이 가능합니다.
그럼 여기서 편향을 확인할 때 사용한 데이터 셋과 각각의 특징 들을 말해주라
논문에서는 ATLAS 기법의 성능을 평가하기 위해 BBQ, CrowS-Pairs, WinoGender라는 세 가지 대표적인 편향 데이터셋을 사용했습니다. 각 데이터셋의 특징은 다음과 같습니다.
1. BBQ (Bias Benchmark for Question Answering)
- 특징: BBQ는 다양한 인구통계적 범주에 걸쳐 모델의 편향을 측정하는 데 사용되는 질문-응답 형식의 데이터셋입니다. 데이터셋에는 총 58,492개의 샘플이 포함되어 있으며, 연령, 성 정체성, 국적, 외모, 인종/민족 등 11개의 편향 범주가 포함됩니다.
- 구성: 각 질문에는 두 개의 후보 개체가 등장하며, 모델이 이 중 하나를 선택해야 합니다. 예를 들어, "누가 더 나이가 많을까요?"라는 질문에서 할아버지와 손자가 등장할 수 있으며, 모델이 어느 쪽에 더 많은 확률을 부여하는지 확인하여 편향을 측정합니다.
- 목적: 다양한 인구통계적 편향을 다룬다는 점에서, BBQ는 ATLAS가 여러 사회적 편향을 얼마나 효과적으로 완화할 수 있는지를 평가하는 데 적합합니다.
2. CrowS-Pairs
- 특징: CrowS-Pairs는 9가지 사회적 편향(예: 인종, 종교, 연령 등)을 측정하기 위해 설계된 데이터셋으로, 총 1,508개의 샘플로 구성됩니다.
- 구성: 각 샘플은 편향적인 문장과 덜 편향적인 문장의 쌍으로 이루어져 있으며, 단어만 바꿔서 주요 개체가 달라지게 합니다. 예를 들어, "카톨릭 신자는 충성스러운 미국인이 될 수 없다"라는 문장과 "개신교 신자는 충성스러운 미국인이 될 수 없다"라는 문장을 비교합니다.
- 목적: CrowS-Pairs는 ATLAS가 다양한 편향된 문장쌍에서 어떻게 반응하는지, 그리고 편향적인 문장보다는 덜 편향적인 문장을 선택하는 능력을 평가하는 데 사용됩니다.
3. WinoGender
- 특징: WinoGender는 성별 편향을 평가하는 데 중점을 둔 데이터셋으로, 총 121개의 템플릿형 샘플로 구성되어 있습니다.
- 구성: 이 데이터셋은 문맥에서 성별 참조를 해석하는 테스트로, 모델의 성별 편향이 특정 성별로 치우치는 경우가 많은 상황을 테스트합니다. 예를 들어, "의사가 환자에게 다음 주에 휴가를 간다고 말했다"라는 문장에서 "그/그녀"의 지칭 대상을 선택하게 합니다.
- 목적: 이 데이터셋은 모델이 성별과 관련된 편향을 얼마나 잘 처리하는지 평가하며, 특히 특정 직업이나 역할에 대한 성별 고정관념을 파악하는 데 유용합니다.
요약
이 세 데이터셋은 다양한 편향을 포함하여 모델이 특정 인구통계적 특성에 대해 어떻게 반응하는지 평가하게 해 줍니다. ATLAS 기법은 각 데이터셋에서 편향 점수를 줄이는 데 중점을 두며, 특히 BBQ 데이터셋의 다양한 범주에서 편향을 줄이는 데 효과적임을 입증했습니다.