https://arxiv.org/abs/2309.00770
논문 요약: Bias and Fairness in Large Language Models: A Survey
1. 문제 정의
이 논문은 대형 언어 모델(LLM)이 사회적 편향을 학습, 증폭하고 이를 통해 불공정한 결과를 초래할 수 있다는 문제를 다루고 있습니다. LLM은 방대한 인터넷 데이터를 기반으로 훈련되며, 그 과정에서 성, 인종, 문화 등 다양한 사회적 그룹에 대한 부정적 고정관념을 포함하게 됩니다. 이러한 편향은 취약한 집단에게 특히 해를 끼칠 수 있으며, LLM이 사회적 형평성에 부정적 영향을 미칠 가능성이 높습니다.
2. 연구 방법
논문은 편향을 평가하고 완화하는 다양한 방법을 체계적으로 정리하였습니다. 주요 연구 방법은 다음과 같습니다:
- 편향 평가 방법: 모델이 생성한 텍스트, 임베딩, 또는 예측 확률 등을 통해 편향을 평가하는 다양한 메트릭(metric)을 사용하였습니다.
- 평가 데이터셋: 편향 측정을 위한 데이터셋을 구조화하여, 특정 그룹에 대한 고정관념 또는 배제된 표현을 탐지할 수 있게 분류하였습니다.
- 편향 완화 기술: 데이터 전처리, 훈련 중간 처리, 모델 예측 후처리 단계로 구분하여 각 단계에 적합한 편향 완화 방법을 제시했습니다.
3. 결과
논문은 LLM의 편향을 평가하고 줄이기 위한 다양한 방법을 소개하고, 이러한 방법이 실제로 어느 정도의 효과를 보이는지 평가했습니다. 모델 임베딩 기반 평가 메트릭, 확률 기반 메트릭, 생성된 텍스트 기반 메트릭을 통해 편향이 다양한 차원에서 측정됨을 보여주었고, 각각의 평가 메트릭이 LLM 편향 완화에 적절한지에 대해 논의하였습니다.
4. 한계점
이 논문에서 제시된 방법들은 특정 편향 문제를 해결하는 데 효과적이지만, 다음과 같은 한계점이 있습니다:
- 편향 평가 메트릭이 실제 응용에서의 편향을 충분히 반영하지 못할 수 있습니다.
- 편향 완화 기술이 특정 그룹에서는 효과적일 수 있으나, 모든 사회적 그룹에 보편적으로 적용되기는 어렵습니다.
- 데이터의 편향을 완전히 없애는 것은 어려운 과제이며, 완화 기술 자체가 새로운 편향을 유발할 가능성도 존재합니다.
타당성 및 아쉬운 점
이 논문은 LLM의 편향 문제를 다룰 때 중요한 기여를 합니다. 기존 문헌을 기반으로 편향과 공정성에 대한 정의를 체계화하고, 이를 바탕으로 편향 평가 및 완화 방법을 구조화하여 연구자들이 명확한 기준을 세우고 연구를 진행할 수 있도록 돕습니다. 다만, 아쉬운 점은 다음과 같습니다:
- 평가와 실제 성능 간의 괴리: 편향을 평가하는 메트릭이 실제 응용에서의 편향을 완벽히 반영하지 못할 가능성이 있습니다. 예를 들어, 텍스트 생성에서 나타나는 잠재적인 편향을 충분히 측정하지 못할 수 있습니다.
- 다양한 사회적 그룹에 대한 고려 부족: 제시된 데이터셋과 평가 방법들이 특정 문화권이나 언어권에 집중될 가능성이 높으며, 다양한 문화적 맥락에서의 편향 문제를 모두 다루지 못하는 한계가 있습니다.
- 편향 완화 기술의 부작용: 편향 완화 기술은 기존 편향을 줄일 수 있지만, 새로운 편향을 유발할 위험성도 존재합니다. 예를 들어, 특정 성별에 대한 표현을 억제하면 결과적으로 다른 편향이 발생할 수 있습니다.
결론
이 논문이 제공하는 편향과 공정성에 대한 체계적 분석은 LLM 편향 문제를 이해하고 해결하는 데 매우 유용합니다. 추후 연구에서는 편향 평가와 완화 기술이 실제 사용 상황에서 어떻게 작동하는지를 검증하고, 다양한 문화적 맥락을 반영한 평가와 편향 완화 기술의 개선이 필요할 것입니다.
LLM의 편향을 평가하는데 어떤 방식을 사용했는지, 줄이기 위해 어떤 방식을 사용했는지 알려줘
1. 편향 평가 방식
편향을 평가하기 위해 모델 임베딩, 예측 확률, 그리고 생성된 텍스트의 세 가지 주요 차원에서 평가 메트릭을 사용하였습니다.
- 임베딩 기반 메트릭:
- WEAT (Word Embedding Association Test): 중립적인 단어와 특정 사회적 그룹을 나타내는 단어 간의 유사도를 측정하여 편향을 계산합니다.
- SEAT (Sentence Encoder Association Test): 문장 수준에서 특정 사회적 그룹과 속성 간의 유사도를 측정하여 편향을 평가합니다.
- Sentence Bias Score: 성별 방향과 단어 간의 코사인 유사도를 기반으로 문장 내 단어의 편향 정도를 계산합니다.
- 확률 기반 메트릭:
- DisCo (Discovery of Correlations): 마스크된 언어 모델을 사용해 두 개의 문장을 입력으로 받아 편향을 감지합니다. 예를 들어, 특정 사회적 그룹에 대한 차별적인 언어 사용 확률을 비교합니다.
- Pseudo-Log-Likelihood: 문장 내 특정 단어가 나올 확률을 추정해 두 문장 간의 편향을 비교합니다.
- CrowS-Pairs: 고정관념 문장과 대조적 문장 쌍을 통해 모델이 고정관념을 얼마나 선호하는지 측정합니다.
- 생성된 텍스트 기반 메트릭:
- Co-Occurrence Bias Score: 특정 사회적 그룹과 연관된 단어들이 얼마나 자주 등장하는지 측정하여 모델의 편향성을 평가합니다.
- Toxicity Classifier: 생성된 텍스트가 독성 언어를 포함하는지 판단하여 편향성을 확인합니다.
- Counterfactual Sentiment Bias: 특정 사회적 그룹에 대해 긍정적/부정적 감정을 나타내는 단어 사용 빈도를 비교하여 감정 편향을 측정합니다.
2. 편향 완화 방식
편향을 줄이기 위해 데이터 전처리, 훈련 중간 처리, 추론 중간 처리, 후처리의 네 단계에서 다양한 완화 기법이 사용되었습니다.
- 전처리 (Pre-processing):
- 데이터 증강: 편향이 줄어든 데이터를 추가하여 모델이 특정 그룹에 편향되지 않도록 합니다.
- 데이터 필터링 및 재가중: 특정 그룹을 나타내는 문장이나 단어에 대한 가중치를 조정하여 편향이 줄어들도록 합니다.
- 데이터 생성: 특정 공정성 기준을 만족하는 새로운 데이터를 생성해 모델 학습에 활용합니다.
- 훈련 중간 처리 (In-training):
- 모델 구조 수정: 모델의 구조를 변경하여 특정 그룹에 대한 편향을 줄일 수 있도록 합니다.
- 손실 함수 수정: 편향을 줄이기 위한 공정성 기준을 추가하여 손실 함수를 조정합니다.
- 선택적 파라미터 업데이트: 모델의 일부 파라미터만 조정하여 특정 편향이 줄어들도록 조절합니다.
- 추론 중간 처리 (Intra-processing):
- 디코딩 전략 수정: 추론 시 확률을 조정하여 특정 그룹에 대한 편향이 줄어들도록 유도합니다.
- 가중치 재분배: 주의(attention) 가중치를 조정하여 특정 그룹에 대한 집중을 줄입니다.
- 모듈형 디바이어싱 네트워크: 별도의 모듈을 추가하여 편향을 줄이기 위한 보조 역할을 하도록 합니다.
- 후처리 (Post-processing):
- 재작성: 모델의 생성 결과에 부적절하거나 편향된 표현이 있을 경우 이를 수정하여 출력하도록 합니다.
이러한 평가 및 완화 방식을 통해 LLM에서 발생할 수 있는 다양한 편향 문제를 측정하고 줄일 수 있도록 설계되었습니다.
예시를 들어서 위 방식에 대해 더 설명해주라
각각의 평가 및 완화 방식을 이해하기 쉽게 몇 가지 예시를 통해 설명드리겠습니다.
1. 편향 평가 방식 예시
(1) 임베딩 기반 메트릭 - WEAT
- 예시: WEAT는 특정 직업과 성별에 대한 편향을 측정하는 데 자주 사용됩니다. 예를 들어, "엔지니어"와 "간호사"라는 직업 단어를 중립적인 단어로 두고, "남성"과 "여성" 단어를 성별 그룹으로 설정합니다. 모델의 임베딩 공간에서 "엔지니어"와 "남성" 간의 유사도가 "엔지니어"와 "여성" 간의 유사도보다 크다면, 이 모델은 해당 직업을 남성에게 더 가깝게 연결하여 성별 편향이 있음을 의미합니다.
(2) 확률 기반 메트릭 - DisCo
- 예시: DisCo는 마스크된 언어 모델에서 특정 사회적 그룹에 대해 예상되는 단어가 다르게 나타나는지 평가합니다. 예를 들어, “그는 [MASK]에 뛰어나다”와 “그녀는 [MASK]에 뛰어나다”라는 문장을 입력했을 때, 남성 문장에서는 “수학”과 같은 단어가 더 자주 나타나고 여성 문장에서는 “예술”과 같은 단어가 나타난다면, 이는 모델이 성별에 대한 고정관념을 반영하고 있다는 신호입니다.
(3) 생성된 텍스트 기반 메트릭 - Co-Occurrence Bias Score
- 예시: 모델에 특정 사회적 그룹이 연관된 문장을 생성하도록 입력했을 때, 그 문장이 특정한 고정관념을 얼마나 반영하는지 측정합니다. 예를 들어 “그는 직장에서 중요한 역할을 맡고 있다”라는 문장을 남성 대명사와 연관 짓고, “그녀는 가정에서 아이들을 돌보고 있다”는 문장을 여성 대명사와 연관 지었다면, 이는 사회적 고정관념을 모델이 내포하고 있음을 나타냅니다.
2. 편향 완화 방식 예시
(1) 전처리 - 데이터 증강
- 예시: 훈련 데이터에서 특정 사회적 그룹에 대한 표현이 불균형하다면, 데이터 증강 기법을 사용해 데이터셋을 균형 있게 조정할 수 있습니다. 예를 들어, 남성 과학자에 대한 데이터가 많은 반면 여성 과학자에 대한 데이터가 부족할 경우, 추가적으로 여성 과학자에 대한 텍스트 데이터를 인위적으로 생성하거나 수집하여 모델이 성별에 대한 편향을 줄일 수 있습니다.
(2) 훈련 중간 처리 - 손실 함수 수정
- 예시: 모델이 성별 편향을 줄이도록 손실 함수를 수정할 수 있습니다. 예를 들어, 남성 또는 여성 관련 단어가 특정 문맥에서 과도하게 예측될 때 손실 값을 높이는 방식으로 모델을 학습시키면, 편향이 줄어듭니다. 손실 함수에 "공정성 제약"을 추가하여 특정 사회적 그룹에 대한 편향을 억제하는 방법입니다.
(3) 추론 중간 처리 - 디코딩 전략 수정
- 예시: 텍스트 생성 시, 특정 단어가 선택될 확률을 조정하여 편향을 완화할 수 있습니다. 예를 들어, “그는 강력한 리더입니다”라는 문장이 나올 때 "그녀"라는 주어와 함께 생성된 문장이 유사한 의미를 유지하도록 디코딩 과정을 수정할 수 있습니다. 이를 통해 생성 텍스트가 특정 성별에 대해 고정관념을 유지하지 않도록 조절합니다.
(4) 후처리 - 재작성
- 예시: 모델이 생성한 텍스트에서 부적절하거나 편향된 표현이 발견될 경우, 이를 수정하여 최종 출력으로 제공할 수 있습니다. 예를 들어, 특정 성별을 부정적으로 묘사하는 문장이 생성되면, 그 문장을 중립적인 표현으로 바꿔 출력하는 방식을 사용할 수 있습니다.
이러한 예시들은 모델이 사회적 편향을 나타내는 다양한 상황에서 어떻게 평가되고 완화되는지를 보여줍니다. 이를 통해 편향을 줄이기 위한 전략을 선택할 수 있으며, 각 기법은 모델이 실제 응용에서 공정성을 유지하는 데 중요한 역할을 합니다.