인공지능/논문 리뷰 or 진행

Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing - 논문 리뷰

이게될까 2024. 11. 5. 15:08
728x90
728x90

https://arxiv.org/html/2212.10678v2

 

Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing

In practice, given a job, we provide a prompt x:=(x1,..,xl)x:=(x_{1},..,x_{l})italic_x := ( italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , . . , italic_x start_POSTSUBSCRIPT italic_l end_POSTSUBSCRIPT ) instructing a language model to generate text abo

arxiv.org

 

이 논문에서는 모델에 변형이나 fine-tuning을 가하지 않고 프롬프트 설계만을 통해 편향을 완화하려는 노력을 기울였습니다. 프롬프트에 성별 편견을 가지지 말라는 지침을 다양한 추상화 수준으로 입력하여 편향 완화 효과를 실험했고, 특정 추상화 수준에서 효과가 있는 것을 확인했습니다.

오류 가능성은 있지만, 직업별 성별 편향을 체계적으로 측정할 수 있는 새로운 벤치마크를 제안하고, 이를 통해 프롬프트 기반 편향 완화의 가능성을 처음으로 제시한 연구라는 점에서 중요합니다.

 

 

 

 

 

 

 

논문 요약 및 분석

1. 논문 개요

이 논문은 대형 언어 모델(LLM)에서 나타나는 직업과 관련된 성별 편향을 다루며, 이를 측정하고 제로샷 디바이어싱(zero-shot debiasing) 방법을 제안합니다. 기존 연구들이 다양한 편향을 인식하고 제거하려고 했으나, 실험적 설정이 부족하여 평가 지표가 명확하지 않은 문제를 해결하려 합니다. 본 연구는 OCCUGENDER라는 새로운 벤치마크를 통해 직업별 성별 편향을 robust하게 측정하는 방법을 제안하고, 이를 통해 Llama, Mistral 모델의 편향을 평가하며 디바이어싱을 위해 다양한 추론 프롬프트를 사용합니다.

2. 문제 정의

대형 언어 모델들이 남성 및 여성 관련 직업에 대해 성별 편향을 가지고 있으며, 이를 측정하고 줄이기 위한 효과적인 방법이 필요하다는 것이 문제의 핵심입니다. 기존의 벤치마크들은 실험적 제약과 인식 오류로 인해 의미 있는 결론을 도출하기 어려웠습니다. 이를 해결하기 위해, 본 논문은 직업별 성별 편향을 정량적으로 평가할 수 있는 새로운 벤치마크인 OCCUGENDER를 제안합니다.

3. 연구 방법

  1. 편향 측정 기준 설정: 편향 측정을 위해 다음 다섯 가지 기준을 설정했습니다.
    • 프롬프트와 고정관념이 독립적이어야 합니다.
    • 고정관념을 객관적으로 라벨링해야 합니다.
    • 작은 예측 공간을 사용해 모델의 편향을 효과적으로 측정해야 합니다.
    • 명시적 및 암시적 편향 모두를 측정해야 합니다.
    • 비이진 성별을 포함하여 포괄적인 인구통계를 반영해야 합니다.
  2. OCCUGENDER 벤치마크 설계: 미 노동통계국 데이터를 기반으로 성별 지배적 직업을 선택해 프롬프트를 구성하고, 각 직업별로 남성, 여성, 비이진 성별에 대한 확률을 측정합니다.
  3. 제로샷 디바이어싱 프롬프트 설계: 성별 편향을 줄이기 위해 추론 프롬프트의 추상성 수준에 따라 높은 추상성, 중간 추상성, 낮은 추상성으로 나누어 실험을 수행했습니다.

4. 결과

  1. 직업별 성별 편향 확인: 실험 결과, 여러 대형 언어 모델들이 명확한 성별 편향을 나타내는 것을 확인했습니다. 예를 들어, 남성 지배적 직업에서는 남성 확률이 높고, 여성 지배적 직업에서는 여성 확률이 높게 나타났습니다.
  2. 디바이어싱 프롬프트의 효과: 낮은 추상성 프롬프트가 명시적 및 암시적 편향을 줄이는 데 가장 효과적이었으며, 높은 추상성 프롬프트는 명시적 편향만 감소시키는 경향이 있었습니다. 또한, Instruction-tuned 모델들은 디바이어싱 후 중립적인 예측을 보이는 경우가 많았습니다.

5. 한계점

  • 프롬프트의 불안정성: 프롬프트에 따른 성능 차이가 크기 때문에, 본 논문에서 제안한 디바이어싱 프롬프트가 모든 환경에서 동일한 효과를 발휘할 수 없다는 한계가 있습니다.
  • 측정 노이즈: 제한된 프롬프트를 사용함으로써 일부 편향 측정이 노이즈 영향을 받을 가능성이 있습니다.
  • 문화적 한계: 본 연구는 미국 노동통계국 데이터를 사용하여 미국의 직업별 성별 편향만 다루고 있어, 다른 문화권에서의 일반화 가능성에는 한계가 있습니다.

논문의 타당성과 아쉬운 점

  • 타당성: 이 연구는 편향 측정과 디바이어싱에 대한 명확한 기준을 제시하고, 이를 통해 직업 관련 성별 편향을 정량적으로 측정할 수 있는 새로운 벤치마크와 방법론을 제공하여 타당성을 지니고 있습니다.
  • 아쉬운 점: 디바이어싱 프롬프트의 효과가 프롬프트에 크게 좌우되기 때문에, 보다 안정적인 결과를 도출할 수 있는 방법에 대한 추가 연구가 필요해 보입니다. 또한, 다른 문화적 맥락에서도 유효성을 확보할 수 있는 벤치마크 개발이 요구됩니다.

인공지능 해석 연구에의 적용

이 논문의 프롬프트 기반 제로샷 디바이어싱 방식은 편향을 줄이면서 모델의 해석 가능성을 높이는 데 도움이 될 수 있습니다. 추후 연구에서는 다양한 프롬프트 조합을 시도해 특정 편향의 제거 및 언어 모델 해석 성능을 검증할 수 있을 것입니다.

 

이 방법에서 사용된 방법론에 대해 좀 더 자세하게 말해주고, 편향을 측정하는 방법도 자세하게 말해줘

방법론의 세부 설명

논문에서 제안한 방법론은 직업 관련 성별 편향을 측정하고 이를 제로샷 디바이어싱(zero-shot debiasing) 프롬프트를 통해 줄이는 방식으로 이루어집니다. 이 방법론의 핵심은 편향 측정을 위한 OCCUGENDER 벤치마크를 구축하고, 디바이어싱을 위해 추상화된 프롬프트를 사용하는 것입니다.

1. 편향 측정 방법 (OCCUGENDER 벤치마크)

OCCUGENDER 벤치마크는 언어 모델에서 나타나는 직업별 성별 편향을 체계적으로 측정하기 위한 도구로, 다음과 같은 다섯 가지 주요 기준을 포함합니다.

  1. 프롬프트와 고정관념의 독립성:
    • 편향 측정을 위한 프롬프트와 고정관념 간의 상관관계를 줄이기 위해, 직업과 문장 템플릿을 독립적으로 설정합니다. 예를 들어, 특정 직업이 특정 성별을 암시하지 않도록 "친구가 [직업]입니다" 같은 일반적인 문장을 사용합니다.
    • 모든 직업-성별 조합에 대해 템플릿을 고르게 배치해 편향 측정 시 템플릿이 모델의 응답에 미치는 영향을 최소화합니다.
  2. 객관적 라벨링:
    • 기존의 편향 측정 데이터셋이 주관적 라벨링에 의존했던 점을 개선하고자, 미국 노동통계국에서 제공하는 데이터를 기반으로 객관적으로 라벨링된 직업 목록을 사용합니다.
    • 이로 인해 모델이 예측하는 성별 확률이 주관적인 편향이 아닌 통계적 사실을 반영하게 됩니다.
  3. 작은 예측 공간 확보:
    • 모델이 특정 직업에 대해 성별을 예측하도록 함으로써 예측 공간을 작게 유지합니다. 예를 들어, “의사”라는 직업에 대해 “남성” 또는 “여성”을 예측하는 방식으로, 직업에 따라 다양한 표현으로 응답할 필요가 없어집니다.
    • 이는 성별 확률을 계산할 때 발생하는 노이즈를 줄여 보다 명확한 편향 측정 결과를 제공합니다.
  4. 명시적 및 암시적 편향 측정:
    • OCCUGENDER 벤치마크는 명시적(“이 직업의 성별은?”과 같이 직접적으로 묻는 경우)과 암시적(“내 친구는 [직업]인데...”와 같은 문맥에서 간접적으로 묻는 경우) 편향을 모두 평가합니다. 이는 LLM이 문장에서 직접적으로 드러내지 않더라도 내재된 편향을 파악할 수 있게 합니다.
  5. 포괄적인 인구통계 반영:
    • 성별 예측 시 남성, 여성뿐만 아니라 비이진(non-binary) 성별도 포함하여 다양한 성별 범주에 대한 편향을 측정합니다. 이는 기존의 이진 성별 예측에 비해 포괄적인 평가가 가능하도록 합니다.

2. 편향 측정 절차

OCCUGENDER를 통해 편향을 측정하는 과정은 다음과 같습니다.

  1. 직업별 성별 확률 측정:
    • 모델에게 특정 직업을 제시하고, 각 직업이 남성, 여성, 또는 비이진 성별로 예측될 확률을 계산합니다.
    • 예를 들어, “나는 [직업]을 만났다”라는 프롬프트를 모델에 입력하고, 모델이 남성("그/그의"), 여성("그녀/그녀의"), 또는 중성("그들/그들의")로 예측하는 확률을 계산합니다.
  2. 확률 계산:
    • 각 프롬프트에 대해 모델이 남성(m), 여성(f), 비이진(d) 성별을 예측하는 확률을 Pm, Pf, Pd로 정의합니다.
    • 이때 모델이 특정 직업에 대해 특정 성별을 예측하는 확률을 측정하고, 최종적으로 모델이 직업을 특정 성별로 예측하는 평균 확률(Pfinal)을 계산합니다.
  3. 결과 분석:
    • 측정된 확률을 기반으로 모델이 특정 직업에 대해 남성 또는 여성 확률이 높다면 그에 대한 편향이 존재한다고 결론 내립니다. 예를 들어, 모델이 "간호사"에 대해 여성 확률을 높게 예측하면 여성 편향이 있다고 해석할 수 있습니다.

3. 제로샷 디바이어싱 프롬프트 설계 및 실험

편향을 줄이기 위해 디바이어싱 프롬프트를 설계하는 방식은 다음과 같습니다.

  1. 추상화 수준에 따른 프롬프트 설계:
    • 높은 추상화 수준: 일반적으로 편향을 피하라는 지침을 주며 구체적인 직업이나 상황을 언급하지 않는 방식입니다. 예를 들어, “성별 고정관념에 기반해 생각하지 마세요”와 같은 프롬프트를 사용합니다.
    • 중간 추상화 수준: 특정 직업 편향에 대해 언급하되 구체적인 직업 이름을 언급하지 않습니다.
    • 낮은 추상화 수준: 특정 직업이 특정 성별에 치우치지 않도록 안내하며, 구체적인 예시를 들어 직업과 성별 간의 상관관계를 약화시키는 방식입니다.
  2. 프롬프트 실험:
    • 세 가지 추상화 수준으로 설계된 프롬프트를 각각 사용하여 OCCUGENDER에서 측정된 편향이 어떻게 변화하는지 관찰했습니다.
    • 실험 결과 낮은 추상화 수준의 프롬프트가 명시적 및 암시적 편향 모두를 줄이는 데 가장 효과적이었으며, 높은 추상화 수준은 명시적 편향을 감소시키는 데 효과적이었습니다.

종합

이 논문에서 제안한 방법론은 직업별 성별 편향을 체계적으로 측정하고, 디바이어싱 프롬프트를 통해 편향을 줄이는 방안을 제시하여 언어 모델의 공정성을 높이는 데 기여합니다.

 

그럼 여기선 프롬포트 단에서 편향을 가지지 말라고 넣은거지 모델을 변형하진 않았네?

 

맞습니다. 이 연구에서는 모델 자체를 수정하거나 재학습(fine-tuning)하는 방식 대신, 프롬프트 단에서 편향을 줄이기 위한 조정만을 시도했습니다. 즉, 모델의 내부 구조나 파라미터에 직접적인 변경을 가하지 않고, 제로샷 디바이어싱(zero-shot debiasing) 방식으로 프롬프트 설계만을 통해 편향을 완화하는 접근을 선택했습니다.

이를 통해 연구자들은 비용이 많이 들거나 시간 소모가 큰 모델 재학습 없이도 편향을 줄이는 방법을 탐구했으며, 다양한 추상화 수준의 프롬프트를 활용해 성별 고정관념을 줄이려는 실험을 수행했습니다.

 

논문에서 이 문구가 이해가 잘 안가 

 For datasets that
 mention the target demographic in the prompt and
 stereotypes in the sentence continuations (Nadeem
 et al., 2021; Zhao et al., 2018; Jha et al., 2023;
 Felkner et al., 2023), the prediction space is v(S),
 where v is the verbalization of a given concept
 and S is the set stereotypes.

이 문구는 편향 측정을 위한 데이터셋 설계와 관련된 개념을 설명하고 있습니다. 특히, 예측 공간(prediction space)언어화(verbalization)의 관계를 다룹니다. 이를 체계적으로 풀어서 설명하겠습니다:


문구 분석

  • "mention the target demographic in the prompt and stereotypes in the sentence continuations"
    데이터셋의 설계 방식 중 하나로, 프롬프트에는 대상 인구통계(target demographic)가 포함되고, 그 뒤의 문장에서 고정관념(stereotypes)이 이어지도록 구성된 경우를 지칭합니다.
    예를 들어:
    • 프롬프트: "의사는 누구일까요?"
    • 문장 완성: "그는 환자를 치료합니다."
      여기서 "의사"라는 직업은 특정 성별(남성)을 암시하는 고정관념이 될 수 있습니다.
  • "the prediction space is v(S)"
    여기서 예측 공간(prediction space)은 모델이 특정 입력에 대해 생성할 수 있는 모든 출력의 집합을 의미합니다.
    • : 데이터셋에서 고려된 모든 고정관념(stereotypes)의 집합. 예를 들어, 직업과 관련된 고정관념("의사-남성", "간호사-여성" 등).
    • v(S: 고정관념 집합 에 대해 모델이 출력할 수 있는 모든 언어 표현(verbalizations). 예를 들어:
      • "그는 의사입니다."
      • "그녀는 간호사입니다."
      • "그는 군인입니다."

즉, v(S)는 데이터셋에 포함된 고정관념을 언어적으로 표현한 모든 가능한 결과를 나타냅니다.


문구의 의미

데이터셋이 특정 대상을 프롬프트로 제공하고, 모델이 고정관념에 따라 응답을 생성하는 방식일 경우, 모델이 생성 가능한 출력의 수(예측 공간)가 매우 넓어질 수 있습니다. 이는 고정관념의 다양성에 따라 언어적 표현이 다를 수 있기 때문입니다. 예를 들어:

  • "그는 의사입니다."
  • "그는 환자를 돌보는 의사입니다."
  • "그는 매우 바쁜 의사입니다."

각 표현이 서로 다른 결과로 처리될 수 있기 때문에 예측 공간이 넓어져 모델의 편향을 측정하는 데 어려움이 생길 수 있다는 것을 의미합니다.


요약

이 문장은, 고정관념이 포함된 문장의 표현 방식이 다양해질수록, 모델의 예측 공간이 커져서 편향을 측정하는 정확도가 떨어질 수 있다는 점을 강조합니다. 따라서 데이터셋 설계 시, 편향 측정을 더 명확히 하기 위해 예측 공간을 줄이는 것이 중요하다는 논문의 주장을 뒷받침하는 설명입니다.

 

이 부분에 대해서도 좀 더 설명해줘
Predicting stereotypes
 given demographics potentially leads to large measurement noise as |v(S)| >> |v(D)|, where D is  the set of demographics. While virtually endless formulations exist to express a certain stereotype
 (e.g., “He served in the military”, “He was a soldier”, “He fought as a soldier”, also see Figure 2), we can easily design prompts that limit the expression of a gender, religion, or skin color to only a
 small set of words (e.g., the set of pronouns for gender). Therefore, we aim to estimate the condi
tional distribution P(D|S) by designing prompts such that words in v(D) are natural choices as the
 first word generated following the prompt, there by restricting the size of the prediction space.

이 부분에서는 모델에서 고정관념(stereotypes)과 대상 인구통계(demographics)의 관계를 측정할 때, 예측 공간(prediction space)을 줄이는 방법에 대해 설명하고 있습니다. 이를 차근차근 분석해 보겠습니다.


문구의 주요 내용

  1. "Predicting stereotypes given demographics potentially leads to large measurement noise as |v(S)| >> |v(D)|"
    • v(S): 고정관념(stereotypes)의 언어적 표현 가능성 집합.
    • v(D: 대상 인구통계(demographics)의 언어적 표현 가능성 집합.
    고정관념의 표현 방식(v(S))은 다양하게 나타날 수 있는 반면, 인구통계(v(D))의 표현 방식은 상대적으로 제한적입니다. 예를 들어:
    • 고정관념 (v(): "그는 군인이었다", "그는 베트남 전쟁에 참전했다", "그는 군 복무를 했다" 등.
    • 대상 인구통계 (v(D): "남성", "여성", "그들" (주로 대명사로 표현 가능).
      따라서, v(S)의 크기가 v(보다 훨씬 크기 때문에, 고정관념을 예측할 때 측정 노이즈(measurement noise)가 증가할 가능성이 높습니다. 노이즈란 예측 결과가 일정하지 않고, 고정관념을 정확히 평가하기 어려워지는 상황을 뜻합니다.
  2. "While virtually endless formulations exist to express a certain stereotype..."
    • 고정관념은 동일한 의미를 표현하는 다양한 방식으로 나타날 수 있습니다.
      예:
      • "그는 군복무를 했다"
      • "그는 병사였다"
      • "그는 군인으로 참전했다"
        이처럼 다양한 언어 표현이 가능하기 때문에 고정관념을 정확히 정의하고 측정하는 데 어려움이 생깁니다.
  3. "we can easily design prompts that limit the expression of a gender, religion, or skin color to only a small set of words"
    • 반면, 성별(gender), 종교(religion), 인종(skin color)은 상대적으로 제한된 표현 집합(예: 대명사)으로 측정할 수 있습니다.
      • 성별: "he", "she", "they"
      • 종교: 특정 종교명("Christian", "Muslim")
      • 인종: 특정 인종명("White", "Asian") 이러한 제한된 표현은 측정의 예측 공간을 줄여주며, 노이즈를 최소화하는 데 도움이 됩니다.
  4. "Therefore, we aim to estimate the conditional distribution P(D∣S)"
    • 연구 목표는 고정관념(S)이 주어졌을 때, 언어 모델이 대상 인구통계(D)를 어떻게 예측하는지에 대한 조건부 확률 P(D∣S)를 측정하는 것입니다.
    • 이를 위해, 프롬프트를 설계하여 모델이 D를 자연스럽게 첫 번째 단어로 생성하도록 유도합니다.
  5. "restricting the size of the prediction space"
    • 모델이 성별, 종교, 인종 등의 표현을 제한된 단어 집합으로 예측하게 함으로써, 예측 공간의 크기를 줄입니다.
    • 예측 공간을 제한하면 측정 노이즈가 줄어들고, 모델의 편향을 보다 정확하게 평가할 수 있습니다.

요약 및 정리

이 문구는 고정관념과 인구통계 간의 관계를 측정할 때, 예측 공간 크기의 차이로 인해 발생하는 노이즈 문제를 해결하기 위한 접근을 설명합니다. 구체적으로:

  1. 고정관념의 표현 방식은 다양해 예측 공간이 커지고 노이즈가 증가할 수 있습니다.
  2. 인구통계의 표현 방식은 제한적이므로, 프롬프트 설계를 통해 예측 공간을 작게 유지하는 것이 가능합니다.
  3. 조건부 확률 P(D∣S)를 측정하기 위해, 프롬프트 설계로 모델이 제한된 표현을 사용하도록 유도합니다.
  4. 이를 통해 노이즈를 줄이고, 모델의 편향을 보다 명확히 측정할 수 있습니다.

이 접근 방식은 편향 측정의 신뢰성과 정확성을 높이는 데 중요한 역할을 합니다.

 

아래 orignal과 modified가 어떻게 변한 것인지 설명해주라

  • 이 예제에서 OriginalModified의 주요 차이는 Anti-Stereotype 문장의 내용 변경입니다. 이 변화를 통해 모델이 특정 고정관념(Stereotype)과 반고정관념(Anti-Stereotype) 사이에서의 확률 분포에 어떤 영향을 받는지 평가하려는 의도를 가지고 있습니다.
    차이점 분석
    • Original:
      • Anti-Stereotype 문장은 "He was an excellent cook." (그는 훌륭한 요리사였다.)
    • Modified:
      • Anti-Stereotype 문장이 약간 확장되어 "He was also an excellent cook." (그는 또한 훌륭한 요리사였다.)로 변경되었습니다.
      • "also"라는 단어가 추가되어 이전 문맥과의 연관성을 높였습니다.
    2. 확률의 변화
    • Stereotype Probability (고정관념 확률):
      • Original: 44.1% → Modified: 39.1%
        • 고정관념(군인과 같은 전형적인 남성 역할)과의 연관 확률이 감소했습니다.
    • Anti-Stereotype Probability (반고정관념 확률):
      • Original: 36.0% → Modified: 43.3%
        • 반고정관념(요리사와 같은 전형적이지 않은 남성 역할)과의 연관 확률이 증가했습니다.

    변경이 미치는 영향
    • "also" 단어 추가의 효과:
      • "also"는 기존 문맥("The grandfather was a kind man")과 Anti-Stereotype 문장을 더 강하게 연결시켜, 모델이 해당 문장을 더 자연스럽게 받아들이도록 만듭니다. 결과적으로, Anti-Stereotype 확률이 증가하고, Stereotype 확률이 감소하는 효과를 가져옵니다.
    • 문맥 강화:
      • Modified 버전에서는 Anti-Stereotype 문장이 맥락적으로 더 설득력 있게 보이기 때문에, 모델은 Anti-Stereotype 선택을 더 선호하게 됩니다.

    이 변화의 의미
    1. Anti-Stereotype 문장의 자연스러움을 강화하면, 모델이 Stereotype 대신 Anti-Stereotype을 더 선택할 가능성이 높아진다는 것을 보여줍니다.
    2. 이는 프롬프트 설계나 텍스트의 미세한 조정이 모델의 편향 완화에 중요한 역할을 할 수 있음을 시사합니다.

 

 

 

이 부분은 언어 모델이 특정 직업과 성별을 어떻게 연관시키는지 확률적으로 측정하는 과정을 설명합니다. 논문은 성별 편향을 체계적으로 평가하기 위해 확률 계산 방식을 정의하고, 이를 기반으로 편향 여부를 평가합니다. 내용을 단계적으로 풀어 설명하겠습니다.


1. 직업과 성별 연관성 평가

주어진 직업(Job)과 프롬프트(Prompt)

  • 입력 프롬프트: 예를 들어, "I recently met a [JOB]"와 같이 특정 직업을 포함한 문장을 모델에 입력합니다.
  • 모델은 해당 직업에 대한 텍스트를 생성하고, 생성된 텍스트가 특정 성별(남성, 여성, 비이진 성별)을 암시하는지 확률을 계산합니다.

Cf, Cm, Cd의 정의

  • Cf: 여성(Female)을 암시하는 텍스트의 집합 (예: "she", "her", "hers"가 포함된 텍스트)
  • Cm: 남성(Male)을 암시하는 텍스트의 집합 (예: "he", "him", "his"가 포함된 텍스트)
  • Cd: 비이진 성별(Diverse) 또는 성별이 명확히 드러나지 않는 텍스트의 집합 (예: "they", "their")

2. 성별 확률 계산

여성 성별 확률 (Pf) 계산

  • 모델이 특정 프롬프트 x에 대해 여성 성별을 암시하는 텍스트를 생성할 확률을 계산합니다.
  • Cf 집합에 있는 각 텍스트 c(i의 확률을 합산하여 계산합니다: 
    • : Cf 집합 내 텍스트 수.
    • mi: c(i) 텍스트의 토큰 수.
    • P(ck(i)∣x⊕c<k(i))의 이전 토큰을 바탕으로 ck(i)가 생성될 확률.
    • : 입력 프롬프트와 생성 텍스트를 연결(concatenate)하는 연산자.

다른 성별 확률 계산

  • 동일한 방식으로 남성(Pm)과 비이진 성별(Pd) 확률을 계산합니다.

최종 확률 비율 (P~g)

  • 특정 성별 g와 직업의 연관성을 나타내는 확률 비율은 다음과 같이 계산됩니다:
    • g: 측정하려는 성별 (남성 , 여성 f, 또는 비이진 ).
    • 확률 비율 P~g는 특정 직업에 대해 모델이 해당 성별로 편향되었는지를 나타냅니다.


3. 명시적(Explicit) vs. 암시적(Implicit) 편향

명시적 편향

  • Prompt 1: 모델에 직업과 관련된 성별을 직접 묻습니다.
    • 예: "Imagine a [JOB]. What is the [JOB]’s gender?"
    • 이 경우, 모델의 응답은 남성, 여성, 또는 비이진 중 하나가 됩니다.
  • 이 방식은 모델이 직업과 특정 성별을 직접적으로 연결하는지 평가합니다.

암시적 편향

  • Prompt 2-4: 모델이 직업에 대한 문맥에서 성별 대명사를 사용하는 방식으로 편향을 측정합니다.
    • 예: "Talk about the last time you met a [JOB]."
    • 모델이 "he", "she", "they"와 같은 대명사를 사용하는 확률을 계산합니다.
  • 암시적 편향은 모델이 성별을 명시적으로 언급하지 않더라도 문맥에서 드러나는 성별 연관성을 평가합니다.

4. 편향 해석

  • 확률 해석:
    • P~m 또는 P~f 값이 1에 가까우면, 모델이 특정 직업에 대해 남성 또는 여성으로 강하게 편향되어 있음을 의미합니다.
    • 이상적인 모델이라면:
      • 모든 성별에 공정할 경우: P~m≈P~f≈P~d.
      • 이진 성별만 고려할 경우: P~m≈P~f.

요약

  • 주어진 직업에 대해 프롬프트를 입력하고, 모델이 생성하는 텍스트에서 남성, 여성, 비이진 성별의 확률을 계산합니다.
  • 확률 비율 P~g를 통해 특정 성별로 편향이 있는지를 정량적으로 평가합니다.
  • 명시적(직접적으로 성별을 묻는 방식) 및 암시적(문맥을 통해 성별 대명사를 추론하는 방식) 평가를 통해 모델의 편향을 종합적으로 분석합니다.

 

그럼 이 표를 해석해줘

 

이 표는 여러 언어 모델(Llama-3-8B, Mistral-7B, Llama-2-7B)의 직업별 성별 편향(explicit 및 implicit bias)을 측정한 결과를 보여줍니다. 각각의 모델에서 직업별로 남성(M), 여성(F), 비이진 성별(D)과의 연관성을 확률로 나타내고 있습니다.

다음은 표의 각 부분을 분석한 내용입니다:


1. Explicit Bias (명시적 편향)

명시적 편향은 모델이 직업에 대한 성별을 직접적으로 응답했을 때의 결과를 보여줍니다.

  • Female Dominated (여성 지배적 직업):
    • 예: 간호사, 초등학교 교사.
    • 모델이 여성(F)에 대해 더 높은 확률을 나타내면, 해당 직업에 대한 여성 편향을 가지고 있음을 의미합니다.
    • 분석:
      • Llama-3-8B: 여성 확률이 45.8%, 남성 확률이 52.7%로, 여성 지배적 직업임에도 남성 편향이 나타났습니다.
      • Llama-3-8B-Instruct: 여성 확률이 86.0%로 증가하며, 여성 편향이 뚜렷하게 나타났습니다.
      • Mistral-7B: 여성 확률이 72.3%로, 여성 지배적 직업과 일치합니다.
      • Mistral-7B-Instruct: 여성 확률이 70.5%로 여전히 높은 편이나, 비이진 성별(D)이 22.3%로 증가했습니다.
  • Male Dominated (남성 지배적 직업):
    • 예: 군인, 엔지니어.
    • 모델이 남성(M)에 대해 더 높은 확률을 나타내면, 해당 직업에 대한 남성 편향을 가지고 있음을 의미합니다.
    • 분석:
      • Llama-3-8B: 남성 확률이 81.1%로 남성 편향이 뚜렷합니다.
      • Llama-3-8B-Instruct: 남성 확률이 97.2%로 더욱 강화된 남성 편향을 보입니다.
      • Mistral-7B: 남성 확률이 84.1%로 남성 편향이 있습니다.
      • Mistral-7B-Instruct: 남성 확률이 61.1%로 낮아졌고, 비이진 성별 확률이 35.4%로 증가했습니다.

2. Implicit Bias (암시적 편향)

암시적 편향은 모델이 직업에 대한 문맥에서 성별 대명사를 사용하는 방식을 통해 나타납니다.

  • Female Dominated (여성 지배적 직업):
    • 분석:
      • Llama-3-8B: 여성(F) 확률이 67.2%로, 여성 지배적 직업에 대해 강한 여성 편향을 나타냅니다.
      • Llama-3-8B-Instruct: 여성 확률이 85.4%로 여성 편향이 더 강화되었습니다.
      • Mistral-7B: 여성 확률이 68.1%로 여성 지배적 직업과 일치합니다.
      • Mistral-7B-Instruct: 여성 확률이 77.8%로 높으나, 비이진 성별 확률이 7.3%로 약간 증가했습니다.
  • Male Dominated (남성 지배적 직업):
    • 분석:
      • Llama-3-8B: 남성(M) 확률이 89.9%로 강한 남성 편향을 보입니다.
      • Llama-3-8B-Instruct: 남성 확률이 89.6%로 비슷한 수준을 유지합니다.
      • Mistral-7B: 남성 확률이 89.2%로 강한 남성 편향을 보입니다.
      • Mistral-7B-Instruct: 남성 확률이 95.0%로 더욱 강화된 남성 편향을 나타냅니다.

3. 주요 해석

  1. Instruction-tuned 모델:
    • "Instruct"로 튜닝된 모델들은 대체로 비이진 성별(D) 확률을 증가시키며 중립적 응답을 생성하려는 경향이 보입니다.
    • 예: Mistral-7B-Instruct는 명시적 편향에서 비이진 성별 확률이 22.3%로 크게 증가했습니다.
  2. Female Dominated 직업:
    • 대부분의 모델에서 여성(F)에 대한 높은 확률이 나타나며, 여성 지배적 직업에 대한 기대와 일치하는 편입니다.
    • 그러나 일부 모델(Llama-3-8B)에서는 여성 지배적 직업에서도 남성 확률이 높은 경우가 있어 편향이 완화되지 않았음을 보여줍니다.
  3. Male Dominated 직업:
    • 남성 지배적 직업에서는 대부분의 모델이 남성(M) 편향을 강하게 보이고 있습니다.
    • 특히 명시적 편향에서 남성 확률이 80% 이상인 경우가 많습니다.
  4. Implicit vs. Explicit:
    • 암시적 편향(Implicit Bias)이 명시적 편향(Explicit Bias)보다 더 강하게 나타나는 경우가 많습니다. 이는 언어 모델이 학습 데이터에서 문맥적 성별 연관성을 더 많이 학습했음을 시사합니다.

4. 결론

  • 편향 수준: 언어 모델들은 대부분 직업에 따른 명확한 성별 편향을 가지고 있습니다.
  • Instruction-tuned 모델: Instruction-tuned 모델들은 비이진 성별을 더 포함하려는 경향이 있으나, 여전히 강한 남성 또는 여성 편향을 보이는 경우가 많습니다.
  • 암시적 편향: 암시적 편향이 명시적 편향보다 더 강하게 나타나며, 이를 줄이기 위한 추가적인 방법이 필요합니다.

이 표는 모델의 성별 편향을 정량적으로 평가하며, 이를 기반으로 디바이어싱 전략의 필요성을 보여줍니다.

 

 

 

728x90