https://proceedings.neurips.cc/paper/2020/file/92650b2e92217715fe312e6fa7b90d82-Paper.pdf이 논문은 성별 편향이 언어 모델 내부에서 어떻게 발생하고 전달되는지 분석하기 위해 인과 매개 분석(Causal Mediation Analysis)을 도입했다. GPT-2 모델을 대상으로 뉴런과 어텐션 헤드가 성별 편향 정보를 매개하는 역할을 직접적/간접적으로 분리하여 측정했다성별 편향은 소수의 뉴런과 어텐션 헤드에 집중되며, 모델 크기가 커질수록 이러한 편향이 더 강하게 나타났다.Professions, Winobias, Winogender와 같은 데이터셋을 사용하여 단어와 문맥 수준에서 편향을 평가했다.편향을 식별하고 분석하는 데 중점을 두었으며..