인공지능/논문 리뷰 or 진행

Whispers that Shake Foundations: Analyzing and Mitigating False Premise Hallucinations in Large Language Models - 논문리뷰

이게될까 2024. 11. 15. 22:00
728x90
728x90

https://arxiv.org/abs/2402.19103

 

Whispers that Shake Foundations: Analyzing and Mitigating False Premise Hallucinations in Large Language Models

Large Language Models (LLMs) have shown impressive capabilities but still suffer from the issue of hallucinations. A significant type of this issue is the false premise hallucination, which we define as the phenomenon when LLMs generate hallucinated text w

arxiv.org

할루시네이션에 대한 세미나를 보고 한번 쯤은 보고 가는 것이 좋아보여서 보게 되었습니다.

 

잘못된 정보를 입력에 넣으면 얕은 층의 일부 어텐션 헤드에서 오류에 영향을 크게 받는다고 하네요

그 일부 어텐션 헤드에게 제약을 걸어줘서 할루시네이션을 막는 방식입니다.

 

 

1. 문제 제기: False Premise Hallucination

대형 언어 모델(LLM)은 뛰어난 성능을 보이지만, 여전히 사실과 다른 정보를 생성하는 환각(hallucination) 문제를 가지고 있습니다. 특히, 이 논문은 'false premise hallucination'이라 불리는 유형에 주목합니다. 이는 사용자가 잘못된 전제를 포함한 질문을 던질 때, 모델이 사실과 일치하지 않는 응답을 생성하는 현상입니다. 예를 들어, "아인슈타인이 1920년에 노벨 물리학상을 받은 이유는?"과 같은 잘못된 전제를 포함한 질문에 대해 모델이 1921년이 아닌 1920년이라고 응답할 수 있습니다.

2. 연구 목표

논문은 false premise hallucination의 내부 메커니즘을 밝혀내고, 이를 완화할 수 있는 새로운 방법을 제안하는 것을 목표로 합니다. 구체적으로, 일부 어텐션 헤드가 이러한 오류의 원인으로 작용한다는 점을 분석하고, 이를 제어하여 오류를 줄이는 방법을 제안합니다.

3. 연구 방법

  1. 데이터셋 구축: 위키데이터에서 추출한 사실 관계를 기반으로 잘못된 전제를 포함하는 질문을 자동으로 생성하는 데이터셋을 구축했습니다. 예를 들어, 아인슈타인이 1921년에 노벨상을 받았다는 사실을 1920년으로 변경하여 잘못된 전제 질문을 만듭니다.
  2. 모델 불확실성 분석: 모델이 잘못된 전제 질문에 응답할 때 더 높은 불확실성을 보인다는 가설을 세웠습니다. 이를 측정하기 위해 Perplexity, 샘플링 기반 불확실성, 그리고 의미적 불확실성 세 가지 지표를 사용하여 LLM의 응답을 평가했습니다.
  3. 내부 정보 흐름 분석: LLM 내부의 정보 흐름을 조사하여 모델이 잘못된 전제 질문에 응답할 때 주제에 대한 지식이 교란된다는 것을 발견했습니다. 특히, 얕은 층의 어텐션 헤드가 질문 내의 잘못된 객체 정보에 영향을 받는 경향을 보였습니다.
  4. 개별 어텐션 헤드 분석: 각 어텐션 헤드가 잘못된 전제에 얼마나 영향을 받는지 평가했습니다. 그 결과, 일부 어텐션 헤드가 지속적으로 잘못된 정보를 강화하는 데 기여한다는 점을 확인하여 이를 False Premise Head로 명명했습니다.

4. 해결 방안: FAITH 방법

논문은 이러한 false premise head를 제어하는 FAITH (False premise Attention head constraining for miTigating Hallucinations)라는 방법을 제안합니다. 이 방법은 잘못된 전제를 포함한 질문에 대한 어텐션 헤드의 영향을 제한하여 모델이 오류를 줄이도록 설계되었습니다.

5. 결과

FAITH 방법을 통해 일부 어텐션 헤드(약 1%)만 제약하더라도, 모델의 정확도가 약 20% 향상되는 효과를 확인했습니다. 이는 기존의 일반적인 환각 완화 방법보다도 뛰어난 성능을 보였습니다.

6. 한계점

  1. 모델 크기의 한계: 실험은 13B 매개변수 이하의 모델에서 수행되었습니다. 더 큰 모델에 대한 적용은 후속 연구에서 다루어질 필요가 있습니다.
  2. 계산 복잡도: 다수의 어텐션 헤드의 영향을 계산하는 과정이 매우 시간 소모적입니다. 따라서 각 어텐션 헤드의 개별 영향만을 분석했고, 다중 헤드 간의 공동 기여는 다루지 않았습니다.

이 연구는 잘못된 전제로 인한 환각 문제의 원인을 구조적으로 분석하고 제어 방법을 제안했다는 점에서 의미가 있습니다. 이를 바탕으로 LLM의 환각 현상을 줄이는 데 있어 추가적인 연구나 실험 설계를 위한 기초 자료로 활용될 수 있을 것입니다.

 

그럼 여기서 개별 어텐션 헤드를 어떻게 분석한 것이고, 어떤 값이 나와야 잘못 되었다는 것을 안거야?

논문에서 개별 어텐션 헤드 분석은 잘못된 전제로 인해 발생하는 환각 현상을 유발하는 어텐션 헤드를 찾아내고, 이들이 잘못된 정보를 강화하는지 확인하는 과정으로 진행되었습니다. 이를 위해 각 어텐션 헤드의 영향력을 측정했는데, 구체적인 분석 방법과 평가 지표는 다음과 같습니다.

1. 개별 어텐션 헤드 영향력 계산 방법

영향력은 특정 어텐션 헤드가 모델의 최종 출력 예측에 미치는 영향을 정량화한 값으로, 다음 단계로 나누어 계산했습니다:

  1. Clean Run (기본 실행): 원래 질문을 통해 모델을 실행하여 모든 어텐션 헤드의 활성화 값을 저장합니다. 이때, 정답 로그잇 값 P(O)을 계산하여 저장합니다.
  2. Masked Run (마스킹 실행): 질문의 잘못된 전제 부분(예: 잘못된 연도)을 무의미한 단어(예: “XX”)로 대체하여 다시 모델을 실행합니다. 이 마스킹된 실행을 통해 각 어텐션 헤드의 활성화 값이 바뀌었는지를 확인할 수 있습니다.
  3. Replace and Freeze Run (치환 및 고정 실행): 기본 실행에서 얻은 원래 질문의 활성화 값과 마스킹 실행에서 얻은 일부 어텐션 헤드의 값을 치환하여 모델을 다시 실행합니다. 이때 치환된 어텐션 헤드가 최종 예측에 미치는 영향을 계산하여, 헤드의 영향력 Ehead=P′(O)−P(O)을 구합니다.

이 과정을 통해 개별 어텐션 헤드가 잘못된 전제 정보에 얼마나 민감하게 반응하는지 정량적으로 평가할 수 있습니다.

2. 잘못된 어텐션 헤드 판단 기준

영향력 계산을 통해, 다음과 같은 값이 나올 경우 해당 어텐션 헤드가 잘못된 정보에 기여하는 것으로 판단했습니다:

  • 높은 영향력 값: 잘못된 전제와 관련된 정보에 대해 매우 큰 영향을 미치는 어텐션 헤드는 False Premise Head로 간주했습니다. 이들 헤드는 잘못된 정보(예: 잘못된 연도)에 대해 모델이 응답할 때 예측 오류를 증가시키며, 일반적으로 모델의 얕은 층에 위치하여 잘못된 정보를 초기에 증폭하는 역할을 합니다.

이 기준을 통해 False Premise Head를 선별했으며, 이를 제어함으로써 모델의 환각 현상을 줄일 수 있었습니다.

결과적으로, False Premise Head는 잘못된 전제 정보에 과도하게 반응하여 최종 출력에 부정적인 영향을 미치는 어텐션 헤드로 정의되었고, FAITH 방법은 이 헤드들의 영향력을 제한하여 정확도를 크게 향상시켰습니다.

 

그럼 이제 그 어텐션 헤드가 잘못 출력하는 것을 막는 FAITH가 어떤 방법인지 상세하게 설명해줘

논문에서 제안한 FAITH (False premise Attention head constraining for miTigating Hallucinations) 방법은 잘못된 정보를 강화하는 특정 어텐션 헤드를 제어하여, 모델이 환각을 줄이도록 돕는 방법입니다. FAITH는 크게 False Premise Head의 위치 지정제어 과정으로 나뉩니다. 이 두 과정은 다음과 같이 상세하게 진행됩니다.

1. False Premise Head 위치 지정 (Head Localization)

먼저 잘못된 전제 환각을 유발하는 특정 어텐션 헤드를 찾아내야 합니다. 이를 위해 다음 절차를 거칩니다.

  1. 지식 평가 (Knowledge Assessment) 쿼리 생성: 주어진 질문을 빈칸 채우기(cloze) 형식으로 변환하여 잘못된 전제를 인식할 수 있는 형태로 만듭니다. 예를 들어, 잘못된 전제를 포함한 질문 “아인슈타인은 1920년에 노벨 물리학상을 받았다”는 “아인슈타인은 ___ 년도에 노벨 물리학상을 받았다”로 변경됩니다.
  2. 각 어텐션 헤드의 영향력 계산: 앞서 설명한 대로, 이 질문에 대해 어텐션 헤드의 활성화 값과 최종 예측 값의 변화를 계산하여 각 어텐션 헤드가 오류 발생에 얼마나 기여하는지 정량화합니다.
  3. 기준 임계값 설정: 영향력이 일정 기준 이상인 어텐션 헤드를 False Premise Head로 지정합니다. 이들은 잘못된 정보에 과도하게 반응하며, 대부분 모델의 얕은 층에 위치합니다.

2. False Premise Head 제어 과정 (Head Constraining)

False Premise Head가 특정 오류에 대한 영향을 억제하기 위해, FAITH는 제어 과정을 통해 이들 헤드가 출력에 미치는 영향을 제한합니다. 구체적인 절차는 다음과 같습니다.

  1. 멀티 헤드 어텐션 계산 시 False Premise Head 억제: 잘못된 전제가 포함된 질문에 대해 모델이 응답을 생성하는 동안, 선택된 False Premise Head들이 잘못된 정보(예: 잘못된 연도)에 집중하는 것을 억제합니다.
  2. 이를 위해 False Premise Head들의 활성화 값을 특정 토큰에 대해 제로화하거나, 특정 범위에서의 값을 무시하는 방식으로 제어합니다. 이렇게 되면, 해당 헤드들은 잘못된 정보에 대해 더 이상 활성화되지 않고, 나머지 어텐션 헤드들만이 정보에 접근하여 더 정확한 응답을 생성할 수 있게 됩니다.
  3. 수식적 적용: 제어된 어텐션 값을 사용하는 다중 헤드 어텐션의 출력을 al′로 정의하며, 여기서 False Premise Head들은 제어 함수 f를 통해 특정 행렬 범위에서 0으로 설정됩니다. 이 제어 함수는 다음과 같이 정의됩니다:
    여기서 f(B)는 False Premise Head의 활성화를 특정 토큰 범위에서 무시하는 함수로, False Premise Head에 해당하는 경우 해당 행을 0으로 설정합니다.

 

3. FAITH 방법의 장점과 효과

FAITH는 단 1%의 어텐션 헤드만을 제어해도 모델의 정확도를 크게 개선할 수 있습니다. 제어된 어텐션 헤드들이 잘못된 정보에 반응하지 않도록 제한함으로써, 모델이 실제로 기억하고 있는 사실 기반 정보에 더 쉽게 접근하게 되어 환각을 줄일 수 있습니다.

이 방법을 통해 잘못된 전제 환각을 완화할 수 있었고, 일반적인 환각 완화 방법보다도 뛰어난 성능을 보였습니다.

 

그럼 이제 이 논문이 사용한 방법론이 타당하고, 납득할 수 있는 방법인지 설명해주고, 어디에 사용할 수 있는지 말해줘

1. 방법론의 타당성과 납득 가능성

A. 타당성

  • 문제 정의의 명확성: 이 논문은 기존 환각 문제 중에서도 특히 잘못된 전제(false premise)에 의해 발생하는 환각에 주목합니다. 일반적인 환각과 다르게, 잘못된 전제 환각은 모델이 실제로 기억하고 있는 정보와 충돌하는 경우에도 발생하므로, 문제 정의가 명확하고 실제 응용 환경에서 의미가 있습니다.
  • 체계적인 실험 설정: 논문은 위키데이터를 사용해 자동으로 데이터셋을 구성하여, 실험이 데이터셋 생성의 편향 없이 반복 가능하도록 구성했습니다. 다양한 질문 템플릿을 사용하여 모델의 일반화를 평가하고, 여러 측정 지표를 통해 결과의 신뢰성을 높였습니다.
  • False Premise Head 분석: 개별 어텐션 헤드가 잘못된 정보에 대해 어떻게 반응하는지를 정량적으로 측정하고, 각 어텐션 헤드의 영향력을 수치화한 점은 매우 체계적입니다. 이를 통해 특정 헤드들이 잘못된 정보를 증폭시킨다는 결론을 내릴 수 있어, 분석 결과에 대한 납득이 가능합니다.
  • 최소한의 수정으로 성능 향상: False Premise Head를 단 1% 정도 제어함으로써 모델의 성능을 약 20% 향상시켰다는 결과는, 제안된 FAITH 방법이 모델의 구조를 과도하게 변경하지 않으면서도 효과적으로 문제를 해결할 수 있음을 입증합니다. 이는 실용성과 효율성 면에서도 타당한 접근입니다.

B. 납득 가능성

  • 실제 모델 동작 메커니즘에 기반: FAITH 방법은 어텐션 메커니즘의 기본 구조와 맞닿아 있으며, 모델의 내부 정보 흐름 분석을 통해 발견한 어텐션 헤드를 제어하는 방식입니다. 이는 모델의 원래 설계에 부합하면서도 해당 구조를 개선하는 방식이므로 매우 합리적입니다.
  • 결과의 일관성: FAITH의 성능은 실험 결과에서 일반적인 질문뿐만 아니라 다양한 질문 템플릿에서도 일관되게 향상되었습니다. 이는 제안된 방법이 특정 질문에 국한되지 않고 일반적인 환각 완화에도 유효하다는 점에서 신뢰성을 부여합니다.

2. 활용 가능 분야

이 연구의 방법론은 다양한 인공지능 응용 분야에서 적용 가능성이 큽니다.

A. 대화형 인공지능 시스템

  • 고객 상담 챗봇: 고객이 잘못된 정보를 질문으로 포함하는 경우에도 챗봇이 잘못된 답변을 하지 않도록 False Premise Head를 제어하는 방식으로 활용할 수 있습니다.
  • 헬스케어 상담 시스템: 의료 정보의 경우 잘못된 전제가 포함된 질문에 모델이 잘못된 진단이나 조언을 할 경우 위험할 수 있습니다. FAITH는 이러한 상황에서 모델이 오류를 줄이며 정확한 정보를 제공하도록 도울 수 있습니다.

B. 교육 및 학습 지원 시스템

  • 지식 기반 질의응답 시스템: 역사적 사실이나 과학적 사실 등 잘못된 전제에 대해 정확한 정보를 제공할 수 있는 시스템에서, FAITH를 활용해 오류를 줄일 수 있습니다. 이를 통해 사용자의 잘못된 개념을 바로잡아 학습 효과를 높일 수 있습니다.

C. 검색 엔진 및 정보 추천 시스템

  • 정보 필터링: 사용자가 잘못된 전제를 포함하여 검색을 요청할 경우, 모델이 잘못된 정보를 추천하는 일을 방지할 수 있습니다. 예를 들어 특정 역사적 사건에 대한 잘못된 연도나 인물 정보를 기반으로 한 검색 결과에서 불필요한 오류를 줄일 수 있습니다.

D. 법률 및 금융 분야

  • 법률 상담 시스템: 법적 조항이나 판례가 명확하게 적용되어야 하는 법률 분야에서는 잘못된 전제가 포함된 질문에 대한 환각이 치명적일 수 있습니다. FAITH는 모델이 오답을 줄이고 더 신뢰성 높은 정보를 제공하도록 하는 데 도움을 줄 수 있습니다.
  • 금융 어드바이저 시스템: 금융 분야에서도 잘못된 전제의 질문에 정확한 정보를 제공해야 하는데, FAITH를 통해 잘못된 전제에 대한 응답의 정확성을 높여 사용자 신뢰를 강화할 수 있습니다.

결론

FAITH는 대형 언어 모델의 내부 메커니즘을 잘 이해하고 효율적으로 문제를 해결할 수 있는 방법입니다. 잘못된 전제에 대한 반응을 억제하는 이 방법론은 다양한 분야에서 오류를 줄이고, 모델의 신뢰성을 높이는 데 매우 유용한 방법이 될 것입니다.

 

728x90