인공지능/논문 리뷰 or 진행

Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction - 리뷰

이게될까 2024. 7. 25. 00:24
728x90
728x90

https://arxiv.org/abs/2401.13598

 

Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction

Document-level Relation Triplet Extraction (DocRTE) is a fundamental task in information systems that aims to simultaneously extract entities with semantic relations from a document. Existing methods heavily rely on a substantial amount of fully labeled da

arxiv.org

 

 

 

논문 요약: 대규모 언어 모델(LLMs)에서 제로샷 문서 수준 관계 삼중 추출을 위한 일관성 안내 지식 검색 및 노이즈 제거

문제 정의

이 논문에서는 제로샷 문서 수준 관계 삼중 추출(ZeroDocRTE) 문제를 다룹니다. 이는 문서에서 주어진 엔터티와 관계 유형을 자동으로 추출하는 작업입니다. 기존 방법들은 주로 완전히 레이블이 지정된 데이터에 의존하지만, 새로운 관계 유형에 대한 데이터를 수집하고 주석을 다는 것은 시간이 많이 소요되고 비용이 많이 듭니다. 이를 해결하기 위해 저자들은 대규모 언어 모델(LLMs)을 사용하여 자동으로 레이블이 지정된 문서를 생성하는 방법을 탐구합니다.

해결 방법

저자들은 GenRDK(Generating labeled data by Retrieval and Denoising Knowledge)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 LLMs에서 암묵적인 지식을 검색하고 노이즈를 제거하여 합성 데이터를 생성합니다. 구체적으로, 다음과 같은 주요 단계를 포함합니다:

  1. 체인-오브-리트리벌 프롬프트(Chain-of-Retrieval Prompt):
    • ChatGPT를 가이드하여 단계별로 레이블이 지정된 긴 텍스트 데이터를 생성합니다.
  2. 사전 노이즈 제거 모델(Pre-denoising Model):
    • 이미 알려진 관계 데이터를 사용하여 LLaMA2-13B-Chat 모델을 훈련하고, 이를 통해 합성 데이터에 대한 가짜 레이블을 생성합니다.
  3. 일관성 안내 지식 노이즈 제거(Consistency-guided Knowledge Denoising):
    • 문서 간의 일관성에 기반하여 노이즈를 제거하고 합성 데이터의 품질을 향상시킵니다.
  4. 관계 삼중 추출기(Relation Triplet Extractor):
    • 노이즈가 제거된 합성 데이터를 사용하여 문서 수준 관계 삼중 추출 모델을 훈련합니다.

실험 및 결과

저자들은 두 개의 공개 데이터셋(RE-DocRED와 DocRED)을 사용하여 제로샷 문서 수준 관계 추출 실험을 수행했습니다. 실험 결과, GenRDK 프레임워크는 강력한 베이스라인 모델들보다 우수한 성능을 보였습니다. 특히, 노이즈가 제거된 합성 데이터를 사용한 모델은 원래의 합성 데이터를 사용한 모델보다 성능이 크게 향상되었습니다.

  • GenRDK는 DocRED 데이터셋에서 5개의 미지의 관계 유형이 있을 때 테스트 세트에서 13.1 ± 2.6 F1 점수를 기록했고, 10개의 미지의 관계 유형이 있을 때는 14.2 ± 1.3 F1 점수를 기록했습니다.
  • 이는 GenRDK가 ChatGPT에서 암묵적인 지식을 효과적으로 검색할 수 있음을 보여줍니다.

한계점

  1. 합성 데이터의 노이즈:
    • LLMs에서 생성된 데이터에는 종종 잘못된 정보가 포함될 수 있으며, 이를 해결하기 위해서는 추가적인 노이즈 제거 전략이 필요합니다.
  2. 모델 복잡성:
    • 제안된 프레임워크는 다단계 프로세스를 포함하고 있어 구현과 유지보수가 복잡할 수 있습니다.
  3. 일반화 가능성:
    • 제안된 방법이 다양한 도메인에서 동일한 성능을 발휘할 수 있는지에 대한 추가 연구가 필요합니다.

결론

이 논문은 제로샷 문서 수준 관계 삼중 추출을 위한 새로운 프레임워크인 GenRDK를 제안합니다. 체인-오브-리트리벌 프롬프트와 일관성 안내 지식 노이즈 제거 전략을 통해 생성된 합성 데이터의 품질을 개선하여 기존 방법들보다 우수한 성능을 달성했습니다. 이 연구는 새로운 관계 유형에 대한 자동 주석 생성과 관련하여 중요한 기여를 합니다.

 

그럼 여기선 LLaMa를 통해 노이즈를 생산하고, 다른 모델을 통해 일관성이 없는 노이즈들을 제거하는 모델을 만들어서 필요없는 데이터들을 지우고, 중요한 모델만 남긴다는 뜻이지?

네, 맞습니다. 논문에서 제안하는 방법은 다음과 같습니다:

  1. LLaMA 모델을 사용한 노이즈 생성:
    • 이미 알려진 관계 데이터를 사용하여 LLaMA2-13B-Chat 모델을 훈련합니다.
    • 이 훈련된 모델을 사용하여 합성 데이터에 대한 가짜 레이블을 생성합니다. 이 단계에서 생성된 데이터에는 노이즈, 즉 잘못된 정보가 포함될 수 있습니다.
  2. 일관성 안내 지식 노이즈 제거:
    • 일관성 안내 지식 노이즈 제거 전략을 사용하여 합성 데이터의 노이즈를 제거합니다.
    • 문서 간의 일관성을 기반으로 잘못된 관계 삼중항을 식별하고 제거합니다.
    • 동일한 관계 사실이 여러 문서에서 일관되게 나타나는지를 평가하여 신뢰할 수 없는 관계 삼중항을 제거하고, 필요한 경우 누락된 관계 삼중항을 추가합니다.

이 과정을 통해 합성 데이터에서 불필요한 노이즈를 제거하고 중요한 정보만 남기게 됩니다. 이로 인해 모델의 성능이 향상되고, 문서 수준 관계 삼중 추출 작업이 더 정확해집니다.

 

노이즈가 제거된 데이터는 알겠는데 문서 수준 관계 삼중 추출 모델이 뭘 하는거야?
사람이 검색어로 준 데이터를 필요한 데이터를 넣고, 노이즈를 제거하면서 좀 더 정확한 검색을 보여주려고 하는거야?

네, 문서 수준 관계 삼중 추출 모델은 주어진 문서에서 특정 엔터티 간의 관계를 자동으로 추출하는 작업을 수행합니다. 이 모델은 주로 다음과 같은 단계로 작동합니다:

  1. 데이터 입력: 주어진 문서나 텍스트 데이터를 입력받습니다.
  2. 엔터티 추출: 문서 내에서 주요 엔터티(사람, 장소, 조직 등)를 식별하고 추출합니다.
  3. 관계 추출: 추출된 엔터티들 간의 관계를 식별하여 삼중항(triplet) 형태로 표현합니다. 예를 들어, (엔터티1, 관계, 엔터티2)와 같은 형태입니다. 예를 들어, "The Godfather is directed by Francis Ford Coppola"라는 문장에서 (The Godfather, directed by, Francis Ford Coppola)라는 관계 삼중항을 추출합니다.

이 과정에서 모델은 사람이 직접 검색어나 관계 유형을 제공하지 않더라도 문서 내에서 자동으로 엔터티와 관계를 식별하여 추출합니다.

논문에서 제안하는 방법은 이 과정에서 발생할 수 있는 노이즈(잘못된 정보)를 제거하여 더 정확한 관계 삼중항을 추출할 수 있도록 합니다. 이를 위해 LLaMA 모델을 사용하여 합성 데이터를 생성하고, 일관성 있는 지식을 기반으로 노이즈를 제거합니다.

결론적으로, 문서 수준 관계 삼중 추출 모델은 문서 내에서 엔터티 간의 관계를 자동으로 식별하고 추출하여 정보 검색, 지식 그래프 구축 등의 작업을 더 정확하게 수행할 수 있도록 돕습니다. 이 모델은 사람이 직접 검색어나 관계 유형을 지정하지 않아도 문서 내에서 의미 있는 관계를 추출할 수 있습니다.

 

문서 수준 관계 삼중 추출(Document-level Relation Triplet Extraction, DocRTE)은 정보 시스템에서 문서로부터 의미론적 관계를 가진 엔터티를 동시에 추출하는 기본 작업입니다. 기존 방법은 주로 충분히 레이블이 지정된 데이터에 크게 의존합니다. 그러나 새로운 관계를 위한 데이터를 수집하고 주석을 다는 것은 시간이 많이 소요되고 노동 집약적입니다. 최근의 고급 대규모 언어 모델(LLMs)인 ChatGPT와 LLaMA는 인상적인 긴 텍스트 생성 능력을 보여주어 새로운 관계가 포함된 자동 레이블 문서를 얻기 위한 대안적 접근 방식을 탐구하도록 영감을 주었습니다. 이 논문에서는 LLMs에서 지식을 검색하고 노이즈를 제거하여 레이블 데이터를 생성하는 GenRDK라는 제로샷 문서 수준 관계 삼중 추출(ZeroDocRTE) 프레임워크를 제안합니다. 구체적으로, ChatGPT가 단계별로 레이블이 지정된 긴 텍스트 데이터를 생성하도록 유도하는 체인-오브-리트리벌 프롬프트를 제안합니다. 합성 데이터의 품질을 개선하기 위해 문서 간 지식의 일관성에 기반한 노이즈 제거 전략을 제안합니다. 우리의 노이즈 제거된 합성 데이터를 활용하여, 문서 수준 관계 삼중 추출을 위해 LLaMA2-13B-Chat을 미세 조정합니다. 두 개의 공개 데이터셋에서 제로샷 문서 수준 관계 및 삼중 추출 실험을 수행합니다. 실험 결과, 우리의 GenRDK 프레임워크가 강력한 베이스라인을 능가함을 보여줍니다.

 

관계 삼중 추출(RTE)은 비구조화된 텍스트에서 엔터티 쌍과 의미 관계 유형을 추출하는 것을 목표로 하며, 이는 지식 그래프 구축 및 정보 검색을 포함한 다양한 하위 자연어 처리(NLP) 애플리케이션에서 중요한 역할을 합니다. 기존 접근 방식은 대규모로 인간이 주석을 단 코퍼스에 크게 의존하므로 시간이 많이 걸리고 노동 집약적입니다. 따라서 최근의 노력은 제로샷 관계 추출(ZeroRE) 및 관계 삼중 추출(ZeroRTE) 작업에 집중하고 있습니다.

제로샷 시나리오에서는 사용할 수 있는 인간 주석 학습 데이터가 없는 상태에서 모델이 보이지 않는 관계 유형에 일반화해야 합니다. 이 문제를 해결하기 위해 대부분의 기존 방법은 ZeroRE 작업을 읽기 이해, 텍스트 함축, 폐쇄형 질문 응답 작업과 같은 다른 작업으로 재구성하려고 합니다. 이러한 접근 방식은 유망한 성능을 보이지만 엔터티 쌍이 쉽게 접근할 수 있다는 비현실적인 가정을 합니다. 따라서 기존 노력은 이전에 보지 못한 관계 유형에 대한 설명을 기반으로 합성 데이터를 생성하여 ZeroRTE 작업을 탐구하려고 합니다.

그러나 위에서 언급한 방법은 주로 문장 수준의 ZeroRE 및 ZeroRTE 작업에 집중하여 엔터티와 관계가 단일 문장 내에 제한된다고 가정합니다. 실제로 많은 유용한 관계적 사실은 여러 문장에 걸쳐 표현되며 이러한 제로샷 접근 방식을 사용하여 추출할 수 없습니다. 따라서 우리는 문서 전체에서 보이지 않는 관계 유형과 함께 관계 삼중 항을 추출하는 것을 목표로 하는 제로샷 문서 수준 관계 삼중 추출 작업(ZeroDocRTE)을 소개합니다. 문장 수준 ZeroRTE와 달리 ZeroDocRTE는 문서의 복잡한 의미론적 맥락과 담론 구조로 인해 더 어려운 작업입니다. ChatGPT 및 LLaMA와 같은 최근 고급 대규모 언어 모델(LLM)의 인상적인 긴 텍스트 생성 기능에 영감을 받아 기존 LLM을 활용하여 새로운 관계가 있는 자동 레이블 문서를 얻습니다. 문장 수준의 합성 데이터 생성과 달리 문서 수준의 합성 데이터는 여러 문장에 걸쳐 관계 삼중 항을 포함해야 합니다.

이 작업을 해결하기 위해 LLM에서 지식을 검색하고 노이즈를 제거하여 레이블이 지정된 데이터를 생성하는 GenRDK라는 ZeroDocRTE 프레임워크를 제안합니다. 구체적으로 ChatGPT가 단계별로 레이블이 지정된 긴 텍스트 데이터를 생성하도록 안내하는 체인 오브 리트리벌 프롬프트를 제안합니다. 다양한 합성 데이터를 자동으로 생성할 수 있지만 이 과정에서 피할 수 없이 노이즈 레이블이 도입됩니다. LLM의 환각 문제로 인해 합성 데이터에 많은 잘못된 관계적 사실이 있습니다. 따라서 합성 데이터의 잘못된 레이블을 완화하기 위해 일관성 안내 문서 간 지식 노이즈 제거 전략을 제안합니다. 먼저, 이미 알려진 관계 데이터를 사용하여 사전 노이즈 제거 DocRTE 모델을 훈련하여 합성 데이터의 가짜 레이블을 얻습니다. 다음으로 합성 데이터의 가짜 레이블과 원래 레이블에 따라 문서 간 지식 그래프를 구성합니다. 동일한 관계적 사실이 다른 합성 문서에서 다른 형태로 표현될 수 있음을 관찰하여 관계적 사실의 신뢰성을 평가하기 위해 일관성 점수를 계산합니다. 마지막으로 신뢰할 수 없는 관계적 사실을 정리하고 합성 데이터에 다시 레이블을 지정합니다. 노이즈가 제거된 합성 데이터를 사용하여 문서 수준 관계 삼중 항을 추출하기 위해 LLaMA2-13B-Chat을 미세 조정합니다.

우리 작업의 주요 기여는 다음과 같이 요약됩니다:

  • 우리는 도전적인 제로샷 문서 수준 관계 삼중 추출(ZeroDocRTE) 작업을 탐구하고 LLM에서 암묵적 지식을 검색하고 노이즈를 제거하여 합성 데이터를 생성하는 새로운 프레임워크를 제안합니다.
  • ChatGPT가 복잡한 의미론적 맥락과 다양한 관계 삼중 항을 포함하는 문서를 단계별로 생성하도록 안내하는 체인 오브 리트리벌 프롬프트를 제안합니다.
  • 신뢰할 수 없는 관계적 사실을 줄이고 누락된 관계적 사실을 추가하여 합성 데이터의 품질을 향상시키는 것을 목표로 하는 일관성 안내 문서 간 지식 노이즈 제거 전략을 제안합니다.
  • 제로샷 문서 수준 관계 및 삼중 추출 작업에서 우리 프레임워크를 수행합니다. 실험 결과, 우리의 GenRDK 프레임워크가 경쟁력 있는 베이스라인보다 성능이 크게 향상됨을 보여줍니다.

 

문장 수준 관계 삼중 추출

문장 수준 RTE는 단일 문장에서 엔터티와 관계를 동시에 추출하는 것을 목표로 합니다. 기존 작업들은 주로 감독된 관계 삼중 추출에 집중하고 있습니다. 이러한 모델들은 문장 수준 RTE 작업에서 큰 성공을 거두었지만, 복잡한 데이터 정리와 시간이 많이 소요되는 라벨링이 필요한 대규모 코퍼스에 크게 의존합니다. 게다가 실제 시나리오에서는 학습 데이터가 없는 관계 유형이 추론 과정에서 나타날 수 있습니다. 이를 해결하기 위해 최근 연구 노력은 주어진 문장의 엔터티 쌍 간의 보이지 않는 관계 유형을 분류하는 것을 목표로 하는 제로샷 관계 추출(ZeroRE) 작업을 탐구하고 있습니다. 그러나 이러한 접근 방식은 문장 내에 그라운드 트루스 헤드 및 테일 엔터티가 쉽게 접근할 수 있다는 비현실적인 가정을 합니다. 따라서 학자들은 합성 예제를 사용하여 RTE에 대한 제로샷 설정을 처음으로 제안했습니다. 그러나 위에서 언급한 기술들은 주로 문장 수준의 ZeroRE 및 ZeroRTE 작업에 집중하고 있어 제로샷 문서 수준 관계 및 삼중 추출 작업에 직접 적용하는 데 어려움을 겪고 있습니다.

문서 수준 관계 추출

기존 접근 방식은 주로 문서 수준 관계 추출(DocRE) 작업에 집중하고 있으며, 이는 트랜스포머 기반 모델과 그래프 기반 모델을 사용하여 엔터티 표현을 집계하기 위한 맥락적 및 비지역 구조 정보를 추출합니다. 이러한 모델들은 DocRE 작업에서 놀라운 성공을 거두었지만, 그라운드 트루스 엔터티 위치의 형태로 사전 지식이 필요합니다. 이후 최근 작업들은 엔터티와 관계를 종단 간 방식으로 공동으로 추출하려고 시도합니다. 그러나 앞서 언급한 방법들은 광범위한 감독된 데이터에 의존하며, ZeroDocRTE 및 ZeroDocRE 작업에는 적용되지 않습니다. 이러한 도전 과제를 해결하기 위해 ChatGPT의 잠재 지식을 검색하여 문서와 레이블을 합성하는 새로운 프레임워크를 제안합니다. 생성 과정에서 발생할 수 있는 노이즈 문제를 완화하기 위해 일관성 안내 지식 노이즈 제거 전략을 도입하여 합성 데이터의 품질을 더욱 향상시킬 수 있습니다.

GenRDK 프레임워크 개요

  1. 체인 오브 리트리벌 프롬프트: ChatGPT가 단계별로 레이블이 지정된 데이터를 생성하도록 안내합니다.
  2. 사전 노이즈 제거 모델: LLaMA2-13B-Chat 모델과 LoRA를 기반으로 사전 노이즈 제거 모델을 훈련합니다.
  3. 일관성 안내 문서 간 지식 노이즈 제거 전략: 일관성 점수를 계산하여 합성 데이터의 신뢰할 수 없는 관계적 사실을 줄이고, 누락된 관계적 사실을 추가합니다.
  4. 관계 삼중 추출기 훈련: 노이즈가 제거된 합성 데이터를 사용하여 관계 삼중 추출기를 훈련합니다.

결론

이 새로운 프레임워크는 ChatGPT의 잠재 지식을 검색하여 문서와 레이블을 합성하며, 생성 과정에서 발생할 수 있는 노이즈 문제를 완화하기 위해 일관성 안내 지식 노이즈 제거 전략을 도입합니다. 이를 통해 합성 데이터의 품질을 향상시키고, 제로샷 문서 수준 관계 및 삼중 추출 작업에서 더 높은 성능을 달성할 수 있습니다.

 

방법론

이 섹션에서는 제안된 프레임워크를 자세히 소개합니다. 그림 3에 나타난 것처럼, 우리의 GenRDK는 다음 네 가지 주요 단계로 구성됩니다: (1) 레이블이 지정된 데이터를 생성하기 위한 체인 오브 리트리벌 프롬프트; (2) 가짜 레이블을 얻기 위한 사전 노이즈 제거 모델 훈련; (3) 일관성 안내 문서 간 지식 노이즈 제거; (4) 관계 삼중 추출기 훈련.

3.1 문제 정의

주어진 데이터셋 𝐷 = 𝐷𝑠 ∪ 𝐷𝑢는 사전 정의된 관계 유형 세트 𝑅 = 𝑅𝑠 ∪ 𝑅𝑢를 포함하고 있으며, 𝑅𝑠 ∩ 𝑅𝑢 = ∅입니다. 𝐷𝑠는 보이는 관계 유형 세트 𝑅𝑠만 포함하는 보이는 데이터셋이고, 𝐷𝑢는 보이는 𝑅𝑠와 보이지 않는 관계 유형 세트 𝑅𝑢를 모두 포함하는 보이지 않는 데이터셋입니다. 주어진 문서 𝑑𝑖 ∈ 𝐷𝑢에 대해, 제로샷 문서 수준 관계 삼중 추출은 보이지 않는 관계 유형과 함께 관계 삼중항을 추출하는 것을 목표로 하며, 이는 {(𝑒𝑠, 𝑒𝑜, 𝑟𝑘) | 𝑒𝑠, 𝑒𝑜 ∈ 𝐸𝑖, 𝑟𝑘 ∈ 𝑅𝑢}로 형성됩니다. 여기서 𝑅𝑢는 보이지 않는 관계 유형 세트이고, 𝑒𝑠는 머리 엔터티, 𝑒𝑜는 꼬리 엔터티, 𝐸𝑖는 문서 𝑑𝑖의 엔터티 세트입니다.

3.2 체인 오브 리트리벌 프롬프트

대규모 언어 모델(LLM)은 대규모 사전 훈련 덕분에 다양한 NLP 애플리케이션에서 강력한 제로샷 일반화 능력을 보여주었습니다. 최근 접근 방식들은 LLM의 암묵적 지식을 활용하여 다운스트림 작업을 위한 합성 데이터를 생성합니다.

[𝑠𝑖, 𝑦𝑖] = 𝐿𝐿𝑀(𝑞𝑖), (1)

여기서 𝑞𝑖는 쿼리 입력 시퀀스이며, 𝑠𝑖와 𝑦𝑖는 대규모 언어 모델이 생성한 문장과 레이블입니다.

이 방법들은 주로 단일 의미 구조를 가진 문장 수준 데이터를 생성하는 데 집중합니다. 그러나 문서 수준 관계 삼중 추출을 위한 합성 데이터는 일반적으로 복잡한 의미 구조와 다양한 관계 삼중항을 포함합니다. 따라서 우리는 복잡한 생성 문제를 일련의 간단한 질문으로 분할하는 체인 오브 리트리벌 프롬프트를 제안합니다. 합성 데이터를 생성하는 과정은 다음과 같습니다:

  • 각 보이지 않는 관계 유형 𝑟𝑖 ∈ 𝑅𝑢에 대해, 우리는 ChatGPT가 관계 세트 𝑅에서 보이지 않는 관계 유형 𝑟𝑖와 가장 관련된 여러 관계 {𝑟𝑖𝑗}𝑛𝑖𝑗=1을 선택하도록 합니다.
  • 우리는 ChatGPT가 보이지 않는 관계 유형 𝑟𝑖와 관련된 관계 {𝑟𝑖𝑗}𝑛𝑖𝑗=1을 포함하는 허구의 문서 𝑑𝑖𝑘를 생성하도록 안내합니다. 생성된 문서의 다양성을 높이기 위해 이 단계에서 ChatGPT의 하이퍼 파라미터 𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑒를 1로 설정합니다.
  • 생성된 문서 𝑑𝑖𝑘에 대응하여, 우리는 ChatGPT가 사전 정의된 엔터티 유형으로 엔터티 세트 𝐸𝑘를 추출하도록 합니다.
  • 우리는 ChatGPT가 위의 문서 𝑑𝑘와 엔터티 세트 𝐸𝑘를 기반으로 모든 유형의 관계 삼중항 {(𝑒𝑠, 𝑒𝑜, 𝑟𝑙) | 𝑒𝑠, 𝑒𝑜 ∈ 𝐸𝑘, 𝑟𝑙 ∈ 𝑅}을 추출하도록 합니다.
  • 관계 삼중항과 문서를 얻은 후, 우리는 ChatGPT가 각 관계 삼중항에 대한 추론 설명을 제시하도록 합니다. 이는 (𝑒𝑠, 𝑒𝑜, 𝑟𝑙, 𝑎𝑐)로 형성됩니다.
  • 우리는 ChatGPT가 생성된 문서 𝑑𝑖에 나타나는 지원 문장을 제시하도록 합니다. 이는 (𝑒𝑠, 𝑒𝑜, 𝑟𝑙, ℎ𝑝)로 형성됩니다.
  • 마지막으로, 우리는 ChatGPT가 위의 모든 정보를 기반으로 최종 구조화된 레이블을 생성하도록 안내합니다.

 

3.3 사전 노이즈 제거 모델

ChatGPT는 유망한 합성 데이터를 생성할 수 있지만, 때때로 그럴듯하지만 사실이 아닌 정보를 생성할 수도 있습니다. 이를 LLM의 환각(hallucination) 문제라고 합니다. 따라서 합성 데이터의 품질을 더욱 향상시키기 위해, 보이는 관계 데이터를 사용하여 사전 노이즈 제거 모델을 훈련하여 가짜 레이블을 생성합니다.

그림 3(b)에 표시된 것처럼, 우리는 보이는 데이터셋 𝐷𝑠를 사용하여 LLaMA2-13B-Chat 모델을 Low-Rank Adaptation (LoRA)을 통해 미세 조정합니다. LoRA는 트랜스포머 레이어에 훈련 가능한 저랭크 행렬을 삽입하여 가중치 업데이트를 근사화합니다. 미세 조정 과정에서 우리는 관계 세트를 동적으로 구성하기 위해 랜덤 조합 전략을 도입합니다. 이를 통해 훈련 데이터의 다양성을 높일 수 있습니다. 구체적으로, 우리는 보이는 관계 세트 𝑅𝑠를 여러 관계 그룹으로 나눕니다. 이 분할은 다음과 같이 표현됩니다:

𝑅𝑠 = [𝑅1, 𝑅2, ..., 𝑅𝑗, ..., 𝑅𝑚],

여기서 𝑚은 관계 그룹의 수입니다. 우리는 각 관계 그룹 𝑅𝑗 = {𝑟𝑖𝑘}을 문서 내용과 함께 입력으로 사용합니다. 각 샘플의 미세 조정 과정은 다음과 같이 표현됩니다:

𝑀ˆ ← 𝑇𝑟𝑎𝑖𝑛(𝑀, 𝐼, 𝑑𝑠𝑖, 𝑅𝑗, 𝑇𝑠𝑖𝑗),

여기서 𝑀은 백본 모델을 나타내고, 𝐼는 DocRTE 작업의 설명입니다. 𝑑𝑠𝑖는 보이는 관계 데이터셋 𝐷𝑠의 𝑖번째 문서이고, 𝑅𝑗는 𝑗번째 관계 그룹이며, 𝑇𝑖𝑗는 𝑖번째 문서의 𝑗번째 관계 그룹의 관계 삼중항을 나타냅니다. 𝑀ˆ는 미세 조정된 모델입니다.

가짜 레이블을 얻기 위해, 우리는 사전 노이즈 제거 모델을 사용하여 합성 데이터에 대한 추론을 수행합니다. 이는 다음과 같이 공식화됩니다:

𝑃𝑖 = 𝑀ˆ (𝐼, 𝑑𝑢𝑖, 𝑅𝑢),

여기서 𝑀ˆ는 사전 노이즈 제거 모델이고, 𝑑𝑢𝑖는 보이지 않는 데이터셋 𝐷𝑢의 𝑖번째 문서이며, 𝑅𝑢는 보이지 않는 관계 세트이고, 𝑃𝑖는 문서 𝑑𝑖의 가짜 레이블입니다.

3.4 일관성 안내 지식 노이즈 제거

합성 데이터의 서로 다른 문서들이 동일한 관계 사실에 의해 생성될 수 있다는 현상을 관찰했습니다. 이 현상에 영감을 받아, 우리는 단일 문서에서 누락된 긍정적인 관계 사실을 문서 간 지식을 통해 보완하려고 합니다. 따라서 우리는 일관성 안내 문서 간 지식 노이즈 제거 전략을 제안합니다.

우리는 가짜 레이블과 합성 레이블의 관계 사실에 따라 두 개의 지식 그래프 𝐾𝐺𝑠와 𝐾𝐺𝑝를 구축하려고 합니다. 우리는 엔터티를 노드로, 관계 유형을 엣지로, 관계 삼중항의 빈도를 가중치로 사용합니다. 그런 다음, 위의 두 지식 그래프를 융합하고 각 관계 삼중항의 일관성 점수를 계산합니다. 이는 다음과 같이 공식화됩니다:

𝑠𝑖𝑗𝑘 = 𝐹𝑠𝑖𝑗𝑘 + 𝐹𝑝𝑖𝑗𝑘,

여기서 𝐹𝑠𝑖𝑗𝑘와 𝐹𝑝𝑖𝑗𝑘는 지식 그래프 𝐾𝐺𝑠와 𝐾𝐺𝑝의 관계 삼중항 (𝑒𝑖, 𝑒𝑗, 𝑟𝑘)의 빈도입니다. 융합된 지식 그래프에 도입될 수 있는 잘못된 관계 사실을 고려하여, 우리는 관계 삼중항의 일관성 점수를 사용하여 융합된 지식 그래프 𝐾𝐺𝑓를 가지치기(pruning)합니다.

관계 유형의 빈도가 다양하기 때문에, 우리는 보이지 않는 각 관계 𝑟𝑘를 위한 동적 임계값 𝜂𝑘를 구성하여 신뢰할 수 없는 삼중항을 필터링합니다. 이는 다음과 같이 공식화됩니다:

𝜂𝑘 = 𝑠𝑖𝑗𝑘 − sqrt(1/𝑁𝜂𝑘−1 Σ(𝑠𝑖𝑗𝑘 − 𝑠𝑖𝑗𝑘)^2),

여기서 𝑠𝑖𝑗𝑘는 관계 삼중항 (𝑒𝑖, 𝑒𝑗, 𝑟𝑘)의 일관성 점수입니다. 𝑁𝜂𝑘는 보이지 않는 관계 유형 𝑘에 속하는 삼중항의 수입니다.

우리의 가지치기 전략에서는, 관계 삼중항 (𝑒𝑖, 𝑒𝑗, 𝑟𝑘)의 일관성 점수 𝑠𝑖𝑗𝑘가 임계값 𝜂𝑘보다 낮으면 이를 제거합니다. 이를 통해 우리는 유용한 지식을 유지하고 융합된 지식 그래프에서 잘못된 관계 사실을 줄일 수 있습니다. 우리는 노이즈가 제거된 지식 그래프 𝐾𝐺𝑑를 사용하여 합성 데이터에 다시 레이블을 지정합니다. 동시에, 다시 레이블 지정 과정에서 가치 있는 보이지 않는 관계 삼중항이 부족한 합성 데이터도 필터링합니다.

3.5 관계 삼중 추출기

노이즈가 제거된 합성 데이터 𝐷ˆ𝑠𝑦𝑛를 사용하여, 우리는 생성 언어 모델 LLaMA2-13B-Chat을 미세 조정하여 관계 삼중 추출기를 훈련합니다. 훈련 과정은 다음과 같이 표현됩니다:

𝑀˜ ← 𝑇𝑟𝑎𝑖𝑛(𝑀, 𝐼, ˆ𝑑𝑠𝑦𝑛𝑖, 𝑅𝑢, 𝑇ˆ𝑠𝑦𝑛𝑖),

여기서 𝑀는 백본 모델을 나타내고, 𝐼는 DocRTE 작업의 설명입니다. ˆ𝑑𝑠𝑦𝑛𝑖는 노이즈가 제거된 합성 데이터셋 𝐷ˆ𝑠𝑦𝑛의 𝑖번째 문서이고, 𝑅𝑢는 보이지 않는 관계 세트이며, 𝑇ˆ𝑠𝑦𝑛𝑖는 𝑖번째 합성 문서의 노이즈가 제거된 관계 삼중항을 나타냅니다. 𝑀˜는 문서 수준 관계 삼중 추출 모델입니다. 우리는 제안된 프레임워크 GenRDK의 훈련 절차를 알고리즘 1에 요약했습니다.

알고리즘 1: GenRDK 훈련 절차

정의: 보이는 데이터 𝐷𝐴𝑠, 삼중항 𝑇𝑠, 관계 유형 세트 𝑅𝑠, 보이지 않는 데이터 𝐷𝐴𝑢, 삼중항 𝑇𝑢, 관계 유형 세트 𝑅𝑢, 원래 합성 데이터 𝐷𝐴𝑠𝑦𝑛과 삼중항 𝑇𝑠𝑦𝑛, 노이즈가 제거된 합성 데이터 𝐷𝐴ˆ𝑠𝑦𝑛과 삼중항 𝑇ˆ𝑠𝑦𝑛, 가짜 관계 삼중항: 𝑇𝑝, 지식 그래프: 𝐾𝐺, 백본 모델: 𝑀, 체인 오브 리트리벌 프롬프트: 𝐶𝑜𝑅, 관계 삼중항 예측: 𝑇 𝑅. 필요: 𝐷𝑠, 𝑅, 𝑅𝑠, 𝑅𝑢. 보장: 𝑅𝑠 ∩ 𝑅𝑢 = ∅.

  1. 𝐷𝑠𝑦𝑛 ← 𝐶𝑜𝑅 (𝐶ℎ𝑎𝑡𝐺𝑃𝑇, 𝑅𝑢, 𝑅)
  2. 𝑀ˆ𝑝𝑟𝑒−𝑑𝑒𝑛𝑜𝑖𝑠𝑖𝑛𝑔 ← 𝑇𝑟𝑎𝑖𝑛(𝑀, 𝐷𝐴𝑠, 𝑇𝑠, 𝑅𝑠)
  3. 𝑇𝑝 ← 𝑃𝑟𝑒𝑑𝑖𝑐𝑡(𝑀, 𝐷ˆ𝑠𝑦𝑛, 𝑇𝑠𝑦𝑛, 𝑅𝑢)
  4. 𝐾𝐺𝑠 ← 𝑇𝑠𝑦𝑛
  5. 𝐾𝐺𝑝 ← 𝑇𝑝
  6. 𝐾𝐺𝑓 ← 𝐹𝑢𝑠𝑖𝑜𝑛(𝐾𝐺𝑠, 𝐾𝐺𝑝)
  7. 𝐾𝐺𝑑 ← 𝑃𝑟𝑢𝑛𝑒(𝐾𝐺𝑓)
  8. 𝐷𝐴ˆ𝑠𝑦𝑛, 𝑇ˆ𝑠𝑦𝑛 ← 𝐷𝑒𝑛𝑜𝑖𝑠𝑒(𝐾𝐺𝑑, 𝐷𝑠𝑦𝑛, 𝑇𝑠𝑦𝑛)
  9. 𝑀˜𝑍𝑒𝑟𝑜𝐷𝑜𝑐𝑅𝑇𝐸 ← 𝑇𝑟𝑎𝑖𝑛(𝑀, 𝐷𝐴ˆ𝑠𝑦𝑛, 𝑇ˆ𝑠𝑦𝑛, 𝑅𝑢)
  10. 𝑇𝑅 ← 𝑃𝑟𝑒𝑑𝑖𝑐𝑡(𝑀˜𝑍𝑒𝑟𝑜𝐷𝑜𝑐𝑅𝑇𝐸, 𝐷𝐴𝑢, 𝑅𝑢)

return 𝑇 𝑅

4 실험

4.1 데이터셋 및 설정

두 개의 공개 데이터셋을 사용하여 제로샷 문서 수준 관계 및 삼중 추출 작업에 대해 제안된 프레임워크를 평가합니다. DocRED는 위키백과와 위키데이터에서 구축된 96개의 사전 정의된 관계 유형을 가진 대규모 인간 주석 문서 수준 관계 추출 데이터셋입니다. Re-DocRED는 DocRED 데이터셋에서 무시된 긍정적인 예를 보완한 수정 버전입니다. 우리는 이전 제로샷 설정을 따르며, 사전 정의된 관계 유형을 보이는 관계 세트와 보이지 않는 관계 세트로 나눕니다. 훈련에는 보이는 세트의 레이블이 있는 문서만 사용하고, 평가에는 보이지 않는 세트를 포함하는 문서를 사용합니다. 보이지 않는 관계는 데이터셋의 관계 유형에서 무작위로 선택됩니다. 공정한 비교를 위해, 다양한 크기(𝑚 ∈ {5, 10})의 보이지 않는 관계 세트를 설정하고, 각 크기에 대해 세 번 무작위 샘플링하여 다른 보이지 않는 관계 세트를 얻습니다.

제안된 GenRDK에서 생성된 합성 데이터는 문서 전체, 엔터티 및 삼중항을 생성하기 때문에 제로샷 문서 수준 관계 및 삼중 추출 작업 모두에 사용할 수 있습니다. 따라서 프레임워크의 효과를 보여주기 위해 광범위한 실험을 수행합니다.

4.2 베이스라인 방법

제로샷 문서 수준 관계 및 삼중 추출 작업은 새로운 작업 설정이므로, 위의 두 작업 설정에서 여러 인기 있는 LLM의 성능을 벤치마크로 평가합니다. 베이스라인 방법에는 LLaMA2-7B, LLaMA2-13B, LLaMA2-7B-Chat, LLaMA2-13B-Chat, Flan-T5-XXL, 및 ChatGPT가 포함됩니다.

4.3 실험 결과

우리의 GenRDK 프레임워크를 위의 베이스라인과 비교합니다. 실험 결과는 두 개의 공개 데이터셋에서 경쟁력 있는 베이스라인보다 성능이 크게 향상됨을 보여줍니다.

관계 삼중 추출

표 1에서 보듯이, 우리의 GenRDK 프레임워크는 RE-DocRED 및 DocRED 데이터셋의 테스트 세트에서 5개의 보이지 않는 관계 유형이 있을 때 각각 13.1 ± 2.6 F1과 14.2 ± 1.3 F1을 달성합니다. 보이지 않는 관계 유형의 수가 10으로 증가할 때, GenRDK는 RE-DocRED 및 DocRED 데이터셋의 테스트 세트에서 각각 8.2 ± 0.6 F1과 9.4 ± 0.6 F1을 달성합니다. 우리의 모델은 원래 합성 데이터로 훈련된 모델보다 약 1.7 F1과 2.1 F1 더 나은 성능을 보였습니다. 이는 일관성 안내 문서 간 지식 노이즈 제거 전략의 효과를 나타냅니다.

관계 추출

표 2에 나타난 바와 같이, GenRDK는 RE-DocRED와 DocRED 데이터셋의 테스트 세트에서 41.3 ± 8.9 F1과 41.5 ± 8.7 F1을 달성합니다. 보이지 않는 관계 유형의 수가 10으로 증가할 때, GenRDK는 RE-DocRED와 DocRED 데이터셋의 테스트 세트에서 각각 30.1 ± 4.2 F1과 31.4 ± 4.6 F1을 달성합니다. 이는 우리의 GenRDK가 ChatGPT에서 암묵적 지식을 효과적으로 검색할 수 있음을 보여줍니다. 또한, 노이즈가 제거된 합성 데이터로 훈련된 DocRE 모델이 원래 데이터로 훈련된 모델보다 더 나은 성능을 보였습니다.

5 분석 및 논의

제안된 체인 오브 리트리벌 프롬프트와 일관성 안내 지식 노이즈 제거 전략의 효과를 분석하기 위해 광범위한 실험을 수행합니다. 또한, 노이즈가 제거된 합성 데이터의 사례 연구를 제시합니다. 더불어, 각 구성 요소의 개별 기여를 분석하기 위한 소거 연구를 수행합니다.

5.1 체인 오브 리트리벌의 효과

표 3에 나타난 바와 같이, 우리의 체인 오브 리트리벌 프롬프트로 생성된 합성 데이터로 훈련된 DocRE 모델은 Re-DocRED와 DocRED 데이터셋의 테스트 세트에서 각각 49.21 F1과 48.30 F1을 달성합니다. ZeroDocRTE 작업에서는 체인 오브 리트리벌 프롬프트로 생성된 합성 데이터로 훈련된 모델이 Re-DocRED와 DocRED 데이터셋의 테스트 세트에서 각각 13.23 F1과 13.38 F1을 달성합니다. 이는 우리의 프롬프트가 ChatGPT를 효과적으로 안내하여 단계별로 문서 수준 관계 샘플을 합성할 수 있음을 보여줍니다.

5.2 지식 노이즈 제거의 효과

표 4에서 보듯이, 모든 백본 모델은 노이즈가 제거된 합성 데이터로 훈련한 후 성능이 향상되었습니다. 그림 7에 나타난 바와 같이, 보이지 않는 관계 유형에 대한 성능이 노이즈가 제거된 합성 데이터로 크게 향상되었습니다. 이는 우리의 노이즈 제거 전략이 합성 데이터의 품질을 향상시킬 수 있음을 나타냅니다.

5.3 사례 연구

그림 8에 나타난 몇 가지 예에서, 우리의 GenRDK는 문서 간 지식 그래프를 통해 올바른 관계적 사실을 추가하고, 지식의 일관성을 통해 잘못된 관계적 사실을 줄일 수 있음을 보여줍니다.

5.4 소거 연구

표 5에 나타난 바와 같이, 각 구성 요소를 제거하면 성능이 저하되며, 이는 각 구성 요소가 GenRDK 프레임워크에 기여함을 나타냅니다.

6 결론

이 논문에서는 제로샷 문서 수준 관계 삼중 추출 작업(ZeroDocRTE)을 위한 새로운 문서 수준 데이터 생성 및 노이즈 제거 프레임워크를 제안합니다. 우리는 ChatGPT를 단계별로 안내하여 문서, 엔터티, 관계 삼중항, 이유, 지원 문장을 생성하는 체인 오브 리트리벌 프롬프트를 제안합니다. 실험 결과, 우리의 GenRDK가 경쟁력 있는 베이스라인보다 우수한 성능을 보였으며, 노이즈 제거 전략의 효과를 입증했습니다. 다양한 도전 과제가 남아 있으며, 생성된 데이터의 다양성과 제어를 향상시키는 것이 잠재적인 연구 방향입니다.

728x90