https://arxiv.org/abs/1803.05457
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
We present a new question set, text corpus, and baselines assembled to encourage AI research in advanced question answering. Together, these constitute the AI2 Reasoning Challenge (ARC), which requires far more powerful knowledge and reasoning than previou
arxiv.org
이 것도 과제가 생겨서....
Abstract
우리는 고급 질의응답 분야에서 AI 연구를 장려하기 위해 조립된 새로운 질문 세트, 텍스트 코퍼스 및 기준선을 제시합니다. 이것들은 함께 AI2 추론 챌린지( ARC )를 구성하며, 이는 SQuAD 또는 SNLI와 같은 이전 챌린지보다 훨씬 더 강력한 지식과 추론을 요구합니다. ARC 질문 세트는 챌린지 세트와 쉬움 세트로 나뉘며, 챌린지 세트에는 검색 기반 알고리즘과 단어 동시 발생 알고리즘 모두에서 잘못 답변한 질문만 포함됩니다. 데이터 세트에는 자연스러운 초등학교 과학 질문(인간 테스트를 위해 작성)만 포함되어 있으며, 이러한 종류의 가장 큰 퍼블릭 도메인 세트(7,787개 질문)입니다. 우리는 SQuAD 및 SNLI 작업의 주요 신경망 모델을 포함하여 챌린지 세트에서 여러 기준선을 테스트했으며, 이 작업의 어려운 특성을 반영하여 어떤 것도 무작위 기준선보다 유의미하게 우수한 성과를 낼 수 없음을 발견했습니다. 또한 작업 과 관련된 1,400만 개의 과학 문장으로 구성된 코퍼스인 ARC 코퍼스와 테스트된 세 가지 신경망 기준선 모델의 구현도 공개합니다. 귀하의 모델은 더 나은 성능을 낼 수 있습니까? 우리는 ARC를 지역 사회에 대한 도전으로 제시합니다.
https://huggingface.co/datasets/allenai/ai2_arc
allenai/ai2_arc · Datasets at Hugging Face
{ "text": [ "g, kg, cg", "dL, L, mL", "ft, yd, mi", "N, J, W" ], "label": [ "A", "B", "C", "D" ] }
huggingface.co
데이터 셋은 여기 있습니다.
기존 Squad나 snli는 너무 약하다.
그래서 기존 모델들은 못하는 새로운 데이터 셋을 제작했다!!

검색해도, 자주 같이 사용되는 단어를 골라도 풀 수 없도록 되어있다.
코퍼스 또한 제공한다.
1400만 문장을 담고 있으며, 챌린지 문제에 필요한 지식의 상당 부분을 언급한다.
| 문제 상황 | 기존 QA 벤치마크는 표면 단서 기반(factoid·retrieval-style) 문제 비중이 높아 고급 추론·상식·멀티홉 결합 연구를 덜 자극함. ARC는 난도 높은 문항으로 이 한계를 보완하도록 설계됨. |
| 데이터 – 질문 세트(ARC Dataset) | • 총 7,787문항, 모두 텍스트 기반의 다지선다(보통 4지선다), 표·그림 없는 non-diagram 문제. • Challenge 2,590 / Easy 5,197(정의: IR·PMI가 모두 오답인 문항만 Challenge). • 학년 3–9 학년 분포 제공(예: 8학년 비중이 가장 큼; Challenge 41.4%, Easy 41.2%). • 분할: Train 1119/2251, Dev 299/570, Test 1172/2376(Challenge/Easy). • 질문/선지 길이 통계(최소/평균/최대, 선지 수): Challenge 질문 2/22.3/128어 등, 선지 수 평균 4.0. • 질문 어휘 6,329개(어간화 기준). • 지식/추론 유형 분류(표본 100문항): 지식(정의·구조·과정·인과·목적·대수·실험·공간/운동 등)·추론(선지 논리·언어 매칭·멀티홉·비교·가정/반사실·설명/메타·유비 등) 제공. |
| 데이터 – 코퍼스(ARC Corpus) | • 과학 도메인 1,400만 문장(1.4GB)으로 구성된 외부 지식 말뭉치(사용 선택). Challenge 관련 지식 언급 ≈95%(표본 기반). • 구축: 미국 초·중등 80개 주제 × 약 100개 템플릿으로 대규모 쿼리 → 상위 문서 수집·중복 제거·문장 단위 분할. AristoMini(사전/단순위키 등)로 보강, ARC 질문 어휘 99.8%가 코퍼스에 등장. |
| 방법론(Challenge 정의 & 평가) | • Challenge 정의: 두 베이스라인— (i) IR(질문 q+선지 a_i로 검색, 상위 문장 중 q·a_i와 각각 비정지어 1개 이상 겹침 조건으로 점수화)과 (ii) PMI(질문 n-gram–선지 n-gram의 공동출현)—가 모두 오답인 문항만 선별. • 평가 규칙: 정답 1점, 동률 k개 제출 시 1/k 부분점수, 전체 평균(%) 보고. • 베이스라인: DecompAttn/SNLI, BiDAF/SQuAD(다지선다형으로 어댑트), DGEM/SciTail 등 공개. |
| 실험 | Test 성능(% (Challenge/Easy)): 랜덤 25.02/25.02, IR(ARC Corpus) 20.26/62.55, DecompAttn 24.34/58.27, BiDAF 26.54/50.11, DGEM 27.11/58.97, TableILP 26.97/36.15 |
| 결과 | Challenge에서 어떤 방법도 랜덤을 유의미하게 상회 못함(95% CI ±2.5%), 반면 Easy는 대체로 55–65%. → 표면 단서·단일 문장 매칭 중심 파이프라인의 한계를 정량적으로 확인. |
| 결론 | ARC는 난도 높은 문항(Challenge) + 대규모 과학 코퍼스 + 공개 베이스라인/리더보드로, 커뮤니티가 지식 결합·멀티홉·상식/인과 추론에 집중하도록 유도하는 평가 장치를 제시. |
| 기여 | (1) Challenge 파티션 도입으로 표면 단서 편향 제거, (2) 14M 과학 코퍼스 공개(95% 지식 언급), (3) 재현 가능한 다지선다형 베이스라인 및 리더보드 제공, (4) 현행 모델의 한계를 랜덤 수준으로 명확히 드러냄. |
| 한계(논문 기반) | • 운영적 정의 의존: “IR·PMI 동시 실패”라는 휴리스틱 필터에 Challenge 난도가 종속. • 검색 편향 전파: 대부분 파이프라인이 1단계 IR에 의존 → 질문과 너무 유사한 문장으로 치우치고, 부분 일치 문장들의 체인 결합에 취약. • 도메인/형식 제약: 초·중등 과학, 비-다이어그램 다지선다에 한정. • IR 코퍼스 교체 시 Challenge 점수는 랜덤 근처로 이동(방법론 한계 시사). |
좋아요. 업로드하신 논문(ARC: AI2 Reasoning Challenge)을 바탕으로, 연구자가 바로 재현·확장할 수 있도록 체계적으로 정리했습니다.
한 줄 요약
ARC는 초·중등 과학 다지선다형 7,787문항과 1,400만 문장 과학 코퍼스를 제공하며, **간단한 IR/연상(co-occurrence)**으로 풀기 어려운 **Challenge Set(2,590문항)**을 별도 구성해 현행 SQuAD/SNLI 계열 모델들이 랜덤(≈25%)보다 유의미하게 높지 않음을 보여주며, 지식 결합·추론 중심 QA로의 연구 전환을 촉구합니다.
핵심 한눈표
구분 핵심 내용| 문제 상황 | 기존 QA 벤치마크는 표면적 단서로 풀리는 문제 비중이 높아 추론·상식·복합지식 결합 발달에 한계. ARC는 이런 한계를 보완하려고 “쉬운 문제”와 IR/PMI가 모두 틀린 문제만 모은 Challenge Set을 분리. |
| 데이터셋 | 총 7,787문항(다지선다, 그림 없음). Challenge 2,590 / Easy 5,197, 학년 3–9학년 분포 제공. 학습/개발/테스트 분할: (1119/299/1172) vs (2251/570/2376). |
| Challenge 정의 | 두 기본 해법이 모두 실패한 문항만 포함: (1) IR 솔버: q+ai로 검색, 질문·보기에 각각 비정지어가 겹치는 최상위 문장 점수 비교 (Elasticsearch). (2) PMI 솔버: 질문 n-gram × 보기 n-gram PMI 평균이 가장 큰 보기를 선택. |
| ARC Corpus | 과학 관련 1,400만 문장(1.4GB). 미국 초·중등 80개 주제 × 약 100개 템플릿으로 대량 쿼리 수집·중복제거·문장화. Challenge 문항의 지식 단서가 코퍼스에 “대부분(샘플 기준 ≈95%)” 언급됨. |
| 평가 | 정답 1점, k개 동률 예측 시 1/k 부분점수. 최종 점수는 평균(%)로 보고. |
| 베이스라인 | IR/PMI(데이터셋 정의용), TupleInference, TableILP, DecompAttn, DGEM, BiDAF(다지선다형으로 어댑트; DGEM/DecompAttn은 SciTail 확장 데이터로 학습, BiDAF는 SQuAD로 학습 후 과학 도메인 연속훈련). |
| 결과 | Challenge: 모든 기법이 랜덤(25.02%) 대비 유의미 향상 없음(예: DGEM 27.11, BiDAF 26.54). Easy: 대체로 55–65%. IR/PMI는 Challenge에서 정의상 거의 0에 근접. |
| 지식·추론 유형 | 지식: 정의, 기본사실/속성, 구조, 과정·인과, 목적, 대수/확률, 실험, 공간/운동 등. 추론: 선택지 논리, 언어적 매칭, 멀티홉, 비교, 가정·반사실, 설명/메타추론, 유비추론 등. |
방법론: 어떻게 “어려운 문항”을 구성하고 평가했는가 (Step-by-Step)
1) Challenge 문항 선별(Filtering)
- IR 솔버로 각 보기 aia_i에 대해 질의 q + a_i를 던져 상위 문장 중 질문과 보기 각각과 비정지어가 1개 이상 겹치는 문장의 검색 점수를 취함. 가장 점수가 큰 보기를 택함.
- PMI 솔버로 질문 n-gram과 보기 n-gram 간 PMI 평균이 최대인 보기를 택함(윈도우 10단어).
- 두 솔버가 모두 오답인 문항만 Challenge Set으로 편성(Easy는 나머지).
효과: “표면적 매칭”이나 “연상 통계”로는 풀 수 없는 문항만 모아, 복합 지식 결합/추론 기법을 유도. 예: ‘광택(luster)은 눈으로 볼 수 있다’ 유형은 웹에 정형 문장으로 드러나지 않아 IR/PMI가 흔히 실패.
2) ARC Corpus 구축
- 주제 80 × 템플릿 ~100을 인스턴스화해 대량 웹 문서를 수집·중복제거·문장화. 총 1,400만 문장. 샘플 분석에서 Challenge의 95% 지식 단서가 언급된 것으로 보고. (사용은 선택)
3) 다지선다형 QA로의 모델 어댑트 & 스코어링
- Entailment 기반(DecompAttn/DGEM): (i) 질문+보기 → **명제(hypothesis)**로 변환, (ii) 코퍼스에서 문장 검색, (iii) 명제⊢문장 함의 점수의 최대값이 큰 보기를 선택. 학습은 SciTail 확장을 사용.
- BiDAF 기반 RC: 검색된 문장들을 하나의 문단으로 합쳐 스팬 예측, 스팬과 최대 어휘 겹침을 보이는 보기를 선택. SQuAD로 학습 후 과학 도메인 연속훈련.
- 스코어링 규칙: 정답 1점, 동률(k개) 1/k, 평균(%) 보고.
실험 결과 요약 및 해석
- Challenge Set:
- 랜덤(Guess-all) **25.02%**와 유사한 범위에서, DGEM 27.11, BiDAF 26.54, TableILP 26.97 등 모두 유의미한 우위 없음. 이는 단순 문장 매칭/연상/단일 스팬 추출의 한계를 반영.
- 정의상 IR/PMI는 거의 0에 수렴.
- Easy Set:
- 대체로 55–65% 범위. 동일 모델들이 쉬운 문항에서는 적절히 작동함을 시사.
결론적 시사점: 복수 사실 결합(멀티홉), 암묵상식 주입, 검색 편향 완화가 핵심 병목. 단일 문장과의 고유명사 매칭에 치우친 IR 파이프라인은 부분 일치 문장들을 모아 연결하는 문제에서 취약.
지식/추론 카테고리 맵
- 지식 유형: 정의, 기본 사실/속성, 구조, 과정·인과, 목적(teleology), 대수/확률, 실험, 공간·운동 등.
- 추론 유형: 선택지 논리, 언어적 매칭, 멀티홉 추론, 비교, 대수, 가정·반사실, 설명/메타추론, 공간·운동, 유비추론 등.
논문의 기여
- 어려운 과학 QA 벤치마크 설계: IR/PMI 실패 문항만 모은 Challenge partition 제안.
- 대규모 과학 코퍼스(1,400만 문장) 제공 및 구축 절차 공개.
- 대표 모델들의 다지선다형 어댑트와 공개 구현(DecompAttn/DGEM/BiDAF), 리더보드까지 제공.
- 현행 모델의 한계를 명확히 계량화(Challenge≈랜덤).
한계 및 향후 과제(논문 관점)
- 검색 편향: 질문과 유사도가 높은 문장 위주로만 수집되어, 부분 단서들을 연결하는 체인형 증거에 취약.
- 명제화/스팬 매핑의 단순화: 질문→명제로의 규칙 변환, 스팬→보기 매핑의 어휘 겹침 등은 복잡 추론을 축소할 수 있음(논문 부록의 서술에 기반).
- 암묵 상식 주입 미흡: 코퍼스에는 관련 힌트가 분산되어 있으나, 명시적 한 문장 정답이 드문 경우 추론이 실패.
재현 체크리스트
- 데이터: ARC train/dev/test 분할을 그대로 사용(Challenge/Easy 별도).
- 코퍼스: 공개된 ARC Corpus 인덱싱(Elasticsearch 등) 권장.
- 베이스라인: (i) IR/PMI 정의 확인, (ii) Entailment 기반 어댑트(DGEM/DecompAttn), (iii) BiDAF 스팬→선택지 매핑 구현.
- 평가: 정답 1점, 동률 1/k 규칙 적용해 %, 리더보드 양식에 맞춤.
연구 적용 팁(논문이 시사하는 바)
- 멀티홉 검색·랭킹: “질문과 유사한 한 문장” 중심의 검색 편향을 줄이고, 부분 일치 문장들의 집합을 최적화하는 검색/재랭킹을 설계해야 합니다(예: 증거 체인의 커버리지/일관성 최적화).
- 지식 결합 모듈: 정의·속성·과정·인과 등 타입별 지식 조각을 구조화해 조합하는 모듈이 성능 병목을 완화할 가능성이 큽니다(표 4·5 유형 참조).
- 도메인 적응: BiDAF가 SQuAD→과학 연속훈련으로 어댑트되었듯, 멀티홉/과학 추론에 특화된 과업·데이터로의 추가 적응이 필요합니다.
필요하시면, Challenge 세트 상위 10개 지식·추론 유형별 예시를 뽑아 증거 체인 구축 가이드(검색 쿼리 템플릿, 증거 선택 휴리스틱, 스코어링 함수 설계안)까지 이어서 만들어드릴게요.
좋아요. 업로드하신 ARC 논문만을 근거로, 관련 연구·데이터셋의 지형을 정리하고 ARC(이 논문)의 차별점과 기여를 한눈에 보이도록 정리했습니다.
한눈에 보는 연구 지형과 ARC의 위치
범주 대표 데이터/모델 핵심 아이디어 논문이 지적한 한계 ARC와의 차이(핵심)| 독해(Reading Comprehension) | MCTest, SQuAD, NewsQA, CNN/DailyMail, TriviaQA | 주어진 문단에서 표면적 단서로 정답 스팬/사실 찾기 | 표면적 단서로 충분한 문제가 다수라 “언어이해·추론”의 진전 평가가 모호, 어드버서리얼에 취약 | ARC는 표면적 단서로 풀 수 없는 문항을 Challenge로 분리하여 기존 RC SOTA(예: BiDAF)도 랜덤 수준에 머무르게 설계. |
| 합성(synthetic) 과제 | bAbI, Memory Networks 계열 | 시뮬레이터 기반 합성 텍스트/세계로 멀티스텝 추론 훈련 | 합성 데이터의 비현실성/규칙성 때문에 모델이 데이터 생성 과정을 역추적하여 성과를 낼 위험 | ARC는 실세계 시험문항 기반(3–9학년 과학)이며 합성 규칙에 의존하지 않음. |
| 표준화 시험 기반 과제 | NTCIR QALab, Allen AI Science Challenge(2016) | 실시험 문항으로 종합적 언어·상식 평가 | 데이터 규모 작음, 단순 IR/상관 통계가 지배되어 연구가 그 방향으로 편향 | ARC는 (1) Challenge 파티션 도입, (2) 14M 문장 과학 코퍼스 제공, (3) 질문·코퍼스·모델 공개로 한계를 해소. |
| 반정형/지식 구조 | TableILP, TupleInference | 테이블/튜플 등 반정형 지식과 일치·추론 | 지식 커버리지 제약, 또는 초기 IR에 의존해 멀티홉 결합에 취약 | ARC의 Challenge는 IR·PMI 모두 실패 문항만 포함 → 이 계열도 Challenge에서 랜덤 수준. |
| 함의(Entailment) 기반 | DecompAttn, DGEM(+OpenIE) | “질문+선지 → 명제” 변환 후 코퍼스 문장과 함의 점수로 선택지 점수화 | 실제 파이프라인이 IR→함의라 IR 편향의 영향을 그대로 받음 | ARC Challenge에서 유의미한 상회 없음(≈25~27%). |
ARC가 ‘기존과 어떻게 다른가’(정확한 근거 문장 인용)
- 문제 정의의 재설계: “어려운 문항”의 체계적 선별
- Challenge는 IR과 PMI(공동출현) 두 베이스라인이 모두 틀린 문항만 포함해 “표면 단서/연상 통계”로는 풀리지 않도록 설계.
- 이 구조 때문에 SNLI·SQuAD로 강한 모델(BiDAF, DecompAttn, DGEM 등)도 랜덤(25%)을 유의미하게 넘지 못함.
- 스케일과 공개성
- 7,787문항(Challenge 2,590 / Easy 5,197)으로 동종 공개 세트 중 최대 규모의 실세계 초·중등 과학 다지선다형 세트.
- 14M 과학 문장 코퍼스 동시 제공(선택 사용). 샘플 분석에서 Challenge 관련 지식 언급이 95% 수준으로 존재.
- 이전 “Allen AI Science Challenge(2016)”와의 명시적 차별점(3가지)
- (i) Challenge 파티션으로 단순 알고리즘 지배를 방지, (ii) 과학 코퍼스 제공, (iii) 질문·코퍼스·모델 공개.
- (참고) ARC는 Kaggle 세트 일부(≈60%)의 공개 가능 부분을 포함해 전체의 **≈43%**를 구성.
- 베이스라인의 다지선다형 어댑트 및 공용 코드
- DecompAttn/DGEM은 SciTail 확장으로 학습 후, “질문+선지→명제”로 바꿔 검색 문장들과의 함의 점수로 선지를 채점. 코드 공개.
- BiDAF는 검색 문장들을 하나의 단락으로 합쳐 스팬 예측→선지와 어휘겹침 최대 선지 선택, SQuAD→과학 연속훈련.
“왜 이것이 기여인가?” — 논문이 만든 평가 장치의 가치
- 표면 단서·연상 통계로 풀리는 문제를 분리 → 커뮤니티가 지식 결합(멀티홉), 상식 주입, 인과/설명형 추론으로 초점을 옮기도록 유도. 기존 RC/합성 과제의 취약점을 보완하는 연구 신호를 제공.
- 리더보드+공개 코드+대규모 코퍼스 동시 제공으로 재현성/속진성을 담보하면서도, 현재 SOTA가 어디서 실패하는지 정확히 수치화(Challenge≈랜덤).
논문 결과로 본 ‘차이의 실증’
- Challenge 세트 성능(테스트): Guess-all 25.02%, DecompAttn 24.34, BiDAF 26.54, DGEM 27.11, TableILP 26.97 → 모두 95% CI(±2.5%) 내에서 랜덤과 유사. 반면 Easy는 ~55–65%. 이는 문항 성질의 본질적 차이를 입증.
- 왜 어려운가? (실패 원인 분석): 대부분의 파이프라인이 첫 단계로 간단한 IR을 쓰며, IR은 질문과 높은 어휘유사 문장으로 편향 → 부분 일치 문장들의 체인을 모아 결론을 내리는 데 실패. 더 고도화된 검색·결합 전략이 필요.
빠른 활용 가이드(연구 적용 포인트)
- 증거 체인 중심 검색: “최상위 유사 문장 1~k개” 대신 부분 단서 커버리지/일관성을 최적화하는 멀티홉 검색·재랭킹 설계.
- 명제화 정교화: 단순 FITB 변환의 비문 문제를 줄이는 질문 템플릿/규칙 기반 명제화 개선이 필요.
- 코퍼스 활용: ARC 코퍼스는 정답 단서가 분산되어 있으며(단일 문장에 답이 없음), 지식 결합·암묵 상식 주입이 필수.
정리 한 줄
ARC는 **“IR·PMI가 모두 실패하는 실세계 과학 문항만 모은 Challenge”**와 14M 과학 코퍼스·공개 베이스라인을 통해, 기존 RC/합성/시험형 데이터의 표면단서 편향을 교정하고, 멀티홉 지식 결합·상식 추론으로 연구의 초점을 이동시키는 평가 장치를 제시한 것이 핵심 기여입니다.
아래 내용은 업로드하신 ARC(“Think you have Solved Question Answering? Try ARC”) 논문만을 바탕으로, 방법론을 중심으로 단계별·구성요소별로 재구성한 요약입니다. 연구자가 곧바로 재현·확장할 수 있도록 절차, 핵심 설계 의도, 예시, 타당성·한계·기여를 함께 정리했습니다.
1) ARC가 “어려운 문제”를 만드는 법 (Challenge 세트 선별 절차)
ARC의 핵심은 **표면적 단서 매칭(IR)이나 단순 연상 통계(PMI)**로는 풀리지 않는 문항만 뽑아 Challenge 세트를 만드는 것입니다.
Step-by-Step
- IR 솔버 정의
- 각 선택지 aia_i마다 쿼리 q + a_i로 과학 코퍼스를 검색(예: Elasticsearch).
- 상위 검색 문장들 중 질문 q와 선택지 aia_i 각각과 비정지어가 1개 이상 겹치는 문장들의 점수로 aia_i를 채점.
- 최상위 점수가 가장 큰 aia_i를 IR의 정답으로 결정.
- PMI 솔버 정의
- 질문 n-gram과 선택지 n-gram의 PMI(공동출현 점수)를 윈도우(예: 10단어) 내에서 계산.
- 평균 PMI가 가장 큰 선택지를 PMI의 정답으로 결정.
- Challenge 필터링
- IR과 PMI가 동시에 오답인 문항만 Challenge로 편성(Easy는 나머지).
- 결과적으로 Challenge는 “질문-선지의 단순 어휘중첩/연상통계로는 정답을 찾기 힘든” 문항으로 구성됩니다.
직관: IR은 “겉으로 비슷한 문장 1~2개”에 과도 의존, PMI는 “질문-선지 공기어 동시 출현”에 의존합니다. 두 기준이 동시에 실패한다는 건 복합 지식 결합(멀티홉)·상식/인과 추론·유비/비언어적 변환이 필요하다는 신호입니다.
2) ARC Corpus(지식 원천) 구축
- **주제(약 80) × 수집 템플릿(~100)**로 웹을 크롤링하여 과학 분야 1,400만 문장을 정제·중복제거·문장화.
- 샘플 점검에서 Challenge 문항의 대부분에 대해 필요 지식 단서가 코퍼스 어딘가엔 존재함을 확인(즉, “지식 부재”가 아니라 “지식 결합 실패” 문제를 유도).
3) 평가 프로토콜(다지선다형 적응 & 점수)
- 모든 문항은 다지선다형(MC).
- 모델이 복수 선택지를 동률로 묶어 낼 때는 1/k 부분점수를 부여(동률이 2개면 0.5점).
- 최종 성능은 문항별 점수의 평균(%)로 보고.
4) 베이스라인 파이프라인(“연구 시작점”으로 제공)
ARC는 아래 베이스라인을 다지선다형에 맞게 어댑트하여 공개합니다(Challenge 구성에 사용된 IR/PMI는 성능 보고용 주력 베이스라인이 아님).
- Entailment 계열(DecompAttn, DGEM)
- 질문+선지 → 명제(hypothesis) 문장으로 변환
- 코퍼스에서 관련 문장 검색
- 문장 ⊢ 명제의 함의 점수(최대값)로 선지별 점수화 → 최고점 선택지 예측
(학습은 과학/엔테일먼트 도메인 데이터로 사전 적응)
- RC 계열(BiDAF 적응)
- 검색된 문장들을 하나의 단락으로 합침
- 스팬 예측을 수행
- 예측 스팬과 어휘 겹침이 가장 큰 선택지를 정답으로 매핑
- 구조적 지식 계열(TableILP, TupleInference)
- 테이블/튜플 그래프 기반의 일치·추론으로 선지 점수화
결과적으로 Challenge에서는 위 모든 계열이 랜덤(≈25%) 근처에 머뭅니다. 즉, “검색→단일 문장 근거→스코어링” 전형의 파이프라인이 가진 지식 결합·다단 추론 실패를 드러내는 설계입니다.
5) 동작 예시(간단 워크스루)
문항(예): “어떤 물질의 **광택(luster)**은 주로 어떤 감각으로 판단하는가?”
선지: A 촉각 / B 시각 / C 후각 / D 미각
- IR: 질문 + A/B/C/D로 검색 → “금속은 전도성이 있다”, “광택나는 표면은…” 등 어휘가 비슷하지만 직접 답을 주는 문장이 희소. 상위 매칭 문장 점수에 잡음이 커 오답으로 치우침.
- PMI: “광택–시각” 공기어 빈도는 장르/말뭉치에 따라 희박할 수 있어 PMI가 낮게 계산될 가능성.
- 실제 정답: B(시각). 하지만 이를 위해선 “광택=빛 반사 특성→눈으로 인지”라는 정의+감각 매핑을 조합해야 하며, 단일 문장/단일 통계로는 포착이 어렵습니다. → Challenge로 분류.
6) 방법론의 타당성(왜 이런 설계가 맞나?)
- 내적 타당성: “IR·PMI 모두 실패”라는 명시적 음성 조건으로 Challenge를 정의하여, 표면 단서·연상 통계 의존 전략을 체계적으로 배제합니다.
- 지식 가용성 보장: 대규모 과학 코퍼스를 병행 제공하고, 샘플 분석으로 “필요 지식이 말뭉치에 대부분 존재”함을 확인해 **문제의 핵심이 ‘검색 불가’가 아니라 ‘추론/결합 실패’**임을 분리합니다.
- 평가의 공정성: 동률 시 1/k 부분점수로 불확실성 하의 의사결정을 수치화하고, 다지선다 특성(랜덤=25%)을 기준선으로 명확히 제시합니다.
7) 한계(무엇이 여전히 어렵나?)
- 도전 과제의 정의가 두 휴리스틱(IR·PMI)에 종속: 더 강력한 1차 랭커(신규 dense retrieval, re-ranking)로는 Challenge 포함 여부가 달라질 수 있습니다.
- 검색 파이프라인 의존성: 대부분의 베이스라인이 “검색→스코어링” 구조라 **초기 검색의 편향(어휘 유사도 위주)**을 그대로 물려받습니다.
- 도메인·형식 제약: 초·중등 과학 중심, 이미지/수식·도표 활용 문항은 제외되어 멀티모달 지식에 대한 평가가 제한됩니다.
- 선지-스팬 매핑의 단순성: RC 적응 시 스팬→선지 매핑을 어휘 겹침 등으로 처리해 의미적 등가/요약/추상화를 충분히 반영하지 못할 수 있습니다.
8) 이 방법론의 기여(무엇을 새롭게 제공하나?)
- 평가 장치의 재설계: “IR·PMI 모두 실패” 조건으로 **표면단서 편향을 제거한 어려운 세트(Challenge)**를 제시 → 커뮤니티의 초점을 지식 결합·멀티홉/상식·인과/설명 추론으로 이동.
- 지식 원천 동시 제공: 14M 과학 코퍼스를 함께 제공해, “지식이 없다” 탓이 아닌 “지식 결합 실패”를 정확히 진단 가능한 실험 환경을 구축.
- 재현 가능한 베이스라인 파이프라인 공개: 엔테일먼트·RC·구조적 추론 계열을 MC에 맞게 어댑트하여 공개, 후속 연구가 바로 비교·확장 가능.
- 현행 방법의 한계 정량화: Challenge에서 SQuAD/SNLI 계열 강자들이 랜덤 수준임을 보여, 새 알고리즘 설계의 필요성을 강하게 제기.
9) 실험·재현 체크리스트(연구 실행용)
- 데이터 분할 고정: Easy/Challenge 각각 train/dev/test 분할을 그대로 사용.
- 코퍼스 인덱싱: ARC Corpus를 Elasticsearch 등으로 인덱싱(문장 단위).
- Challenge 재구성(선택): 동일 IR·PMI 구현으로 필터 안정성 점검(룰/토크나이저/스톱워드 일치 필요).
- 모델 어댑트:
- (엔테일먼트) 질문+선지 → 명제 변환 템플릿 정교화, 문장-명제 스코어의 max-pool 또는 evidence chain aggregation 실험.
- (RC) 검색 문장 병합 길이 제한, 스팬-선지 매핑을 **시맨틱 매칭(임베딩)**으로 보완.
- 스코어링: 동률 1/k 부분점수, 평균(%) 보고.
10) 한 장 요약 표
항목 핵심 요약| 문제 설정 | 단순 IR/연상 통계로 풀리는 문항은 연구 신호가 약함 → 이들을 체계적으로 제외한 “어려운 과학 MC” 벤치마크 필요 |
| 핵심 절차 | (1) IR 솔버, (2) PMI 솔버 정의 → 두 솔버 모두 오답인 문항만 Challenge. 병행하여 14M 과학 코퍼스 제공 |
| 모델·평가 | 엔테일먼트/RC/구조적 추론 MC 어댑트 베이스라인 제공, 동률 1/k 규칙으로 점수 계산 |
| 설계 의도 | 지식 결합·멀티홉/상식·인과 추론을 강제하고, “검색 편향”을 최소화 |
| 타당성 | 코퍼스에 필요 지식 존재(대부분) 확인 → “지식 결핍”이 아닌 “결합/추론 실패”를 드러내는 평가 |
| 한계 | 필터가 IR/PMI 정의에 종속, 초기 검색 편향 전파, 멀티모달·수식형 문항 미포함, 스팬→선지 매핑 단순 |
| 기여 | Challenge 파티션, 대규모 과학 코퍼스, 재현 가능한 MC 베이스라인, 현행 방법 한계의 정량화 |
마무리 코멘트(연구 적용 팁)
- 검색을 ‘문장 1개’가 아니라 ‘증거 체인’ 최적화로 바꾸세요(커버리지·일관성 목적함수).
- 질문→명제 변환 템플릿을 강화하고(역할어/상태변환/동의어), 스팬-선지 매핑은 의미 임베딩 기반으로 보완하세요.
- 지식 타입별(정의/속성/과정/인과/실험) 프롬프트·모듈을 분리한 뒤, 조합 규칙(혹은 그래프 탐색)으로 묶으면 Challenge에서의 병목(결합 실패)을 직접 겨냥할 수 있습니다.
좋아요. 업로드하신 ARC 논문을 근거로 결과, 결론, 한계, 기여, 타당성을 면밀하게 정리했습니다. (모든 수치는 논문 본문 표·문장을 인용)
결과(Results)
- 평가 규칙: 정답 1점, 동률(k개) 제시 시 1/k 부분점수. 최종 점수는 문항 평균(%)로 보고.
- 테스트 성능(Challenge / Easy) — 일부 주요 베이스라인:
- Guess-all(랜덤): 25.02 / 25.02
- IR(ARC Corpus): 20.26 / 62.55
- DecompAttn: 24.34 / 58.27
- BiDAF: 26.54 / 50.11
- DGEM: 27.11 / 58.97
- TableILP: 26.97 / 36.15
- (참고) 데이터셋 정의에 사용된 IR/PMI는 Challenge에서 설계상 0에 근접.
- 핵심 관찰: Challenge에서 어떤 방법도 랜덤(25%)을 유의미하게 상회하지 못함(95% CI ±2.5%), 반면 Easy에선 대체로 55–65%.
결론(Conclusions)
- 기존 QA 벤치마크가 표면 단서(factoid) 중심이라 고급 추론 연구를 덜 자극했다는 문제의식. ARC는 새 문항세트+코퍼스+베이스라인을 제시하고, 특히 Challenge 분할이 검색·공동출현 기반 방법에 어려운 성질을 갖도록 설계. 그 결과, SNLI·SQuAD 상위 모델도 Challenge에서 랜덤을 넘지 못함을 확인. 이 벤치마크에서의 진전은 커뮤니티에 의미 있는 도약이 될 것이라 결론.
한계(Limitations)
- 어려움(hardness)의 운영적 정의 의존
- Challenge는 “IR과 PMI가 둘 다 오답인 문항”으로 운영적으로 정의됨. 이는 ‘어려움’의 비공식적 목표를 근사하는 실용적 필터이며, 이 정의 자체가 필터의 속성(예: 사용한 랭커/윈도우)에 종속된다는 한계가 있음.
- 초기 검색 편향 전파
- 다수 베이스라인이 1단계로 단순 IR을 사용 → 질문과 매우 유사한 문장으로 편향되고, 개별적으로는 부분 일치지만 함께 연결하면 정답을 설명하는 문장들을 소홀히 함(체인형 증거 취약).
- 도메인·형식 제한
- 모든 문항은 비-다이어그램(텍스트) 기반의 다지선다이며, **초·중등 과학(3–9학년)**으로 범위가 한정됨. 멀티모달·수식 이해 평가에는 직접적이지 않음.
- IR 교체 시 점수 변동
- Waterloo→ARC Corpus로 IR의 배경 코퍼스를 바꾸면 Challenge 점수가 랜덤 근처로 이동(표에서도 20.26%). 이는 코퍼스 커버리지의 문제가 아니라 단순 IR 방법론의 한계일 가능성이 높다고 분석.
기여(Contributions)
- 도전적 분할(Challenge) 제안: IR·PMI가 모두 실패하는 문항만을 모아 표면 단서 편향을 제거하고, 지식 결합/멀티홉·상식/인과 추론을 요구하는 평가 장치 마련.
- 대규모 지식 원천 동반 제공: 과학 1,400만 문장의 ARC Corpus 공개(샘플 분석 기준 Challenge의 **~95%**에 관련 지식 언급).
- 재현 가능한 베이스라인 공개: DecompAttn·DGEM·BiDAF의 다지선다형 어댑트와 코드/리더보드 제공.
- 현행법의 한계 정량화: Challenge에서 랜덤 수준임을 수치로 명확히 제시 → 커뮤니티의 연구 초점을 검색-1문장 매칭에서 증거 체인 결합/추론으로 이동.
타당성(Validity) 평가
- 구성 타당성(construct validity)
- Challenge 정의가 “표면 단서/연상 통계 전략의 실패”를 명시적으로 보장하므로, 모델이 성공할 경우 지식 결합·추론 능력 개선으로 해석할 근거를 제공.
- ARC Corpus가 분산된 증거를 다수 포함(단일 문장이 아니라 여러 문장을 묶어야 답에 도달) → “멀티홉” 구성요소를 실제로 자극.
- 내적 타당성(internal validity)
- 평가 규칙(동률 1/k 부분점수)과 고정 분할(Train/Dev/Test)이 명확하고, Challenge의 설계 취지(정의상 IR/PMI 실패)가 결과(랜덤 수준)와 일치.
- 외적 타당성(external validity)
- 학년 3–9, 비-다이어그램, 과학 도메인 중심이라는 경계가 있어, 범용 언어이해·다른 도메인/멀티모달로의 일반화는 직접 보장되지 않음.
한 줄 정리
ARC는 “IR·PMI 모두 실패” 문항으로 구성된 Challenge, 14M 과학 코퍼스, 재현 가능한 베이스라인과 리더보드를 통해, 기존 벤치마크의 표면 단서 편향을 교정하고 지식 결합·멀티홉 추론으로 연구의 중심을 이동시키는 평가 장치를 제공한다는 점이 핵심입니다. Challenge에서의 랜덤 수준 성능은 이 설계가 의도대로 작동함을 보여줍니다.
짧은 답: 아니요.
IR·PMI로도 못 맞춘 문항만 모은 것은 ARC의 “Challenge Set”(질문 세트)이고, ARC Corpus는 별도로 만든 과학 도메인 1,400만 문장의 지식 말뭉치입니다.
무엇이 무엇?
- ARC Dataset(질문 세트): 총 7,787문항을 Easy/Challenge로 분할. Challenge는 IR(검색 기반)과 PMI(공동출현 기반) 두 베이스라인이 모두 오답인 문항만 포함합니다.
- ARC Corpus(지식 코퍼스): 과학 관련 14M 문장. Challenge 문항을 풀 때 활용하라고 제공된 외부 지식 원천이며, Challenge처럼 IR/PMI로 “고른” 것이 아닙니다(사용은 선택).
오해 풀기: PMI가 “질문 안 단어만 고른다”?
PMI 솔버는 질문 n-gram × 보기 n-gram의 **PMI(점별 상호정보)**를 큰 코퍼스에서 계산해, 평균 PMI가 가장 큰 보기를 답으로 택합니다(윈도우 10단어). 즉 “질문 속 단어를 그냥 고르는 것”이 아니라, 질문·보기 표현쌍의 공기(associational) 강도를 쓰는 방식입니다.
IR 솔버는?
질문 q와 보기 aia_i를 결합해 q + a_i로 검색하고, q와 aia_i 각각과 비정지어 겹침이 있는 상위 문장의 점수로 보기를 채점합니다(Elasticsearch).
정리 한 줄
- Challenge Set: “IR도 PMI도 틀린” 어려운 질문만 모은 파티션.
- ARC Corpus: 그 질문들을 풀 때 참고할 14M 문장 지식 말뭉치(필수 아님).
좋아, 핵심만 딱 잡아서 설명할게.
ARC의 Challenge 세트에 들어가려면 “두 가지가 모두 틀려야” 해.
규칙(두 가지 조건)
- IR(Information Retrieval) 솔버가 오답
- 방식: 각 보기 aia_i에 대해 질문 q + 보기 a_i로 대규모 코퍼스(워털루, 280GB)를 검색(ElasticSearch).
- 상위 문장 중 q와 a_i 각각과 비정지어가 1개 이상 겹치는 문장의 점수를 보기에 부여하고, 최고 점수 보기를 정답으로 예측. 이 IR 예측이 틀리면 1조건 충족.
- PMI(Pointwise Mutual Information) 솔버가 오답
- 방식: 질문 n-gram과 보기 n-gram 쌍의 **PMI(10단어 윈도우)**를 계산해, 평균 PMI가 가장 큰 보기를 답으로 선택. 이 PMI 예측도 틀리면 2조건 충족.
최종 판정: 위 두 솔버가 모두 오답인 문항만 Challenge에 포함. 하나라도 맞히면 Easy로 분류.
예시로 이해하기
A. Challenge에서 제외된 예(둘 다 맞춤)
질문: “기압계(barometer)는 공기의 어떤 성질을 측정하나?”
정답: 압력(pressure)
- IR: “Air pressure is measured with a barometer.” 같은 정답 직설 문장을 다수 검색 → 정답 도출.
- PMI: “barometer–pressure”의 공기어 결합이 비정상적으로 높음(PMI 큼) → 정답 도출.
→ 둘 다 정답이라서 Challenge에 포함되지 않음.
B. Challenge에 포함된 예(둘 다 틀림)
질문: “광물의 어떤 성질은 보기만 해도 알 수 있는가?”
정답: 광택(luster)
- IR: “보기만 해도(like by looking)”로 정답을 직설적으로 말해 주는 문장이 거의 없어 실패.
- PMI: “mineral”이 오답 선택지들(예: mass, hardness)과도 공동출현이 잦아 혼동 → 오답.
→ IR 오답 ∧ PMI 오답 ⇒ Challenge 포함.
한눈 판정표
케이스 IR 예측 PMI 예측 분류| 바로미터–압력 | 정답 | 정답 | Easy(제외) |
| 광물–광택 | 오답 | 오답 | Challenge(포함) |
자주 헷갈리는 포인트
- PMI가 “질문 속 단어를 그냥 고른다”는 뜻은 아님. PMI는 질문 n-gram × 보기 n-gram의 공동출현 강도(10단어 창)를 써서 연상적 결합이 가장 센 보기를 택하는 통계적 방법이야. 그래서 질문 단어 그대로가 아니라 질문–보기 표현쌍의 결합 강도를 본다.
- Challenge의 의미: 이렇게 걸러진 문항은 보통 단일 직설 문장 매칭이나 단순 연상 통계로는 풀 수 없고, 여러 사실을 **체인(멀티홉)**으로 결합해야 풀리는 경향이 있다. 실제로 기존 모델 대부분이 Challenge에서 랜덤(≈25%)을 의미 있게 넘지 못한다.
필요하면, 네가 갖고 있는 모델/리트리버로 IR·PMI 판정 로깅 스크립트(질문별 “왜 Easy/Challenge인지”를 재현하는 디버그 리포트)까지 만들어줄게.