집 >기술 주변기기 >일체 포함 >칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-09 19:31:011719검색

문서 주소: https://arxiv.org/pdf/2206.11863.pdf
데이터 세트 CHEF 데이터 세트 링크: https://github.com/THU-BPM/CHEF

1. 소개

먼저 작업의 정의를 살펴보고 비교적 간단한 예를 들어보겠습니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

예를 들어, 상하이 폐쇄 기간 동안 특정 자체 미디어에서는 “ Li Liqun이 고기를 사러 아래층으로 내려가다가 붙잡혔어요.” 이 주장(Claim)만으로는 그가 고기를 사러 몰래 아래층으로 내려갔다가 붙잡혔는지 사실상 판단할 수 없다. 이 진술의 진위를 확인하기 위해 가장 직관적인 아이디어는 증거(Evidence)를 찾는 것입니다. 증거는 수집할 수 있고 진술의 진위를 확인하는 데 도움이 될 수 있는 정보입니다. 예를 들어, 아래 사진은 증거로 쓸 수 있게 그냥 손으로 찢어버렸어요.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

위에 인용된 진술은 상대적으로 간단하며, 단순한 증거만 요구하고 증거에 따른 추론은 필요하지 않습니다. 아래에서 비교적 복잡한 예를 살펴보겠습니다. 예를 들어, 2019년 청두고등학교 입학시험에는 총 120,800명이 응시했지만, 입학 계획은 43,000명에 불과합니다. 2019년 청두고등학교 입시 관련 자료를 찾아보면

...올해 총 120,800명이 고등학교 입시를 치렀습니다. 20구, 하이테크 존, 티안푸 신구를 포함한 청두시. 몇 달 전, 교육국에서는 2019년 일반 고등학교 입학 계획을 발표했습니다. 모집인원도 더욱 늘어나고 일반고에 진학할 확률도 더욱 높아졌습니다. ...

2019년 중부시(13개 구) 모집인원은 43,015명이다.

이 문서에는 진술과 관련된 많은 정보가 포함되어 있지만 직접 관련이 있고 진술을 확인하는 데 도움이 될 수 있는 것은 위의 두 번째 단락의 후반부와 여러 단락의 첫 문장 뒤에 있습니다. 이러한 증거를 바탕으로 청두의 20개 구에서 실제로 고등학교 입시를 치르는 사람은 120,800명이고, 중앙 도시 지역(13개 구만 포함)의 입학 계획은 실제로 43,000명에 불과하다는 것을 알 수 있습니다. 수치는 맞지만 여기서 개념이 바뀌었습니다. 고교 입시 인원을 논할 때는 20개 구역의 인원수를 사용하지만, 입학 계획을 논의할 때는 20개 구역의 범위를 축소합니다. 13개 구역으로 나누어 독자를 오도합니다. 이런 종류의 진술을 검증하려면 하나 이상의 문서에서 직접 관련 증거를 추출하고 동시에 추출된 증거를 기반으로 추론을 해야 하는 경우가 많습니다. 중국의 사실 확인 기계 학습 시스템을 홍보하기 위해 우리는 이러한 증거 기반 중국 데이터 세트를 제안합니다.

2. 관련 작업

팩트체크[1] 검토에 따르면 현재 팩트체크 데이터 세트는 크게 인공(Artificial)과 자연(Natural) 두 가지 범주로 나눌 수 있습니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

인공(Artificial): 주석자는 위키피디아에 따라 문장을 진술로 다시 작성하도록 요청됩니다. 문서의 관련 문단은 이 진술을 입증하는 증거로 사용될 수 있습니다. 동의어 변환인 경우 해당 진술은 증거에 의해 뒷받침됩니다(Supported). 문장의 개체가 대체되거나 부정 등 일련의 변형이 추가되면 해당 진술은 증거에 의해 거부됩니다(반박). .

이 주석 패러다임은 원래 FEVER[2]였으며 TabFact[3]와 같은 이후의 많은 유명한 데이터 세트도 이 패러다임을 따랐습니다. 이러한 유형의 인공 데이터 세트의 장점은 확장이 가능하다는 것입니다. 주석자는 100,000개의 명령문에 라벨을 지정하도록 요청되며 이는 신경망 훈련에 매우 적합합니다. 반면에 관련 증거도 쉽게 얻을 수 있습니다. 단점은 이러한 진술이 우리가 일상생활에서 접하게 되는 진술이 아니며 일반 대중에게 인기 있는 진술이라는 점입니다. 예를 들어 Li Liqun의 Wikipedia를 기반으로 "그는 몰래 고기를 사러 아래층에 갔다가 잡혔습니다"라는 진술을 다시 작성하지 않을 것입니다. . 반면에 이러한 유형의 데이터 세트는 Wikipedia에 주장을 검증하기 위한 모든 지식이 포함되어 있다고 가정하며 이는 상대적으로 강력한 가정입니다. 이 가정은 실제 시나리오에서는 충족되지 않는 경우가 많습니다. 가장 간단한 문제는 Wikipedia에 시간 지연이 있다는 것입니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

내츄럴: 팩트체킹 플랫폼에서 직접 크롤링한 성명입니다. 더 유명한 해외 기관은 트럼프의 말을 자주 검증하는 폴리티팩트(PolitiFact)입니다. 이러한 유형의 데이터 세트의 장점은 일반 대중이 매일 접하고 진실을 알고 싶어하는 진술이라는 것입니다. 이는 사실을 확인하는 사람들이 면밀히 조사해야 할 진술이기도 합니다.

궁극적으로 인간 검증자를 어느 정도 대체할 수 있는 시스템을 구축하려면 이 시스템의 입력이 이러한 유형의 진술이어야 합니다. 이러한 유형의 데이터 세트의 단점도 명백합니다. 즉, 사람이 검증한 주장의 수가 매우 제한적이라는 것입니다. 표에서 볼 수 있듯이 대부분의 데이터 세트는 실제로 수동으로 구성된 것보다 크기가 훨씬 작습니다.

한편, 증거를 찾는 것은 매우 어려운 문제입니다. 기존 데이터 세트는 일반적으로 사실 확인 기사[4]를 증거로 직접 사용하거나 주장을 사용하여 Google 검색어를 입력한 다음 반환된 검색 요약(빨간색 상자로 표시)을 증거로 사용합니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

이런 증거 찾기 방법에는 두 가지 문제가 있습니다.

사실 확인 기사 자체를 증거로 사용: 실제 시나리오에서 이 접근 방식은 비현실적입니다. 사실 확인 시스템이 시작되고 시스템이 새로운 주장을 확인해야 하는데 아직 사실 확인 기사가 없는 경우가 많습니다. 이렇게 하면 시스템은 증거 수집 방법을 배울 수 없습니다.
Google 스니펫을 증거로 사용: 이 접근 방식은 위의 문제를 극복하고 실제 시나리오에 더 가깝습니다. 사실 확인자는 관련 정보를 찾기 위해 검색 엔진에 의존해야 하는 경우가 많습니다. 그러나 이 방법에도 단점이 있는데, 즉 위 그림에서 볼 수 있듯이 구글의 규칙 기반 요약은 진술의 진위 여부를 판단하는 데 도움이 되는 충분한 정보를 제공하지 못한다는 것입니다.

위에 언급된 문제에 대응하여 CHEF를 구축했습니다. CHEF는 다음과 같은 특징을 가지고 있습니다.

실제 주장을 사용하고 중국어로 작성되어 중국 사실 확인 데이터 세트의 공백을 메웁니다.
검색 엔진에서 반환된 문서를 원본 증거로 사용하여 실제 현장에 더 가까이 다가가세요.
인간 주석을 사용하여 문서의 관련 문장을 세분화된 증거로 반환합니다. 이는 증거 수집 방법을 학습하기 위해 검증 시스템을 훈련하는 데 사용할 수 있습니다.

3. 데이터 세트 구성

데이터 세트 구성은 데이터 수집, 설명 주석, 증거 검색 및 데이터 검증의 4가지 부분으로 구성됩니다.

3.1 데이터 수집

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

원본 진술은 주로 4개의 중국 사실 확인 웹사이트(Duke News Platform에 따름)에서 크롤링되었으며, 그 중 두 곳은 중국어 간체로 되어 있습니다: China Rumor Refutation Center 및 Tencent True Truth . 중국어 번체는 대만의 두 플랫폼인 MyGoPen과 대만 사실 확인 센터에서 제공됩니다. 사실 확인 웹사이트에서 크롤링된 주장의 대다수(90% 이상)가 거짓이기 때문에 가장 인기 있는 소문/진술은 거짓이며 검증 플랫폼에 의해 반박/검증될 것이라는 것은 실제로 매우 직관적입니다. 이전 방법(PublicHealth [7])을 참조하여 China News Network의 제목을 실제 주장으로 크롤링하고 상대적으로 균형 잡힌 레이블로 데이터 세트를 구성했습니다.

3.2 진술 표시

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

상대적으로 성숙한 외국 사실 확인 기관에 비해 중국 검증 플랫폼에서 게시하는 기사는 상대적으로 덜 표준화되어 있습니다. 예를 들어 PolitiFact는 주장이 무엇인지, 검증 요약이 무엇인지, 증거 및 추론 내용이 무엇인지 정확하게 알려줍니다(위 이미지 참조). 그러나 중국 기사들은 일반적으로 이를 명확하게 나타내지 않기 때문에 주석자들에게 기사를 읽고 기사에서 검증된 진술을 추출하도록 요청합니다. 동시에 명령문도 정리되어 포함된 편향을 줄입니다.

이전 연구에서는 [8] 사실 확인 데이터 세트의 진술에 상대적으로 강한 편향이 포함되어 있으며(예: 허위 진술에는 일반적으로 부정적인 단어가 있음) BERT와 같은 PLM이 필요 없이 이러한 편향을 직접 포착할 수 있음을 보여주었습니다. 증거를 위해 진술을 확인할 수 있습니다. 정리 방법에는 수사적 질문을 선언적 문장으로 변경하고 무겁거나 충격적인 등과 같이 편향될 수 있는 일부 단어를 제거하는 것이 포함됩니다. 주장을 추출한 후, 우리는 주석자에게 사실 확인 기사를 기반으로 주장에 라벨을 지정하도록 요청했습니다. 우리는 지원됨(Supported), 반박됨(Refuded), 정보 부족(Not충분한 정보(NEI))의 세 가지 분류를 사용하여 FEVER와 같은 일련의 작품과 유사한 분류를 채택합니다. 그 중 Refused가 가장 크고 NEI가 가장 작습니다.

3.3 증거조회

해당 진술을 쿼리문으로 활용하여 Google 검색에 쿼리한 후 일부 문서를 걸러냅니다. 그 중 일부는 해당 진술이 게시된 이후의 문서이고, 나머지 일부는 거짓 뉴스가 유포된 문서입니다. 플랫폼을 구축하고 최종적으로 상위 5개 문서를 유지합니다. 그런 다음 주석 작성자는 각 진술에 대한 증거로 최대 5개의 문장을 선택하도록 요청 받았습니다.

데이터세트의 주장 및 증거 통계는 다음과 같습니다. 각 주장에 대해 반환된 문서의 평균 길이는 3691 단어이며, 그 중 주석자가 마지막 세부 증거를 추출한 문장에는 126 단어가 포함되어 있습니다. Google 규칙 요약을 사용하는 경우 평균 68단어가 포함됩니다. 반환된 문서와 주석이 달린 문장을 사용하여 단순히 숫자를 비교하면 요약을 직접 사용하는 것보다 더 많은 문맥 정보를 제공할 수 있습니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

3.4 데이터 검증

라벨링 일관성을 보장하기 위해 일련의 데이터 검증을 추가하고 라벨링된 진술 중 3%를 무작위로 선택하여 라벨링 및 재작업을 위해 총 310개의 문을 5명의 주석자에게 배포했습니다. -라벨링. Fleiss K 점수는 0.74에 도달했는데, 이는 FEVER의 0.68과 Snopes[5]의 0.70보다 약간 높은 수치로, 데이터 주석의 품질이 이전 연구자가 구성한 데이터 세트보다 열등하지 않음을 나타냅니다. CHEF의 성명서는 크게 사회, 공중보건, 정치, 과학, 문화 등 5가지 주제로 나누어집니다. 정치 분야에 초점을 맞춘 유럽이나 미국의 팩트체크 플랫폼과 달리 중국 플랫폼은 코로나19, 의료, 의료 등 공중보건 문제에 더 많은 관심을 기울이고 있다. 또 다른 주요 주제는 사기, 추가 교육, 사교 행사 등과 같은 사회입니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

주장을 확인하는 데는 네 가지 주요 과제가 있습니다.

증거 수집: 거의 70%의 주장이 확인되기 전에 관련 증거를 검색해야 합니다.
전문가 상담: 거의 40%의 청구가 관련 정보를 얻기 위해 전문가와의 상담이 필요합니다.
수치적 추론: 주장 확인의 18%는 결론에 도달하기 위해 수치적 추론이 필요합니다.
다양성: 주장의 약 8%에는 사진, 비디오 등과 같은 비텍스트 증거가 필요합니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

4. 기준 시스템

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

이전의 기존 사실 확인 데이터 세트(예: FEVER)와 유사하게 머신러닝 시스템은 먼저 주어진 문서에서 해당 문장을 증거로 선택하고(증거검색), 그 증거와 비교하여 주장을 검증한다(주장검증).

수천명의 작업을 바탕으로 이 기사에서는 기본 시스템의 두 가지 주요 범주인 파이프라인 및 조인트 시스템을 제안합니다. 파이프라인: 증거 검색과 주장 검증은 두 개의 별도 모듈입니다. 증거 검색기는 먼저 증거를 추출하는 데 사용되며, 결합된 주장은 분류를 위해 주장 검증 모듈로 전달됩니다.

증거 검색 부분: 4개의 서로 다른 추출기를 사용하여 반환된 문서에서 세분화된 증거로 문장을 추출합니다. 첫 번째는 문자 특징 매칭을 기반으로 하며, 두 번째는 의미론적 특징 매칭을 기반으로 합니다. 중국어 BERT를 사용한 다음 코사인 유사성을 계산합니다. 세 번째는 혼합 기능입니다. 위의 두 기능을 가져온 다음 RankSVM을 사용하여 정렬합니다. 최종 기준 시스템은 고전적인 Google 반환 스니펫입니다.
명세 확인 부분: 저희는 3가지 모델을 사용하고 있습니다. 첫 번째는 중국 BERT를 기반으로 하며 위에서 얻은 진술과 증거를 결합하여 세 가지 분류에 대해 BERT에 던집니다. 두 번째는 서로 다른 가중치를 부여하는 주장을 기반으로 증거를 분류하는 주의 기반 모델입니다. 세 번째는 그래프 기반 모델입니다. FEVER에 SOTA 그래프 모델 KGAT[9]을 사용하여 추론을 위한 다양한 증거를 더 잘 합성할 수 있습니다.

공동: 증거 검색 및 청구 확인 모듈이 공동으로 최적화됩니다. 세 가지 다른 모델이 사용됩니다. 첫 번째는 증거와 주장에 라벨을 붙이는 방법을 학습하기 위해 다중 작업 학습 프레임워크를 사용하는 FEVER[10]의 SOTA 공동 모델입니다. 두 번째는 증거 추출을 잠재변수로 처리하고[11], 반환된 문서의 각 문장에 0 또는 1로 라벨을 붙인다. 1로 라벨이 붙은 문장은 증거로 남겨두고 REINFORCE를 훈련에 사용하여 문장과 함께 분류한다. . 세 번째 방법은 정책 그라데이션을 사용하는 대신 HardKuma와 공동 훈련을 위한 Heavy 매개 변수 방법[12]을 사용한다는 점을 제외하면 두 번째 방법과 유사합니다.

5. 실험 결과

5.1 주요 결과

실험의 주요 결과는 아래 그림과 같습니다.

증거 검색의 관점에서 보면 조인트 모델이 파이프라인 모델보다 성능이 좋습니다. 일반적으로, 주로 증거 검색 모듈을 최적화하여 주장을 검증하는 데 더 유용한 증거를 찾을 수 있기 때문입니다. 반면, 반환된 문서를 사용하는 것이 Google 스니펫을 사용하는 것보다 항상 더 좋습니다. 주로 문서에 더 풍부한 정보가 포함되어 있기 때문입니다. 마지막으로, 인간 주석을 직접 사용하는 경우의 증거 효과는 기준 모델의 현재 두 가지 주요 범주를 훨씬 능가합니다. 다른 사실 확인 데이터 세트(FEVEROUS)와 마찬가지로 증거 검색은 주장을 검증하기 어렵습니다. Human-labeled 증거를 기반으로 증거 검색 모듈을 최적화하는 방법은 향후 연구할 가치가 있는 방향입니다.
클레임 검증의 관점에서 볼 때 그래프 기반 모델(KGAT)은 단순한 BERT 기반 및 주의 기반 모델보다 성능이 뛰어나며 그래프를 구성하여 증거 추론 체인을 포착하는 효과적인 방법입니다. 그러나 반면에 그래프 모델의 개선은 특별히 뚜렷하지 않으며 데이터 세트 자체에 대해서는 지역적 조건에 따른 일부 최적화가 필요할 수 있습니다.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

5.2 Fine-grained 증거의 개수

Fine-grained 증거의 개수는 아래 그림과 같이 5개의 문장을 Fine-grained 증거로 선택했을 때 더 좋지 않습니다. 파이프라인 시스템의 세밀한 증거 증거 추출기가 가장 좋은 결과를 얻었습니다. 10개와 15개의 문장을 증거로 추출하면 효과가 점점 더 심해지며, 이는 추출된 문장에 더 많은 노이즈가 유입되어 모델에 영향을 미치는 것으로 추측됩니다. 진술 확인 판사.

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

5.3 문 길이의 효과

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

대부분의 문은 길이가 10단어보다 길수록 모델 효과가 더 좋아지기 때문인 것 같습니다. 자세한 증거는 모델이 판단하는 데 도움이 됩니다. 진술 길이가 상대적으로 짧은 경우 중앙 집중식 기준 모델 간의 차이는 그리 크지 않으며, 진술 길이가 상대적으로 길면 더 나은 증거를 얻을수록 진술 검증 효과가 더 좋아지며 이는 증거 검색의 중요성도 나타냅니다.

5.4 주장 분야의 영향

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

과학 분야의 주장은 검증하기가 가장 어렵고 모델 효과는 기본적으로 55를 넘지 않습니다. 한편으로는 관련 증거를 수집하는 것이 더 어렵고, 다른 한편으로는 과학적 문제에 대한 진술은 상대적으로 복잡하고 결과를 얻기 위해 암묵적인 추론이 필요한 경우가 많습니다.

5.5 선언 카테고리의 영향

칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.

그림과 같이 Supported 선언을 일부 도입하더라도 전체 데이터 세트에는 여전히 카테고리 불균형 문제가 있습니다. NEI 카테고리에 대한 모델의 효과는 지지 및 반박 카테고리보다 훨씬 약합니다. 향후 연구에서는 카테고리 불균형 사실 확인 데이터 세트에 대한 주장 검증 모델을 조정하는 방법을 연구하거나 데이터 증대 방법을 사용하여 훈련 과정에서 NEI 수를 무작위로 늘릴 수 있습니다. NEI는 훈련 과정에서 일부 주장에 대한 증거를 버리고 해당 주장의 카테고리를 NEI로 변경합니다.

위 내용은 칭화대, 케임브리지, UIC는 증거를 기반으로 의료계 및 기타 분야를 포괄하는 중국 최초의 사실 확인 데이터 세트를 공동 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：AIRankings 세계대학 AI랭킹 공개다음 기사：AIRankings 세계대학 AI랭킹 공개