- 論文網址:https://arxiv.org/pdf/2206.11863.pdf
- 資料集CHEF Dataset連結:https://github.com/THU-BPM/CHEF
1. 介紹
我們先來看看任務的定義,舉一個相對比較簡單的例子:
#例如上海封控期間,某自媒體就聲稱「李立群偷下樓買肉被抓」。光是這份聲明(Claim)本身,我們其實沒辦法判斷他有沒有偷偷下樓買肉然後被抓。為了驗證這個聲明的真實性,最直觀的思路就是要尋找證據(Evidence),證據就是你能夠蒐集得到的,同時能夠幫助我們驗證一個聲明真實性的信息。例如下圖,本人直接下場手撕就可以當作證據了。
上面舉的這個聲明是比較簡單的,只需要簡單的證據,也不需要基於證據進行推理。下面我們來看一個相對複雜一點的例子。例如有聲明:2019 年,共有 12.08 萬人參加成都中考,但招生計畫只有 4.3 萬。要驗證這個聲明相對就困難一些了,假如我們找到報告2019 年成都中考的相關文件:
......今年共有12.08 萬人參加中考,這個是成都全市, 包括了20 個區,高新區和天府新區的總參考人數。月前,教育局公佈了 2019 年的普高招生計畫。招生計畫數進一步增加,上普高的機會更大了。 ……
2019 年,中心城區(13 個區)招生計畫為 43015 人。
這個文檔中包含了非常多和聲明相關的信息,但是直接相關的,能夠幫助我們驗證聲明的,就是上述的第二段話的後半部分,還有隔了很多段話之後的第一句話。根據這幾個證據,我們可以知道成都全市 20 個區的確有 12.08 萬人參加中考,而中心城區(只包含了 13 個區)的招生計劃確實也是只有 4.3 萬。雖然數字都對,但是這裡偷換了概念,在討論參加中考人數時使用了 20 個區的人數,而在討論招生計劃時卻將 20 個區的範圍縮小成為 13 個區,從而誤導讀者。驗證這種聲明很多時候我們需要從一個或多個文件當中抽取直接相關的證據,同時基於抽取的證據進行推理。為了促進中文的事實查核機器學習系統,於是我們提出了這樣一個基於證據的中文資料集。
2. 相關工作
根據事實查核的綜述[1],目前事實查核的資料集大致可以分為兩類:人工的( Artificial)和天然的(Natural)。
人工的(Artificial):就是請標註者按照維基百科上的句子進行改寫作為聲明,文檔裡面相關的段落可以作為證據驗證這個聲明。如果是同義轉換,那麼這個聲明就是被證據所支持(Supported),如果替換了句子裡面的實體,或者加了否定等一系列修改,那麼這個聲明就是被證據所反對(Refuted)。
這種標註範式最開始就是 FEVER[2],後面很多有名的資料集例如:TabFact[3]也是沿用了這個範式。這類型的人工資料集的好處就是可以規模化,請標註者標註上 10 萬的聲明,非常適合訓練神經網路。另一方面,相關的證據也容易取得。缺點就是,這些聲明並不是日常生活中我們會遇到的,廣大人民群眾喜聞樂見的聲明,比如你不會基於李立群的維基百科改寫出 “他偷偷下樓買肉被抓” 的聲明。另一方面,這類型的資料集假設維基百科包含了驗證聲明所有的知識,這是一個比較強的假設。在現實場景裡面往往不滿足這個假設。最簡單的一個問題就是維基百科會存在時間上的滯後性。
天然的(Natural):就是從事實核查的平台上面直接爬取下來的聲明,外國比較有名的機構就是PolitiFact,常常查川普講的話。這類型的資料集的好處就是,他是廣大群眾日常會碰到的,想要知道真相的聲明。也是人類事實查核者需要去進行甄別的聲明。
假如我們最終是要建立一個能夠一定程度上取代人類核查者的系統,這個系統的輸入就需要是這類型的宣告。這類資料集的缺點也很明顯,就是人類核查過的聲明數量是非常有限的。如表格所示,大部分的資料集其實都要比人工構造的小一個數量級。
另一方面就是,尋找證據是一個非常困難的問題。現有的資料集一般就是直接使用事實查核的文章[4] 作為證據,要麼就是用聲明輸入給谷歌搜尋進行查詢[5][6],然後用返回的搜尋摘要(如紅框所示)作為證據。
這些尋找證據的方法有兩個問題:
- 使用事實查核文章本身作為證據:在真實場景裡面,這種做法是不切實際的,假如我們要上線一個事實核查系統,系統需要去核查新的聲明的時候,往往還沒有事實核查的文章出現。這樣系統就沒法學會如何蒐集證據了。
- 使用Google摘要作為證據:這種做法克服了上述的問題,更加貼近真實場景,事實查核者往往需要依賴搜尋引擎尋找相關的資訊。但是這種方法也有弊端,就是信息量嚴重不足,如上圖所示,谷歌的基於規則的摘要基本沒法提供充分的信息,來幫助我們判斷聲明的真實性。
針對以上提到的問題,我們建構了CHEF,CHEF 有以下幾個特點:
- 使用真實世界的聲明,同時是中文的,填補了中文事實查核資料集的空白。
- 使用搜尋引擎傳回的文件作為原始證據,更貼近真實場景。
- 使用人類標註返回文件的相關句子作為細粒度的證據,可以用來訓練核查系統學會如何蒐集證據。
3. 資料集建構
資料集的建構包含4 個部分:資料收集,聲明標註,證據檢索與資料驗證。
3.1 資料收集
#原始聲明主要從四個中文的事實查核網站上面爬取(根據杜克新聞平台),其中簡體中文有兩個:中國闢謠中心和騰訊較真。繁體中文是來自於台灣的兩個平台:MyGoPen 和台灣事實查核中心。由於從事實查核網站中爬取的聲明絕大部分(90% )都是不實的,其實很直觀,大部分流行的謠言 / 聲明都是不實的,才會被核查平台闢謠 / 驗證。參考前人的方法(PublicHealth[7]),我們爬取中國新聞網的標題作為真實的聲明,建構一個標籤相對平衡的資料集。
3.2 聲明標註
##和國外相對成熟的事實查核機構相比,中國的核查平台發布的文章相對沒有那麼規範。例如 PolitiFact 會明確告訴你聲明是什麼,核查摘要是什麼,證據和推理細節是什麼(如上圖)。但中文的文章一般不會明確指出,所以我們請標註者閱讀文章之後抽取出文章驗證的聲明。同時也對聲明進行清洗,降低其含有的偏差(bias)。
之前有工作顯示[8],事實查核資料集裡面的宣告含有較強的bias(例如不實的宣告一般帶有否定字),BERT 等PLM 可以透過直接捕捉這些bias,不需要證據就可以驗證聲明。清洗的方法包括將反問句改為陳述句,去掉一些可能帶有 bias 的詞語,例如:重磅,震驚等等。抽取聲明之後,我們也要求標註根據事實查核的文章給聲明打標籤。我們採取和 FEVER 等一系列工作類似的分類,使用 Supported,Refuted 和 Not enough information(NEI)的三分類。其中 Refuted 是最多的,NEI 的數量是最少的。
3.3 證據檢索
我們使用聲明作為查詢語句去查詢谷歌搜索,然後過濾掉部分文檔,一部分是聲明發表時間之後的文檔,另一部分是來自於不實消息傳播平台的文檔,最後保留Top 5 的文檔。然後要求標註者針對每個聲明,選擇最多 5 個句子作為證據。
資料集中的聲明和證據的統計數據如下所示:每個聲明返回文件的平均長度為3691 個字,其中標註者抽取出最後細粒度證據的句子包含126 個字,假如使用Google基於規則的摘要則平均包含68 個字。簡單地從數字上面進行比較,使用返回的文檔和標註的句子,要比直接使用摘要提供了更多的上下文資訊。
3.4 資料驗證
為了保證標註一致性,我們增加了一輪資料驗證,隨機抽取了3% 已標註的聲明,總共310 個分給5 個標註者標籤再標註。 Fleiss K score 達到了 0.74,比 FEVER 的 0.68 和 Snopes[5]的 0.70 略高一些,說明了數據標註的質量不遜色於前人構建的數據集。 CHEF 中聲明主要分為 5 個主題:社會,公衛,政治,科學和文化。和歐美的事實查核平台關注政治領域不同,中文平台更重視公共衛生議題,例如:新冠病毒,養生,醫療等。另一個主要議題是社會,例如:詐騙,升學,社會事件等。
驗證聲明主要有四個面向的挑戰:
- 證據蒐集:將近70 % 的聲明都要求搜尋到相關的證據才能驗證。
- 專家諮詢:將近 40% 的聲明需要透過諮詢專家才能得到相關的資訊。
- 數值推理:18% 的宣告驗證需要數值上的推理才能得出結論。
- 多模態:約 8% 的聲明需要圖片,影片等非文字的證據。
#4. 基準系統
#和先前經典的事實查核資料集(如FEVER)類似,機器學習系統需要先在給定的文件裡面選擇相關的句子作為證據(證據檢索) ,然後再根據證據對聲明進行驗證(聲明驗證)。
本文根據千人的工作,提出了兩大類的基準系統:管線(pipeline)與聯合(joint) 系統。管線(pipeline):即證據檢索和聲明驗證是兩個分開的模組,先使用證據檢索器抽取證據,再聯合聲明一起交給聲明驗證模組進行分類。
- 證據檢索部分:我們使用了 4 種不同的抽取器從返回的文檔當中抽取句子作為細粒度的證據。第一種是基於字元特徵匹配:TF-IDF;第二種是基於語意特徵匹配:我們使用中文 BERT,然後計算餘弦相似度。第三種是混合特徵:採取上述兩種特徵,然後在用 rankSVM 排序。最後一種基線系統就是經典的Google返回的摘要。
- 宣告驗證部分:我們使用 3 種不同的模型。第一種是基於中文 BERT,將聲明和上面得到的證據拼接起來丟給 BERT 進行三個分類。第二種是基於注意力的模型,基於聲明賦予證據不同的權重之後進行分類。第三種是基於圖表的模型:我們使用了 FEVER 上面的 SOTA 圖模型 KGAT[9],可以更好地在綜合不同的證據進行推理。
聯合(joint):證據檢索和宣告驗證模組聯合進行最佳化。使用了三種不同的模型,第一種是 FEVER 上面 SOTA 的聯合模型[10],使用了多任務學習的框架,同時學習為證據和聲明打標籤。第二種是把證據抽取當作隱變數來處理[11],給回傳的文件的每個句子打0 或1 的標籤,打了1 標籤的句子將會留下來作為證據和聲明進行分類,使用REINFORCE 進行訓練。第三種方法和第二種類似,只不過使用 HardKuma 和重參數的方法進行聯合訓練[12],而不是使用策略梯度。
5. 實驗結果
5.1 主要結果
實驗主要結果如下圖所示:
- 從證據檢索的角度來看:聯合模型要比流水線模型表現總體要好一些,主要原因是證據檢索模組可以被優化,從而能夠找到更加能夠幫助驗證聲明的證據。另一方面,使用傳回的文件總比使用Google摘要效果要好,主要因為是文件包含更豐富的資訊。最後就是直接使用人類標註的證據效果遠遠超過了目前的兩大類基線模型。和其他事實查核的資料集類似(FEVEROUS),證據檢索是驗證聲明的一個困難。怎麼根據人類標註的證據去優化證據檢索模組是未來值得研究的方向。
- 從聲明驗證的角度來看:基於圖的模型(KGAT)的表現比基於簡單的BERT 和基於注意力的模型要好一些,透過構造圖來捕捉證據推理鍊是有效的方法。但另一方面,圖模型的提升並沒有特別明顯,可能還需要針對資料集本身做一些因地制宜的最佳化。
5.2 細粒度證據的數量
##細粒度證據的數量並不是越多越好,如下圖所示,當我們選擇5 個句子作為細粒度證據的時候,流水線系統裡面的證據抽取器取得了最好的效果,當抽取10 個和15 個句子作為證據的時候,效果越來越差,我們猜測是抽取的句子裡面引入了比較多的噪聲,影響了聲明驗證的模型進行判斷。
絕大部分的宣告都大於10 個詞,其中長度越長模型效果越好,我們猜想主要原因是聲明比較詳細,比較容易蒐集到的詳盡的證據幫助模型進行判斷。在聲明長度比較短的時候,集中基線模型的差距不是很大,當長度比較長的時候,拿到的證據越好,聲明驗證的效果越好,也說明了證據檢索這一環節的重要性。
5.4 宣告領域的影響
來自科學領域的宣告最難被驗證,模型效果基本上都不超過55。一方面是比較難蒐集到相關的證據,一方面是關於科學議題的聲明相對比較複雜,往往需要隱性的推理才能得到結果。
5.5 聲明類別的影響
#如圖所示,即使我們引入了部分Supported 的聲明,但整個資料集仍然存在類別不平衡的問題。模型在 NEI 這個類別上的效果要遠遠弱於 Supported 和 Refuted 這兩個類別。未來的工作可以研究如果針對類別不平衡的事實核查資料集,調整聲明驗證的模型,或使用資料增強的方法,在訓練過程中隨機增加NEI 的數量,例如FEVEROUS[13]在訓練過程中隨機針對一些聲明丟掉對應的證據,然後將這些聲明的類別改為NEI。
以上是清華、劍橋、UIC聯合推出首個中文事實查核資料集:基於證據、涵蓋醫療社會等多個領域的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版
好用的JavaScript開發工具