偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華、劍橋、UIC聯(lián)合推出首個中文事實核查數(shù)據(jù)集:基于證據(jù)、涵蓋醫(yī)療社會等多個領域

人工智能 新聞
本文介紹一個剛剛發(fā)表在 NAACL 上的中文的事實核查數(shù)據(jù)集 CHEF(受 HotpotQA 啟發(fā),是不是可以搞一個吃飯數(shù)據(jù)集宇宙 XD),論文作者來自清華,劍橋和 UIC 的 Philip Yu 組。據(jù)我們所知,這是第一個基于證據(jù)的中文事實核查數(shù)據(jù)集。歡迎大家使用 CHEF!

圖片

  • 論文地址:https://arxiv.org/pdf/2206.11863.pdf
  • 數(shù)據(jù)集CHEF Dataset鏈接:https://github.com/THU-BPM/CHEF

1. 介紹

我們先來看看任務的定義,舉一個相對比較簡單的例子:

圖片?

比如上海封控期間,某自媒體就聲稱“李立群偷下樓買肉被抓”。單憑這個聲明(Claim)本身,我們其實沒法判斷他有沒有偷偷下樓買肉然后被抓。為了驗證這個聲明的真實性,最直觀的思路就是要尋找證據(jù)(Evidence),證據(jù)就是你能夠搜集得到的,同時能夠幫助我們驗證一個聲明真實性的信息。比如下圖,本人直接下場手撕就可以作為證據(jù)了。

圖片?

上面舉的這個聲明是比較簡單的,只需要簡單的證據(jù),也不需要基于證據(jù)進行推理。下面我們來看一個相對復雜一點的例子。比如有聲明:2019 年,共有 12.08 萬人參加成都中考,但是招生計劃只有 4.3 萬。要驗證這個聲明相對就困難一些了,假如我們找到報告 2019 年成都中考的相關文檔:

......今年共有 12.08 萬人參加中考,這個是成都全市, 包括了 20 個區(qū),高新區(qū)和天府新區(qū)的總參考人數(shù)。月前,教育局公布了 2019 年的普高招生計劃。招生計劃數(shù)進一步增加,上普高的機會更大了。......


2019 年,中心城區(qū)(13 個區(qū))招生計劃為 43015 人。

這個文檔中包含了非常多和聲明相關的信息,但是直接相關的,能夠幫助我們驗證聲明的,就是上述的第二段話的后半部分,還有隔了很多段話之后的第一句話。根據(jù)這幾個證據(jù),我們可以知道成都全市 20 個區(qū)的確有 12.08 萬人參加中考,而中心城區(qū)(只包含了 13 個區(qū))的招生計劃確實也是只有 4.3 萬。雖然數(shù)字都對,但是這里偷換了概念,在討論參加中考人數(shù)時使用了 20 個區(qū)的人數(shù),而在討論招生計劃時卻將 20 個區(qū)的范圍縮小成為 13 個區(qū),從而誤導讀者。驗證這種聲明很多時候我們需要從一個或者多個文檔當中抽取直接相關的證據(jù),同時基于抽取的證據(jù)進行推理。為了促進中文的事實核查機器學習系統(tǒng),于是我們提出了這樣一個基于證據(jù)的中文數(shù)據(jù)集。

2. 相關工作

根據(jù)事實核查的綜述[1],目前事實核查的數(shù)據(jù)集大致可以分為兩類:人工的(Artificial)和天然的 (Natural)。

圖片

人工的(Artificial):就是請標注者按照維基百科上的句子進行改寫作為聲明,文檔里面相關的段落可以作為證據(jù)驗證這個聲明。如果是同義轉(zhuǎn)換,那么這個聲明就是被證據(jù)所支持(Supported),如果替換了句子里面的實體,或者加了否定等一系列修改,那么這個聲明就是被證據(jù)所反對(Refuted)。

這種標注范式最開始就是 FEVER[2],后面很多有名的數(shù)據(jù)集比如:TabFact[3]也是沿用了這種范式。這類型的人工數(shù)據(jù)集的好處就是可以規(guī)?;?,請標注者標注上 10 萬的聲明,非常適宜訓練神經(jīng)網(wǎng)絡。另一方面,相關的證據(jù)也容易獲得。缺點就是,這些聲明并不是日常生活中我們會遇到的,廣大人民群眾喜聞樂見的聲明,比如你不會基于李立群的維基百科改寫出 “他偷偷下樓買肉被抓” 的聲明。另一方面,這類型的數(shù)據(jù)集假設維基百科包含了驗證聲明所有的知識,這是一個比較強的假設。在現(xiàn)實場景里面往往不滿足這個假設。最簡單的一個問題就是維基百科會存在時間上的滯后性。

圖片?

天然的 (Natural):就是從事實核查的平臺上面直接爬取下來的聲明,外國比較有名的機構(gòu)就是 PolitiFact,經(jīng)常核查特朗普講的話。這類型的數(shù)據(jù)集的好處就是,他是廣大群眾日常會碰到的,想要知道真相的聲明。也是人類事實核查者需要去進行甄別的聲明。

假如我們最終是要構(gòu)建一個能夠一定程度上替代人類核查者的系統(tǒng),這個系統(tǒng)的輸入就需要是這類型的聲明。這類數(shù)據(jù)集的缺點也很明顯,就是人類核查過的聲明數(shù)量是非常有限的。如表格所示,大部分的數(shù)據(jù)集其實都要比人工構(gòu)造的小一個數(shù)量級。

另一方面就是,尋找證據(jù)是一個非常困難的問題?,F(xiàn)有的數(shù)據(jù)集一般就是直接使用事實核查的文章 [4] 作為證據(jù),要么就是用聲明輸入給谷歌搜索進行查詢[5][6],然后用返回的搜索摘要(如紅框所示)作為證據(jù)。

圖片?

這些尋找證據(jù)的方法有兩個問題:

  • 使用事實核查文章本身作為證據(jù):在真實場景里面,這種做法是不切合實際的,假如我們要上線一個事實核查系統(tǒng),系統(tǒng)需要去核查新的聲明的時候,往往還沒有事實核查的文章出現(xiàn)。這樣系統(tǒng)就沒法學會如何搜集證據(jù)了。
  • 使用谷歌摘要作為證據(jù):這種做法克服了上述的問題,更加貼近真實場景,事實核查者往往需要依賴搜索引擎尋找相關的信息。但是這種方法也有弊端,就是信息量嚴重不足,如上圖所示,谷歌的基于規(guī)則的摘要基本沒法提供充分的信息,來幫助我們判斷聲明的真實性。

針對以上提到的問題,我們構(gòu)建了 CHEF,CHEF 有以下幾個特點:

  • 使用真實世界的聲明,同時是中文的,填補了中文事實核查數(shù)據(jù)集的空白。
  • 使用搜索引擎返回的文檔作為原始證據(jù),更加貼近真實場景。
  • 使用人類標注返回文檔的相關句子作為細粒度的證據(jù),可以用于訓練核查系統(tǒng)學會如何搜集證據(jù)。

3. 數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集的構(gòu)建包含 4 個部分:數(shù)據(jù)收集,聲明標注,證據(jù)檢索和數(shù)據(jù)驗證

3.1 數(shù)據(jù)收集

圖片

原始聲明主要從四個中文的事實核查網(wǎng)站上面爬?。ǜ鶕?jù)杜克新聞平臺 ),其中簡體中文有兩個:中國辟謠中心和騰訊較真。繁體中文是來自于臺灣的兩個平臺:MyGoPen 和臺灣事實核查中心。由于從事實核查網(wǎng)站中爬取的聲明絕大部分(90%+)都是不實的,其實很直觀,大部分流行的謠言 / 聲明都是不實的,才會被核查平臺辟謠 / 驗證。參考前人的方法(PublicHealth[7]),我們爬取中國新聞網(wǎng)的標題作為真實的聲明,構(gòu)造一個標簽相對平衡的數(shù)據(jù)集。

3.2 聲明標注

圖片?

和國外相對成熟的事實核查機構(gòu)相比,中國的核查平臺發(fā)布的文章相對沒有那么規(guī)范。比如 PolitiFact 會明確告訴你聲明是什么,核查摘要是什么,證據(jù)和推理細節(jié)是什么(如上圖所示)。但中文的文章一般不會明確指出,所以我們請標注者閱讀文章之后抽取出文章驗證的聲明。同時也對聲明進行清洗,降低其含有的偏差(bias)。

之前有工作表明[8],事實核查數(shù)據(jù)集里面的聲明含有比較強的 bias(比如不實的聲明一般帶有否定詞),BERT 等 PLM 可以通過直接捕捉這些 bias,不需要證據(jù)就可以驗證聲明。清洗的方法包括將反問句改為陳述句,去掉一些可能帶有 bias 的詞語,比如:重磅,震驚等等。抽取出聲明之后,我們還要求標注根據(jù)事實核查的文章給聲明打標簽。我們采取和 FEVER 等一系列工作類似的分類,使用 Supported,Refuted 和 Not enough information(NEI)的三分類。其中 Refuted 是最多的,NEI 的數(shù)量是最少的。

3.3 證據(jù)檢索

我們使用聲明作為查詢語句去查詢谷歌搜索,然后過濾掉部分文檔,一部分是聲明發(fā)表時間之后的文檔,另一部分是來自于不實消息傳播平臺的文檔,最后保留 Top 5 的文檔。然后要求標注者針對每個聲明,選擇最多 5 個句子作為證據(jù)。

數(shù)據(jù)集中的聲明和證據(jù)的統(tǒng)計數(shù)據(jù)如下所示:每個聲明返回文檔的平均長度為 3691 個詞,其中標注者抽取出最后細粒度證據(jù)的句子包含 126 個詞,假如使用谷歌基于規(guī)則的摘要則平均包含 68 個詞。簡單地從數(shù)字上面進行比較,使用返回的文檔和標注的句子,要比直接使用摘要提供了更多的上下文信息。

圖片

3.4 數(shù)據(jù)驗證

為了保證標注一致性,我們添加了一輪數(shù)據(jù)驗證,隨機抽取了 3% 已標注的聲明,一共 310 個分給 5 個標注者進行標簽再標注。Fleiss K score 達到了 0.74,比 FEVER 的 0.68 和 Snopes[5]的 0.70 略高一些,說明了數(shù)據(jù)標注的質(zhì)量不遜色于前人構(gòu)建的數(shù)據(jù)集。CHEF 中聲明主要分為 5 個主題:社會,公衛(wèi),政治,科學和文化。和歐美的事實核查平臺關注在政治領域不同,中文平臺更加關注公共衛(wèi)生議題,比如:新冠病毒,養(yǎng)生,醫(yī)療等。另一個主要議題是社會,比如:詐騙,升學,社會事件等。

圖片

驗證聲明主要有四方面的挑戰(zhàn):

  • 證據(jù)搜集:將近 70% 的聲明都要求搜尋到相關的證據(jù)才能驗證。
  • 專家咨詢:將近 40% 的聲明需要通過咨詢專家才能得到相關的信息。
  • 數(shù)值推理:18% 的聲明驗證需要進行數(shù)值上的推理才能得出結(jié)論。
  • 多模態(tài):約 8% 的聲明需要圖片,視頻等非文本的證據(jù)。


圖片?

4. 基線系統(tǒng)

圖片

和之前經(jīng)典的事實核查數(shù)據(jù)集(比如 FEVER)類似,機器學習系統(tǒng)需要先在給定的文檔里面選擇相關的句子作為證據(jù)(證據(jù)檢索),然后再根據(jù)證據(jù)對聲明進行驗證(聲明驗證)。

本文根據(jù)千人的工作,提出了兩大類的基線系統(tǒng):流水線(pipeline)和聯(lián)合(joint) 系統(tǒng)。流水線(pipeline):即證據(jù)檢索和聲明驗證是兩個分開的模塊,先使用證據(jù)檢索器抽取出證據(jù),再聯(lián)合聲明一起交給聲明驗證模塊進行分類。

  • 證據(jù)檢索部分:我們使用了 4 種不同的抽取器從返回的文檔當中抽取句子作為細粒度的證據(jù)。第一種就是基于字符特征匹配:TF-IDF;第二種是基于語義特征匹配:我們使用中文 BERT,然后計算余弦相似度。第三種是混合特征:采取上述兩種特征,然后在用 rankSVM 排序。最后一種基線系統(tǒng)就是經(jīng)典的谷歌返回的摘要。
  • 聲明驗證部分:我們使用 3 種不同的模型。第一種就是基于中文 BERT,將聲明和上面得到的證據(jù)拼接起來丟給 BERT 進行三分類。第二種是基于注意力的模型,基于聲明賦予證據(jù)不同的權(quán)重之后進行分類。第三種是基于圖的模型:我們使用了 FEVER 上面的 SOTA 圖模型 KGAT[9],可以更好地在綜合不同的證據(jù)進行推理。

聯(lián)合(joint):證據(jù)檢索和聲明驗證模塊聯(lián)合進行優(yōu)化。使用了三種不同的模型,第一種是 FEVER 上面 SOTA 的聯(lián)合模型[10],使用了多任務學習的框架,同時學習給證據(jù)和聲明打標簽。第二種是把證據(jù)抽取作為隱變量進行處理[11],給返回的文檔的每個句子打 0 或者 1 的標簽,打了 1 標簽的句子將會留下作為證據(jù)和聲明一起進行分類,使用 REINFORCE 進行訓練。第三種方法和第二種類似,只不過使用 HardKuma 和重參數(shù)的方法進行聯(lián)合訓練[12],而不是使用策略梯度。

5. 實驗結(jié)果

5.1 主要結(jié)果

實驗主要結(jié)果如下圖所示:

  • 從證據(jù)檢索的角度來看:聯(lián)合模型要比流水線模型表現(xiàn)總體要好一些,主要原因是證據(jù)檢索模塊可以被優(yōu)化,從而能夠找到更加能夠幫助驗證聲明的證據(jù)。另一方面,使用返回的文檔總比使用谷歌摘要效果要好,主要因為是文檔包含更加豐富的信息。最后就是直接使用人類標注的證據(jù)效果遠遠超過了目前的兩大類基線模型。和其他事實核查的數(shù)據(jù)集類似(FEVEROUS),證據(jù)檢索是驗證聲明的一個難點。怎么根據(jù)人類標注的證據(jù)去優(yōu)化證據(jù)檢索模塊是未來值得研究的方向。
  • 從聲明驗證的角度來看:基于圖的模型(KGAT)的表現(xiàn)比基于簡單的 BERT 和基于注意力的模型要好一些,通過構(gòu)造圖來捕捉證據(jù)推理鏈是有效的方法。但另一方面,圖模型的提升并沒有特別明顯,可能還需要針對數(shù)據(jù)集本身做一些因地制宜的優(yōu)化。

圖片

5.2 細粒度證據(jù)的數(shù)量

細粒度證據(jù)的數(shù)量并不是越多越好,如下圖所示,當我們選擇 5 個句子作為細粒度證據(jù)的時候,流水線系統(tǒng)里面的證據(jù)抽取器取得了最好的效果,當抽取 10 個和 15 個句子作為證據(jù)的時候,效果越來越差,我們猜測是抽取的句子里面引入了比較多的噪聲,影響了聲明驗證的模型進行判斷。

圖片

5.3 聲明長度的影響

圖片

絕大部分的聲明都大于 10 個詞,其中長度越長模型效果越好,我們猜想主要原因是聲明比較詳細,比較容易搜集到的詳盡的證據(jù)幫助模型進行判斷。在聲明長度比較短的時候,集中基線模型的差距不是很大,當長度比較長的時候,拿到的證據(jù)越好,聲明驗證的效果越好,也說明了證據(jù)檢索這一環(huán)節(jié)的重要性。

5.4 聲明領域的影響

圖片


來自于科學領域的聲明最難被驗證,模型效果基本都不超過 55。一方面是比較難搜集到相關的證據(jù),另一方面是關于科學議題的聲明相對比較復雜,往往需要隱式的推理才能得到結(jié)果。

5.5 聲明類別的影響

圖片

如圖所示,即使我們引入了部分 Supported 的聲明,但是整個數(shù)據(jù)集仍然存在類別不平衡的問題。模型在 NEI 這個類別上的效果要遠遠弱于 Supported 和 Refuted 這兩個類別。未來的工作可以研究如果針對類別不平衡的事實核查數(shù)據(jù)集,調(diào)整聲明驗證的模型,或者使用數(shù)據(jù)增強的方法,在訓練過程中隨機增加 NEI 的數(shù)量,比如 FEVEROUS[13]在訓練過程中就隨機針對一些聲明扔掉對應的證據(jù),然后將這些聲明的類別改為 NEI。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-11-08 13:35:20

2024-11-13 15:00:00

模型數(shù)據(jù)

2010-06-28 06:00:55

思杰Citirx XenA黃金版

2010-06-01 09:21:52

Java 7閉包

2025-06-06 14:25:04

模型自然語言AI

2009-02-16 09:29:14

存儲加密密鑰管理加密技術

2011-08-01 08:56:06

CouchDBSQLiteNoSQL

2012-11-16 15:12:43

光纖博科戴爾

2017-12-04 21:14:25

華為

2021-05-25 14:20:20

數(shù)據(jù)模型系統(tǒng)

2012-05-28 09:50:51

微軟IBMSAP

2013-05-27 15:35:23

通信網(wǎng)絡eLTE華為

2021-12-24 16:08:57

Vivaldi瀏覽器跨平臺

2012-10-09 16:21:19

戴爾

2017-03-29 17:59:04

華為混合云

2024-12-27 09:00:00

訓練模型數(shù)據(jù)

2009-12-16 15:28:20

WiMAX服務

2015-01-28 10:55:09

平安免費WiFi

2014-11-17 17:59:58

JDA IBM

2010-02-17 00:24:34

maemomeego手機linux
點贊
收藏

51CTO技術棧公眾號