谷歌發(fā)布含7種語(yǔ)言的全新數(shù)據(jù)集:有效提升BERT等多語(yǔ)言模型任務(wù)精度高達(dá)3倍!
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
近日,谷歌發(fā)布了包含 7 種語(yǔ)言釋義對(duì)的全新數(shù)據(jù)集,即:PAWS 與 PAWS-X。BERT 通過(guò)該數(shù)據(jù)集的訓(xùn)練,在釋義對(duì)問題上的精度實(shí)現(xiàn)了約為 3 倍的提升;其它先進(jìn)的模型也能夠利用該數(shù)據(jù)集將精度提高到 85-90%。谷歌希望這些數(shù)據(jù)集將有助于推動(dòng)多語(yǔ)言模型的進(jìn)一步發(fā)展,并發(fā)布了相關(guān)文章介紹了該數(shù)據(jù)集,雷鋒網(wǎng) AI 開發(fā)者將其整理編譯如下。
背景環(huán)境
詞序和句法結(jié)構(gòu)對(duì)句子意義有很大影響,即使詞序中的一點(diǎn)小改動(dòng)也能完全改變句子的意思,例如下面的一組句子:
-
Flights from New York to Florida.(從紐約飛往佛羅里達(dá)州的航班)
-
Flights to Florida from New York.(從紐約出發(fā)到佛羅里達(dá)州的航班)
-
Flights from Florida to New York.(從佛羅里達(dá)州飛往紐約的航班)
盡管這三個(gè)詞都有相同的詞組;但是 1 和 2 具有相同的含義,我們將這樣的一組句子對(duì)稱為釋義對(duì)(paraphrase pairs),而 1 和 3 有完全相反的含義,所以我們將其稱為非釋義對(duì)(non-paraphrase pairs)。識(shí)別一對(duì)句子是否為釋義對(duì)的任務(wù)則被稱為釋義識(shí)別,這一任務(wù)對(duì)于許多實(shí)際應(yīng)用中的自然語(yǔ)言理解(NLU)處理而言是非常重要的,例如:常見的問答任務(wù)等。
但令人驚訝的是,目前即使是最先進(jìn)的模型,如:BERT,如果僅在現(xiàn)有的 NLU 數(shù)據(jù)集下進(jìn)行訓(xùn)練,并不能正確地識(shí)別大部分非釋義對(duì)(就像上面所列舉的 1 與 3)之間的差異。其中很大的原因是由于在現(xiàn)有 NLU 數(shù)據(jù)集中,缺少諸如此類的訓(xùn)練數(shù)據(jù)。因此,即使現(xiàn)有的機(jī)器學(xué)習(xí)模型能夠很好地理解復(fù)雜的上下文短語(yǔ),它們依舊很難擁有對(duì)該類任務(wù)的判斷能力。
PAWS 數(shù)據(jù)集與 PaWS-X 數(shù)據(jù)集
為了解決這一問題,我們發(fā)布了兩個(gè)新的數(shù)據(jù)集,致力于幫助社區(qū)進(jìn)行相關(guān)的研究。數(shù)據(jù)集包括:
-
支持英語(yǔ)的釋義識(shí)別對(duì)抗性數(shù)據(jù)集 PAWS(Paraphrase Adversaries from Word Scrambling,https://arxiv.org/abs/1904.01130)
-
支持多語(yǔ)言的釋義識(shí)別對(duì)抗性數(shù)據(jù)集 PaWS- X(https://arxiv.org/abs/1908.11828)
其中,PaWS-X 數(shù)據(jù)集則是在 PAWS 數(shù)據(jù)集基礎(chǔ)上,擴(kuò)展得到包含另外六種不同類型語(yǔ)言的釋義識(shí)別對(duì)抗性數(shù)據(jù)集,支持的語(yǔ)言包括:法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、漢語(yǔ)、日語(yǔ)和韓語(yǔ)。
這兩個(gè)數(shù)據(jù)集都包含了格式良好、具有高度重疊詞匯的句子對(duì)。其中大約有一半的句子對(duì)是釋義對(duì),另一些則不是,數(shù)據(jù)集也包含了最先進(jìn)模型的訓(xùn)練數(shù)據(jù)。通過(guò)新數(shù)據(jù)的訓(xùn)練,該模型對(duì)釋義識(shí)別任務(wù)的精度從 50% 提高到了 85-90%。
相比之前即使在有新的訓(xùn)練數(shù)據(jù)時(shí),無(wú)法獲得非本地上下文信息的模型仍然無(wú)法完成釋義識(shí)別任務(wù)的情況;這一新數(shù)據(jù)集則為測(cè)量模型對(duì)語(yǔ)序和結(jié)構(gòu)的敏感性提供了一個(gè)有效的工具。
數(shù)據(jù)集詳情
PAWS 數(shù)據(jù)集共計(jì)包含了 108463 組由人工標(biāo)記的句子對(duì),這些數(shù)據(jù)來(lái)源于 Quora Question Pairs(QQP,https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs)以及維基百科頁(yè)面(https://www.wikipedia.org/)。
PAWS-X 數(shù)據(jù)集則包含了 23659 組由人工判斷而得的 PAWS 擴(kuò)展句子對(duì),以及 296406 組由機(jī)器翻譯的訓(xùn)練對(duì)。下表給出了數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)。
PAWS-X 的訓(xùn)練集是從 PAWS wiki 數(shù)據(jù)集的一個(gè)子集通過(guò)機(jī)器翻譯而來(lái)的
支持英語(yǔ)的 PAWS 數(shù)據(jù)集
在「PAWS: Paraphrase Adversaries from Word Scrambling(https://arxiv.org/abs/1904.01130)」一文中,我們介紹了在生成具有高度詞重疊的且具有釋義性的句子對(duì)的工作流程。
為了生成數(shù)據(jù)對(duì),源語(yǔ)句首先被傳遞到一個(gè)專門的語(yǔ)言模型(https://en.wikipedia.org/wiki/Language_model),該模型將創(chuàng)建具有語(yǔ)義的單詞交換變體句,但無(wú)法保證生成句子與原句是否互為釋義對(duì)的關(guān)系;接著再由人工評(píng)判員判斷句子的語(yǔ)法是否正確,然后由其它人工評(píng)判員來(lái)判斷它們是否互為釋義句。
PAWS 語(yǔ)料庫(kù)創(chuàng)建工作流
這種簡(jiǎn)單的單詞交換策略存在的一個(gè)問題,即它往往會(huì)產(chǎn)生不符合常識(shí)的「釋義句」,例如:「why do bad things happen to good people」和「why do good things happen to bad people」,盡管單詞都相同,但「為什么壞事會(huì)發(fā)生在好人身上」的意義和「為什么好事會(huì)發(fā)生在壞人身上」完全不同。
因此,為了確保釋義和非釋義之間的平衡,我們?cè)黾恿似渌诜醋g的數(shù)據(jù)信息。因?yàn)榉醋g往往表現(xiàn)出與此類方法相反的傾向,它會(huì)選擇優(yōu)先保留句子意義,然后在這基礎(chǔ)上改變?cè)~序和詞語(yǔ)選擇。這兩種策略共同保證 PAWS 語(yǔ)料庫(kù)總體的平衡,尤其是維基百科部分的數(shù)據(jù)。
多語(yǔ)言 PAWS-X 數(shù)據(jù)集的創(chuàng)建
在建立了 PAWS 數(shù)據(jù)集之后,我們將它擴(kuò)展出了其它六種語(yǔ)言,包括:漢語(yǔ)、法語(yǔ)、德語(yǔ)、韓語(yǔ)、日語(yǔ)和西班牙語(yǔ)。在這過(guò)程中,我們采用了人工翻譯來(lái)完成句子對(duì)的翻譯擴(kuò)展和測(cè)試集生成工作,并使用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(neural machine translation,NMT)服務(wù)來(lái)完成訓(xùn)練集的翻譯。
我們從六個(gè)語(yǔ)言中(共計(jì) 48000 組翻譯)的每一個(gè) PAWS 擴(kuò)展集上,隨機(jī)抽取了 4000 個(gè)句子對(duì)進(jìn)行人工翻譯(翻譯者所翻譯語(yǔ)言均為母語(yǔ))。每一組句子都是獨(dú)立的,從而保證翻譯不會(huì)受到語(yǔ)境的影響,然后再由第二個(gè)工作者驗(yàn)證隨機(jī)抽樣子集,最終使得數(shù)據(jù)集的字級(jí)錯(cuò)誤率小于 5%。
注意,如果所得句子不完整或模棱兩可,我們?cè)试S專業(yè)人士不翻譯。平均只有不到 2% 的句子對(duì)沒有被翻譯,我們暫且將它們排除在外。最終的翻譯對(duì)被分為新的擴(kuò)展集和測(cè)試集,每個(gè)集合大約包含 2000 組句子對(duì)。
德語(yǔ)(DE)和漢語(yǔ)(ZH)的人工翻譯句子對(duì)的例子
使用 PAWS 和 PAWS-X 來(lái)理解語(yǔ)言
我們?cè)谒鶆?chuàng)建的數(shù)據(jù)集上訓(xùn)練多個(gè)模型,并對(duì)評(píng)估集上的分類精度進(jìn)行度量。當(dāng)用 PAWS 訓(xùn)練強(qiáng)大的模型后,如 BERT 和 DIN,這些模型對(duì)現(xiàn)有 QQP 數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)的表現(xiàn)會(huì)產(chǎn)生顯著的改善。
如果在現(xiàn)有 QQP 上訓(xùn)練,BERT 僅獲得 33.5 的精度,但是當(dāng)給定 PAWS 訓(xùn)練實(shí)例時(shí),即使用來(lái)自 QQP的 PAWS 數(shù)據(jù)(PAWS-QQP),它的精度將達(dá)到 83.1 。
不過(guò)與 BERT 不同,Bag-of-Words(BoW,https://en.wikipedia.org/wiki/Bag-of-words_model)模型無(wú)法從 PAWS 訓(xùn)練實(shí)例中進(jìn)行學(xué)習(xí),這也展示了它在捕捉非局部上下文信息方面的弱點(diǎn)。但總體來(lái)看,這些結(jié)果都表明了 PAWS 可以有效地度量模型對(duì)詞序和結(jié)構(gòu)的敏感性。
PAWS-QQP 精度評(píng)估設(shè)置(英文)
下圖顯示了主流的多語(yǔ)言 BERT 模型(https://github.com/google-research/bert/blob/master/multilingual.md)在 PAWS X 上使用幾種常用方法所表現(xiàn)的性能,其中:
-
Zero Shot:該模型使用支持英語(yǔ)的 PAWS 數(shù)據(jù)集進(jìn)行訓(xùn)練,然后直接評(píng)估所有其他翻譯,這種方法不涉及機(jī)器翻譯。(引申:Zero-Shot 翻譯則是指在完成語(yǔ)言 A 到語(yǔ)言 B 的翻譯訓(xùn)練之后,語(yǔ)言 A 到語(yǔ)言 C 的翻譯不需要再經(jīng)過(guò)任何學(xué)習(xí),它能自動(dòng)把之前的學(xué)習(xí)成果轉(zhuǎn)化到翻譯任意一門語(yǔ)言,即便工程師們從來(lái)沒有進(jìn)行過(guò)相關(guān)訓(xùn)練)
-
Translate Test(翻譯測(cè)試):使用英語(yǔ)訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)模型,并將所有測(cè)試用例翻譯成英文進(jìn)行評(píng)估。
-
Translate Train(翻譯訓(xùn)練):英語(yǔ)訓(xùn)練數(shù)據(jù)被機(jī)器翻譯成每種目標(biāo)語(yǔ)言,以提供數(shù)據(jù)來(lái)訓(xùn)練每一個(gè)模型。
-
Merged(歸并):在所有語(yǔ)言上訓(xùn)練多語(yǔ)言模型,包括原始英語(yǔ)對(duì)和所有其他語(yǔ)言的機(jī)器翻譯數(shù)據(jù)。
結(jié)果表明,新數(shù)據(jù)集除了為跨語(yǔ)言的技術(shù)提供了幫助,同時(shí)也留下了很大的余地進(jìn)而驅(qū)動(dòng)多語(yǔ)種釋義識(shí)別問題的研究。
基于 BERT 模型的 PAWS-X 測(cè)試集的精度
數(shù)據(jù)集下載相關(guān)
PAWS-Wiki
該語(yǔ)料庫(kù)包含從維基百科頁(yè)面生成的句子對(duì)(可直接下載),包括:
-
PAWS-Wik 標(biāo)記集(終版) 包含從單詞交換和反譯方法生成的句子對(duì)。所有的組別都有釋義性和流暢性的人工判斷,它們被分為訓(xùn)練/擴(kuò)展/測(cè)試部分。
-
PAWS-Wik 標(biāo)記集(僅交換) 包含沒有反譯對(duì)應(yīng)項(xiàng)的句子對(duì),因此該子集不包含在第一組中。但數(shù)據(jù)集質(zhì)量很高,包含人工對(duì)釋義性和流暢性的判斷,可以作為輔助訓(xùn)練集。
-
PAWS-Wik 未標(biāo)記集(終版) 包含從單詞交換和反譯方法生成的句子對(duì)。但該子集中有噪聲標(biāo)記但沒有人工判斷,也可用作輔助訓(xùn)練集。
PAWS-QQP
該語(yǔ)料庫(kù)包含了從 QQP 語(yǔ)料庫(kù)生成的對(duì),但由于 QQP 的許可證,我們不能直接獲得 PAWS-QQP 數(shù)據(jù),因此必須通過(guò)下載最原始數(shù)據(jù),然后運(yùn)行腳本生成數(shù)據(jù)并附加標(biāo)記來(lái)重建示例。
重建 PAWS-QQP 語(yǔ)料庫(kù),首先需要下載原始的 QQP 數(shù)據(jù)集,并將 tsv 文件保存到某個(gè)位置/path/to/original_qqp/data.tsv;然后從特定鏈接下載 PAWS-QQP 索引文件。
PAWS-X
該語(yǔ)料庫(kù)包含六種不同語(yǔ)言的 PAWS 示例翻譯,包含:法語(yǔ)、西班牙語(yǔ)、德語(yǔ)、漢語(yǔ)、日語(yǔ)和韓語(yǔ)。詳情可通過(guò)這里查看(https://github.com/google-research-datasets/paws/tree/master/pawsx)。
需要注意的是,對(duì)于多語(yǔ)言實(shí)驗(yàn),請(qǐng)使用 paws-x repo 中提供的 dev_2k.tsv 作為所有語(yǔ)言(包括英語(yǔ))的擴(kuò)展集。
數(shù)據(jù)集下載地址:
https://github.com/google-research-datasets/paws
原文鏈接:
https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html