谷歌開源“窮人版”摘要生成NLP模型:1000個(gè)樣本就能打敗人類
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
BERT、GPT-2、XLNet等通用語言模型已經(jīng)展現(xiàn)了強(qiáng)大的威力,它們可以應(yīng)付各類任務(wù),比如文本生成、問答。當(dāng)這些模型對各種語言任務(wù)進(jìn)行微調(diào)時(shí),可以達(dá)到SOTA性能。

以上這些NLP模型都是“通才”,雖然全面,但在面向特定任務(wù)時(shí)需要微調(diào),訓(xùn)練數(shù)據(jù)集也十分龐大,非一般人所能承受。
如果開發(fā)一個(gè)非通用NLP模型,專門針對某項(xiàng)具體任務(wù),在降低訓(xùn)練成本的同時(shí),性能會不會提高呢?
這就是谷歌發(fā)布的“天馬”(PEGASUS)模型,它專門為機(jī)器生成摘要而生,刷新了該領(lǐng)域的SOTA成績,并被ICML 2020收錄。
“天馬”模型僅使用1000個(gè)樣本進(jìn)行訓(xùn)練,就能接近人類摘要的水平,大大減少了對監(jiān)督數(shù)據(jù)的需求,創(chuàng)造了低成本使用的可能性。
從填空到生成摘要
PEGASUS的全稱是:利用提取的間隙句進(jìn)行摘要概括的預(yù)訓(xùn)練模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization)。就是設(shè)計(jì)一種間隙句生成的自監(jiān)督預(yù)訓(xùn)練目標(biāo),來改進(jìn)生成摘要的微調(diào)性能。
在之前的NLP研究中,自監(jiān)督預(yù)訓(xùn)練對下游的目標(biāo)并不清楚,可能是文本生成、也可能是摘要提取,模型傾向于通用性。
而來自谷歌的研究者認(rèn)為,自監(jiān)督預(yù)訓(xùn)練目標(biāo)越接近最終的下游任務(wù),微調(diào)性能越好。
那論文標(biāo)題中的間隙句(Gap-sentences)又是什么意思?
在“天馬”模型的預(yù)訓(xùn)練中,研究者從一段文檔中刪掉一些句子,讓模型進(jìn)行恢復(fù)任務(wù)。這些隔空刪掉的句子即為間隙句。
這樣一項(xiàng)具有挑戰(zhàn)性的任務(wù)促使模型學(xué)習(xí)發(fā)現(xiàn)一般事實(shí)的能力,以及學(xué)習(xí)如何提取從整個(gè)文檔中獲取的信息。

谷歌發(fā)現(xiàn),選擇“重要”句子去遮擋效果最好,這會使自監(jiān)督樣本的輸出與摘要更加相似。
作者選擇了12個(gè)不同數(shù)據(jù)集,內(nèi)容豐富多樣,包括新聞、科學(xué)論文、專利文件、短篇小說、電子郵件、法律文件和使用說明,表明該模型框架適用于各種主題。
與谷歌之前提出的T5對比,參數(shù)數(shù)量僅為T5的5%。
谷歌根據(jù)ROUGE標(biāo)準(zhǔn)對輸出結(jié)果進(jìn)行評判,通過查找與文檔其余部分最相似的句子來自動識別這些句子。
ROUGE使用n元語法重疊來計(jì)算兩個(gè)文本的相似度,分?jǐn)?shù)從0到100。
1000個(gè)訓(xùn)練樣本即超過人類
盡管PEGASUS在大型數(shù)據(jù)集上表現(xiàn)出了卓越的性能,但令人驚訝的是,“天馬”模型并不需要大量的樣本來進(jìn)行微調(diào),就可以達(dá)到近乎SOTA的性能。
下圖展示了在四個(gè)選定的摘要數(shù)據(jù)集中,ROUGE得分與監(jiān)督樣本數(shù)量的關(guān)系。虛線表示具有全監(jiān)督但沒有預(yù)訓(xùn)練的Transformer編碼器-解碼器的性能。

與基線相比,即使僅用1000個(gè)微調(diào)樣本,“天馬”在大多數(shù)任務(wù)中的性能還是要好一些。要考慮到,在某些實(shí)際情況下,樣本數(shù)量還要多幾個(gè)數(shù)量級。
這種“樣本效率”極大地提高了文本摘要模型的實(shí)用性,因?yàn)樗蟠蠼档土吮O(jiān)督數(shù)據(jù)收集的規(guī)模和成本。
除了機(jī)器給出的ROUGE評分外,谷歌還進(jìn)行了一項(xiàng)鑒別摘要的“圖靈測試”。
谷歌將模型生成的摘要和人類提取的摘要放在一起,給用戶進(jìn)行評估。在3個(gè)不同數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,打分的人有時(shí)會更喜歡機(jī)器生成的摘要。


當(dāng)然,“天馬”模型并非沒有缺點(diǎn),谷歌就找到了一個(gè)bug。
作者從XSum數(shù)據(jù)集中尋找了一段話,其中提到了英國4艘護(hù)衛(wèi)艦的名字,通篇沒有提到4,“天馬”還是正確提取出了護(hù)衛(wèi)艦數(shù)量信息。
軍艦的數(shù)量從2~5的時(shí)候都沒有問題,當(dāng)數(shù)量增加到6時(shí),“天馬”錯(cuò)誤地認(rèn)為有7艘。這說明模型“符號推理”的數(shù)量有限。
最后,為了支持該持續(xù)研究并確??芍貜?fù)性,谷歌在GitHub上發(fā)布了“天馬”的代碼、模型checkpoint以及其他匯總數(shù)據(jù)集。
傳送門
博客地址:
https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html
論文地址:
https://arxiv.org/abs/1912.08777
代碼地址:
https://github.com/google-research/pegasus