繼BERT之后,這個(gè)新模型再一次在11項(xiàng)NLP基準(zhǔn)上打破紀(jì)錄
自 BERT 打破 11 項(xiàng) NLP 的記錄后,可應(yīng)用于廣泛任務(wù)的 NLP 預(yù)訓(xùn)練模型就已經(jīng)得到大量關(guān)注。最近微軟推出了一個(gè)綜合性模型,它在這 11 項(xiàng) NLP 任務(wù)中超過(guò)了 BERT。目前名為「Microsoft D36***I & MSR AI」的模型還沒(méi)有提供對(duì)應(yīng)的論文與項(xiàng)目地址,因此它到底是不是一種新的預(yù)訓(xùn)練方法也不得而知。
BERT 和微軟新模型都采用了通用語(yǔ)言理解評(píng)估(GLUE)基準(zhǔn)中的 11 項(xiàng)任務(wù),并希望借助 GLUE 展示模型在廣泛自然語(yǔ)言理解任務(wù)中的魯棒性。其中 GLUE 基準(zhǔn)并不需要知道具體的模型,因此原則上任何能處理句子和句子對(duì),并能產(chǎn)生相應(yīng)預(yù)測(cè)的系統(tǒng)都能參加評(píng)估。這 11 項(xiàng)基準(zhǔn)任務(wù)重點(diǎn)衡量了模型在跨任務(wù)上的能力,尤其是參數(shù)共享或遷移學(xué)習(xí)的性能。
從微軟新模型在 GLUE 基準(zhǔn)的表現(xiàn)上來(lái)看,至少它在 11 項(xiàng) NLP 任務(wù)中比 BERT-Large 更高效。這種高效不僅體現(xiàn)在 81.9 的總體任務(wù)評(píng)分,同時(shí)還體現(xiàn)在參數(shù)效率上。微軟的新模型只有 1.1 億的參數(shù)量,遠(yuǎn)比 BERT-Large 模型的 3.35 億參數(shù)量少,和 BERT-Base 的參數(shù)量一樣多。下圖展示了 GLUE 基準(zhǔn)排名前 5 的模型:
在「Microsoft D36***I & MSR AI」模型的描述頁(yè)中,新模型采用的是一種多任務(wù)聯(lián)合學(xué)習(xí)。因此所有任務(wù)都共享相同的結(jié)構(gòu),并通過(guò)多任務(wù)訓(xùn)練方法聯(lián)合學(xué)習(xí)。此外,這 11 項(xiàng)任務(wù)可以分為 4 類,即句子對(duì)分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG;單句子分類任務(wù) SST-2、CoLA;問(wèn)答任務(wù) SQuAD v1.1;單句子標(biāo)注任務(wù)(命名實(shí)體識(shí)別)CoNLL-2003 NER。
其中在句子對(duì)分類任務(wù)中,有判斷問(wèn)答對(duì)是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等,它們都用于處理句子之間的關(guān)系。而單句子分類任務(wù)中有判斷語(yǔ)句中情感趨向的 SST-2 和判斷語(yǔ)法正確性的 CoLA 任務(wù),它們都在處理句子內(nèi)部的關(guān)系。
在 SQuAD v1.1 問(wèn)答數(shù)據(jù)集中,模型將通過(guò)問(wèn)題檢索段落中正確回答的位置與長(zhǎng)度。***在命名實(shí)體識(shí)別數(shù)據(jù)集 CoNLL 中,每一個(gè)時(shí)間步都會(huì)預(yù)測(cè)它的標(biāo)注是什么,例如人物或地點(diǎn)等。
如下所示為微軟新模型在不同任務(wù)中的得分:
目前微軟新模型的性能還非常少,如果經(jīng)過(guò)多任務(wù)預(yù)訓(xùn)練,它也能像 BERT 那樣用于更廣泛的 NLP 任務(wù),那么這樣的高效模型無(wú)疑會(huì)有很大的優(yōu)勢(shì)。

















 
 
 








 
 
 
 