繼BERT之后,這個新模型再一次在11項(xiàng)NLP基準(zhǔn)上打破紀(jì)錄
自 BERT 打破 11 項(xiàng) NLP 的記錄后,可應(yīng)用于廣泛任務(wù)的 NLP 預(yù)訓(xùn)練模型就已經(jīng)得到大量關(guān)注。最近微軟推出了一個綜合性模型,它在這 11 項(xiàng) NLP 任務(wù)中超過了 BERT。目前名為「Microsoft D36***I & MSR AI」的模型還沒有提供對應(yīng)的論文與項(xiàng)目地址,因此它到底是不是一種新的預(yù)訓(xùn)練方法也不得而知。
BERT 和微軟新模型都采用了通用語言理解評估(GLUE)基準(zhǔn)中的 11 項(xiàng)任務(wù),并希望借助 GLUE 展示模型在廣泛自然語言理解任務(wù)中的魯棒性。其中 GLUE 基準(zhǔn)并不需要知道具體的模型,因此原則上任何能處理句子和句子對,并能產(chǎn)生相應(yīng)預(yù)測的系統(tǒng)都能參加評估。這 11 項(xiàng)基準(zhǔn)任務(wù)重點(diǎn)衡量了模型在跨任務(wù)上的能力,尤其是參數(shù)共享或遷移學(xué)習(xí)的性能。
從微軟新模型在 GLUE 基準(zhǔn)的表現(xiàn)上來看,至少它在 11 項(xiàng) NLP 任務(wù)中比 BERT-Large 更高效。這種高效不僅體現(xiàn)在 81.9 的總體任務(wù)評分,同時還體現(xiàn)在參數(shù)效率上。微軟的新模型只有 1.1 億的參數(shù)量,遠(yuǎn)比 BERT-Large 模型的 3.35 億參數(shù)量少,和 BERT-Base 的參數(shù)量一樣多。下圖展示了 GLUE 基準(zhǔn)排名前 5 的模型:
在「Microsoft D36***I & MSR AI」模型的描述頁中,新模型采用的是一種多任務(wù)聯(lián)合學(xué)習(xí)。因此所有任務(wù)都共享相同的結(jié)構(gòu),并通過多任務(wù)訓(xùn)練方法聯(lián)合學(xué)習(xí)。此外,這 11 項(xiàng)任務(wù)可以分為 4 類,即句子對分類 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG;單句子分類任務(wù) SST-2、CoLA;問答任務(wù) SQuAD v1.1;單句子標(biāo)注任務(wù)(命名實(shí)體識別)CoNLL-2003 NER。
其中在句子對分類任務(wù)中,有判斷問答對是不是包含正確回答的 QNLI、判斷兩句話有多少相似性的 STS-B 等,它們都用于處理句子之間的關(guān)系。而單句子分類任務(wù)中有判斷語句中情感趨向的 SST-2 和判斷語法正確性的 CoLA 任務(wù),它們都在處理句子內(nèi)部的關(guān)系。
在 SQuAD v1.1 問答數(shù)據(jù)集中,模型將通過問題檢索段落中正確回答的位置與長度。***在命名實(shí)體識別數(shù)據(jù)集 CoNLL 中,每一個時間步都會預(yù)測它的標(biāo)注是什么,例如人物或地點(diǎn)等。
如下所示為微軟新模型在不同任務(wù)中的得分:
目前微軟新模型的性能還非常少,如果經(jīng)過多任務(wù)預(yù)訓(xùn)練,它也能像 BERT 那樣用于更廣泛的 NLP 任務(wù),那么這樣的高效模型無疑會有很大的優(yōu)勢。