偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="z9vk7"></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

不拆分單詞也可以做NLP，哈工大最新模型在多項任務(wù)中打敗BERT

作者：豐色 2022-02-28 17:43:27

人工智能新聞

現(xiàn)在，來自哈工大和騰訊AI Lab的研究人員，嘗試?yán)貌蛔鰡卧~拆分的詞匯表開發(fā)了一個BERT風(fēng)格的預(yù)訓(xùn)練模型——WordBERT。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

眾所周知，BERT在預(yù)訓(xùn)練時會對某些單詞進(jìn)行拆分（術(shù)語叫做“WordPiece”）。

比如把“l(fā)oved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。

目的是縮減詞表、加快訓(xùn)練速度，但這樣一來，在某些時候反而會阻礙模型的理解能力。

比如把”lossless”分成”loss”和”less”的時候。

現(xiàn)在，來自哈工大和騰訊AI Lab的研究人員，嘗試?yán)貌蛔鰡卧~拆分的詞匯表開發(fā)了一個BERT風(fēng)格的預(yù)訓(xùn)練模型——WordBERT。

結(jié)果，這個WordBERT在完形填空測試和機(jī)器閱讀理解方面的成績相比BERT有了很大提高。

在其他NLP任務(wù)，比如詞性標(biāo)注(POS-Tagging)、組塊分析(Chunking)和命名實(shí)體識別(NER)中，WordBERT的表現(xiàn)也都優(yōu)于BERT。

由于不用分詞，這個WordBERT還可以直接進(jìn)行中文訓(xùn)練。

更值得一提的是，它在性能提升的同時，推理速度并沒有變慢。

可謂一舉多得。

NO WordPieces

與BERT類似，WordBERT包含兩個組件：詞向量（word embedding）和Transformer層。

和以前的模型一樣，WordBERT采用多層雙向Transformer來學(xué)習(xí)語境表示（contextualized representation）。

word embedding則是用來獲得單詞向量表示的參數(shù)矩陣，與把單詞分成WordPiece的BERT相比，WordBERT的詞匯由完整的單詞組成。

他們用自然語言處理軟件包Spacy處理數(shù)據(jù)，生成了兩個詞匯表，一個規(guī)模為500K，一個為1M。

詞匯表中還被單獨(dú)添加了5個特殊單詞：[PAD]、[UNK]、 [CLS]、[SEP]和[MASK]。

通過不同的詞匯表規(guī)模、初始化配置和不同語言，最后研究人員一共訓(xùn)練出四個版本的WordBERT：

WordBERT-500K、WordBERT-1M、WordBERT-Glove和WordBERT-ZH。

它們的配置如上，嵌入?yún)?shù)都是隨機(jī)初始化的，嵌入維數(shù)和基準(zhǔn)BERT保持一致。

其中WordBERT-Glove用的詞匯表是現(xiàn)成的Glove vocabulary，里面包含約190萬個未編碼的單詞，該模型由相應(yīng)的單詞向量（word vectors）在WordBERT之上初始化而來。

WordBERT-ZH則是用中文詞匯訓(xùn)練出來的WordBERT，它也保持了768的詞嵌入維數(shù)。

性能與速度兼具

在測試環(huán)節(jié)中，完形填空的測試數(shù)據(jù)集來自CLOTH，它由中學(xué)教師設(shè)計，通常用來對中國初高中學(xué)生進(jìn)行入學(xué)考試。

其中既有只需在當(dāng)前句子中進(jìn)行推理的簡單題，也有需要在全文范圍內(nèi)進(jìn)行推理的難題。

結(jié)果如下：

△ M代表初中，H代表高中

WordBERT-1M獲得了最佳成績，并接近人類水平。

它在高中題比BERT高了3.18分，初中題高了2.59分，這說明WordBERT在復(fù)雜任務(wù)中具有更高的理解和推理能力。

在詞性標(biāo)注、組塊分析和命名實(shí)體識別（NER）等分類任務(wù)中，WordBERT的成績?nèi)缦拢?/span>

相比來看，它在NER任務(wù)上的優(yōu)勢更明顯一些（后兩列）。

研究人員推測，這可能是WordBERT在學(xué)習(xí)低頻詞的表征方面有優(yōu)勢，因?yàn)槊麑?shí)體（named entities）往往就是一些不常見的稀有詞。

對于“中文版”WordBERT-ZH，研究人員在CLUE benchmark上的各種任務(wù)中測試其性能。

除了BERT，對比模型還包括WoBERT和MarkBERT，這也是兩個基于BERT預(yù)訓(xùn)練的中文模型。

結(jié)果，WordBERT-ZH在四項任務(wù)中都打敗了所有其他對比模型，在全部五項任務(wù)上的表現(xiàn)都優(yōu)于基線BERT，并在TNEWS（分類）、OCNLI（推理）和CSL（關(guān)鍵字識別）任務(wù)上取得了3分以上的差距。

這說明，基于詞的模型對中文也是非常有效的。

最后，實(shí)驗(yàn)還發(fā)現(xiàn)：

性能不差的WordBERT，在不同任務(wù)上的推理速度也并未“落于下風(fēng)”。

關(guān)于作者

一作為哈工大計算機(jī)專業(yè)在讀博士生馮掌印，研究方向?yàn)镹LP、文本生成。

他曾在微軟亞研院自然語言計算組、哈工大和科大訊飛聯(lián)合實(shí)驗(yàn)室實(shí)習(xí)，在NLP領(lǐng)域的頂會ENNLP發(fā)表過一篇一作論文。

通訊作者為史樹明，來自騰訊AI Lab。

論文地址：

https://arxiv.org/abs/2202.12142

責(zé)任編輯：張燕妮來源：量子位

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nav id="t8c6v"><fieldset id="t8c6v"></fieldset></nav>