深度學(xué)習(xí)在蘇寧知識抽取領(lǐng)域的嘗試與實(shí)踐
原創(chuàng)【51CTO.com原創(chuàng)稿件】背景
近幾年,隨著海量數(shù)據(jù)的累積、計(jì)算能力的提升和算法模型的創(chuàng)新,無論是在學(xué)術(shù)界還是工業(yè)界,深度學(xué)習(xí)在NLP領(lǐng)域已經(jīng)得到越來越多的關(guān)注與應(yīng)用,并且有很多可喜的落地成果。知識的抽取和挖掘一直是Data Mining、Knowledge Graph等NLP子領(lǐng)域的重要問題,知識抽取的范圍包括實(shí)體抽取、關(guān)系抽取、屬性抽取等,本文主要介紹深度學(xué)習(xí)在蘇寧小店商品標(biāo)題上的應(yīng)用,重點(diǎn)挖掘?qū)傩栽~、品牌詞、物品詞等和業(yè)務(wù)強(qiáng)相關(guān)的實(shí)體信息。
知識抽取任務(wù)按照文本結(jié)構(gòu)可分為以下幾類:
面向結(jié)構(gòu)化數(shù)據(jù)的知識抽?。罕热缬肈2R從結(jié)構(gòu)化數(shù)據(jù)庫中提取知識,其難點(diǎn)在于對復(fù)雜表數(shù)據(jù)的處理,包括嵌套表、多列、外鍵關(guān)聯(lián)等;采用圖映射的方式從鏈接數(shù)據(jù)中獲取知識,難點(diǎn)在于數(shù)據(jù)的對齊。
面向半結(jié)構(gòu)化的知識抽?。菏褂冒b器從半結(jié)構(gòu)化(比如網(wǎng)站)數(shù)據(jù)中獲取知識,難點(diǎn)在于包裝器的自動生成、更新與維護(hù)。
面向文本的知識抽?。号c上面結(jié)構(gòu)/半結(jié)構(gòu)化方式不同,由于非結(jié)構(gòu)文本的知識格式基本上沒有固定的規(guī)則可尋,業(yè)界也缺乏能直接應(yīng)用于中文的處理工具,所以本文采用深度學(xué)習(xí)方法,重點(diǎn)關(guān)注word embedding質(zhì)量的角度,從隨機(jī)初始化向量到主流預(yù)訓(xùn)練方法,去有效提升抽取結(jié)果的準(zhǔn)確率和覆蓋率。
B-LSTM+CRF模型
B-LSTM+CRF是2016年卡耐基梅隆大學(xué)和龐培法布拉大學(xué)NLP組提出的一種解決NER問題的網(wǎng)絡(luò)架構(gòu),并經(jīng)實(shí)驗(yàn)在4種語言(英語、德語、荷蘭語、西班牙語)上表現(xiàn)亮眼,其中在德語和西班牙語上取得了SOA效果,所以本文將采用這種網(wǎng)絡(luò)結(jié)構(gòu)作為蘇寧搜索知識抽取任務(wù)的關(guān)鍵模型之一,下面先簡單介紹這種模型。
模型框架
模型數(shù)據(jù)的輸入采用兩種方案,***種不使用任何分詞算法,采用BIO的標(biāo)注方法直接以“字”為單位做序列標(biāo)注,第二種采用業(yè)務(wù)自定義的標(biāo)簽集對分詞后的word進(jìn)行標(biāo)注。利用蘇寧搜索平臺累積的業(yè)務(wù)詞表對蘇寧小店的商品標(biāo)題做自動標(biāo)注,經(jīng)過運(yùn)營的篩選和剔除,獲取干凈的數(shù)據(jù)集。
這里以***種標(biāo)注方法為例(ATT:屬性詞,BRA:品牌詞,GOD:物品詞),以小店商品標(biāo)題為單位,將一個(gè)含有n個(gè)字的title(字的序列)記作:
其中 xi 表示標(biāo)題的第 i 個(gè)字在字典中的id,暫不考慮預(yù)訓(xùn)練,進(jìn)而可以得到每個(gè)字的one-hot向量,維數(shù)是字典大小。
***層:look-up 層,利用word2vec或隨機(jī)初始化的embedding矩陣將title中的每個(gè)字 xi 由one-hot向量映射為低維稠密的字向量(character embedding)xi∈Rd ,d是embedding的維度。在輸入下一層之前,設(shè)置dropout以緩解過擬合。
第二層:雙向LSTM層,自動提取title特征。將一個(gè)title的各個(gè)字的char embedding序列 (x1,x2,...,xn) 作為雙向LSTM各個(gè)時(shí)間步的輸入,再將正向LSTM輸出的隱狀態(tài)序列
與反向LSTM的
在各個(gè)位置輸出的隱狀態(tài)進(jìn)行按位置拼接,
得到完整的隱狀態(tài)序列
對隱層的輸出設(shè)置dropout后,再外接一個(gè)線性層,將隱狀態(tài)向量從 m 維映射到 k 維,k 是標(biāo)注集的標(biāo)簽數(shù),從而得到自動提取的title特征,記作矩陣 P=(p1,p2,...,pn)∈Rn×k ??梢园?pi∈Rk的每一維 pij 都視作將字 xi 分類到第 j 個(gè)標(biāo)簽的打分值,如果再對 P 進(jìn)行Softmax的話,就相當(dāng)于對各個(gè)位置獨(dú)立進(jìn)行 k 類分類。但是這樣對各個(gè)位置進(jìn)行標(biāo)注時(shí)無法利用已經(jīng)標(biāo)注過的信息,所以接下來將接入一個(gè)CRF層來進(jìn)行標(biāo)注。
第三層:CRF層,進(jìn)行title級的序列標(biāo)注。CRF層的參數(shù)是一個(gè)(k+2)×(k+2)的矩陣A ,Aij表示的是從第 i 個(gè)標(biāo)簽到第 j 個(gè)標(biāo)簽的轉(zhuǎn)移得分,進(jìn)而在為一個(gè)位置進(jìn)行標(biāo)注的時(shí)候可以利用此前已經(jīng)標(biāo)注過的標(biāo)簽。如果記一個(gè)長度等于title長度的標(biāo)簽序列 y=(y1,y2,...,yn) ,那么模型將整個(gè)title x 的標(biāo)簽標(biāo)注為序列 y 的打分函數(shù)為:(公式1)
可以看出整個(gè)序列的打分等于各個(gè)位置的打分之和,而每個(gè)位置的打分由兩部分得到,一部分是由LSTM輸出的 pi 決定,另一部分則由CRF的轉(zhuǎn)移矩陣 A 決定。進(jìn)而可以利用Softmax得到歸一化后的概率:(公式2)
模型訓(xùn)練時(shí)通過***化對數(shù)似然函數(shù),下式給出了對一個(gè)訓(xùn)練樣本 (x,y) 的對數(shù)似然:(公式3)
模型在預(yù)測過程時(shí)使用動態(tài)規(guī)劃的Viterbi算法來求解***路徑,從而得到每個(gè)字的預(yù)測標(biāo)簽:(公式4)
CRF層約束性規(guī)則
由于B-LSTM的輸出為單元的每一個(gè)標(biāo)簽分值,我們可以挑選分值***的一個(gè)作為該單元的標(biāo)簽。例如,對于單元w0,“I-BRA”有***分值 1.5,因此我們可以挑選“I-BRA”作為w0的預(yù)測標(biāo)簽。同理,我們可以得到其他token的標(biāo)簽,w1:“B-BRA”,w2:“O” ,w3:“B-GOD”,w4:“O”。
雖然單純的通過B-LSTM我們可以得到title中每個(gè)token的標(biāo)簽,但是不能保證標(biāo)簽每次都是預(yù)測正確的。例如,上圖中的例子,標(biāo)簽序列是“I-BRA B-BRA”很顯然是錯(cuò)誤的。
在神經(jīng)網(wǎng)絡(luò)的輸出層接入CRF層(重點(diǎn)是利用標(biāo)簽轉(zhuǎn)移概率)來做句子級別的標(biāo)簽預(yù)測,使得標(biāo)注過程不再是對各個(gè)token獨(dú)立分類。B-LSTM計(jì)算出的是每個(gè)詞的各標(biāo)簽概率,而CRF層引入序列的轉(zhuǎn)移概率,最終計(jì)算出loss反饋回網(wǎng)絡(luò),所以上圖在CRF的作用下,序列能根據(jù)轉(zhuǎn)移概率做出符合常理的調(diào)整。
CRF層可以為***預(yù)測的標(biāo)簽添加一些約束來保證預(yù)測的標(biāo)簽是符合規(guī)則的,這些約束可以在訓(xùn)練數(shù)據(jù)訓(xùn)練過程中,通過CRF層自動學(xué)習(xí)到。
比如:
1、title中***個(gè)詞總是以標(biāo)簽“B-” 或 “O”開始,而不是“I-”;
2、標(biāo)簽“B-label1 I-label2 I-label3 I-…”,label1, label2, label3應(yīng)該屬于同一類實(shí)體。例如,“B-BRA I-BRA” 是合法的序列, 但是“B-BRA I-GOD” 是非法標(biāo)簽序列;
3、標(biāo)簽序列“O I-label” 是非法的.實(shí)體標(biāo)簽的***標(biāo)簽應(yīng)該是 “B-” ,而非 “I-”, 換句話說,有效的標(biāo)簽序列應(yīng)該是“O B-label”。
有了以上自動學(xué)習(xí)到的約束規(guī)則,標(biāo)簽序列預(yù)測中非法序列出現(xiàn)的概率將會顯著降低。
實(shí)驗(yàn)效果
論文[1]基于語料CoNLL-2003,在4種語言(英語、德語、荷蘭語、西班牙語)上表現(xiàn)亮眼,其中在德語和西班牙語上取得了SOA效果。
在蘇寧小店商品標(biāo)題標(biāo)注語料上,我們進(jìn)行了隨機(jī)初始向量和word2vec預(yù)訓(xùn)練的對比實(shí)驗(yàn),實(shí)驗(yàn)1的方式比較粗糙,我們以“字”為單位,對非數(shù)字和字母的字符進(jìn)行one-hot編碼并經(jīng)過look-up層獲得字符的低維稠密編碼,所有數(shù)字和字母的編碼分別被固化;實(shí)驗(yàn)2對非數(shù)字和字母的字符采用word2vec預(yù)訓(xùn)練的編碼方式;考慮到商品title中的數(shù)字和英文字母對編碼的重要性,實(shí)驗(yàn)3對實(shí)驗(yàn)2稍加改造,同時(shí)訓(xùn)練出字母、數(shù)字的字向量;實(shí)驗(yàn)4舍棄實(shí)驗(yàn)3中基于character的編碼方式,按照分詞后的token重新標(biāo)注后作為模型的輸入,下表展示了實(shí)驗(yàn)結(jié)果(N表示未對字母與數(shù)字進(jìn)行區(qū)分編碼,Y相反):
從上面的實(shí)驗(yàn)可知,將每個(gè)字母與數(shù)字視為和漢字相同意義的字符后對F1值的提升有較大作用。從小店實(shí)際要提取的實(shí)體信息結(jié)構(gòu)我們也可以知道,字母和數(shù)字是屬性詞、品牌詞的重要構(gòu)成部分,比如:1000g的洗衣粉,“1000g”是需要提取的屬性詞;HUAWEI p20手機(jī)套,“HUAWEI”是需要提取的品牌詞。Word2vec對分詞后的token進(jìn)行預(yù)訓(xùn)練后,模型的準(zhǔn)確率又得到了進(jìn)一步提升,由此可見,word相對于char包含的語義更豐富,有助于模型參數(shù)的正確擬合。
ELMO
上文B-LSTM+CRF輸入的word embedding是通過隨機(jī)化或word2vec訓(xùn)練得到的,這種方式得到的embedding質(zhì)量不高,包含的隱含特征很有限且無法解決一詞多義,比如“蘋果”,如果蘋果前面是吃、咬等食用性動詞,則蘋果表示一種水果,是我們需要提取的物品詞,如果是“某某蘋果手機(jī)”,或title中含有256g、金色等屬性詞,則蘋果是我們需要提取的品牌詞。因?yàn)閣ord2vec模型的學(xué)習(xí)目標(biāo)是預(yù)測詞發(fā)生的概率,這種從海量語料中學(xué)習(xí)到的是詞的通用語義信息,無法直接應(yīng)用于定制業(yè)務(wù)的匹配場景。
ELMO是2018年由AllenNLP出品,并被評為當(dāng)年NAACL best paper,它的主要貢獻(xiàn)是訓(xùn)練得到的word embedding融于了豐富的句法和語義特征,作者將它加入到下游任務(wù)中,在六項(xiàng)挑戰(zhàn)性的NLP任務(wù)中取得了SOA效果。從官網(wǎng)給出的效果來看,基本上在原SOA的基礎(chǔ)上絕對提升了2~4個(gè)百分點(diǎn)。
模型框架與原理
下面從模型結(jié)合源碼的角度來分析這個(gè)神奇的模型。
由于傳統(tǒng)NLP語言模型是一種單向的概率模型,對于預(yù)測下一個(gè)word,只利用了前向的單詞,比如預(yù)測第k個(gè)單詞,用公式表示如下:(公式5)
所以這種模型的弊端就很明顯,無法利用預(yù)測單詞的右側(cè)信息,尤其是在完形填空、閱讀理解、機(jī)器翻譯等領(lǐng)域需要考慮上下文的場合不是特別適用,對于本文目標(biāo)這種提取標(biāo)題中的品牌、屬性、物品詞等信息,考慮其上下文的信息也是很有必要的,只考慮右向信息的語言模型公式如下:(公式6)
ELMO的創(chuàng)新之處是采用了兩層的B-LSTM模型,同時(shí)考慮左右兩側(cè)的信息,將上面公式5和6聯(lián)立起來作為目標(biāo)函數(shù):(公式7)
通過***化上面的似然函數(shù),求得模型的參數(shù)。其中, 表示模型的初始化輸入的token representation,、
分別表示前向、后向隱層的token representation,
表示前后向的softmax參數(shù),用來調(diào)節(jié)隱層representation的比重。
當(dāng)喂訓(xùn)練數(shù)據(jù)給這個(gè)網(wǎng)絡(luò)時(shí),經(jīng)過一定的迭代訓(xùn)練次數(shù),我們就可以得到各個(gè)隱層以及初始token的embedding,下面k表示第k個(gè)token,j表示網(wǎng)絡(luò)的層數(shù):(公式8)
上面是一個(gè)token的三層embedding綜合表達(dá),要獲取最終的embedding,我們需要去調(diào)節(jié)每個(gè)隱層(包含初始輸入,當(dāng)做第0層)在最終embedding中所占的比重。論文中給出了這個(gè)公式:(公式9)
其中,sj是一個(gè)和task相關(guān)的權(quán)值,是由softmax函數(shù)normalized得到。
由源碼可知,如果只是利用ELMO去產(chǎn)出詞向量,而不和下游的任務(wù)結(jié)合使用的話,這里的task就是指上面公式7的語言模型task,sj是單純由這個(gè)“改進(jìn)的”語言模型task而訓(xùn)練得到。如果和下游的task配合使用,則是由兩者共同訓(xùn)練得到。
按照論文的說法,***隱層的embedding能獲取更多的語法特征,第二隱層embedding能獲取更多的語義特征,所以當(dāng)下游任務(wù)是偏句法分析的task時(shí),會學(xué)習(xí)到更大的s1,反之,如果下游任務(wù)偏語義分析時(shí),s2相對更大一些。
使用方式
從是否使用預(yù)訓(xùn)練模型的角度,ELMO有兩種使用方式,***種就是直接使用官方提供的預(yù)訓(xùn)練模型,它給我們提供了預(yù)訓(xùn)練好的模型參數(shù)并給出了超參(官方的預(yù)訓(xùn)練模型是基于英文的,10億token word的新聞?wù)Z料,在3個(gè)GTX 1080上迭代10次訓(xùn)練了長達(dá)2周的時(shí)間)。而我們的任務(wù)是中文對話語料的NER問題,不能直接使用其提供好的模型,但我們不妨先看一下官方對于使用其預(yù)訓(xùn)練模型的幾種方式:
***種是使用字符輸入方式動態(tài)的去訓(xùn)練你的語料,這種方式比較通用但是代價(jià)較高,它的好處是對于能一定程度減少未登錄詞的影響。第二種是將一些和上下文無關(guān),沒什么歧義的詞事先訓(xùn)練好緩存起來,等到用的時(shí)候就不用重復(fù)訓(xùn)練了,這種方式相對1來說代價(jià)低一些,但是這些詞需要事先指定好。第三種是將你所有的語料,比如爬取的新聞數(shù)據(jù)、采集的對話數(shù)據(jù)等等全部喂給ELMO,把訓(xùn)練好的***詞向量和中間隱層詞向量全部存起來,等到下游任務(wù)需要的時(shí)候直接去load就好了,我覺得這種方式一開始的代價(jià)比較高,但由于embedding可以復(fù)用,所以能給以后的task節(jié)約不少時(shí)間,在下游的task使用這些 embedding時(shí)和預(yù)訓(xùn)練時(shí)一樣,做個(gè)動態(tài)的加權(quán)就好了。
上面介紹了使用預(yù)訓(xùn)練模型的方式,歸根到底是在原來模型的基礎(chǔ)上對模型參數(shù)做了一個(gè)微調(diào),從而間接對輸出的embedding做了微調(diào),使輸出的embedding更符合當(dāng)前上下文的語義。
從是否使用預(yù)訓(xùn)練模型角度的第二種方式:自然就是不直接使用預(yù)訓(xùn)練好的模型,那我們需要從零開始去訓(xùn)練所有的參數(shù),這個(gè)代價(jià)很高,但如果要使用ELMO去獲取中文的embedding,這個(gè)工作是必須要做的,步驟如下:
處理細(xì)節(jié)可參考哈工大的博文(如何將ELMo詞向量用于中文)。
實(shí)驗(yàn)效果
說了這么多,EMLO到底有沒有解決一詞多義呢?請看下圖作者的實(shí)驗(yàn)(論文[2]):
Glove根據(jù)它的 embedding 找出的最接近的其它單詞大多數(shù)集中在體育領(lǐng)域,這很明顯是因?yàn)橛?xùn)練數(shù)據(jù)中包含 play 的句子中體育領(lǐng)域的數(shù)量明顯占優(yōu)導(dǎo)致;而使用 ELMO,根據(jù)上下文動態(tài)調(diào)整后的 embedding 不僅能夠找出對應(yīng)的「演出」的相同語義的句子,而且還可以保證找出的句子中的 play 對應(yīng)的詞性也是相同的,這是超出期待之處。
同樣的,在我們的蘇寧小店商品title知識抽取任務(wù)中,底層的預(yù)訓(xùn)練方式由上文實(shí)驗(yàn)4中的word2vec換為ELMO,對于相同的訓(xùn)練數(shù)據(jù),經(jīng)過實(shí)驗(yàn)得到的F1值稍有提升,但不太明顯。下圖采樣了10萬條蘇寧小店商品標(biāo)題,統(tǒng)計(jì)了每條文本的字符個(gè)數(shù),大部分集中在10~20個(gè)字符之間,可能這種短文本蘊(yùn)含的句法和語義信息有限,ELMO相對word2vec學(xué)習(xí)到額外的特征也有限。
那ELMO有沒有什么缺點(diǎn)呢?顯然是有的!由于ELMO的特征提取器采用的是老將LSTM,其特征抽取能力遠(yuǎn)弱于新貴Transformer,而且雙層B-LSTM拼接方式的雙向融合特征融合能力偏弱,所以這種模型架構(gòu)還是有一些弊端的,因此下面嘗試采用18年大火的BERT架構(gòu)作為底層word embedding的編碼器。
BERT
BERT是google在2018年的代表作,其在11項(xiàng)NLP任務(wù)中取得SOA效果,幾乎可以說是橫掃各種牛馬蛇神。BERT的主要?jiǎng)?chuàng)新在于提出了MLM(Mask Language Mode),并同時(shí)融入了預(yù)測句子的子任務(wù),使Transformer可以實(shí)現(xiàn)雙向編碼。
Transformer是17年谷歌在論文《Attention is all you need》中提出的一種新的編解碼模型。模型創(chuàng)新性的提出了self-attention機(jī)制,在克服傳統(tǒng)RNN無法并行計(jì)算問題的同時(shí),還能抽取到更多的語義信息,現(xiàn)在已經(jīng)得到了工業(yè)界和學(xué)術(shù)界的青睞并有逐漸替代RNN、CNN等傳統(tǒng)模型的趨勢。
Self-attention機(jī)制利用查詢向量Q、鍵向量K和值向量V獲得了當(dāng)前token和其他每個(gè)token的相關(guān)度,每個(gè)token根據(jù)這種相關(guān)度都自適應(yīng)的融入了其他token的representation,用公式表示如下:(公式10)
類似于CNN中的多核卷積操作,論文中同時(shí)使用了multi-head機(jī)制,因?yàn)槊恳粋€(gè)head都會使某個(gè)token和其他token產(chǎn)生關(guān)聯(lián),這種關(guān)聯(lián)或多或少有強(qiáng)有弱,mutil-head通過拼接每個(gè)head的輸出,再乘以一個(gè)聯(lián)合模型訓(xùn)練的權(quán)重矩陣,有效擴(kuò)展了模型專注于不同位置的能力,有點(diǎn)博覽眾家之長的意思,公式表示如下:(公式11)
論文《Attention is all you need》主要驗(yàn)證了Transformer在機(jī)器翻譯中的良好表現(xiàn),和本文訓(xùn)練word embedding的目標(biāo)不一樣,機(jī)器翻譯是一個(gè)監(jiān)督型任務(wù),在給定的雙語語料下,模型的輸入是一個(gè)完整待翻譯sentence,sentence中的每個(gè)token都并行參與編碼,而詞向量訓(xùn)練是一個(gè)無監(jiān)督任務(wù),常常使用傳統(tǒng)NLP語言模型去***化語言模型的極大似然,從而得到每個(gè)token的representation,它僅僅考慮單向的token信息。說到使用transformer進(jìn)行詞向量訓(xùn)練就不得不提2018年OpenAI提出的論文《Improving Language Understanding by Generative Pre-Training》(簡稱GPT),但其在非監(jiān)督預(yù)訓(xùn)練階段使用的仍然是單向的語言模型,訓(xùn)練出的word embedding固然損失了許多精度。
最近openAI基于GPT的擴(kuò)展又公布了新的通用NLP模型—GPT-2,無需預(yù)訓(xùn)練就能完成多種不同任務(wù)且取得良好結(jié)果,這個(gè)我們保持關(guān)注。言歸正傳,bert拋棄了傳統(tǒng)的單向語言模型,創(chuàng)新性的提出了MLM語言模型,類似于word2vec中的CBOW模型,利用窗口內(nèi)的上下文來預(yù)測中心詞,同時(shí)引入預(yù)測下一句文本的子任務(wù),有效解決了預(yù)測單詞這種細(xì)粒度任務(wù)不能很好編碼到句子層級的問題。
BERT從頭訓(xùn)練的代價(jià)十分高昂,好在google開源了中文的預(yù)訓(xùn)練模型參數(shù),所以本文直接用小店的商品標(biāo)題語料對預(yù)訓(xùn)練好的模型進(jìn)行fine-tune。
數(shù)據(jù)按照one-hot預(yù)處理好后喂給BertModel,再將模型輸出的sequence embedding傳入下游的B-LSTM+CRF,最終的標(biāo)注結(jié)果相對實(shí)驗(yàn)3(word2vec+字+Y)提升2.002%,足以說明BERT的強(qiáng)大。
總結(jié)
深度學(xué)習(xí)較強(qiáng)的參數(shù)擬合能力,省去了許多繁瑣的特征工程工作。本文介紹了幾種常見的預(yù)訓(xùn)練方式,闡述了算法的基本原理并應(yīng)用于蘇寧小店商品標(biāo)題的知識抽取任務(wù)。蘇寧搜索團(tuán)隊(duì)在NER、關(guān)系抽取、事件抽取、共指消解等知識挖掘的子任務(wù)有很多的嘗試與實(shí)踐,限于篇幅本文不做介紹,歡迎讀者關(guān)注后續(xù)的文章分享。
參考文獻(xiàn)
1、Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[J]. arXiv preprint arXiv:1603.01360, 2016.
2、Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018.
3、Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
4、https://github.com/allenai/bilm-tf
5、https://allennlp.org/elmo
6、張俊林. 從Word Embedding到Bert模型——自然語言處理預(yù)訓(xùn)練技術(shù)發(fā)展史
7、DL4NLP —— 序列標(biāo)注:BiLSTM-CRF模型做基于字的中文命名實(shí)體識別
8、簡書 御風(fēng)之星.BiLSTM模型中CRF層的運(yùn)行原理
9、The Annotated Transformer
10、Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J].
作者簡介
呂建新,蘇寧搜索研發(fā)中心算法工程師,主要從事語義理解、知識圖譜、對話系統(tǒng)等研發(fā)工作,在知識抽取與挖掘、圖表示學(xué)習(xí)、遷移學(xué)習(xí)等傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域有豐富實(shí)戰(zhàn)經(jīng)驗(yàn)。
李春生,蘇寧易購搜索技術(shù)總監(jiān),負(fù)責(zé)商品、情報(bào)與搜索技術(shù)線架構(gòu)設(shè)計(jì)與核心技術(shù)規(guī)劃等方面的工作,在搜索領(lǐng)域有多年的實(shí)戰(zhàn)經(jīng)驗(yàn),從0到1構(gòu)建蘇寧易購搜索平臺,在搜索領(lǐng)域上耕耘7年有余,精通搜索架構(gòu)設(shè)計(jì)與性能優(yōu)化,同時(shí)在機(jī)器學(xué)習(xí)、大數(shù)據(jù)等領(lǐng)域?qū)λ阉鞯膱鼍盎瘧?yīng)用有豐富的經(jīng)驗(yàn)。
孫鵬飛,蘇寧易購搜索算法團(tuán)隊(duì)負(fù)責(zé)人,專注于NLP,搜索排序,智能問答方向的研究。帶領(lǐng)團(tuán)隊(duì)從無到有搭建了搜索排序系統(tǒng)、個(gè)性化系統(tǒng)、智能搜索系統(tǒng)、反作弊系統(tǒng)等。對算法在產(chǎn)品中的調(diào)優(yōu)及工程應(yīng)用實(shí)踐上有著豐富的經(jīng)驗(yàn)。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】