句法敏感的實體表示用于神經(jīng)網(wǎng)絡(luò)關(guān)系抽取

作者：阿里巴巴授權(quán)發(fā)布 2018-02-25 11:31:06

近年來基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型把句子表示到一個低維空間。這篇論文的創(chuàng)新在于把句法信息加入到實體的表示模型里。

句法敏感的實體表示用于神經(jīng)網(wǎng)絡(luò)關(guān)系抽取。關(guān)系抽取任務(wù)大規(guī)模應(yīng)用的一個主要瓶頸就是語料的獲取。近年來基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型把句子表示到一個低維空間。這篇論文的創(chuàng)新在于把句法信息加入到實體的表示模型里。

首先，基于Tree-GRU，把實體上下文的依存樹放入句子級別的表示。其次，利用句子間和句子內(nèi)部的注意力，來獲得含有目標(biāo)實體的句子集合的表示。

研究背景和動機(jī)

關(guān)系抽取任務(wù)大規(guī)模應(yīng)用的一個主要瓶頸就是語料的獲取。遠(yuǎn)程監(jiān)督模型通過將知識庫應(yīng)用于非結(jié)構(gòu)化文本對齊來自動構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù)，從而減輕對人工構(gòu)建數(shù)據(jù)的依賴程度，并使得模型跨領(lǐng)域適應(yīng)能力得到增強(qiáng)。然而，在利用遠(yuǎn)程監(jiān)督構(gòu)建語料的過程中，僅僅利用實體名稱進(jìn)行對齊，而不同實體在不同關(guān)系下應(yīng)該具有更加豐富的多樣的語義表示，從而導(dǎo)致錯誤標(biāo)注等問題。因此，一套更加豐富的實體表示顯得尤為重要。

另一方，基于語法信息的方法通常作用于兩個實體之間的關(guān)系上，而語法信息是可以更加豐富實體的表示的。因此，本文基于句法上下文的實體表示來豐富實體在不同關(guān)系模式下的語義，并結(jié)合神經(jīng)網(wǎng)絡(luò)模型處理關(guān)系抽取任務(wù)。

相關(guān)工作介紹

我們把相關(guān)的工作大致分成早期基于遠(yuǎn)程監(jiān)督的方法和近年來基于神經(jīng)網(wǎng)絡(luò)模型兩類。

為了解決關(guān)系抽取任務(wù)嚴(yán)重依賴于標(biāo)注語料的問題，Mintz et al.(2009)率先提出了基于遠(yuǎn)程監(jiān)督的方法構(gòu)建標(biāo)注語料。然而，這樣構(gòu)建的自動標(biāo)注語料含有大量的噪聲。為了緩解語料中噪聲帶來的影響，Riedel et al.(2010)將關(guān)系抽取看成是一個多實例單類別的問題。進(jìn)一步的，Hoffmann et al.(2011)和Surdeanu et al.(2012)采取了多實例多類別的策略。同時，采用最短依存路徑作為關(guān)系的一個語法特征。上述方法典型的缺陷在于模型的性能依賴于特征模板的設(shè)計。

近年來，神經(jīng)網(wǎng)絡(luò)被廣泛的應(yīng)用于自然語言處理任務(wù)上。在關(guān)系抽取領(lǐng)域，Socher et al.(2012)采用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理關(guān)系抽取。Zeng et al.(2014)則構(gòu)建了端到端的卷積神經(jīng)網(wǎng)絡(luò)，進(jìn)一步的，Zeng et al.(2015)假設(shè)多實例中至少有一個實例正確地表示了相應(yīng)的關(guān)系。相比于假設(shè)有一個實例表示一對實體的關(guān)系，Lin et al.(2016)通過注意力機(jī)制挑選正面的實例更充分的使用了標(biāo)注語料含有的信息。

以上這些基于神經(jīng)網(wǎng)絡(luò)的方法大多數(shù)都使用詞層次的表示來生成句子的向量表示。另一方面，基于語法信息的表示也受到了眾多研究者的青睞，其中最主要的即最短依存路徑(Miwa and Bansal(2016)和Cai et al.(2016))。

主要方法

首先，基于依存句法樹，利用基于樹結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)（Tree-GRU）模型生成實體在句子級別的表示。如上圖所示，有別于僅僅使用實體本身，我們能夠更好地表達(dá)出長距離的信息。具體的實體語義表示如下圖所示。我們使用Tree-GRU來獲得實體的語義表示。

其次，利用基于子節(jié)點的注意力機(jī)制（ATTCE，上圖）和基于句子級別的實體表示注意力機(jī)制(ATTEE，下圖)來減輕句法錯誤和錯誤標(biāo)注的負(fù)面影響。

實驗結(jié)果

本文在NYT語料上進(jìn)行了實驗。最終結(jié)果如上圖所示。其中，SEE-CAT和SEE-TRAINS分別是本文使用的兩種結(jié)合三種向量表示（句子的向量表示，兩個實體的向量表示）的策略。從圖中可以看出，本文提出的模型在相同數(shù)據(jù)集上取得了比現(xiàn)有遠(yuǎn)程監(jiān)督關(guān)系抽取模型更好的性能。

總結(jié)

本文的實驗結(jié)果表明，更豐富的命名實體語義表示能夠有效地幫助到最終的關(guān)系抽取任務(wù)。

團(tuán)隊名稱：業(yè)務(wù)平臺事業(yè)部

作者：何正球，陳文亮，張梅山，李正華，張偉，張民

責(zé)任編輯：王雪燕來源： 51CTO

句法敏感神經(jīng)網(wǎng)絡(luò)關(guān)系抽取

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

句法敏感的實體表示用于神經(jīng)網(wǎng)絡(luò)關(guān)系抽取