阿里達(dá)摩院獲SemEval最佳論文 讓AI更懂人類語言
7月19日消息,全球規(guī)模最大的語義測評(píng)競賽SemEval-2022近日宣布,將今年唯一的“最佳系統(tǒng)論文獎(jiǎng)”頒發(fā)給阿里達(dá)摩院等機(jī)構(gòu)的研究人員。他們?yōu)橹杏⑽脑趦?nèi)的11種語言設(shè)計(jì)出一套融入知識(shí)的命名實(shí)體識(shí)別(NER)系統(tǒng),能夠精準(zhǔn)識(shí)別出人名、地名、機(jī)構(gòu)、作品等關(guān)鍵性的實(shí)體信息,有力提升了AI理解人類語言的能力。
SemEval(Semantic Evaluation語義評(píng)測)是自然語言處理領(lǐng)域的權(quán)威國際競賽,已有超過20年歷史,由國際計(jì)算機(jī)語言學(xué)學(xué)會(huì)(ACL)的詞匯和語義小組主辦,旨在讓AI去分析、理解人類語言中蘊(yùn)含的意義。
SemEval的最佳論文獎(jiǎng)共有兩個(gè):最佳任務(wù)論文獎(jiǎng)(Best Task Paper Award)和最佳系統(tǒng)論文獎(jiǎng)(Best System Paper Award)。通俗理解,一個(gè)是提問題,另一個(gè)是解決問題。阿里達(dá)摩院與上海科技大學(xué)、浙江大學(xué)、新加坡科技設(shè)計(jì)大學(xué)的聯(lián)合研究團(tuán)隊(duì)摘得了今年的最佳系統(tǒng)論文獎(jiǎng),這篇從221篇候選論文中脫穎而出的文章名為《DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition》。

SemEval-2022最佳系統(tǒng)論文
獲獎(jiǎng)團(tuán)隊(duì)參加了SemEval-2022的12項(xiàng)任務(wù)之一:多語言復(fù)雜命名實(shí)時(shí)識(shí)別(Multilingual Complex Named Entity Recognition)。命名實(shí)體識(shí)別(NER)是自然語言處理領(lǐng)域的基礎(chǔ)性工作,是指識(shí)別文本中具有特定意義的實(shí)體詞(Entity),主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。
任務(wù)要求研究人員設(shè)計(jì)一套系統(tǒng),能夠識(shí)別中文、英語在內(nèi)的11種語言中的實(shí)體,包括在多語言夾雜、有“?!?、有縮寫、有俗語的句式中,做到精準(zhǔn)識(shí)別。比如例句:“2016年,她客串出演了HBO電視劇權(quán)力的游戲”,AI需要識(shí)別理解出“HBO”這個(gè)縮略的機(jī)構(gòu)名,還有“權(quán)力的游戲”這個(gè)作品名。

達(dá)摩院系統(tǒng)獲得總分第一
論文提出了一套全新的融入知識(shí)的多語言命名實(shí)體識(shí)別系統(tǒng),在比賽任務(wù)的13個(gè)子項(xiàng)中獲得10個(gè)第一,總分排名第一,較大幅度提升了業(yè)界水平。
一般來說,由于詞語具有多義性,只有結(jié)合上下文語境,我們才能準(zhǔn)確理解詞語,AI也是如此。新系統(tǒng)的強(qiáng)大之處在于,即便缺乏上下文語境,也能讓AI理解復(fù)雜的實(shí)體詞。研究人員介紹,該系統(tǒng)額外引入外部知識(shí),構(gòu)建了一個(gè)多語言通用知識(shí)庫,通過交互型的檢索來擴(kuò)充文本的上下文信息,從而消除歧義;再加上多階段的微調(diào),可以實(shí)現(xiàn)精準(zhǔn)識(shí)別實(shí)體信息。

達(dá)摩院系統(tǒng)原理示意
據(jù)介紹,這項(xiàng)獲獎(jiǎng)研究成果在翻譯、搜索、人機(jī)對(duì)話等領(lǐng)域有著廣泛的應(yīng)用前景。目前,達(dá)摩院的機(jī)器翻譯系統(tǒng)能提供214種語言的互譯服務(wù),每天為國內(nèi)200萬中小商家翻譯上億文字,助力國貨走向全世界。國際權(quán)威研究機(jī)構(gòu)Gartner最新報(bào)告《云AI開發(fā)者服務(wù)關(guān)鍵能力報(bào)告》指出,阿里語言AI已排名全球第二,創(chuàng)中國企業(yè)歷史最佳成績。




























