“千言數(shù)據(jù)集:文本相似度”權威評測,網(wǎng)易易智榮登榜首
日前,網(wǎng)易數(shù)帆旗下人工智能技術與服務品牌——網(wǎng)易易智在CCF和百度聯(lián)合舉辦的“千言數(shù)據(jù)集:文本相似度”行業(yè)測評中擊敗多支勁旅,榮登榜首。
文本相似度,即識別兩段文本在語義上是否相似,在自然語言處理(NLP)領域是一個重要研究方向,目前已大規(guī)模商用于智能客服、信息檢索、新聞推薦等領域,如已服務超40萬企業(yè)客戶的網(wǎng)易七魚智能客服,背后就有這項技術的支撐。

榜單中“網(wǎng)易杭州研究院”為網(wǎng)易易智團隊
知識沉淀與技術積累立功,網(wǎng)易易智文本相似度雄踞榜首
“千言數(shù)據(jù)集”系列評測是中文自然語言處理領域的大規(guī)模賽事,其中文本相似度開源項目收集了來自哈爾濱工業(yè)大學的LCQMC、BQ Corpus,以及谷歌的PAWS-X(中文)等公開數(shù)據(jù)集,期望對文本相似度模型效果進行綜合的評價,推動文本相似度在自然語言處理領域的應用和發(fā)展。
據(jù)了解,這些公開數(shù)據(jù)集在相關論文的支撐下,對現(xiàn)有的公開文本相似度模型進行了較全面的評估,具有較高的權威性,代表了文本相似度技術研究的最高水準。

哈爾濱工業(yè)大學(深圳)LCQMC數(shù)據(jù)集任務示例
在本次文本相似度測評中,網(wǎng)易易智結合了多年技術經驗積累,和大規(guī)模預訓練語言模型的運用,再加上對比賽任務進行的針對性優(yōu)化,取得了目前的優(yōu)異成績。
網(wǎng)易易智的參賽隊伍表示,這次比賽任務主要有2個難點。一個難點是BQ Corpus數(shù)據(jù)集是金融領域的數(shù)據(jù),該數(shù)據(jù)集涉及到金融行業(yè)的大量知識,而通用預訓練語言模型難以捕捉到特定行業(yè)的潛在知識。為此,團隊采用半監(jiān)督學習等方式,從網(wǎng)易內部多個業(yè)務場景中挖掘出泛金融領域知識,進而獲得金融領域預訓練語言模型,最終在該任務上較大幅度領先于其他參賽團隊。
而另一個難點是PAWS-X數(shù)據(jù)集的質量問題,該數(shù)據(jù)來自于英文的翻譯,翻譯內容與真實中文有出入,尤其會對算法造成干擾的是實體詞(如人名、地名)的翻譯不統(tǒng)一,即相同的人名,前一個句子保留英文原文,后一個句子卻音譯為中文。針對這個數(shù)據(jù)特點,網(wǎng)易易智利用自研的NER(命名實體識別)服務進行實體詞的識別與歸一化,并利用自研的中文文本糾錯服務糾正其中的錯別字、語病之后,再進行模型訓練,最終在該任務上也取得了第一。
網(wǎng)易易智助力七魚機器人精準理解客戶訴求
網(wǎng)易易智基于文本相似度等系列NLP技術構建了一套智能對話系統(tǒng),服務集團內部多個業(yè)務,如嚴選客服、IT咨詢等,并與七魚業(yè)務聯(lián)合打造智能客服機器人產品,服務集團外部客戶。
以九陽股份有限公司為例,其核心訴求之一,是通過高效、精準、人性化的咨詢服務保障用戶的購物體驗,如用戶對于小家電產品功能、操作、價格、優(yōu)惠活動、養(yǎng)護、維修等問題的咨詢。
為此,九陽接入了網(wǎng)易七魚在線機器人,在問題匹配率可高達90%以上的基礎上,提供更懂用戶的智能服務體驗?;诰W(wǎng)易易智文本相似度算法,七魚在線機器人實現(xiàn)了核心語義匹配,從而達成BOT、FAQ等功能。此外,通過語義匹配技術,七魚在線機器人還實現(xiàn)了對知識庫的智能挖掘與生成。借助這些能力,七魚在線機器人可以高效、精準地解答不同場景下的客戶問題。


而在快遞領域,申通快遞也接入了七魚智能客服應對快遞咨詢問題,這是一個與上述金融、小家電完全不同的領域,然而運用網(wǎng)易易智同樣的技術原理,智能客服快速實現(xiàn)了相似的效果。


網(wǎng)易易智NLP促進數(shù)字業(yè)務創(chuàng)新
文本相似度技術的商業(yè)價值并不局限于智能客服領域。據(jù)網(wǎng)易易智負責人介紹,文本相似度技術大類歸于文本匹配,除了對話引擎里,該技術在網(wǎng)易內部還有更多的應用落地,如網(wǎng)易云音樂中的評論智能挖掘、直播/短視頻中的歌詞匹配以及知識公路業(yè)務中的視頻選題相似度檢測等創(chuàng)新解決方案應用。
而從整個技術領域來看,作為一門讓機器理解人類語言的技術,NLP素有“人工智能皇冠上的明珠”之稱,既是難以攻克的前沿課題,也對數(shù)字業(yè)務創(chuàng)新具有重要的意義。除了文本相似度,網(wǎng)易易智也一直在探索NLP技術與業(yè)務創(chuàng)新的最大公約數(shù),并取得了一些階段性的成果。
例如,語義解析技術在軟件測試中的使用,顯著提升自動化水平、實現(xiàn)降本增效,這對于數(shù)字化軟件質量的保障非常有利;文本糾錯技術在網(wǎng)易新聞等文稿審校場景中大規(guī)模使用,將拼寫及語法等錯誤及時發(fā)現(xiàn)并予以糾正,大幅提升用戶閱讀體驗,同時降低內容生產的工作量。
未來,網(wǎng)易易智還將聯(lián)合網(wǎng)易數(shù)帆旗下有數(shù)團隊,探索NLP在大數(shù)據(jù)系統(tǒng)中的應用,如支持業(yè)務人員與分析系統(tǒng)的自然語言交互,使得企業(yè)能夠更好地發(fā)揮大數(shù)據(jù)的價值。















 
 
 







 
 
 
 