偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

新聞 深度學(xué)習(xí) 自然語言處理
圖不但包含數(shù)據(jù),也包含數(shù)據(jù)之間的依賴關(guān)系,因而圖神經(jīng)網(wǎng)絡(luò)(GNN)在自然語言處理(NLP)方面的表現(xiàn)有著非常大的潛力。近期,一位華人博士團(tuán)隊便針對這些研究發(fā)表了一篇非常詳盡的綜述。

 圖是一種可用來描述和建模復(fù)雜系統(tǒng)的通用語言。

圖在NLP的世界里無處不在,比如用來描述句法信息的dependency tree和constituency tree,以及描述語義信息的AMR graph。

相比于簡單地把自然語言建模成詞袋(bag)或者序列(sequence),圖能捕捉到自然語言更豐富和細(xì)致的信息。

因此,對于許多NLP任務(wù)而言,圖是一種非常合理的表示方式。

例如,對于跨文本閱讀理解任務(wù),如果能夠抽取出文本中的實體信息,并以圖的形式建立起它們之間各種聯(lián)系,將能有效幫助文本理解。

而圖神經(jīng)網(wǎng)絡(luò)(GNN)恰恰最擅長處理和建模圖結(jié)構(gòu)數(shù)據(jù)的。

GNN的原理

GNN的工作原理簡單概況就是,聚合節(jié)點(diǎn)的鄰居節(jié)點(diǎn)/邊的信息,來更新節(jié)點(diǎn)的向量表征。

近年來,深度學(xué)習(xí)已經(jīng)成為NLP領(lǐng)域的主要技術(shù)手段。

在GNN被引入和廣泛應(yīng)用之前,深度學(xué)習(xí)領(lǐng)域一直缺少一種神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠像CNN適合處理網(wǎng)格數(shù)據(jù)那樣,適合處理任意圖結(jié)構(gòu)數(shù)據(jù)。

隨著GNN研究的持續(xù)火熱,越來越多的研究開始嘗試用GNN來解決各類NLP問題。

近期,來自京東硅谷研發(fā)中心的首席科學(xué)家吳凌飛博士和他的團(tuán)隊就發(fā)表了第一篇詳細(xì)的關(guān)于GNNs for NLP的綜述。

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

論文:
https://arxiv.org/pdf/2106.06090.pdf

Github:https://github.com/graph4ai/graph4nlp/

本文從「NLP圖構(gòu)建」、「NLP圖表示學(xué)習(xí)」、「基于GNN的Encoder-decoder模型」和「GNN在NLP任務(wù)中的應(yīng)用」四個維度對現(xiàn)有研究進(jìn)展作了詳細(xì)的回顧與解讀。

整篇綜述總共127頁,其中包含87頁正文,12種圖構(gòu)建方法,12個應(yīng)用場景涉及NLP各方各面。

除此之外,其中覆蓋了500篇頂級AI/ML/NLP的文章,并在最后對目前所面臨的挑戰(zhàn)與未來的研究方向作出了獨(dú)到的總結(jié)。

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

NLP圖構(gòu)建、NLP圖表示學(xué)習(xí)、基于GNN的Encoder-decoder模型和GNN在NLP任務(wù)中的應(yīng)用

不論是想要了解該方向的最新研究進(jìn)展,概覽GNNs for NLP應(yīng)用pipeline,抑或是對其中某個子模塊感興趣,本文都將讓你有所收獲。

作者所在團(tuán)隊還為本文配備了graph4nlp library,已在github上發(fā)布,給想要動手實操的研究者們提供了非常好的機(jī)會。

GNN4NLP研究面臨的挑戰(zhàn)

盡管在各類NLP任務(wù)上,GNN已經(jīng)大獲成功,但是GNN4NLP仍然是一個相對年輕且快速發(fā)展的研究領(lǐng)域,并面臨諸多挑戰(zhàn):

  1. 如何自動地把文本數(shù)據(jù)轉(zhuǎn)換成有效的圖結(jié)構(gòu)數(shù)據(jù),并保留對下游任務(wù)有幫助的重要信息;
  2. 如何針對不同類型的圖結(jié)構(gòu)數(shù)據(jù),開發(fā)出有效的GNN模型;
  3. 如何端到端地學(xué)習(xí)復(fù)雜類型數(shù)據(jù)之間的映射關(guān)系(例如Graph2Seq, Graph2Tree, Graph2Graph)。

自動化圖構(gòu)建

不同類型的NLP任務(wù)往往需要不同層面的文本信息。例如,詞性、句法等信息對于命名實體識別任務(wù)比較有幫助;而對于閱讀理解任務(wù)而言,實體關(guān)系等語義信息會很有幫助。

另一方面,不同類型的圖通常包含不同類型的信息。所以,如何選擇合適的圖構(gòu)建方式對于GNN在下游任務(wù)的表現(xiàn)至關(guān)重要。

本文將目前已知的所有圖構(gòu)建方式分為兩類:靜態(tài)構(gòu)圖方式和動態(tài)構(gòu)圖方式。

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

靜態(tài)圖構(gòu)建

靜態(tài)圖構(gòu)建有兩大特點(diǎn):

  1. 引入先驗的領(lǐng)域知識來擴(kuò)充文本信息;
  2. 在預(yù)處理階段完成。
華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

dependency graph和constituency graph兩種靜態(tài)圖構(gòu)建方式

本文從以往發(fā)表的文獻(xiàn)中,總結(jié)出10余種有代表性的靜態(tài)圖構(gòu)建方式,并將其歸類為句法信息、語義信息、主題信息等多個維度。

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

動態(tài)圖構(gòu)建

動態(tài)圖構(gòu)建是近兩年來新興出現(xiàn)的一種自動構(gòu)圖方式,其最大的特點(diǎn)是:

  1. 針對下游NLP任務(wù),對圖結(jié)構(gòu)和圖表征進(jìn)行端到端聯(lián)合學(xué)習(xí);
  2. 可以動態(tài)進(jìn)行。

動態(tài)圖構(gòu)建的常見流程:

  1. 圖相似度量學(xué)習(xí)模塊計算節(jié)點(diǎn)之間的相似關(guān)系,返回一個全連通加權(quán)圖;
  2. 圖稀疏化模塊對全連通圖進(jìn)行稀疏化處理,得到稀疏圖;
  3. 如果已知初始的圖結(jié)構(gòu)信息,那么也可以將初始的圖結(jié)構(gòu)和學(xué)習(xí)到的隱圖結(jié)構(gòu)結(jié)合起來,獲得更有效的圖結(jié)構(gòu)信息。
華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

同時,本文總結(jié)了各類目前已知有效的動態(tài)圖構(gòu)建方式,并歸納出如下4個技術(shù)維度和相應(yīng)的代表性技術(shù)。

華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

圖表示學(xué)習(xí)

當(dāng)從非結(jié)構(gòu)化的文本中獲取到了想要的圖,又該如何進(jìn)行圖表示學(xué)習(xí)?

不要慌,本文從幾百篇文獻(xiàn)中,系統(tǒng)性的總結(jié)了實際研究中碰到的圖的類型,以及怎么轉(zhuǎn)化,最終怎么用、用什么GNN進(jìn)行編碼學(xué)習(xí)的流程。

首先,根據(jù)圖的節(jié)點(diǎn)和邊的屬性是否唯一,將圖歸類為:

  1. 具有單一節(jié)點(diǎn)和邊屬性的同構(gòu)圖(homogeneous graph);
  2. 具有單一節(jié)點(diǎn)屬性,但邊屬性不唯一的關(guān)系圖(multi-relational graph);
  3. 節(jié)點(diǎn)屬性不唯一的異構(gòu)圖(heterogeneous graph)。

其次,這些圖之間是存在互相轉(zhuǎn)化的可能的,因此本文總結(jié)了這些不同的圖可能存在的轉(zhuǎn)化模式,比如說如何從一個異構(gòu)圖轉(zhuǎn)化成多關(guān)系圖等等。

這些轉(zhuǎn)化為圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用提供了更多的可能與選擇。

最后,當(dāng)搞清楚圖的結(jié)構(gòu)和轉(zhuǎn)化后,該如何選擇合適的圖神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)?

本文總結(jié)了針對每一種圖目前已有的經(jīng)典的圖神經(jīng)網(wǎng)絡(luò),讓使用起來不再感到無從下手!

  1. 對于同構(gòu)圖,我們總結(jié)了一類成為homogeneous GNN的圖神經(jīng)網(wǎng)絡(luò)類型。最常見的比如GCN,GAT等等。特別的,我們注意到很多GNN比如GCN是針對無向圖而實際中很多同構(gòu)圖是有向的,因此我們針對有向圖和無向圖進(jìn)行了詳盡的討論。
  2. 對于多關(guān)系圖,由于針對邊的屬性如何被應(yīng)用,總結(jié)了不同的multi-relational GNN。最常見的有R-GCN, R-GGNN等等。值得一提的是,我們發(fā)現(xiàn)火爆全網(wǎng)的Transformer也被研究者用來學(xué)習(xí)多關(guān)系圖使用。我們將它視為一種特殊的多關(guān)系圖,進(jìn)行了系統(tǒng)的分析。
  3. 對于異構(gòu)圖,由于圖的節(jié)點(diǎn)和邊的屬性都不限,因此這方面的工作自由度很高,我們統(tǒng)稱為heterogeneous graph。常見的有基于元路徑的(meta-path based),關(guān)系神經(jīng)網(wǎng)絡(luò)延伸的(R-GNN based)等等。
華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

流程圖

編碼器-解碼器模型

Encoder-decoder架構(gòu)可以說是近年來NLP領(lǐng)域中應(yīng)用最為廣泛的框架之一。

但在不同任務(wù)場景中,如何因地制宜地設(shè)計encoder,decoder,也是極為重要的問題。

結(jié)合GNN對圖結(jié)構(gòu)數(shù)據(jù)的強(qiáng)大建模能力,許多研究者開始關(guān)注如何在Encoder-decoder架構(gòu)中用好GNN。

本文對這個方向的研究進(jìn)展作了系統(tǒng)地梳理和回顧,并將相關(guān)文獻(xiàn)分為以下三個類別:

  • Graph2Seq(圖到序列)
  • Graph2Tree(圖到樹)
  • Graph2Graph(圖到圖)
華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

Graph2Seq&Graph2Tree示意圖

對于這三個角度,本文詳細(xì)介紹了Graph based encoder-decoder模型的發(fā)展脈絡(luò)。

其中不僅包括GNN的使用,也有各種各樣相關(guān)的decoding techniques。

同時,對于最近備受關(guān)注的基于graph transformer的生成模型,本文也對此進(jìn)行了分析對比,并總結(jié)了一些現(xiàn)在面臨的關(guān)鍵挑戰(zhàn)。

NLP應(yīng)用任務(wù)

那么,圖神經(jīng)網(wǎng)絡(luò)究竟被用到哪兒了呢?

本文總結(jié)了來自12個不同的方向,26個任務(wù)共百余篇文獻(xiàn),帶來最詳盡的實際應(yīng)用解讀:

  • 自然語言生成(NLG):1. 機(jī)器翻譯(Neural Machine Translation),2. 摘要生成(Summarization),3. 結(jié)構(gòu)化數(shù)據(jù)到文本的生成(Structural-data to text),4. 文本問題生成(Neural Question Generation)
  • 機(jī)器閱讀理解與問題回答(MRC and QA):1. 機(jī)器閱讀理解(Machine Reading Comprehension), 2. 基于知識庫的問題回答(Knowledge Base Question Answering),3. 開放領(lǐng)域的問題回答(Open-domain Question Answering),4. 基于社區(qū)的問題回答(Community Question Answering)
  • 對話系統(tǒng)(Dialog Systems):1. 對話狀態(tài)跟蹤(Dialog State Tracking),2. 對話回應(yīng)生成(Dialog Response Generation),3. 下一個話語選擇(Next Utterance Selection)
  • 文本分類(Text Classification):1. 文本分類(Text Classification)
  • 文本匹配(Text Matching):1. 文本匹配(Text Matching)
  • 主題模型(Topic Modeling):1. 主題模型(Topic Modeling)
  • 情感分類(Sentiment Classification):1. 情感分類(Sentiment Classification)
  • 知識圖譜(Knowledge Graph):1. 知識圖譜補(bǔ)全(Knowledge Graph Completion),2. 知識圖譜對齊(Knowledge Graph Alignment)
  • 知識抽?。↖nformation Extraction):1. 命名實體識別(Named Entity Recognition),2. 關(guān)系抽?。≧elation Extraction),3. 聯(lián)合學(xué)習(xí)模型(Joint Learning Models)
  • 句法解析和語義分析(Parsing):1.句法解析(syntactic parsing) 2. 語義分析(semantic parsing)
  • 推理(Reasoning):1. 解決數(shù)學(xué)應(yīng)用題(Math Word Problem Solving),2. 自然語言推理(Natural Language Inference),3. 常識推理(Commonsense Reasoning)
  • 語義角色標(biāo)注(Semantic Role Labelling):1. 語義角色標(biāo)注(Semantic Role Labelling)

對于每一個任務(wù),按照以下三點(diǎn)進(jìn)行剖析:

  1. 該任務(wù)的研究背景(background)和使用圖神經(jīng)網(wǎng)絡(luò)的動機(jī)(motivation);
  2. 使用圖神經(jīng)網(wǎng)絡(luò)的方法(methodology);
  3. 該任務(wù)已有的數(shù)據(jù)集(benchmark)和評測指標(biāo)(evaluation)。

針對最關(guān)心的方法部分,本文做了如下總結(jié):

  1. 構(gòu)圖技巧;
  2. 圖表示學(xué)習(xí)方法;
  3. 一些特殊方法的層次進(jìn)行詳細(xì)的說明。
華人博士發(fā)127頁長文:自然語言處理中圖神經(jīng)網(wǎng)絡(luò)從入門到精通

總結(jié)

團(tuán)隊介紹

本文的作者是:

京東硅谷研發(fā)中心(JD.COM Silicon Valley Research Center)的首席科學(xué)家吳凌飛博士;西蒙弗雷澤大學(xué)的裴健教授;京東零售集團(tuán)搜索和推薦平臺部副總裁龍波博士等研究者。

Graph4NLP 相關(guān)軟件包,綜述,講座和文獻(xiàn):

Survey: http://arxiv.org/abs/2106.06090

Library: https://github.com/graph4ai/graph4nlp

Demo: https://github.com/graph4ai/graph4nlp_demo

Tutorials: Graph4NLP-NAACL'21(Slides: google drive, baidu netdisk(drs1))

Literature Review: https://github.com/graph4ai/graph4nlp_literature

論文地址:

https://arxiv.org/pdf/2106.06090.pdf

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語言初探

2017-09-19 13:56:46

神經(jīng)網(wǎng)絡(luò)自然語言深度學(xué)習(xí)

2021-11-12 15:43:10

Python自然語言數(shù)據(jù)

2021-05-18 07:15:37

Python

2018-07-03 16:10:04

神經(jīng)網(wǎng)絡(luò)生物神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-03-10 12:16:46

機(jī)器學(xué)習(xí)

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2023-07-30 15:22:47

2023-07-31 09:54:12

2019-07-24 05:36:32

神經(jīng)網(wǎng)絡(luò)語言模型NNLM

2017-04-10 16:15:55

人工智能深度學(xué)習(xí)應(yīng)用

2024-04-24 11:38:46

語言模型NLP人工智能

2023-09-03 12:57:39

神經(jīng)網(wǎng)絡(luò)AI

2010-02-06 15:31:18

ibmdwAndroid

2009-07-22 14:55:16

ibmdwAndroid

2016-12-08 22:39:40

Android
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號