偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NLP技術(shù)預(yù)備——自然語言處理技術(shù)不是你老婆

原創(chuàng) 精選
人工智能 自然語言處理
在語言處理這塊,自然語言處理是使其智能化的重要方式,是人工智能領(lǐng)域的一個(gè)重要分支。其利用計(jì)算機(jī)技術(shù)來分析、理解和處理自然語言, 建立起可供人與計(jì)算機(jī)之間能相互聯(lián)系方式,下面就讓我們一起來揭開它的面紗吧!

隨著人工智能技術(shù)的發(fā)展,我們生活中的許多應(yīng)用已經(jīng)都與AI技術(shù)產(chǎn)生了關(guān)聯(lián),例如通過手機(jī)翻譯軟件實(shí)時(shí)給自己的語言進(jìn)行翻譯,利用圖像識(shí)別技術(shù)對(duì)面容進(jìn)行認(rèn)證等等。其中,在語言處理這塊,自然語言處理則是使其智能化的重要方式,是人工智能領(lǐng)域的一個(gè)重要分支。其利用計(jì)算機(jī)技術(shù)來分析、理解和處理自然語言, 建立起可供人與計(jì)算機(jī)之間能相互聯(lián)系方式,下面就讓我們一起來揭開它的面紗吧!

1.何為NLP?

NLP即natural language processing,中文也就是自然語言處理。顧名思義就是對(duì)自然界存在的人類能理解的語言進(jìn)行處理。那么處理是為了什么,當(dāng)然就是為了使得計(jì)算機(jī)能夠理解人類使用的語言,并且能夠和人類進(jìn)行一些交互,也就是使得計(jì)算機(jī)具備人類語言的能力,從而實(shí)現(xiàn)人工智能化。對(duì)于人工智能領(lǐng)域的技術(shù)或者知識(shí),我更傾向于使用通俗、易理解的方式去表達(dá),我覺得這樣更加有利于去學(xué)習(xí)這些知識(shí)的受眾,使得受眾更為廣泛。所以,自然語言處理反過來就是該領(lǐng)域所作的事情——處理自然語言。

2.NLP領(lǐng)域與處理過程

NLP目前所用領(lǐng)域主要有語音助手、機(jī)器翻譯、命名實(shí)體識(shí)別、情感識(shí)別、文本檢索等,本人從事的NLP相關(guān)工作主要是情感識(shí)別和文本檢索這兩塊。對(duì)于NLP的具體處理過程普遍較為一致,即三步走:文本預(yù)處理(表示、數(shù)據(jù)分析、文本增強(qiáng))——處理模型——輸出所需結(jié)果(目標(biāo)語言、情感極性、檢索結(jié)果等)。不難看出,這三個(gè)步驟中,最為核心的就是處理模型的選取,隨著深度學(xué)習(xí)技術(shù)的不管發(fā)展與完善,每一年都會(huì)有新的處理技術(shù)被使用,這也是眾多NLP研究者所關(guān)注并加以創(chuàng)新的關(guān)鍵。其次,較為重要的一步就是文本預(yù)處理,對(duì)于任何一種自然語言,使其更為規(guī)范化、更具備豐富語義、更為計(jì)算機(jī)所理解的目的出發(fā),對(duì)于文本進(jìn)行預(yù)處理的方法也是不斷完善的過程。至于最后一步的輸出結(jié)果則是沒那么重要的一環(huán),它的不同是基于不同的任務(wù)而改變,選定好研究的應(yīng)用領(lǐng)域,最后一步的輸出結(jié)果也就定了下來,所以很少的研究者會(huì)對(duì)這一塊加以重視。當(dāng)然,對(duì)于這一塊也是不至于去重視的。因此,對(duì)于NLP重點(diǎn)需要理解掌握的就是處理模型的相關(guān)技術(shù),而這些技術(shù)我也會(huì)在后續(xù)內(nèi)容進(jìn)行闡述,并且對(duì)于每一技術(shù)提出自己的想法與理解,來有助于相關(guān)工作者對(duì)于這些技術(shù)的提升與創(chuàng)新。不過在這之前,首先得提下文本預(yù)處理這塊,因?yàn)樗钦麄€(gè)處理過程的基礎(chǔ),俗話說:“巧婦難為無米之炊”,而這文本預(yù)處理就是去產(chǎn)生“米”的過程,下面我們一起來看下“米”所產(chǎn)生的過程。

3.文本預(yù)處理

文本預(yù)處理,是文本語料在輸送給模型前一般需要做的一系列預(yù)處理工作,畢竟計(jì)算機(jī)不是人類,需要將自然語言處理成計(jì)算機(jī)能夠識(shí)別、能夠處理的數(shù)據(jù),才能輸入到計(jì)算機(jī)相關(guān)模型中去。因此,對(duì)于文本語料,需要進(jìn)行預(yù)處理工作,才可以符合計(jì)算機(jī)模型輸入的要求。例如:將自然語言文本轉(zhuǎn)化為模型能夠處理的張量(即多為數(shù)據(jù)向量),來規(guī)范張量的尺寸和維度等,對(duì)文本預(yù)料進(jìn)行科學(xué)的預(yù)處理環(huán)節(jié)可以有效地指導(dǎo)后續(xù)計(jì)算模型的參數(shù)調(diào)整,從而更好的提升計(jì)算模型的評(píng)估指標(biāo)。文本預(yù)處理包括文本處理的基本方法、文本張量的表示、文本語料的分析和文本數(shù)據(jù)的增強(qiáng)四個(gè)方面。

3.1.文本處理方法——分詞、詞性標(biāo)注、命名實(shí)體識(shí)別

對(duì)于需要處理的文本語料,目前我們最為常見的是短文本和長(zhǎng)文本,也就是一句話、一段話或者一篇文章。對(duì)于這些短文本和長(zhǎng)文本的處理就需要去其進(jìn)行分詞處理,將短文本和長(zhǎng)文本切分為一個(gè)個(gè)可以理解的單詞、漢字或者詞語。而如果基本的文本語料已經(jīng)是某一單詞、漢字或者詞語的情況,那么也就沒有必要進(jìn)行分詞處理的這一步了。其中對(duì)于分詞的技術(shù),目前最為常用的工具為jieba和hanlp,至于如何去用這兩個(gè)工具就不去具體說明了,因?yàn)檫@是最為基本的分詞工具,去IDE軟件庫中都有下載并且有使用教程。其實(shí)在后續(xù)開發(fā)中,對(duì)于這塊的處理并不會(huì)去使用這些基本的工具,因?yàn)樵诤罄m(xù)的計(jì)算模型所用到的深度學(xué)習(xí)技術(shù)中基本都包含了這塊,也就是用一個(gè)具體的方法就可以實(shí)現(xiàn)分詞,沒有必要再去分別下載相關(guān)的分析工具了。對(duì)于文本進(jìn)行分詞后,得到的是一個(gè)個(gè)詞語或者單詞,因此對(duì)于這些詞語或者單詞的屬性就需要具體進(jìn)行具體的分析,包括命名實(shí)體識(shí)別和詞性標(biāo)注。

命名實(shí)體識(shí)別也就是對(duì)分詞后的詞語進(jìn)行名詞實(shí)體的標(biāo)注,找到里面的人名、地名、機(jī)構(gòu)名等專業(yè)名詞。因?yàn)槌顺R姷脑~語以外,對(duì)于這些專有名詞的識(shí)別,會(huì)使得計(jì)算機(jī)對(duì)于這些特殊的專有名詞有個(gè)基礎(chǔ)的識(shí)別,從而不會(huì)干擾到對(duì)于后續(xù)其他詞語詞性的識(shí)別,這也是解決NLP高階任務(wù)的重要基礎(chǔ)環(huán)節(jié)。再對(duì)文本詞語進(jìn)行命名實(shí)體識(shí)別,使得計(jì)算機(jī)掌握對(duì)于專有名詞的識(shí)別后,就要對(duì)于最為常見的其他詞語進(jìn)行分析了,其中就包括了詞性的標(biāo)注,而這些詞性就包括:名詞、動(dòng)詞、形容詞等等。通過標(biāo)注每一段文本中的每一詞匯的詞性,使得計(jì)算機(jī)對(duì)于完整的文本語言有了一個(gè)基本的認(rèn)識(shí),在此基礎(chǔ)上再進(jìn)行處理,處理成計(jì)算機(jī)能夠處理的張量形式了。

3.2.文本張量表示——one-hot\word2vec\ word Embedding

經(jīng)過以上的分詞和詞性標(biāo)注相關(guān)處理后,由于詞語依舊是自然語言的形式,即中文或者英文(NLP實(shí)際的應(yīng)用領(lǐng)域最為常見的語言是中文和英文,因此,本文對(duì)于文本語料的選取也是基于中文和英文兩種。),而這種類型計(jì)算機(jī)依舊是無法處理的,所以需要對(duì)這些自然語言的形式進(jìn)行類似數(shù)字向量的表示,也就是詞向量(向量也就是張量的一種),使得文本中的每一個(gè)詞語都對(duì)應(yīng)向量矩陣中的一個(gè)向量。這也就是文本張量的表示。通過將文本表示為張量(矩陣)形式,從而使得語言文本可以作為計(jì)算機(jī)處理模型的輸入,來進(jìn)行接下來一系列的解析工作。目前文本張量的表示有三種:

(1) One-hot編碼:即獨(dú)熱編碼,這也是最為簡(jiǎn)單的詞向量表示方法,具體就是根據(jù)詞語的位置關(guān)系,將每個(gè)詞語表示為具有n個(gè)元素的向量(n為詞語的個(gè)數(shù),也稱維度),這個(gè)向量中只有一個(gè)元素為1,其他元素都是0。而1的位置也就是詞語在所有詞語中的順序。如下所示:

[“我”,“喜歡”,“看”,“51”,“CTO”],“我”為第一個(gè)位置,以此類推,經(jīng)過One-hot編碼為:[[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]]

(2) word2vec:基于One-hot方法,但是比One-hot方法更利于學(xué)習(xí)文本詞語之間的相互關(guān)系,是一種將詞匯表示成向量大的無監(jiān)督的訓(xùn)練方式(即自主訓(xùn)練),通過構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,將網(wǎng)絡(luò)參數(shù)來作為詞匯的向量表示,包括CBOW和skipgram兩種,這兩種方法訓(xùn)練起來過程類似,知識(shí)文本詞語的選取有所不同。對(duì)于CBOW方法,是通過對(duì)于訓(xùn)練的文本語料,選定某一長(zhǎng)度(窗口)作為對(duì)象,扣除其中的某一個(gè)詞匯,通過該單詞的上下詞匯來預(yù)測(cè)扣除的詞匯。當(dāng)然,這些詞匯得先基于One-hot編碼表示為能處理的向量的形式才行。而skipgram和CBOW正好相反,不是扣除某一個(gè)單詞,而是扣除某一個(gè)單詞的上下文,通過該單詞來預(yù)測(cè)該單詞的上下文。這兩種方法所學(xué)習(xí)到的文本詞語之間的關(guān)系大致相同,對(duì)于模型的最終指標(biāo)和性能也基本一樣,所以兩種方法都可供選擇,沒有優(yōu)劣之分。這兩個(gè)方法的全過程如下圖所示:

(3) word Embedding:與word2vec類似,都是基于神經(jīng)網(wǎng)絡(luò)模型的方法,都是在對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的過程中來提取到文本的詞向量,在這稱為Embedding。不過該方法訓(xùn)練的Embedding比word2vec方法得到的詞向量的維度會(huì)更高,特征會(huì)豐富。其中廣義的word embedding是包括word2vec方法,即word2vec可認(rèn)為是word embedding的一種;狹義的word embedding是指在神經(jīng)網(wǎng)絡(luò)中加入的embedding層,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的同時(shí)產(chǎn)生的embedding矩陣(embedding層的參數(shù)),這個(gè)embedding矩陣就是訓(xùn)練過程中所有輸入詞匯的向量表示組成的矩陣。由于不同的神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型不同,加入的embedding層的訓(xùn)練也會(huì)有所不同,學(xué)習(xí)到的word Embedding也會(huì)有好壞之分。因此這個(gè)word Embedding就是不同神經(jīng)網(wǎng)絡(luò)模型中的訓(xùn)練參數(shù),網(wǎng)絡(luò)模型選取的好壞也就影響了word Embedding的質(zhì)量,我會(huì)在后續(xù)的不同訓(xùn)練網(wǎng)絡(luò)模型中再對(duì)這塊進(jìn)行補(bǔ)充。

3.3. 文本語料的數(shù)據(jù)分析和特征處理

文本語料的數(shù)據(jù)分析是對(duì)計(jì)算機(jī)理解文本內(nèi)容起到輔助的作用,在實(shí)際應(yīng)用中其實(shí)很少會(huì)使用到。對(duì)文本數(shù)據(jù)進(jìn)行分析可以有效的幫助理解數(shù)據(jù)語料,找到語料中可能純?cè)诘膯栴},從而來輔助指導(dǎo)后續(xù)模型訓(xùn)練中的超參數(shù)的選擇。其中數(shù)據(jù)分析方法都是以統(tǒng)計(jì)為主,例如統(tǒng)計(jì)文本中詞語的標(biāo)簽數(shù)量、句子的長(zhǎng)度、某一詞匯出現(xiàn)的頻率等等。由于這塊是以基本的統(tǒng)計(jì)計(jì)數(shù)功能為主,并且使用不多,就不再贅敘。

而對(duì)于特征的處理,也是對(duì)于詞向量提取方法的一個(gè)補(bǔ)充或者延申,通過添加n-gram特征或者限定文本長(zhǎng)度來規(guī)范和豐富語料信息。其中n-gram的n是可以選擇的,目前大多取2和3,也就是除了對(duì)單一的詞語進(jìn)行分析以外,還考慮了兩個(gè)詞語甚至三個(gè)詞語合并為一個(gè)詞語進(jìn)行分析的情況,從而使得學(xué)習(xí)到的特征更為廣泛、豐富。而文本長(zhǎng)度限制就是對(duì)輸入模型的向量長(zhǎng)度進(jìn)行了一個(gè)規(guī)范化處理,對(duì)句子的長(zhǎng)度分布選取一個(gè)能夠覆蓋絕大數(shù)多數(shù)文本的合理長(zhǎng)度,對(duì)超長(zhǎng)的文本進(jìn)行一個(gè)截取,對(duì)不足的文本進(jìn)行補(bǔ)齊(一般采用補(bǔ)0操作),經(jīng)過向量長(zhǎng)度規(guī)范化處理以后,有利于后續(xù)模型訓(xùn)練的性能。

3.4數(shù)據(jù)增強(qiáng)處理

數(shù)據(jù)增強(qiáng)其實(shí)就是對(duì)文本數(shù)據(jù)加入一些其他的語義特征,使得基本的語料攜帶的特征更為豐富。這類增強(qiáng)方法在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用更為廣發(fā),在NLP領(lǐng)域使用較少,但是具有一定的輔助功能。目前采用的增強(qiáng)辦法是回譯數(shù)據(jù)增強(qiáng)法,通俗來講就是講基本的語料的語言不斷轉(zhuǎn)化為替他國(guó)家的語言,從而也就得到對(duì)于其他國(guó)家語言的內(nèi)部特征信息。操作起來比較簡(jiǎn)便,學(xué)習(xí)到的輔助信息質(zhì)量也較高。但是在這也存在一個(gè)問題,就是對(duì)于語言的轉(zhuǎn)換不能進(jìn)行過多的操作,太多的轉(zhuǎn)換操作會(huì)造成原有語義的丟失,造成語義失真,并且使得最終數(shù)據(jù)的產(chǎn)生效率低下。所以需要謹(jǐn)慎選取轉(zhuǎn)換的次數(shù),根據(jù)以往的工作經(jīng)驗(yàn),一般建議最多進(jìn)行3次的語言轉(zhuǎn)換操作。具體次數(shù)依據(jù)具體模型以及最終的參數(shù)提高為準(zhǔn)。

4.總結(jié)

在這篇文章中,主要對(duì)自然語言處理的預(yù)備技術(shù)——即文本語料的預(yù)處理進(jìn)行了闡述與分析,其中最為核心的是其中的文本張量的表示,通過上述的技術(shù)框架可以對(duì)基本的文本張量表示技術(shù)流程有個(gè)更為清晰的認(rèn)知。除此之外,對(duì)于文本數(shù)據(jù)增強(qiáng)技術(shù)的了解也將有利于今后對(duì)自然語料進(jìn)行分析,從而提取更為豐富而潛在的語義特征。當(dāng)然,這只是自然語言處理的預(yù)備技術(shù),同時(shí)對(duì)于文本張量的表示也會(huì)有其他更為優(yōu)越的網(wǎng)絡(luò)模型,由于篇幅緣故,這些我會(huì)在后續(xù)文稿中一一闡述。

作者介紹

稀飯,51CTO社區(qū)編輯,曾任職某電商人工智能研發(fā)中心大數(shù)據(jù)技術(shù)部門,做推薦算法。目前攻讀智能網(wǎng)絡(luò)與大數(shù)據(jù)方向的研究生,主要擅長(zhǎng)領(lǐng)域有推薦算法、NLP、CV,使用代碼語言有Java、Python、Scala。


責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2017-06-29 13:02:54

大數(shù)據(jù)自然語言NLP

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2017-11-14 19:19:07

人工智能自然語言處理百度

2021-05-18 07:15:37

Python

2024-04-24 11:38:46

語言模型NLP人工智能

2021-06-28 10:10:42

人工智能AI自然語言

2023-08-04 10:18:15

2023-08-03 09:56:47

自然語言AI

2020-11-12 18:57:14

摘要PythonNLP

2021-06-01 12:46:26

人工智能機(jī)器人 機(jī)器學(xué)習(xí)

2018-07-08 07:08:07

2020-09-27 10:22:20

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2018-04-04 12:00:00

2022-03-10 10:13:15

自然語言處理醫(yī)療保健數(shù)據(jù)

2013-04-27 14:32:01

谷歌

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-09-30 15:28:05

BERT語言模型自然語言

2020-11-16 12:02:22

人工智能語言技術(shù)

2021-02-22 11:38:59

深度學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2020-12-17 15:18:18

人工智能自然語言機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)