偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

詞向量計(jì)算和文本分類工具fastText的應(yīng)用原理及實(shí)踐

作者：王江 2018-01-24 09:27:30

fastText是Facebook于2016年開源的一個(gè)詞向量計(jì)算和文本分類工具，在學(xué)術(shù)上并沒(méi)有太大創(chuàng)新。但是它的優(yōu)點(diǎn)也非常明顯，在文本分類任務(wù)中，fastText（淺層網(wǎng)絡(luò)）往往能取得和深度網(wǎng)絡(luò)相媲美的精度，卻在訓(xùn)練時(shí)間上比深度網(wǎng)絡(luò)快許多數(shù)量級(jí)。

fastText是Facebook于2016年開源的一個(gè)詞向量計(jì)算和文本分類工具，在學(xué)術(shù)上并沒(méi)有太大創(chuàng)新。但是它的優(yōu)點(diǎn)也非常明顯，在文本分類任務(wù)中，fastText（淺層網(wǎng)絡(luò)）往往能取得和深度網(wǎng)絡(luò)相媲美的精度，卻在訓(xùn)練時(shí)間上比深度網(wǎng)絡(luò)快許多數(shù)量級(jí)。在標(biāo)準(zhǔn)的多核CPU上，能夠在10分鐘之內(nèi)訓(xùn)練10億詞級(jí)別語(yǔ)料庫(kù)的詞向量，能夠在1分鐘之內(nèi)分類有著30萬(wàn)多類別的50多萬(wàn)句子。

本文首先會(huì)介紹一些預(yù)備知識(shí)，比如softmax、ngram等，然后簡(jiǎn)單介紹word2vec原理，之后來(lái)講解fastText的原理，并著手使用keras搭建一個(gè)簡(jiǎn)單的fastText分類器，***，我們會(huì)介紹fastText在達(dá)觀數(shù)據(jù)的應(yīng)用。

1. 預(yù)備知識(shí)

（2）分層Softmax

你可能也發(fā)現(xiàn)了，標(biāo)準(zhǔn)的Softmax回歸中，要計(jì)算y=j時(shí)的Softmax概率：，我們需要對(duì)所有的K個(gè)概率做歸一化，這在|y| 很大時(shí)非常耗時(shí)。于是，分層Softmax誕生了，它的基本思想是使用樹的層級(jí)結(jié)構(gòu)替代扁平化的標(biāo)準(zhǔn)Softmax，使得在計(jì)算時(shí)，只需計(jì)算一條路徑上的所有節(jié)點(diǎn)的概率值，無(wú)需在意其他的節(jié)點(diǎn)。

下圖是一個(gè)分層Softmax示例：

（3）n-gram特征

在文本特征提取中，常常能看到n-gram的身影。它是一種基于語(yǔ)言模型的算法，基本思想是將文本內(nèi)容按照字節(jié)順序進(jìn)行大小為N的滑動(dòng)窗口操作，最終形成長(zhǎng)度為N的字節(jié)片段序列?？聪旅娴睦樱?/p>

我來(lái)到達(dá)觀數(shù)據(jù)參觀

相應(yīng)的bigram特征為：我來(lái) 來(lái)到到達(dá) 達(dá)觀觀數(shù) 數(shù)據(jù) 據(jù)參參觀

相應(yīng)的trigram特征為：我來(lái)到來(lái)到達(dá) 到達(dá)觀達(dá)觀數(shù) 觀數(shù)據(jù) 數(shù)據(jù)參據(jù)參觀

注意一點(diǎn)：n-gram中的gram根據(jù)粒度不同，有不同的含義。它可以是字粒度，也可以是詞粒度的。上面所舉的例子屬于字粒度的n-gram，詞粒度的n-gram看下面例子：

我來(lái)到達(dá)觀數(shù)據(jù) 參觀

相應(yīng)的bigram特征為：我/來(lái)到來(lái)到/達(dá)觀數(shù)據(jù) 達(dá)觀數(shù)據(jù)/參觀

相應(yīng)的trigram特征為：我/來(lái)到/達(dá)觀數(shù)據(jù) 來(lái)到/達(dá)觀數(shù)據(jù)/參觀

n-gram產(chǎn)生的特征只是作為文本特征的候選集，你后面可能會(huì)采用信息熵、卡方統(tǒng)計(jì)、IDF等文本特征選擇方式篩選出比較重要特征。

2. word2vec

你可能要問(wèn)，這篇文章不是介紹fastText的么，怎么開始介紹起了word2vec？最主要的原因是word2vec的CBOW模型架構(gòu)和fastText模型非常相似。于是，你可以看到Facebook開源的fastText工具不僅實(shí)現(xiàn)了fastText文本分類工具，還實(shí)現(xiàn)了快速詞向量訓(xùn)練工具。

word2vec主要有兩種模型：skip-gram 模型和CBOW模型，這里只介紹CBOW模型，有關(guān)skip-gram模型的內(nèi)容請(qǐng)參考達(dá)觀另一篇技術(shù)文章：技術(shù)干貨 | 漫談Word2vec之skip-gram模型 http://zhuanlan.51cto.com/art/201710/554674.htm

（1）模型架構(gòu)

CBOW模型的基本思路是：用上下文預(yù)測(cè)目標(biāo)詞匯。架構(gòu)圖如下所示：

（2）前向傳播

（3）反向傳播學(xué)習(xí)權(quán)重矩陣

3. fastText分類

終于到我們的fastText出場(chǎng)了。這里有一點(diǎn)需要特別注意，一般情況下，使用fastText進(jìn)行文本分類的同時(shí)也會(huì)產(chǎn)生詞的embedding，即embedding是fastText分類的產(chǎn)物。除非你決定使用預(yù)訓(xùn)練的embedding來(lái)訓(xùn)練fastText分類模型，這另當(dāng)別論。

（1）字符級(jí)別的n-gram

word2vec把語(yǔ)料庫(kù)中的每個(gè)單詞當(dāng)成原子的，它會(huì)為每個(gè)單詞生成一個(gè)向量。這忽略了單詞內(nèi)部的形態(tài)特征，比如：“apple” 和“apples”，“達(dá)觀數(shù)據(jù)”和“達(dá)觀”，這兩個(gè)例子中，兩個(gè)單詞都有較多公共字符，即它們的內(nèi)部形態(tài)類似，但是在傳統(tǒng)的word2vec中，這種單詞內(nèi)部形態(tài)信息因?yàn)樗鼈儽晦D(zhuǎn)換成不同的id丟失了。

為了克服這個(gè)問(wèn)題，fastText使用了字符級(jí)別的n-grams來(lái)表示一個(gè)單詞。對(duì)于單詞“apple”，假設(shè)n的取值為3，則它的trigram有

“<ap”, “app”, “ppl”, “ple”, “le>”

其中，<表示前綴，>表示后綴。于是，我們可以用這些trigram來(lái)表示“apple”這個(gè)單詞，進(jìn)一步，我們可以用這5個(gè)trigram的向量疊加來(lái)表示“apple”的詞向量。

這帶來(lái)兩點(diǎn)好處：

1.對(duì)于低頻詞生成的詞向量效果會(huì)更好。因?yàn)樗鼈兊膎-gram可以和其他詞共享。

2.對(duì)于訓(xùn)練詞庫(kù)之外的單詞，仍然可以構(gòu)建它們的詞向量。我們可以疊加它們的字符級(jí)n-gram向量。

（2）模型架構(gòu)

之前提到過(guò)，fastText模型架構(gòu)和word2vec的CBOW模型架構(gòu)非常相似。下面是fastText模型架構(gòu)圖：

注意：此架構(gòu)圖沒(méi)有展示詞向量的訓(xùn)練過(guò)程?？梢钥吹?，和CBOW一樣，fastText模型也只有三層：輸入層、隱含層、輸出層（Hierarchical Softmax），輸入都是多個(gè)經(jīng)向量表示的單詞，輸出都是一個(gè)特定的target，隱含層都是對(duì)多個(gè)詞向量的疊加平均。不同的是，CBOW的輸入是目標(biāo)單詞的上下文，fastText的輸入是多個(gè)單詞及其n-gram特征，這些特征用來(lái)表示單個(gè)文檔；CBOW的輸入單詞被onehot編碼過(guò)，fastText的輸入特征是被embedding過(guò)；CBOW的輸出是目標(biāo)詞匯，fastText的輸出是文檔對(duì)應(yīng)的類標(biāo)。

值得注意的是，fastText在輸入時(shí)，將單詞的字符級(jí)別的n-gram向量作為額外的特征；在輸出時(shí)，fastText采用了分層Softmax，大大降低了模型訓(xùn)練時(shí)間。這兩個(gè)知識(shí)點(diǎn)在前文中已經(jīng)講過(guò)，這里不再贅述。

fastText相關(guān)公式的推導(dǎo)和CBOW非常類似，這里也不展開了。

（3）核心思想

現(xiàn)在拋開那些不是很討人喜歡的公式推導(dǎo)，來(lái)想一想fastText文本分類的核心思想是什么？

仔細(xì)觀察模型的后半部分，即從隱含層輸出到輸出層輸出，會(huì)發(fā)現(xiàn)它就是一個(gè)softmax線性多類別分類器，分類器的輸入是一個(gè)用來(lái)表征當(dāng)前文檔的向量；模型的前半部分，即從輸入層輸入到隱含層輸出部分，主要在做一件事情：生成用來(lái)表征文檔的向量。那么它是如何做的呢？疊加構(gòu)成這篇文檔的所有詞及n-gram的詞向量，然后取平均。疊加詞向量背后的思想就是傳統(tǒng)的詞袋法，即將文檔看成一個(gè)由詞構(gòu)成的集合。

于是fastText的核心思想就是：將整篇文檔的詞及n-gram向量疊加平均得到文檔向量，然后使用文檔向量做softmax多分類。這中間涉及到兩個(gè)技巧：字符級(jí)n-gram特征的引入以及分層Softmax分類。

（4）關(guān)于分類效果

還有個(gè)問(wèn)題，就是為何fastText的分類效果常常不輸于傳統(tǒng)的非線性分類器？

假設(shè)我們有兩段文本：

我來(lái)到達(dá)觀數(shù)據(jù)

俺去了達(dá)而觀信息科技

這兩段文本意思幾乎一模一樣，如果要分類，肯定要分到同一個(gè)類中去。但在傳統(tǒng)的分類器中，用來(lái)表征這兩段文本的向量可能差距非常大。傳統(tǒng)的文本分類中，你需要計(jì)算出每個(gè)詞的權(quán)重，比如tfidf值， “我”和“俺” 算出的tfidf值相差可能會(huì)比較大，其他詞類似，于是，VSM（向量空間模型）中用來(lái)表征這兩段文本的文本向量差別可能比較大。但是fastText就不一樣了，它是用單詞的embedding疊加獲得的文檔向量，詞向量的重要特點(diǎn)就是向量的距離可以用來(lái)衡量單詞間的語(yǔ)義相似程度，于是，在fastText模型中，這兩段文本的向量應(yīng)該是非常相似的，于是，它們很大概率會(huì)被分到同一個(gè)類中。

使用詞embedding而非詞本身作為特征，這是fastText效果好的一個(gè)原因；另一個(gè)原因就是字符級(jí)n-gram特征的引入對(duì)分類效果會(huì)有一些提升。

4. 手寫一個(gè)fastText

keras是一個(gè)抽象層次很高的神經(jīng)網(wǎng)絡(luò)API，由python編寫，底層可以基于Tensorflow、Theano或者CNTK。它的優(yōu)點(diǎn)在于：用戶友好、模塊性好、易擴(kuò)展等。所以下面我會(huì)用keras簡(jiǎn)單搭一個(gè)fastText的demo版，生產(chǎn)可用的fastText請(qǐng)移步https://github.com/facebookresearch/fastText。如果你弄懂了上面所講的它的原理，下面的demo對(duì)你來(lái)講應(yīng)該是非常明了的。

為了簡(jiǎn)化我們的任務(wù)：

訓(xùn)練詞向量時(shí)，我們使用正常的word2vec方法，而真實(shí)的fastText還附加了字符級(jí)別的n-gram作為特征輸入；
我們的輸出層使用簡(jiǎn)單的softmax分類，而真實(shí)的fastText使用的是Hierarchical Softmax。

首先定義幾個(gè)常量：

VOCAB_SIZE = 2000
EMBEDDING_DIM = 100
MAX_WORDS = 500
CLASS_NUM = 5

VOCAB_SIZE表示詞匯表大小，這里簡(jiǎn)單設(shè)置為2000；

EMBEDDING_DIM表示經(jīng)過(guò)embedding層輸出，每個(gè)詞被分布式表示的向量的維度，這里設(shè)置為100。比如對(duì)于“達(dá)觀”這個(gè)詞，會(huì)被一個(gè)長(zhǎng)度為100的類似于[ 0.97860014, 5.93589592, 0.22342691, -3.83102846, -0.23053935, …]的實(shí)值向量來(lái)表示；

MAX_WORDS表示一篇文檔最多使用的詞個(gè)數(shù)，因?yàn)槲臋n可能長(zhǎng)短不一（即詞數(shù)不同），為了能feed到一個(gè)固定維度的神經(jīng)網(wǎng)絡(luò)，我們需要設(shè)置一個(gè)***詞數(shù)，對(duì)于詞數(shù)少于這個(gè)閾值的文檔，我們需要用“未知詞”去填充。比如可以設(shè)置詞匯表中索引為0的詞為“未知詞”，用0去填充少于閾值的部分；

CLASS_NUM表示類別數(shù)，多分類問(wèn)題，這里簡(jiǎn)單設(shè)置為5。

模型搭建遵循以下步驟：

添加輸入層（embedding層）。Embedding層的輸入是一批文檔，每個(gè)文檔由一個(gè)詞匯索引序列構(gòu)成。例如：[10, 30, 80, 1000] 可能表示“我昨天來(lái)到達(dá)觀數(shù)據(jù)”這個(gè)短文本，其中“我”、“昨天”、“來(lái)到”、“達(dá)觀數(shù)據(jù)”在詞匯表中的索引分別是10、30、80、1000；Embedding層將每個(gè)單詞映射成EMBEDDING_DIM維的向量。于是：input_shape=(BATCH_SIZE, MAX_WORDS), output_shape=(BATCH_SIZE, MAX_WORDS, EMBEDDING_DIM)；
添加隱含層（投影層）。投影層對(duì)一個(gè)文檔中所有單詞的向量進(jìn)行疊加平均。keras提供的GlobalAveragePooling1D類可以幫我們實(shí)現(xiàn)這個(gè)功能。這層的input_shape是Embedding層的output_shape，這層的output_shape=( BATCH_SIZE, EMBEDDING_DIM)；
添加輸出層（softmax層）。真實(shí)的fastText這層是Hierarchical Softmax，因?yàn)閗eras原生并沒(méi)有支持Hierarchical Softmax，所以這里用Softmax代替。這層指定了CLASS_NUM，對(duì)于一篇文檔，輸出層會(huì)產(chǎn)生CLASS_NUM個(gè)概率值，分別表示此文檔屬于當(dāng)前類的可能性。這層的output_shape=(BATCH_SIZE, CLASS_NUM)。
指定損失函數(shù)、優(yōu)化器類型、評(píng)價(jià)指標(biāo)，編譯模型。損失函數(shù)我們?cè)O(shè)置為categorical_crossentropy，它就是我們上面所說(shuō)的softmax回歸的損失函數(shù)；優(yōu)化器我們?cè)O(shè)置為SGD，表示隨機(jī)梯度下降優(yōu)化器；評(píng)價(jià)指標(biāo)選擇accuracy，表示精度。

用訓(xùn)練數(shù)據(jù)feed模型時(shí)，你需要：

將文檔分好詞，構(gòu)建詞匯表。詞匯表中每個(gè)詞用一個(gè)整數(shù)（索引）來(lái)代替，并預(yù)留“未知詞”索引，假設(shè)為0；
對(duì)類標(biāo)進(jìn)行onehot化。假設(shè)我們文本數(shù)據(jù)總共有3個(gè)類別，對(duì)應(yīng)的類標(biāo)分別是1、2、3，那么這三個(gè)類標(biāo)對(duì)應(yīng)的onehot向量分別是[1, 0, 0]、[0, 1, 0]、[0, 0, 1]；
對(duì)一批文本，將每個(gè)文本轉(zhuǎn)化為詞索引序列，每個(gè)類標(biāo)轉(zhuǎn)化為onehot向量。就像之前的例子，“我昨天來(lái)到達(dá)觀數(shù)據(jù)”可能被轉(zhuǎn)化為[10, 30, 80, 1000]；它屬于類別1，它的類標(biāo)就是[1, 0, 0]。由于我們?cè)O(shè)置了MAX_WORDS=500，這個(gè)短文本向量后面就需要補(bǔ)496個(gè)0，即[10, 30, 80, 1000, 0, 0, 0, …, 0]。因此，batch_xs的維度為( BATCH_SIZE, MAX_WORDS)，batch_ys的維度為（BATCH_SIZE, CLASS_NUM）。

下面是構(gòu)建模型的代碼，數(shù)據(jù)處理、feed數(shù)據(jù)到模型的代碼比較繁瑣，這里不展示。

5. fastText在達(dá)觀數(shù)據(jù)的應(yīng)用

fastText作為誕生不久的詞向量訓(xùn)練、文本分類工具，在達(dá)觀得到了比較深入的應(yīng)用。主要被用在以下兩個(gè)系統(tǒng)：

同近義詞挖掘。Facebook開源的fastText工具也實(shí)現(xiàn)了詞向量的訓(xùn)練，達(dá)觀基于各種垂直領(lǐng)域的語(yǔ)料，使用其挖掘出一批同近義詞；
文本分類系統(tǒng)。在類標(biāo)數(shù)、數(shù)據(jù)量都比較大時(shí)，達(dá)觀會(huì)選擇fastText 來(lái)做文本分類，以實(shí)現(xiàn)快速訓(xùn)練預(yù)測(cè)、節(jié)省內(nèi)存的目的。

【本文為51CTO專欄作者“達(dá)觀數(shù)據(jù)”的原創(chuàng)稿件，轉(zhuǎn)載可通過(guò)51CTO專欄獲取聯(lián)系】

戳這里，看該作者更多好文

責(zé)任編輯：武曉燕來(lái)源： 51CTO專欄

文本分類工具 fastText

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<s id="vh1qz"></s>

<style id="vh1qz"></style>

<sub id="vh1qz"><p id="vh1qz"></p></sub>

<cite id="vh1qz"><rp id="vh1qz"><form id="vh1qz"></form></rp></cite>

<cite id="vh1qz"></cite>