偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

自然語言處理技術(shù)在商業(yè)領(lǐng)域可以支持哪些應(yīng)用?

譯文
人工智能 深度學(xué)習(xí) 自然語言處理
人工智能和機(jī)器學(xué)習(xí)技術(shù)在很多領(lǐng)域已經(jīng)取得了重大進(jìn)展。就某些任務(wù)而言,人工智能已經(jīng)超越了人類的水平。在這波新的 AI 浪潮中,圖像識別和語音處理技術(shù)方面的突破給人的印象最深刻。相比較它們而言,自然語言處理 (NLP) 領(lǐng)域的進(jìn)展卻給我們一種很滯后的感覺。

[[224853]]

【51CTO.com快譯】人工智能和機(jī)器學(xué)習(xí)技術(shù)在很多領(lǐng)域已經(jīng)取得了重大進(jìn)展。就某些任務(wù)而言,人工智能已經(jīng)超越了人類的水平。在這波新的 AI 浪潮中,圖像識別和語音處理技術(shù)方面的突破給人的印象最深刻。相比較它們而言,自然語言處理 (NLP) 領(lǐng)域的進(jìn)展卻給我們一種很滯后的感覺。

NLP 領(lǐng)域中目前比較突出的一點是機(jī)器翻譯(MT)技術(shù):最近的基于神經(jīng)網(wǎng)絡(luò)的方法明顯優(yōu)于傳統(tǒng)的機(jī)器翻譯方法。但有人認(rèn)為,端到端的神經(jīng)網(wǎng)絡(luò)方法并不真正“理解”所處理的自然語言的含義。雖然我們可能會討論什么是“理解”,但機(jī)器翻譯的質(zhì)量,尤其是長句的質(zhì)量,確實還有很大的提升空間。

與此同時,很多人對 NLP 技術(shù)如何推動各種新舊業(yè)務(wù)的發(fā)展抱有很大的熱情。我有一位非常聰明的炒股朋友,想知道 NLP 技術(shù)是否可以幫助他閱讀財經(jīng)新聞并提供貿(mào)易前景的建議,以便擴(kuò)大他的貿(mào)易規(guī)模。我的另一位朋友正在探尋制作聊天機(jī)器人的方法,他想讓這種機(jī)器人有足夠的知識與患者交談并進(jìn)行醫(yī)學(xué)診斷。還有一位朋友,他希望創(chuàng)建一個可以百分百信任的私人助理,每個人都可以與它分享自己的全部想法,這樣它可以為每個人提供一些私人的生活建議,讓用戶感覺更快樂,生活更積極。我們距離實現(xiàn)這些愿景還有多遠(yuǎn)呢?

NLP:The State-of-the-Art

在深度學(xué)習(xí)浪潮到來之前,傳統(tǒng)的 NLP 任務(wù),如詞性標(biāo)注 (POS tagging),句法分析 (syntactic parsing),實體鏈接 (entity linking),語義分析 (semantic parsing) 等任務(wù)一直在緩慢而穩(wěn)步地發(fā)展著。概括來說,這些任務(wù)都是文本標(biāo)注的任務(wù),可以用下面的圖片形象地描繪出來。

  

用深度學(xué)習(xí)的方法來處理這些任務(wù)并不一定能得到更好的效果,但深度學(xué)習(xí)能讓這些事情變得更加簡單。例如,以前,為了訓(xùn)練一個解析器,我們需要構(gòu)建數(shù)百萬個特征,現(xiàn)在我們可以從 word embeddings 開始,而將剩下的部分留給神經(jīng)網(wǎng)絡(luò)去做。

是什么讓 NLP 變得與眾不同和如此困難,為什么深度學(xué)習(xí)能為圖像識別和語音處理任務(wù)帶來顯著的改進(jìn),卻對 NLP 任務(wù)沒有太大幫助?這里有兩個因素對于理解自然語言非常重要:先驗和結(jié)構(gòu)。

2011 年,Tenenbaum 等人提出了一個非常有趣的問題:我們的大腦是怎樣從少量的知識中獲取到大量的信息的?我們的大腦構(gòu)建了非常豐富的世界模型,并且對輸入數(shù)據(jù)進(jìn)行了高度的概括,這些輸入數(shù)據(jù)可能是稀疏的,嘈雜的和模棱兩可的————這些信息在很多方面都遠(yuǎn)遠(yuǎn)不能支持我們所做的推論。那我們究竟是怎么做到的呢?

Tenenbaum 等人給出了令人信服的答案:貝葉斯推斷。貝葉斯推斷允許一個三歲的孩子在看到三匹馬的圖片后學(xué)會馬的概念。但是這種推斷可能依賴于經(jīng)過億萬年地進(jìn)化而悄悄植入我們大腦中先天的先驗知識。

但是機(jī)器卻難以獲得這些用于貝葉斯推斷的正確先驗知識。以下是一個簡單的例子(盡管不完全相關(guān)):搜索“Jordan 7 day weather forecast”,我們?nèi)绾未_定“Jordan”指的是什么?人類能立即知道它指的是國家“Jordan”。但一個不理解查詢語句結(jié)構(gòu)的簡單算法可能會將“Jordan”誤認(rèn)為是“Jordan 鞋”(一種 Nike 品牌)。

這可能是由于它在貝葉斯推斷中使用的先驗是通過計算人們在網(wǎng)上搜索喬丹鞋與約旦這個國家的頻率來估計的。這個估計是有偏差的,在我們當(dāng)前的情況下尤其如此:事實證明前者比后者的搜索頻率更高。有偏差的先驗會導(dǎo)致錯誤的推斷結(jié)果。我們是否應(yīng)該用更復(fù)雜的方式來估計先驗?當(dāng)然。但是不能保證在所有情況下都采用更復(fù)雜的方法。

 先驗很重要,但更重要的是自然語言展現(xiàn)的遞歸結(jié)構(gòu)。查詢語句“jordan 7 day weather forecast”具有可以被映射到具有位置參數(shù)(時隙)和時間跨度參數(shù)(時隙)的“天氣預(yù)報”語義幀的結(jié)構(gòu)。如果算法識別到這種結(jié)構(gòu),那么它不會受到先驗知識的困擾,而將 Jordan 誤認(rèn)為是喬丹鞋。這種方法可以更進(jìn)一步地理解這個查詢語句。

在最先進(jìn)的網(wǎng)頁搜索和問答/會話應(yīng)用程序中,工程師會寫一些規(guī)則用于捕捉自然語言輸入中的結(jié)構(gòu),這會大大減少推理中的錯誤。但問題是,概括和擴(kuò)展這種解決方案是很困難的。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)促進(jìn)了自然語言處理中分布式方法的使用。

通過 word2vec 和 GloVe 等詞嵌入(word embeddings) 方法,可以將自然語言中的離散詞語映射到連續(xù)的空間中。在這個空間中,“貓”與 “狗”兩個詞很接近,這使得我們可以概括出我們?yōu)?ldquo;貓”和“狗”總結(jié)的結(jié)論。然而,分布式方法和先驗和結(jié)構(gòu)的必要性并不沖突。事實上,我們沒有比單詞更好的表示語句的方法,比如用短語、句子或者是段落等其他表示方法,原因僅僅是我們不知道如何有效地去建模它們的結(jié)構(gòu)。此外,我們沒有很好的方法去表示知識和常識,而這是解釋和推理不可或缺的兩樣?xùn)|西。

也許深度學(xué)習(xí)在圖像處理中更成功的原因是因為圖像中的“結(jié)構(gòu)”更易于捕捉:允許平移不變性的卷積神經(jīng)網(wǎng)絡(luò)(CNN)符合要求。然而,對自然語言做同樣的事卻難得多。因此,我們沒有看到 NLP 的突破,除了在少數(shù)幾個孤立的領(lǐng)域中,我們碰巧有大量的訓(xùn)練數(shù)據(jù)可以隱式地學(xué)習(xí)先驗和結(jié)構(gòu)(例如,Google 使用數(shù)十億的歷史搜索來訓(xùn)練 RankBrain 進(jìn)行搜索結(jié)果排序)。

NLP 技術(shù)很薄弱,在機(jī)器可以處理自然語言的開放域通信之前還有很長的路要走。但是在我們最終到達(dá)那里之前,現(xiàn)有的 NLP 技術(shù)如何幫助我們在商業(yè)領(lǐng)域中更進(jìn)一步呢?

The power of aggregation

NLP 在許多應(yīng)用中已經(jīng)發(fā)揮著關(guān)鍵作用。但都使用了一個小伎倆。通常,在這些應(yīng)用程序中,我們不依賴于 NLP 來理解自然語言中單個話語的含義。相反,我們使用 NLP 技術(shù)處理大型語料庫,并匯總其結(jié)果以支持應(yīng)用程序。

  • 情感分析。特別是面向特定領(lǐng)域的情感分析,是評估企業(yè)和產(chǎn)品的有用工具。它對大量的用戶評論語料進(jìn)行信息提取,并向企業(yè)和產(chǎn)品輸出綜合情緒或意見。但是如果我們更深入地了解這項技術(shù),我們會看到它的缺陷:我們有時無法衡量情緒,因為我們不了解自然語言的特定表達(dá)。例如,“the phone fits nicely in my pocket(這部手機(jī)與我的口袋很相稱)”是對手機(jī)尺寸的積極情緒,但要自動將“fits nicely in my pocket”與“size”聯(lián)系起來并不容易。
  • 摘要。有兩種類型的文本摘要:抽取和抽象。總結(jié)一篇文章,抽取的方法是在文章中選擇幾個句子,而抽象的方法則是產(chǎn)生新的句子。抽取的方法使用純粹的統(tǒng)計方法,例如,它通過研究句子間的共享單詞和主題來創(chuàng)建兩個句子之間的聯(lián)系。但這種方法一直無法產(chǎn)生好的結(jié)果,直到最近幾年深度學(xué)習(xí)可以派上用場。但即便使用了深度學(xué)習(xí)(例如,最近的工作有使用 sequence to sequence translation, attention mechanism, copy mechanism, coverage mechanism 等),摘要的質(zhì)量仍然達(dá)不到產(chǎn)品級別。那么,這項技術(shù)何時可以幫助我的朋友來閱讀財經(jīng)新聞并提供貿(mào)易建議呢?至少目前的方法需要多做些額外的工作,例如通過在摘要中考慮明確的目標(biāo)(例如提供貿(mào)易建議)。
  • 知識庫。知識庫構(gòu)建是另一個依賴信息提?。↖E)聚合結(jié)果的領(lǐng)域。它還展示了聚合的優(yōu)勢和弱點:為創(chuàng)建一個更完整的知識庫而付出的努力并不是非常成功,因為
    • i)通過聚合大語料庫的信息抽取結(jié)果而獲得大部分開放域的知識,通常已經(jīng)被 Freebase 或其他人工庫涵蓋了。
    • ii)從個人的話語中獲得的知識通常是不可靠的。

盡管如此,特定領(lǐng)域的知識庫依然可能會在商業(yè)領(lǐng)域發(fā)揮巨大作用。以兩個重要行業(yè)為例:電子商務(wù)和醫(yī)療保健。在電子商務(wù)網(wǎng)站上,用戶可以通過名稱或功能搜索產(chǎn)品,但他們不支持諸如“how to fight insomnia(如何與失眠做斗爭)”或“how to get rid of raccoons(如何擺脫浣熊)”等這樣的查詢,盡管他們有很多適用這類情況的產(chǎn)品出售。他們需要的是將任何名詞短語或動詞短語映射到產(chǎn)品列表的知識庫。醫(yī)療保健領(lǐng)域也有類似的情況。我們需要一個能夠連接癥狀、環(huán)境、治療手段和藥物的知識庫。

  • 搜索。許多人認(rèn)為搜索問題已經(jīng)解決。不是的。搜索依賴于搜集的用戶行為數(shù)據(jù),這意味著搜索主要在頭查詢時效果很好。但在網(wǎng)頁搜索以外的情景中,即使是頭查詢目前效果也并不好。  

考慮一下這個問題:在 Facebook 上搜索“travel in Arizona(在亞利桑那州旅行)”。我的一位朋友在我的查詢前四個小時發(fā)了相關(guān)帖子,這本是一個完美的匹配。但是,在搜索時看到這篇文章是非常困難的,因為用戶行為數(shù)據(jù)還沒有導(dǎo)入它。

因此,對于社交搜索、電子郵件搜索、電子商務(wù)搜索、應(yīng)用搜索等,NLP 和語義匹配仍然扮演著重要角色。具體而言,在只有有限甚至是沒有用戶行為數(shù)據(jù)的情況下,知識圖、實體鏈接、語義分析技術(shù)可以更好地服務(wù)于搜索。

  • 教育。一個非常有趣和有利可圖的業(yè)務(wù)是幫助用戶更有效地學(xué)習(xí)或使用一種語言。例如,幾個初創(chuàng)公司(例如,Grammarly,DeepGrammar 等)提供工具來糾正用戶的語法錯誤。在高層次上,這是相當(dāng)可行的,因為算法應(yīng)該能夠通過大型語料庫的離線學(xué)習(xí)獲得足夠的語法知識。這應(yīng)該使他們能夠捕捉文本中的大部分錯誤,而不必理解文本的含義。但是,還有很多需要改進(jìn)的空間。例如,給出“I woke at 4 am in morning”的時候,Grammarly 或 DeepGrammar 都沒有建議將“woke”改為“woke up”或者將“in morning”改為“in the morning”。DeepGrammar 實際上建議將“woke” 改為“work”,這當(dāng)然是沒有意義的。當(dāng)然,識別某些錯誤需要語義知識,例如,這些工具何時能夠建議在下面的文字中“I woke up at 4 pm in the morning”,將“pm”改為“am”?

A little technical breakthrough plus a lot of dirty work

我們喜歡想象漂亮的 NLP 解決方案,但其中很多都是通用人工智能(Artificial General Intelligence, AGI),因為他們需要處理所有可能的場景。通用人工智能不會很快出現(xiàn)。盡管如此,技術(shù)突破仍然時刻在發(fā)生。有時候,只需要人工額外做一點苦活,我們就可以將它們變成商業(yè)上的成功。

自動問答(QA)和聊天機(jī)器人現(xiàn)在已并不新鮮 — 第一個聊天機(jī)器人是在 60 年代開發(fā)的(ELIZA,1966),但它并沒有走得太遠(yuǎn)。50 年過去了,是什么讓 QA 和聊天機(jī)器人又變得如此火爆?發(fā)生了三件事:

1.(技術(shù))語音識別的突破,使得 Alexa,Google Assistant,Siri 成為可能; 大型知識庫的可用性,特別是開放領(lǐng)域的知識庫,如 Google 的知識圖譜。

2.(市場)信息已經(jīng)成為商業(yè)和日常生活中不可或缺的元素,最近聰明的語音助手突然無處不在。

3.(實用性)人們已經(jīng)準(zhǔn)備好從關(guān)鍵字搜索切換到基于語音/自然語言的界面,以更直接的方式獲得更具體的答案。但技術(shù)突破 - 語音識別和知識庫 - 不會自動導(dǎo)致問答系統(tǒng)的產(chǎn)生。我們?nèi)匀恍枰斫鈫栴},解釋和推理問題,但在過去的 50 年中,這種能力并沒有根本的改善。

盡管如此,QA 非常成功,我們都在 Google 上體驗過。(它仍然犯了錯誤,下文中,谷歌將婆婆錯認(rèn)為是它創(chuàng)始人的母親,截圖產(chǎn)生于 2017 年 7 月)。只是成功不是來自于自然語言理解的新水平,相反,它是通過大量手工模板實現(xiàn)的。

這里我們觀察到一些現(xiàn)象。

1. 技術(shù)的進(jìn)步在很大程度上推動著產(chǎn)品的影響力。因此,我們知道技術(shù)的局限性至關(guān)重要:畢竟,半個多世紀(jì)以來,問答系統(tǒng)和聊天機(jī)器人并沒有多少大事件發(fā)生。

2. 通常新技術(shù)并不能解決 100%的問題,但沒關(guān)系。我們很樂意去做一些苦活(例如,手工制作模板和寫規(guī)則等)以彌補(bǔ)技術(shù)上的不足。在很大程度上,QA 和數(shù)字助理(如 Siri,Alexa,Google Assistant 和 Cortana)的成功是由手工模板驅(qū)動的。

但是最新的會話式 AI(例如,使用深度強(qiáng)化學(xué)習(xí)來構(gòu)建聊天機(jī)器人)怎么樣呢?它是使聊天機(jī)器人如此熱的動力之一嗎?是,但它尚未產(chǎn)生真正的影響。在這里,我專注于以目標(biāo)為導(dǎo)向的對話系統(tǒng)(Siri,Alexa,Google Assistant),盡管我承認(rèn)漫無目標(biāo)的 smalltalk(Microsoft Tay) 可能會有趣。但我們應(yīng)該不斷研究技術(shù)進(jìn)步和應(yīng)用需求的交集,而不是回避使用低技術(shù)含量的苦活來實現(xiàn)目標(biāo)。

Narrowing the problem domain

讓我們重新審視我之前提到的朋友們的項目:

1. 與病人交談并進(jìn)行醫(yī)學(xué)診斷的聊天機(jī)器人。

2. 一種讀取財經(jīng)新聞并提供貿(mào)易建議的算法。

3. 個人助理,記錄你的日常活動,并提供建議,讓你更快樂,更充實。

必勝客部署了一個聊天機(jī)器人來處理客戶的訂單,這非常成功。Facebook 的虛擬助理 M 已經(jīng)死了,因為 Facebook 沒有對 M 能做或不能做的事施加限制。在討論朋友項目的可行性之前,讓我們重新回顧一下微軟 AI 總裁 Harry Shum 的這句話:

今天的電腦可以很好地執(zhí)行特定的任務(wù),但是當(dāng)涉及到一般任務(wù)時,AI 甚至還無法與人類孩子競爭。

- Harry Shum

斯坦福大學(xué)教授 Andrew Ng 的這句引述:

今天深度學(xué)習(xí)只能在一些可以獲得大量數(shù)據(jù)的狹小的領(lǐng)域內(nèi)發(fā)揮價值。下面是一個它不能做的事情的例子:進(jìn)行一次有意義的對話。在相關(guān)的 demo 中,如果你精心挑選對話,那么看起來它像是一個有意義的對話。但如果你實際去使用一下那些產(chǎn)品,它們通常會很快不知所云。

- Andrew Ng

當(dāng)談到讓機(jī)器人進(jìn)行醫(yī)學(xué)診斷時,人們自然會產(chǎn)生很多懷疑和擔(dān)憂。但從技術(shù)上講,這并非不可能。要解決狹窄領(lǐng)域的問題,首要任務(wù)就是開發(fā)特定領(lǐng)域的知識庫,使我們的機(jī)器人成為領(lǐng)域的專家。

在這種情況下,我們需要模擬癥狀、病情、診斷、治療、藥物等之間關(guān)系的知識圖表。無論如何,人們都會收到非醫(yī)療機(jī)構(gòu)的健康建議:每 20 個谷歌搜索中就有一個與健康相關(guān)的信息搜索。聊天機(jī)器人僅提供比網(wǎng)絡(luò)搜索更直接的通信形式。另一方面,這個項目的真正難點可能是如何訪問用戶的病歷。事實上,一些初創(chuàng)公司(例如 doc.ai 和 eHealth First)已經(jīng)投資使用區(qū)塊鏈技術(shù)來解決這個問題。

閱讀金融新聞并提供貿(mào)易前景的任務(wù)涉及一個更廣泛的領(lǐng)域,因為股票價格受到無數(shù)因素的影響:自然因素、政治因素,科學(xué)因素,技術(shù)因素,心理因素等等。了解某些事件如何導(dǎo)致股票價格變動是困難的。但是,縮小這些領(lǐng)域并為他們開發(fā)專門的工具是可能的。

例如,我們可能并非監(jiān)測廣泛的股市,而是專注于商品期貨。然后,我們再次開發(fā)知識庫,其中可能包含如下規(guī)則:“如果像智利這樣的國家出現(xiàn)政治動蕩或自然災(zāi)害,銅的價格會上漲”。最后,我們可以開發(fā)算法來讀取新聞和檢測某些國家的政治動蕩或自然災(zāi)害的事件。由于機(jī)器讀新聞的速度遠(yuǎn)比人類快,它們提供的信息可能轉(zhuǎn)化為算法交易的優(yōu)勢。

創(chuàng)建個人助理是一個非常有趣的想法,個人助理可以記錄用戶的日常思考和活動,并提供反饋,讓用戶更快樂,更滿意。這讓我想起 Google Photos。Google 會不時挑選一些舊照片來創(chuàng)建一個標(biāo)題,例如“Rediscover this day 4 years ago(重新發(fā)現(xiàn) 4 年前的今天)”這樣的標(biāo)題。它從來都可以讓我笑容滿面。盡管如此,照片只能捕捉人們一生的一瞬間,而自然語言有可能以更全面的方式保存我們的想法和活動,并以更有創(chuàng)意的方式回放給用戶。

然而,這是一個開放的領(lǐng)域任務(wù):個人助理需要了解各種思想和活動,這使得它成為通用人工智能(AGI)。是否有可能縮小問題域?

我們?yōu)槭裁床粡?1000 個模板開始?1000 個模板將涵蓋令人驚訝的許多人類活動(例如,“我今天在斯坦福大學(xué)校園跑步 3 英里”和“我在帕洛阿爾托市中心的哈納斯與阿隆喝咖啡”等),這是相當(dāng)合理的。私人助理會將我們生活中的片段轉(zhuǎn)化為結(jié)構(gòu)化的表示,對它們進(jìn)行分類,聚合,然后以一種新的形式將它們呈現(xiàn)給我們。

盡管如此,還有一些私人助理無法理解的東西。例如,“我的岳父昨天去世了。我的妻子和我整晚都擁抱在一起聊天。“它可能不適合我們手工制作的 1000 個日常生活類模板中的任何一個。盡管如此,私人助理不應(yīng)該錯過這個人一生中的重要事件。

私人助理可以做幾件事情。首先,使用預(yù)先訓(xùn)練的分類器,它可以將事件分類并歸檔為失去親人。其次,它可以使用語義分析或槽填充機(jī)制來進(jìn)一步檢測誰去世。第三,當(dāng)上述工作都不奏效時,它仍然可能將其記錄為原始文本,并等待未來的先進(jìn)技術(shù)去解決它。

Pushing technical boundaries

現(xiàn)有的 NLP 技術(shù)不足以理解自然語言; 通用人工智能沒有實現(xiàn),至少不會很快實現(xiàn)。這是否意味著產(chǎn)生商業(yè)影響的唯一途徑是通過縮小問題范圍來達(dá)到我們可以使用勞動密集型技術(shù)來涵蓋所有情況的程度?當(dāng)然不是。

推動技術(shù)邊界的方法有很多種。在這里,我將討論我們正在研究的兩個方向。

如果現(xiàn)在的自然語言處理技術(shù)不允許我們深入理解自然語言,那么是不是可以試著擴(kuò)展它?

作為一個例子,讓我們考慮 QA 和 chatbots 的客戶服務(wù)。客戶服務(wù)是 NLP 和 AI 發(fā)展的前沿。它不需要我們特別深入地理解自然語言。如果我們的技術(shù)能夠處理 30%的客戶互動,企業(yè)就可以節(jié)省 30%的人力,這非常重要。因此,許多公司正在部署自己的 QA 或聊天機(jī)器人的解決方案,并且已經(jīng)取得不同程度的成功。

曾經(jīng)有一段時間(20 世紀(jì) 70 年代以前),每個企業(yè)都需要以自己的方式管理某種數(shù)據(jù)存儲(例如,保留工資記錄)。然后是關(guān)系數(shù)據(jù)庫管理系統(tǒng),它宣稱無論您運行什么業(yè)務(wù),關(guān)系數(shù)據(jù)庫管理系統(tǒng)都可以以聲明的方式為您處理工資單和其他應(yīng)用程序,這意味著無需編寫代碼以進(jìn)行數(shù)據(jù)操作和檢索。

是否有可能為客戶服務(wù)建立一個通用的會話式 AI?換句話說,為一個企業(yè)設(shè)計的客戶服務(wù)系統(tǒng)用于不同的業(yè)務(wù)需要做些什么?

這可能聽起來很牽強(qiáng),但并非完全不可能。首先,我們需要統(tǒng)一用于客戶服務(wù)的后端數(shù)據(jù)模型。這是可行的,因為大多數(shù)業(yè)務(wù)數(shù)據(jù)已經(jīng)在關(guān)系數(shù)據(jù)庫中。其次,我們將客戶的自然語言問題轉(zhuǎn)換為針對底層數(shù)據(jù)庫的 SQL 查詢。

這是否意味著我們需要處理所有情況下的自然語言問題?不是的。我們只處理一小部分自然語言,也就是說,那些可以轉(zhuǎn)換為 SQL 語句的部分。在這種約束下,一個業(yè)務(wù)領(lǐng)域中的自然語言問題必須與不同業(yè)務(wù)領(lǐng)域中的自然語言問題類似,因為他們共享相同的潛在結(jié)構(gòu)。事實上,如果我們將 i)數(shù)據(jù)庫模式,ii)數(shù)據(jù)庫統(tǒng)計數(shù)據(jù),以及 iii)在自然語言中提及數(shù)據(jù)庫屬性和值的等效方法作為可注入 QA 和會話 AI 的元數(shù)據(jù),則可以創(chuàng)建一個系統(tǒng)滿足不同的客戶服務(wù)需求。

如果缺乏訓(xùn)練數(shù)據(jù)是 NLP 的瓶頸,那么為什么不努力將明確的領(lǐng)域知識注入機(jī)器學(xué)習(xí)算法?

這并不是什么新鮮事,但問題是實際存在的。機(jī)器學(xué)習(xí)將大量訓(xùn)練數(shù)據(jù)中的統(tǒng)計相關(guān)數(shù)據(jù)轉(zhuǎn)化為隱式知識。但有時候,這些知識可以用明確的方式注入機(jī)器學(xué)習(xí)中。

舉個例子,假設(shè)一個知識庫有一個父母關(guān)系,但不是祖父母關(guān)系。學(xué)習(xí) grandparentOf 等同于 parentOf(parentOf)需要大量的訓(xùn)練數(shù)據(jù)。更有效的方法是將該領(lǐng)域知識作為規(guī)則傳遞給機(jī)器學(xué)習(xí)算法。

在我們上面描述的客戶服務(wù)項目中,我們使用深度學(xué)習(xí)(基于 seq2seq 的模型)將自然語言問題轉(zhuǎn)換為 SQL 語句。從訓(xùn)練數(shù)據(jù)中,算法學(xué)習(xí)自然語言問題的含義以及 SQL 的語法。盡管如此,即使擁有非常大的訓(xùn)練數(shù)據(jù),學(xué)習(xí)模型并不總是生成格式良好的 SQL 語句,但是模型不應(yīng)該需要學(xué)習(xí) SQL 的語法!

原文標(biāo)題:Getting NLP Ready for Business,作者:Haixun Wang

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2017-06-29 13:02:54

大數(shù)據(jù)自然語言NLP

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2017-04-10 16:15:55

人工智能深度學(xué)習(xí)應(yīng)用

2017-05-05 15:34:49

自然語言處理

2020-07-14 10:31:30

自然語言處理人工智能AI

2023-08-03 09:56:47

自然語言AI

2017-03-28 17:52:58

自然語言處理商業(yè)智能

2017-03-30 14:52:34

自然語言商業(yè)智能

2021-06-28 10:10:42

人工智能AI自然語言

2021-05-13 07:17:13

Snownlp自然語言處理庫

2022-03-10 10:13:15

自然語言處理醫(yī)療保健數(shù)據(jù)

2022-03-29 09:58:15

自然語言處理人工智能技術(shù)

2024-02-05 14:18:07

自然語言處理

2020-05-25 09:41:36

大數(shù)據(jù)自然語言處理數(shù)據(jù)分析

2022-09-23 11:16:26

自然語言人工智能

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2021-01-21 10:28:16

自然語言NLP人工智能

2021-05-18 07:15:37

Python

2024-04-24 11:38:46

語言模型NLP人工智能
點贊
收藏

51CTO技術(shù)棧公眾號