自然語(yǔ)言處理NLP開(kāi)發(fā)有哪些值得關(guān)注的開(kāi)源工具?
智能語(yǔ)音助理、聊天機(jī)器人是時(shí)下人工智能的熱點(diǎn)和突破口,但是并非每家公司都具備谷歌、Facebook、亞馬遜、蘋(píng)果等公司的經(jīng)濟(jì)和技術(shù)實(shí)力來(lái)開(kāi)發(fā)NLP應(yīng)用,尤其是難度最大的會(huì)話型NLP應(yīng)用。
所幸,目前NLP的開(kāi)源技術(shù)已經(jīng)足夠強(qiáng)大,您可以輕松地“在巨人的肩膀上”,只需一個(gè)小型的專(zhuān)業(yè)團(tuán)隊(duì),借助合適的平臺(tái)方法就能開(kāi)發(fā)出令人驚嘆的,行之有效的NLP應(yīng)用程序。
下表概述了當(dāng)下一些值得研究的開(kāi)源工具:
其次,即使有如此豐盛的精品技術(shù)資源觸手可及,開(kāi)發(fā)一個(gè)前端NLP(一個(gè)“會(huì)話”,這是大多數(shù)人在想到人工智能時(shí)所想到的)仍然需要遠(yuǎn)見(jiàn)和堅(jiān)持。因?yàn)樵谀吹揭恍└呒?jí)功能的回報(bào)之前,它往往需要大量的前期投資。
后端NLP更容易,并提供更直接的投資回報(bào)率
基于NLP的業(yè)務(wù)改進(jìn)不一定需要具有會(huì)話前端。后端驅(qū)動(dòng)或語(yǔ)言分析項(xiàng)目通常是在短期內(nèi)使用NLP見(jiàn)效最快,成本效益最好,最高回報(bào)的方式。此類(lèi)項(xiàng)目的開(kāi)發(fā)往往只需要兩到三人的團(tuán)隊(duì),在幾個(gè)月內(nèi)完成。
Cloudera機(jī)器學(xué)習(xí)總經(jīng)理Hilary Mason在最近的Strata會(huì)議的主題演講中展示了后端NLP的一個(gè)很好的例子。Mason解釋了Cloudera如何使用NLP降低其呼叫中心成本并提高客戶(hù)滿(mǎn)意度。他們從呼叫中心采集了記錄呼叫的統(tǒng)計(jì)樣本,并將其轉(zhuǎn)錄為文本。他們對(duì)該語(yǔ)料庫(kù)進(jìn)行了文本分析,尋求與特定問(wèn)題和問(wèn)題解決步驟相關(guān)的語(yǔ)音模式。然后,他們將基于此分析結(jié)果的預(yù)測(cè)模型部署到其呼叫中心系統(tǒng)中。當(dāng)客戶(hù)打電話時(shí),基礎(chǔ)算法識(shí)別出語(yǔ)音模式,并在客戶(hù)與客戶(hù)交談時(shí)主動(dòng)向客戶(hù)服務(wù)代表推薦可能的解決方案。
會(huì)話型NLP成本更高,需要戰(zhàn)略情懷和長(zhǎng)線投入
如果你致力于會(huì)話式NLP(或AI),希望機(jī)器與人類(lèi)的交互能夠達(dá)到人類(lèi)之間的那種流暢和模糊性,這在技術(shù)上具有極大的挑戰(zhàn)性,成本也很高。我們不是在聊聊天機(jī)器人,聊天機(jī)器人其實(shí)是一個(gè)非常簡(jiǎn)單的程序,可以跟蹤特定任務(wù)的相對(duì)結(jié)構(gòu)化的對(duì)話,并處于某些預(yù)定義的環(huán)境,如Facebook Messenger。而會(huì)話AI是完全不同的,與Alexa類(lèi)似,它們無(wú)處不在(它們隨處可見(jiàn)),可以處理多個(gè)應(yīng)用程序(也稱(chēng)為意圖),并且可以處理各種響應(yīng)。他們還可以迅速切換場(chǎng)景 – 比如從提供有關(guān)今天天氣的信息到預(yù)訂餐廳。
目前已經(jīng)存在多個(gè)開(kāi)源平臺(tái)(上圖),允許您的團(tuán)隊(duì)在合理的時(shí)間范圍內(nèi)構(gòu)建功能性(可能算不上完善)的AI,并且成本可以提供正回報(bào)。像蘋(píng)果,谷歌,微軟和亞馬遜這樣的公司每年都投入了數(shù)億美元,并將地球上一些最聰明的博士投入到先進(jìn)的NLP接口中。而這些開(kāi)源庫(kù)使普通公司和團(tuán)隊(duì)也能憑借3-4人的團(tuán)隊(duì),用大約一年時(shí)間開(kāi)發(fā)出簡(jiǎn)單會(huì)話AI的基礎(chǔ)平臺(tái),總計(jì)投入約為500,000美元。這些早期平臺(tái)具有一些簡(jiǎn)單的場(chǎng)景對(duì)話能力,但不會(huì)預(yù)先分析用戶(hù)(這需要具備安全系統(tǒng)的接口),并且沒(méi)有先前用戶(hù)會(huì)話的記憶。以此平臺(tái)為起點(diǎn),每開(kāi)發(fā)一個(gè)新的,簡(jiǎn)單的場(chǎng)景對(duì)話的成本約1萬(wàn)美元。
企業(yè)應(yīng)當(dāng)將會(huì)話型NLP的基礎(chǔ)平臺(tái)作為一種長(zhǎng)線投資,每一個(gè)新增的會(huì)話功能都會(huì)攤薄整體平臺(tái)的成本。例如,允許人們對(duì)丟失/遺忘的密碼或其他簡(jiǎn)單的IT問(wèn)題進(jìn)行自助服務(wù)可以節(jié)省每年至少一個(gè)IT運(yùn)維人員的成本。通過(guò)在Excel中使用IRR功能的一些快速計(jì)算,并假設(shè)該角色每年花費(fèi)100,000美元,快速計(jì)算該“復(fù)雜”應(yīng)用程序的單年ROI約為260%,這顯然值得做。成本只是我們用于確定會(huì)話功能開(kāi)發(fā)優(yōu)先級(jí)的一個(gè)因素,對(duì)于一些重要戰(zhàn)略意義的會(huì)話功能,有時(shí)我們甚至應(yīng)當(dāng)在沒(méi)有明確的,或極高的投資回報(bào)率的情況下進(jìn)行投資。