徹底改變NLP的三家人工智能初創(chuàng)公司
深度學(xué)習(xí)在自然語(yǔ)言處理方面取得了驚人的進(jìn)步。利用Explosion、Huggingface和JohnSnowLabs的最新創(chuàng)新。
自然語(yǔ)言處理(NLP)一直是計(jì)算機(jī)科學(xué)家的一個(gè)長(zhǎng)期夢(mèng)想,其歷史可以追溯到ELIZA時(shí)代,甚至可以追溯到計(jì)算本身的基本基礎(chǔ)(圖靈測(cè)試,有人嗎?)。NLP在過(guò)去幾年經(jīng)歷了一場(chǎng)戲劇性的革命,過(guò)去的統(tǒng)計(jì)方法讓位于基于深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)的方法。
將深度學(xué)習(xí)應(yīng)用于NLP已經(jīng)產(chǎn)生了大量的、復(fù)雜的、通用的語(yǔ)言模型,比如GPT-3,能夠生成與人類寫(xiě)作真正無(wú)法區(qū)分的文本。例如,GPT-3解鎖了微軟新的“無(wú)代碼”PowerApps平臺(tái)中的功能,您可以在其中輸入查詢的自然語(yǔ)言描述,后端將生成代碼(PowerFx表達(dá)式基于Excel語(yǔ)法)。
NLP在整個(gè)企業(yè)中具有巨大的潛力,不僅僅是像谷歌或微軟這樣的巨頭將產(chǎn)品帶到桌面上。在本文中,我們將介紹三家不同的初創(chuàng)公司,它們的范圍從提供AI驅(qū)動(dòng)的解決方案到提供構(gòu)建您自己的自定義NLP解決方案的構(gòu)建塊。
Explosion
大多數(shù)在NLP圈子工作的開(kāi)發(fā)人員都接觸過(guò)Python流行的NLP庫(kù)spaCy,但很少有人聽(tīng)說(shuō)過(guò)Explosion,這家由Matthew Hannibal和Ines Montani創(chuàng)立的公司開(kāi)發(fā)了spaCy和商業(yè)注釋工具Prodigy。
作為多年來(lái)首屈一指的NLP工具包之一,spaCy能夠毫不費(fèi)力地處理大量生產(chǎn)工作負(fù)載,這是其與其他同類庫(kù)的顯著特征之一。如果您有一段時(shí)間沒(méi)有使用spaCy,您可能會(huì)驚訝地發(fā)現(xiàn)它跟上現(xiàn)代NLP技術(shù)的前沿,其管道基于預(yù)訓(xùn)練的Transformer模型(如BERT),能夠集成自定義來(lái)自PyTorch或TensorFlow的模型,并支持50多種開(kāi)箱即用的語(yǔ)言。
雖然spaCy是開(kāi)源的,但Explosion還提供了一個(gè)付費(fèi)產(chǎn)品Prodigy,它旨在成為數(shù)據(jù)科學(xué)家工具包中非常寶貴的一部分,能夠?qū)?shù)據(jù)集進(jìn)行富有表現(xiàn)力的、可編寫(xiě)腳本的注釋,不僅與spaCy有緊密的交互循環(huán),而且還具有全面的支持注釋圖像、音頻和視頻。Prodigy提供了用于構(gòu)建用于分類、轉(zhuǎn)錄、邊界框等的管道的方法。這些應(yīng)該允許數(shù)據(jù)科學(xué)家在數(shù)據(jù)集的高效注釋方面發(fā)揮更積極的作用,從而降低構(gòu)建豐富輸入數(shù)據(jù)和創(chuàng)建更好模型的成本。
Huggingface
從提供基于Transformer的NLP模型和Write With Transformer網(wǎng)站的PyTorch庫(kù)的公司,到如今的Huggingface無(wú)所不能的NLP巨頭,這是一段相當(dāng)長(zhǎng)的旅程。如今,Huggingface的Transformers庫(kù)不僅是文本處理的事實(shí)上的標(biāo)準(zhǔn),而且從找到新論文或技術(shù)到將其放入庫(kù)之間的周轉(zhuǎn)時(shí)間通常以天而不是周來(lái)衡量。
Huggingface模型動(dòng)物園已經(jīng)擴(kuò)展到各種不同模型(包括領(lǐng)域、語(yǔ)言、大小等主題)的模型中心,包括一個(gè)托管推理API,該API擁有許多模型的加速實(shí)現(xiàn),以及一個(gè)易于使用的API用于處理大量不同的數(shù)據(jù)集。你會(huì)發(fā)現(xiàn)Huggingface被數(shù)千家公司使用,從Grammarly之類的應(yīng)用程序到微軟、谷歌和Facebook的研究用途。最重要的是,Huggingface為機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)貢獻(xiàn)了其他較小的庫(kù),例如最近的Accelerate庫(kù),它消除了在一組分布式機(jī)器上訓(xùn)練大型模型的大部分麻煩。
Huggingface也沒(méi)有放慢腳步。最近幾個(gè)月,我們已經(jīng)看到音頻和圖像模型被添加到平臺(tái)中,隨著Transformer架構(gòu)繼續(xù)在深度學(xué)習(xí)領(lǐng)域占據(jù)一席之地,征服所有道路,Huggingface很可能會(huì)站在最前沿。
JohnSnowLabs
JohnSnowLabs是SparkNLP的管理者,SparkNLP是一個(gè)開(kāi)源NLP框架,它運(yùn)行在ApacheSpark之上也許并不奇怪。在企業(yè)中非常受歡迎,您會(huì)發(fā)現(xiàn)它為公司中的各種NLP管道提供支持,用于命名實(shí)體識(shí)別(NER)、信息檢索、分類和情感分析等應(yīng)用程序。與spaCy一樣,它已經(jīng)演變?yōu)檫m應(yīng)NLP中的新范式,標(biāo)準(zhǔn)配備了大量深度學(xué)習(xí)模型(超過(guò)700個(gè)!)和400多個(gè)用于各種不同應(yīng)用程序的管道。它還利用ApacheSpark的可擴(kuò)展性,比許多競(jìng)爭(zhēng)對(duì)手更容易進(jìn)行分布式部署。
有趣的一件事是,JohnSnowLabs在SparkNLP的基礎(chǔ)上構(gòu)建了三種付費(fèi)產(chǎn)品,其中兩種主要針對(duì)醫(yī)療保健行業(yè),另一種也主要針對(duì)該領(lǐng)域,但可以用于其他領(lǐng)域。他們提供HealthcareAI,一個(gè)運(yùn)行在Kubernetes之上的托管平臺(tái),用于醫(yī)療保健分析和研究,以及一組用于SparkNLP的附加包,允許使用諸如臨床實(shí)體識(shí)別和鏈接、提取醫(yī)學(xué)概念和去識(shí)別文本等方法.
另一個(gè)付費(fèi)產(chǎn)品是SparkOCR,它聲稱是同類中最好的OCR解決方案。它以DICOM格式和PDF捕獲區(qū)域和輸出的能力對(duì)醫(yī)療保健領(lǐng)域略有偏見(jiàn),但具有一套更通用的圖像處理、去噪、去歪斜管道,當(dāng)然可以與SparkNLP集成以輕松生成可擴(kuò)展的管道,可以從任何給定的輸入圖像中進(jìn)行端到端的NER提取。
SparkNLP中有很多嵌入的知識(shí),在醫(yī)療保健領(lǐng)域,JohnSnowLabs似乎比其他大型NLP庫(kù)提供商更具優(yōu)勢(shì)!
NLP的下一步是什么
未來(lái)幾個(gè)月人們可能會(huì)在NLP領(lǐng)域看到什么?我想還有更多相同的地方,但更大;萬(wàn)億參數(shù)模型現(xiàn)在在谷歌、微軟和Facebook等公司變得越來(lái)越重要。雖然GPT-3目前被鎖定在OpenAI的API后面,但預(yù)計(jì)GPT-NeoX的開(kāi)源“再創(chuàng)造”將在今年某個(gè)時(shí)候發(fā)布1750億參數(shù)模型,將GPT-3生成能力的力量帶到漂亮的這個(gè)星球上的任何人。
最后,我們可以期待研究人員在規(guī)模的另一端繼續(xù)努力,試圖讓這些架構(gòu)在更小的設(shè)備和更長(zhǎng)的文檔上運(yùn)行得更快、更高效。而且您可以放心,所有這些研究的結(jié)果也將出現(xiàn)在Explosion、Huggingface和JohnSnowLabs的產(chǎn)品中。















 
 
 








 
 
 
 