徹底改變NLP的三家人工智能初創(chuàng)公司
深度學(xué)習(xí)在自然語言處理方面取得了驚人的進(jìn)步。利用Explosion、Huggingface和JohnSnowLabs的最新創(chuàng)新。
自然語言處理(NLP)一直是計算機(jī)科學(xué)家的一個長期夢想,其歷史可以追溯到ELIZA時代,甚至可以追溯到計算本身的基本基礎(chǔ)(圖靈測試,有人嗎?)。NLP在過去幾年經(jīng)歷了一場戲劇性的革命,過去的統(tǒng)計方法讓位于基于深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)的方法。
將深度學(xué)習(xí)應(yīng)用于NLP已經(jīng)產(chǎn)生了大量的、復(fù)雜的、通用的語言模型,比如GPT-3,能夠生成與人類寫作真正無法區(qū)分的文本。例如,GPT-3解鎖了微軟新的“無代碼”PowerApps平臺中的功能,您可以在其中輸入查詢的自然語言描述,后端將生成代碼(PowerFx表達(dá)式基于Excel語法)。
NLP在整個企業(yè)中具有巨大的潛力,不僅僅是像谷歌或微軟這樣的巨頭將產(chǎn)品帶到桌面上。在本文中,我們將介紹三家不同的初創(chuàng)公司,它們的范圍從提供AI驅(qū)動的解決方案到提供構(gòu)建您自己的自定義NLP解決方案的構(gòu)建塊。
Explosion
大多數(shù)在NLP圈子工作的開發(fā)人員都接觸過Python流行的NLP庫spaCy,但很少有人聽說過Explosion,這家由Matthew Hannibal和Ines Montani創(chuàng)立的公司開發(fā)了spaCy和商業(yè)注釋工具Prodigy。
作為多年來首屈一指的NLP工具包之一,spaCy能夠毫不費(fèi)力地處理大量生產(chǎn)工作負(fù)載,這是其與其他同類庫的顯著特征之一。如果您有一段時間沒有使用spaCy,您可能會驚訝地發(fā)現(xiàn)它跟上現(xiàn)代NLP技術(shù)的前沿,其管道基于預(yù)訓(xùn)練的Transformer模型(如BERT),能夠集成自定義來自PyTorch或TensorFlow的模型,并支持50多種開箱即用的語言。
雖然spaCy是開源的,但Explosion還提供了一個付費(fèi)產(chǎn)品Prodigy,它旨在成為數(shù)據(jù)科學(xué)家工具包中非常寶貴的一部分,能夠?qū)?shù)據(jù)集進(jìn)行富有表現(xiàn)力的、可編寫腳本的注釋,不僅與spaCy有緊密的交互循環(huán),而且還具有全面的支持注釋圖像、音頻和視頻。Prodigy提供了用于構(gòu)建用于分類、轉(zhuǎn)錄、邊界框等的管道的方法。這些應(yīng)該允許數(shù)據(jù)科學(xué)家在數(shù)據(jù)集的高效注釋方面發(fā)揮更積極的作用,從而降低構(gòu)建豐富輸入數(shù)據(jù)和創(chuàng)建更好模型的成本。
Huggingface
從提供基于Transformer的NLP模型和Write With Transformer網(wǎng)站的PyTorch庫的公司,到如今的Huggingface無所不能的NLP巨頭,這是一段相當(dāng)長的旅程。如今,Huggingface的Transformers庫不僅是文本處理的事實(shí)上的標(biāo)準(zhǔn),而且從找到新論文或技術(shù)到將其放入庫之間的周轉(zhuǎn)時間通常以天而不是周來衡量。
Huggingface模型動物園已經(jīng)擴(kuò)展到各種不同模型(包括領(lǐng)域、語言、大小等主題)的模型中心,包括一個托管推理API,該API擁有許多模型的加速實(shí)現(xiàn),以及一個易于使用的API用于處理大量不同的數(shù)據(jù)集。你會發(fā)現(xiàn)Huggingface被數(shù)千家公司使用,從Grammarly之類的應(yīng)用程序到微軟、谷歌和Facebook的研究用途。最重要的是,Huggingface為機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)貢獻(xiàn)了其他較小的庫,例如最近的Accelerate庫,它消除了在一組分布式機(jī)器上訓(xùn)練大型模型的大部分麻煩。
Huggingface也沒有放慢腳步。最近幾個月,我們已經(jīng)看到音頻和圖像模型被添加到平臺中,隨著Transformer架構(gòu)繼續(xù)在深度學(xué)習(xí)領(lǐng)域占據(jù)一席之地,征服所有道路,Huggingface很可能會站在最前沿。
JohnSnowLabs
JohnSnowLabs是SparkNLP的管理者,SparkNLP是一個開源NLP框架,它運(yùn)行在ApacheSpark之上也許并不奇怪。在企業(yè)中非常受歡迎,您會發(fā)現(xiàn)它為公司中的各種NLP管道提供支持,用于命名實(shí)體識別(NER)、信息檢索、分類和情感分析等應(yīng)用程序。與spaCy一樣,它已經(jīng)演變?yōu)檫m應(yīng)NLP中的新范式,標(biāo)準(zhǔn)配備了大量深度學(xué)習(xí)模型(超過700個!)和400多個用于各種不同應(yīng)用程序的管道。它還利用ApacheSpark的可擴(kuò)展性,比許多競爭對手更容易進(jìn)行分布式部署。
有趣的一件事是,JohnSnowLabs在SparkNLP的基礎(chǔ)上構(gòu)建了三種付費(fèi)產(chǎn)品,其中兩種主要針對醫(yī)療保健行業(yè),另一種也主要針對該領(lǐng)域,但可以用于其他領(lǐng)域。他們提供HealthcareAI,一個運(yùn)行在Kubernetes之上的托管平臺,用于醫(yī)療保健分析和研究,以及一組用于SparkNLP的附加包,允許使用諸如臨床實(shí)體識別和鏈接、提取醫(yī)學(xué)概念和去識別文本等方法.
另一個付費(fèi)產(chǎn)品是SparkOCR,它聲稱是同類中最好的OCR解決方案。它以DICOM格式和PDF捕獲區(qū)域和輸出的能力對醫(yī)療保健領(lǐng)域略有偏見,但具有一套更通用的圖像處理、去噪、去歪斜管道,當(dāng)然可以與SparkNLP集成以輕松生成可擴(kuò)展的管道,可以從任何給定的輸入圖像中進(jìn)行端到端的NER提取。
SparkNLP中有很多嵌入的知識,在醫(yī)療保健領(lǐng)域,JohnSnowLabs似乎比其他大型NLP庫提供商更具優(yōu)勢!
NLP的下一步是什么
未來幾個月人們可能會在NLP領(lǐng)域看到什么?我想還有更多相同的地方,但更大;萬億參數(shù)模型現(xiàn)在在谷歌、微軟和Facebook等公司變得越來越重要。雖然GPT-3目前被鎖定在OpenAI的API后面,但預(yù)計GPT-NeoX的開源“再創(chuàng)造”將在今年某個時候發(fā)布1750億參數(shù)模型,將GPT-3生成能力的力量帶到漂亮的這個星球上的任何人。
最后,我們可以期待研究人員在規(guī)模的另一端繼續(xù)努力,試圖讓這些架構(gòu)在更小的設(shè)備和更長的文檔上運(yùn)行得更快、更高效。而且您可以放心,所有這些研究的結(jié)果也將出現(xiàn)在Explosion、Huggingface和JohnSnowLabs的產(chǎn)品中。