亞馬遜CTO:機(jī)器學(xué)習(xí)的時(shí)代已來(lái)臨
亞馬遜 CTO Werner Vogels 在香港會(huì)展中心舉辦的 Rise Conference 現(xiàn)場(chǎng)發(fā)表了關(guān)于機(jī)器學(xué)習(xí)的演講,在這位AWS主架構(gòu)師的眼里,Maching Learning 的時(shí)代無(wú)疑已經(jīng)來(lái)臨。
他表示,亞馬遜內(nèi)部已使用機(jī)器學(xué)習(xí)多年,包括嘗試過(guò)濾商品下方的垃圾評(píng)論、通過(guò)注冊(cè)姓名來(lái)辨別用戶的男女性別,以及訓(xùn)練分揀機(jī)器人對(duì)不同形狀物品的判斷能力,以便能在陌生物品出現(xiàn)時(shí)進(jìn)行抓握動(dòng)作等。而亞馬遜AWS的許多大客戶(如社會(huì)活動(dòng)網(wǎng)站Change.org),都要求亞馬遜提供更多的機(jī)器學(xué)習(xí)功能。
因此,今年4月亞馬遜 AWS 云服務(wù)家族宣布新添加這名新成員 ——Amazon Machine Learning。它是一項(xiàng)全面的托管服務(wù),開(kāi)發(fā)者無(wú)需具備任何機(jī)器學(xué)習(xí)經(jīng)驗(yàn),就能輕松使用歷史數(shù)據(jù)開(kāi)發(fā)并部署預(yù)測(cè)模型。有了它,AWS開(kāi)發(fā)人員能更容易地從他們托管系統(tǒng)收集到的大量事務(wù)性和操作數(shù)據(jù)中挖掘價(jià)值。這些模型用途廣泛,包括檢測(cè)欺詐、精準(zhǔn)營(yíng)銷、個(gè)性化推薦、文檔管理等。
Werner Vogels 介紹說(shuō),通過(guò)使用亞馬遜的機(jī)器學(xué)習(xí)技術(shù),在沒(méi)有任何機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的前提下,單個(gè)開(kāi)發(fā)者可以在20分鐘內(nèi)解決之前需要兩名開(kāi)發(fā)者花費(fèi)45天才能解決的問(wèn)題,并且所建立的模型同樣能夠?qū)崿F(xiàn)92%的精確度。
除了亞馬遜外,微軟旗下專注云服務(wù)的Azure也在今年二月推出了自己的機(jī)器學(xué)習(xí)工具,IBM在三月收購(gòu)AlchemyAPI后,決定把AlchemyAPI的深度學(xué)習(xí)技術(shù)整合到Watson核心平臺(tái),增強(qiáng)Watson挖掘非結(jié)構(gòu)化數(shù)據(jù)并識(shí)別出它們之間聯(lián)系的能力。
以前的機(jī)器學(xué)習(xí)似乎是陽(yáng)春白雪,只有大公司和***高校實(shí)驗(yàn)室才能玩得轉(zhuǎn)。有這么一群人,他們的夢(mèng)想是使機(jī)器學(xué)習(xí)技術(shù)變得下里巴人,讓人人都能用機(jī)器學(xué)習(xí)。他們分布在兩類從事機(jī)器學(xué)習(xí)技術(shù)研發(fā)的公司:
- 提供機(jī)器學(xué)習(xí)技術(shù)平臺(tái)
 - 機(jī)器學(xué)習(xí)API提供者
 
專業(yè)造輪子
工程師們的一句口頭禪就是“不要重復(fù)造輪子”,意思是告誡工程師們應(yīng)該把主要精力放在滿足需求上。但這句話不是絕對(duì)的,對(duì)于專業(yè)造輪子的工程師來(lái)說(shuō),造牛逼的輪子就是他們的需求。***類公司的工程師就是專業(yè)造機(jī)器學(xué)習(xí)輪子的人們。據(jù)我所知,目前世界成熟的***類只有Databricks和我們之前報(bào)道過(guò)的Dato兩家,Petuum剛剛進(jìn)入商業(yè)版本開(kāi)發(fā)階段。
這類公司有兩個(gè)優(yōu)勢(shì)。一是研制機(jī)器學(xué)習(xí)技術(shù)平臺(tái)需要極高的技術(shù)水準(zhǔn)。雖然Google、Facebook以及國(guó)內(nèi)的百度都有自研的機(jī)器學(xué)習(xí)系統(tǒng),但都沒(méi)有對(duì)外公開(kāi)。二是機(jī)器學(xué)習(xí)技術(shù)平臺(tái)有很廣泛的應(yīng)用,不管是面對(duì)企業(yè)提供API或者數(shù)據(jù)分析服務(wù)的公司,還是面對(duì)消費(fèi)者提供智能服務(wù)的公司,都需要一個(gè)高效的機(jī)器學(xué)習(xí)技術(shù)平臺(tái)。因此這種提供基礎(chǔ)設(shè)施的領(lǐng)域有可能產(chǎn)生新的巨頭,就像網(wǎng)絡(luò)時(shí)代產(chǎn)生了思科網(wǎng)絡(luò)設(shè)施巨頭一樣。
但這類公司也有隱憂。機(jī)器學(xué)習(xí)領(lǐng)域和誕生思科的硬件領(lǐng)域有一點(diǎn)不一樣,機(jī)器學(xué)習(xí)領(lǐng)域存在牛逼的技術(shù)開(kāi)源項(xiàng)目。目前Spark和Storm兩個(gè)開(kāi)源系統(tǒng)各方面都比較完善,對(duì)***類公司成長(zhǎng)為巨頭構(gòu)成威脅。除了通用型的開(kāi)源機(jī)器學(xué)習(xí)系統(tǒng),還有特定用處的開(kāi)源項(xiàng)目,比如用于深度學(xué)習(xí)的 Caffe、用于自然語(yǔ)言處理的 Stanford CoreNLP 以及數(shù)據(jù)預(yù)處理可視化的 Pandas。
這類公司并不是直接面對(duì)普通開(kāi)發(fā)者,而是方便公司里的工程師們搭建大規(guī)模機(jī)器學(xué)習(xí)平臺(tái),讓那些無(wú)力研制機(jī)器學(xué)習(xí)系統(tǒng)的公司也能方便地使用高效的機(jī)器學(xué)習(xí)。第二類提供 API 的公司是直接面對(duì)普通開(kāi)發(fā)者的。
Call Me
第二類公司提供機(jī)器學(xué)習(xí)的API。如果API有心愿,那么這個(gè)心愿一定是“調(diào)用我(Call Me)啊”。機(jī)器學(xué)習(xí)的API也分兩類,一類是用公司自己收集的訓(xùn)練數(shù)據(jù)訓(xùn)練好的模型。比如AlchemyAPI提供的情感分析API,只需要用戶提供文本或者文本的鏈接地址,就會(huì)返回該段文本蘊(yùn)含正面情緒還是負(fù)面情緒。另一類是需要用戶提供自己的數(shù)據(jù)訓(xùn)練API。比如Face++ 的人臉識(shí)別API就需要用戶自己上傳不同人物的照片。當(dāng)然很多公司同時(shí)提供這兩種API。更妙的是,有些深度學(xué)習(xí)模型,比如適合處理圖像的卷積神經(jīng)網(wǎng)絡(luò),允許先用公司收集的大規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,再根據(jù)用戶提供的數(shù)據(jù)進(jìn)行微調(diào)。
有了這些API,開(kāi)發(fā)人員需要做的事情包括:1)處理好自己的數(shù)據(jù),2)將處理好的數(shù)據(jù)扔給API得到結(jié)果,3)對(duì)于需要預(yù)先訓(xùn)練的API,還需要整理一份有正確答案的訓(xùn)練數(shù)據(jù)給API訓(xùn)練。開(kāi)發(fā)人員利用這些API可以很方便地將機(jī)器學(xué)習(xí)運(yùn)用在自己的產(chǎn)品中。
除了創(chuàng)業(yè)公司,巨頭們也開(kāi)始涉足這個(gè)領(lǐng)域,比如Google Predict API, Amazon Machine Learning和微軟的Azure Machine Learning等等。
人人都能用機(jī)器學(xué)習(xí)
這兩類的公司都致力于讓機(jī)器學(xué)習(xí)的使用變得簡(jiǎn)單。MetaMind公司創(chuàng)始人Socher這樣描述他創(chuàng)立MetaMind的初衷,“Google、微軟和 Facebook的研究會(huì)影響到許多人。但是我感覺(jué),如果你把這些模型提供給其他公司或者個(gè)人,讓他們?nèi)パ芯浚敲催€有許多的潛力可挖”。為了提高易用性,MetaMind甚至允許用戶使用拖拽方式訓(xùn)練模型和獲取模型的預(yù)測(cè)。
除了上面兩類技術(shù)導(dǎo)向型公司,大量公司是利用機(jī)器學(xué)習(xí)技術(shù)整合應(yīng)用,來(lái)解決更多實(shí)際的痛點(diǎn)。機(jī)器學(xué)習(xí)的門(mén)檻降低,利用機(jī)器學(xué)習(xí)技術(shù)整合應(yīng)用的難度會(huì)大大降低。比如有程序員在網(wǎng)上貼出了如何利用Clarifai圖像物體識(shí)別API和Algolia搜索API給自己的Instagram照片建立檢索系統(tǒng)。未來(lái)我們能見(jiàn)到更多集成了機(jī)器學(xué)習(xí)的酷炫應(yīng)用。
機(jī)器學(xué)習(xí)產(chǎn)業(yè)的前進(jìn)靠?jī)蓚€(gè)輪子,一個(gè)是技術(shù),一個(gè)是數(shù)據(jù)。機(jī)器學(xué)習(xí)的使用門(mén)檻下降之時(shí),對(duì)于大部分公司來(lái)說(shuō),誰(shuí)能夠收集管理更多的數(shù)據(jù),誰(shuí)擁有更好的開(kāi)發(fā)數(shù)據(jù)價(jià)值的意識(shí),誰(shuí)就能為人們提供更好的智能服務(wù),更好地解決人們的痛點(diǎn)。
 
















 
 
 


 
 
 
 