亞馬遜CTO:機(jī)器學(xué)習(xí)的時代已來臨
亞馬遜 CTO Werner Vogels 在香港會展中心舉辦的 Rise Conference 現(xiàn)場發(fā)表了關(guān)于機(jī)器學(xué)習(xí)的演講,在這位AWS主架構(gòu)師的眼里,Maching Learning 的時代無疑已經(jīng)來臨。
他表示,亞馬遜內(nèi)部已使用機(jī)器學(xué)習(xí)多年,包括嘗試過濾商品下方的垃圾評論、通過注冊姓名來辨別用戶的男女性別,以及訓(xùn)練分揀機(jī)器人對不同形狀物品的判斷能力,以便能在陌生物品出現(xiàn)時進(jìn)行抓握動作等。而亞馬遜AWS的許多大客戶(如社會活動網(wǎng)站Change.org),都要求亞馬遜提供更多的機(jī)器學(xué)習(xí)功能。
因此,今年4月亞馬遜 AWS 云服務(wù)家族宣布新添加這名新成員 ——Amazon Machine Learning。它是一項全面的托管服務(wù),開發(fā)者無需具備任何機(jī)器學(xué)習(xí)經(jīng)驗,就能輕松使用歷史數(shù)據(jù)開發(fā)并部署預(yù)測模型。有了它,AWS開發(fā)人員能更容易地從他們托管系統(tǒng)收集到的大量事務(wù)性和操作數(shù)據(jù)中挖掘價值。這些模型用途廣泛,包括檢測欺詐、精準(zhǔn)營銷、個性化推薦、文檔管理等。
Werner Vogels 介紹說,通過使用亞馬遜的機(jī)器學(xué)習(xí)技術(shù),在沒有任何機(jī)器學(xué)習(xí)經(jīng)驗的前提下,單個開發(fā)者可以在20分鐘內(nèi)解決之前需要兩名開發(fā)者花費(fèi)45天才能解決的問題,并且所建立的模型同樣能夠?qū)崿F(xiàn)92%的精確度。
除了亞馬遜外,微軟旗下專注云服務(wù)的Azure也在今年二月推出了自己的機(jī)器學(xué)習(xí)工具,IBM在三月收購AlchemyAPI后,決定把AlchemyAPI的深度學(xué)習(xí)技術(shù)整合到Watson核心平臺,增強(qiáng)Watson挖掘非結(jié)構(gòu)化數(shù)據(jù)并識別出它們之間聯(lián)系的能力。
以前的機(jī)器學(xué)習(xí)似乎是陽春白雪,只有大公司和***高校實驗室才能玩得轉(zhuǎn)。有這么一群人,他們的夢想是使機(jī)器學(xué)習(xí)技術(shù)變得下里巴人,讓人人都能用機(jī)器學(xué)習(xí)。他們分布在兩類從事機(jī)器學(xué)習(xí)技術(shù)研發(fā)的公司:
- 提供機(jī)器學(xué)習(xí)技術(shù)平臺
 - 機(jī)器學(xué)習(xí)API提供者
 
專業(yè)造輪子
工程師們的一句口頭禪就是“不要重復(fù)造輪子”,意思是告誡工程師們應(yīng)該把主要精力放在滿足需求上。但這句話不是絕對的,對于專業(yè)造輪子的工程師來說,造牛逼的輪子就是他們的需求。***類公司的工程師就是專業(yè)造機(jī)器學(xué)習(xí)輪子的人們。據(jù)我所知,目前世界成熟的***類只有Databricks和我們之前報道過的Dato兩家,Petuum剛剛進(jìn)入商業(yè)版本開發(fā)階段。
這類公司有兩個優(yōu)勢。一是研制機(jī)器學(xué)習(xí)技術(shù)平臺需要極高的技術(shù)水準(zhǔn)。雖然Google、Facebook以及國內(nèi)的百度都有自研的機(jī)器學(xué)習(xí)系統(tǒng),但都沒有對外公開。二是機(jī)器學(xué)習(xí)技術(shù)平臺有很廣泛的應(yīng)用,不管是面對企業(yè)提供API或者數(shù)據(jù)分析服務(wù)的公司,還是面對消費(fèi)者提供智能服務(wù)的公司,都需要一個高效的機(jī)器學(xué)習(xí)技術(shù)平臺。因此這種提供基礎(chǔ)設(shè)施的領(lǐng)域有可能產(chǎn)生新的巨頭,就像網(wǎng)絡(luò)時代產(chǎn)生了思科網(wǎng)絡(luò)設(shè)施巨頭一樣。
但這類公司也有隱憂。機(jī)器學(xué)習(xí)領(lǐng)域和誕生思科的硬件領(lǐng)域有一點(diǎn)不一樣,機(jī)器學(xué)習(xí)領(lǐng)域存在牛逼的技術(shù)開源項目。目前Spark和Storm兩個開源系統(tǒng)各方面都比較完善,對***類公司成長為巨頭構(gòu)成威脅。除了通用型的開源機(jī)器學(xué)習(xí)系統(tǒng),還有特定用處的開源項目,比如用于深度學(xué)習(xí)的 Caffe、用于自然語言處理的 Stanford CoreNLP 以及數(shù)據(jù)預(yù)處理可視化的 Pandas。
這類公司并不是直接面對普通開發(fā)者,而是方便公司里的工程師們搭建大規(guī)模機(jī)器學(xué)習(xí)平臺,讓那些無力研制機(jī)器學(xué)習(xí)系統(tǒng)的公司也能方便地使用高效的機(jī)器學(xué)習(xí)。第二類提供 API 的公司是直接面對普通開發(fā)者的。
Call Me
第二類公司提供機(jī)器學(xué)習(xí)的API。如果API有心愿,那么這個心愿一定是“調(diào)用我(Call Me)啊”。機(jī)器學(xué)習(xí)的API也分兩類,一類是用公司自己收集的訓(xùn)練數(shù)據(jù)訓(xùn)練好的模型。比如AlchemyAPI提供的情感分析API,只需要用戶提供文本或者文本的鏈接地址,就會返回該段文本蘊(yùn)含正面情緒還是負(fù)面情緒。另一類是需要用戶提供自己的數(shù)據(jù)訓(xùn)練API。比如Face++ 的人臉識別API就需要用戶自己上傳不同人物的照片。當(dāng)然很多公司同時提供這兩種API。更妙的是,有些深度學(xué)習(xí)模型,比如適合處理圖像的卷積神經(jīng)網(wǎng)絡(luò),允許先用公司收集的大規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,再根據(jù)用戶提供的數(shù)據(jù)進(jìn)行微調(diào)。
有了這些API,開發(fā)人員需要做的事情包括:1)處理好自己的數(shù)據(jù),2)將處理好的數(shù)據(jù)扔給API得到結(jié)果,3)對于需要預(yù)先訓(xùn)練的API,還需要整理一份有正確答案的訓(xùn)練數(shù)據(jù)給API訓(xùn)練。開發(fā)人員利用這些API可以很方便地將機(jī)器學(xué)習(xí)運(yùn)用在自己的產(chǎn)品中。
除了創(chuàng)業(yè)公司,巨頭們也開始涉足這個領(lǐng)域,比如Google Predict API, Amazon Machine Learning和微軟的Azure Machine Learning等等。
人人都能用機(jī)器學(xué)習(xí)
這兩類的公司都致力于讓機(jī)器學(xué)習(xí)的使用變得簡單。MetaMind公司創(chuàng)始人Socher這樣描述他創(chuàng)立MetaMind的初衷,“Google、微軟和 Facebook的研究會影響到許多人。但是我感覺,如果你把這些模型提供給其他公司或者個人,讓他們?nèi)パ芯浚敲催€有許多的潛力可挖”。為了提高易用性,MetaMind甚至允許用戶使用拖拽方式訓(xùn)練模型和獲取模型的預(yù)測。
除了上面兩類技術(shù)導(dǎo)向型公司,大量公司是利用機(jī)器學(xué)習(xí)技術(shù)整合應(yīng)用,來解決更多實際的痛點(diǎn)。機(jī)器學(xué)習(xí)的門檻降低,利用機(jī)器學(xué)習(xí)技術(shù)整合應(yīng)用的難度會大大降低。比如有程序員在網(wǎng)上貼出了如何利用Clarifai圖像物體識別API和Algolia搜索API給自己的Instagram照片建立檢索系統(tǒng)。未來我們能見到更多集成了機(jī)器學(xué)習(xí)的酷炫應(yīng)用。
機(jī)器學(xué)習(xí)產(chǎn)業(yè)的前進(jìn)靠兩個輪子,一個是技術(shù),一個是數(shù)據(jù)。機(jī)器學(xué)習(xí)的使用門檻下降之時,對于大部分公司來說,誰能夠收集管理更多的數(shù)據(jù),誰擁有更好的開發(fā)數(shù)據(jù)價值的意識,誰就能為人們提供更好的智能服務(wù),更好地解決人們的痛點(diǎn)。
 
















 
 
 


 
 
 
 