AI從業(yè)者的思考:深度學(xué)習(xí)很厲害,但別捧殺它
深度學(xué)習(xí)(Deep Learning)這個詞借著AlphaGO與李世石的人機(jī)大戰(zhàn)又火了一把。深度學(xué)習(xí)其實是機(jī)器學(xué)習(xí)(Machine Learning)的一個分支學(xué)科,而機(jī)器學(xué)習(xí)是一門研究數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的學(xué)科,比如它可以用來挖掘收入和年齡,性別,職業(yè),學(xué)歷等因素的數(shù)學(xué)關(guān)系。但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般只能挖掘簡單的線性關(guān)系。我們知道大千世界不是線性關(guān)系所能描述的,比如收入與年齡,性別,職業(yè),學(xué)歷的關(guān)系,這么一個簡單的問題就不是一個線性關(guān)系所能表達(dá)清楚的。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀,深度學(xué)習(xí)使用復(fù)雜的多非線性模型表示數(shù)據(jù)之間的關(guān)系,然后使用大量的數(shù)據(jù)最終確定數(shù)據(jù)之間的關(guān)系究竟是什么。
深度學(xué)習(xí)的靈感來源于大腦神經(jīng)網(wǎng)絡(luò),可以說我們的大腦就是一個***復(fù)雜的深度學(xué)習(xí)模型。大腦里的神經(jīng)網(wǎng)絡(luò)是由數(shù)以千億計的神經(jīng)元連接而成,深度學(xué)習(xí)也使用同樣的結(jié)構(gòu),每個人工神經(jīng)元對輸入進(jìn)行簡單的線性或非線性運(yùn)算后將結(jié)果傳遞給后續(xù)的神經(jīng)元,在經(jīng)過這樣十幾層乃至上百層的傳遞后得到最終的預(yù)測結(jié)果。
深度學(xué)習(xí)這套方法并不是近幾年提出的,早在80年代末Geoffrey Hinton和Yann LeCun等學(xué)者就使用深度學(xué)習(xí)的方法解決了手寫體數(shù)字的識別問題。遺憾的是,進(jìn)入90年代后深度學(xué)習(xí)的性能沒有本質(zhì)上的提升,甚至劣于很多簡單的線性模型,深度學(xué)習(xí)的研究沉寂下來。直到2006年,Hinton教授在Science上發(fā)表了深度學(xué)習(xí)的里程碑一樣的論文,重新審視深度學(xué)習(xí)方法,將深度學(xué)習(xí)的性能提升到了一個新的臺階。在此之后,深度學(xué)習(xí)在語音識別,計算機(jī)視覺,機(jī)器人,自然語言處理等領(lǐng)域均超過了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,甚至在人臉驗證比賽LFW和自然圖像分類比賽ImageNet上超過了人類的識別能力。這次,AlphaGO擊敗李世石又是一個深度學(xué)習(xí)超越人類的實例。
那么是什么讓深度學(xué)習(xí)再次崛起并超越人類呢? 當(dāng)然首先要?dú)w功于Hinton等學(xué)者幾十年如一日的不懈研究。另外,有兩個客觀因素異常重要:
***是大數(shù)據(jù)?;ヂ?lián)網(wǎng)將幾十億人連接在一起,同時也讓海量數(shù)據(jù)連接在了一起。深度學(xué)習(xí)必須要有海量數(shù)據(jù)才能得到表現(xiàn)好的模型,深度學(xué)習(xí)和大數(shù)據(jù)的關(guān)系就像火箭和燃料一樣,火箭雖然厲害,但是沒有大數(shù)據(jù)這個燃料也只是一堆廢鐵。因為大數(shù)據(jù)的必不可少,我們也看到深度學(xué)習(xí)做的***的地方是我們熟知的那些擁有大量數(shù)據(jù)的IT巨頭,Google、Facebook、Microsoft、百度等。可以說,在深度學(xué)習(xí)時代,擁有數(shù)據(jù)就占領(lǐng)了人工智能的制高點。
第二是高性能計算。摩爾定律揭示了計算能力增長速度的規(guī)律,過去這些年GPU,超級計算機(jī)和云計算等計算平臺迅猛發(fā)展,讓深度學(xué)習(xí)的實現(xiàn)成為可能,舉個例子,2011年GoogleBrain用了1000臺機(jī)器、16000個CPU處理的深度學(xué)習(xí)模型大概有10億個神經(jīng)元,而現(xiàn)在我們已經(jīng)可以在幾個GPU上完成同樣的計算了。事實上,深度學(xué)習(xí)已經(jīng)進(jìn)入我們的口袋了,我們的智能手機(jī)上的GPU已經(jīng)可以運(yùn)行一些復(fù)雜度一般的深度學(xué)習(xí)方法了。我想過不了多久,我們每一個人都可以在手機(jī)上和AlphaGO對弈了,再過些年,我們的手機(jī)就就可以運(yùn)行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)了。
在深度學(xué)習(xí)領(lǐng)域有很多非常優(yōu)秀的華人科學(xué)家和中國企業(yè)??茖W(xué)家方面,我們熟知的有百度***科學(xué)家吳恩達(dá),IDL的發(fā)起人余凱,Caffe的作者賈揚(yáng)青,***個把人臉驗證LFW刷到99%以上的湯曉鷗、王曉剛教授,去年奪得ImageNet多項桂冠的孫劍和何凱明等等。企業(yè)方面,我們所熟知的BAT、360、搜狗、滴滴等均在深度學(xué)習(xí)方面有布局,同時國內(nèi)也涌現(xiàn)出一批依賴深度學(xué)習(xí)的新企業(yè),比如格靈深瞳(安防、自動駕駛)、曠世科技(人臉識別)、商湯科技(人臉識別)、地平線機(jī)器人(ADAS)等。
深度學(xué)習(xí)不只是和人下下棋這么簡單。既然它是對人腦的一種模擬,它可以完成很多人腦的功能。
首先是視覺的功能。我們的相機(jī)可以像眼睛一樣看到這個世界,卻不能像大腦一樣看懂這個世界,深度學(xué)習(xí)恰恰補(bǔ)上了這個短板。有了深度學(xué)習(xí),Google Photo、百度識圖、淘寶拍立淘才可以準(zhǔn)確地識別照片中的物體類別,并對你的照片進(jìn)行自動歸類或搜索。有了深度學(xué)習(xí),我們才可以很酷炫地在支付寶里刷臉付款。有了深度學(xué)習(xí),格靈深瞳的行為特征分析系統(tǒng)可以檢測場景內(nèi)所有人員、車輛的行蹤,對可疑和危險事件及時報警,視圖大數(shù)據(jù)平臺可以對數(shù)千種車型車款進(jìn)行識別,人臉識別系統(tǒng)可以對人臉進(jìn)行動態(tài)和靜態(tài)識別比對。有了深度學(xué)習(xí),馭勢科技的自動駕駛汽車識別周圍路況時才足夠準(zhǔn)確。有了深度學(xué)習(xí),F(xiàn)aceU這樣的app才知道臉在哪里,五官又在哪里。
除了視覺功能,深度學(xué)習(xí)在語音識別方面應(yīng)用也非常廣泛。百度的Deep Speech 2在一些測試中也已經(jīng)超過人類的聽力。此外,Google、Apple、Microsoft以及國內(nèi)的科大訊飛等也都推出了自己的語音識別產(chǎn)品。在深度學(xué)習(xí)的幫助下,計算機(jī)擁有了越來越強(qiáng)大的語音識別能力,這將逐漸改變目前目前以鍵盤為主的人機(jī)交互模式。
深度學(xué)習(xí)也深刻改變著機(jī)器人領(lǐng)域。剛才說的基于深度學(xué)習(xí)的視覺和語音識別的能力可以幫助機(jī)器人更好地感知世界。除此之外,深度學(xué)習(xí)還和增強(qiáng)學(xué)習(xí)(Reinforcement Learning)相結(jié)合。所謂增強(qiáng)學(xué)習(xí)指機(jī)器人通過與環(huán)境交互中得到的獎賞和懲罰自主學(xué)習(xí)(Self Learning)更優(yōu)策略。舉個簡單的例子,AlphaGO就是一個增強(qiáng)學(xué)習(xí)的產(chǎn)物,它通過跟其他棋手下棋或者和自己對弈的輸贏情況自主學(xué)習(xí)更好的下棋策略。而深度學(xué)習(xí)的引入,使得增強(qiáng)學(xué)習(xí)方法可以找到更加復(fù)雜的策略。從AlphaGO完勝李世石可以看出,深度學(xué)習(xí)+增強(qiáng)學(xué)習(xí)已經(jīng)有能力讓機(jī)器人在相當(dāng)復(fù)雜的環(huán)境下自主學(xué)習(xí)到高度優(yōu)化的決策策略。
以上的這些應(yīng)用只是我們平時看得見的,還有很多深度學(xué)習(xí)的應(yīng)用則在我們的視線之外影響世界?;ヂ?lián)網(wǎng)搜索、廣告推薦、金融量化交易、機(jī)器翻譯、醫(yī)療大數(shù)據(jù)分析、智能法律咨詢……可以說凡是需要從大量數(shù)據(jù)中預(yù)測未知信息的領(lǐng)域都是深度學(xué)習(xí)可以一展拳腳的地方。未來,以深度學(xué)習(xí)為代表的人工智能技術(shù)也許會像蒸汽機(jī)、電動機(jī)、計算機(jī)、互聯(lián)網(wǎng)一樣推動新一輪科技革命,讓生產(chǎn)力再上一個臺階。
當(dāng)然,作為一個從業(yè)者,我同時害怕深度學(xué)習(xí)遭到捧殺,尤其是AlphaGO讓大眾熟知了這樣一項技術(shù)后。深度學(xué)習(xí)才剛剛起步,就像嬰兒剛剛學(xué)會走路,我們固然可以暢想他以后成為偉人,但畢竟很多技術(shù)還不成熟,相當(dāng)一部分應(yīng)用還難以讓人滿意,甚至在未來很長時間內(nèi)都難以做到。人工智能的發(fā)展需要的不是大家一股腦的熱情,而是持久的投入和努力。