英偉達(dá)穩(wěn)坐全球第一,成為新霸主!回顧這波AI潮的起源:辛頓、黃仁勛、李飛飛的歷史交匯 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
“過(guò)去12年的AI熱潮得益于三位在面對(duì)廣泛批評(píng)時(shí)依然追求非傳統(tǒng)理念的先驅(qū)。
一位是多倫多大學(xué)的Geoffrey Hinton,他幾十年如一日地推廣神經(jīng)網(wǎng)絡(luò),盡管幾乎所有人都懷疑它。
第二位是Nvidia的CEO黃仁勛,他早早意識(shí)到GPU不僅僅能用于圖形處理。
第三位是李飛飛,她創(chuàng)建了一個(gè)在大多數(shù)同行看來(lái)荒謬龐大的圖像數(shù)據(jù)集,最終證明了使用GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的潛力?!?/p>
Understanding AI 社區(qū)上的這篇《為什么深度學(xué)習(xí)的蓬勃發(fā)展讓幾乎所有人都措手不及?》,以宏大的視角回顧了這波 AI 潮的起源,神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)集和 GPU 計(jì)算這三大元素如何交融在歷史的節(jié)點(diǎn)。
以史為鑒,作者也認(rèn)為AI的突破需要敢于走出“Scaling laws”:“我認(rèn)為,在未來(lái)幾年,‘Scaling laws’可能會(huì)失效。如果那時(shí)到來(lái),我們將需要新一代頑固的非傳統(tǒng)主義者來(lái)察覺(jué)到舊方法不起作用并嘗試新的方向?!?/p>
一個(gè)讀者感慨地評(píng)道,“我在人工智能領(lǐng)域工作了 30 多年,一直從事與符號(hào)人工智能相關(guān)的工作,如知識(shí)表示、自動(dòng)推理、智能代理等。我從未想過(guò),那些 "亞符號(hào)"(注意這里的蔑視)神經(jīng)網(wǎng)絡(luò)能勝任字符識(shí)別之外的任何工作。而今天,我們卻在這里討論新的人工智能系統(tǒng)何時(shí)才能達(dá)到 AGI 水平(不過(guò)我想,在這十年內(nèi)是不可能的)?!?/p>
圖片
以下是作者Timothy B Lee 的《Why the deep learning boom caught almost everyone by surprise》這篇文章的翻譯,enjoy:
在普林斯頓讀計(jì)算機(jī)科學(xué)研究生的第一個(gè)學(xué)期,我選了COS 402:人工智能。學(xué)期末有一節(jié)關(guān)于神經(jīng)網(wǎng)絡(luò)的課。這是2008年秋天,從那節(jié)課和課本中,我明顯感覺(jué)到——神經(jīng)網(wǎng)絡(luò)已經(jīng)成了一個(gè)邊緣領(lǐng)域。
在20世紀(jì)80年代末到90年代初,神經(jīng)網(wǎng)絡(luò)取得了一些令人印象深刻的成果。然而,進(jìn)展隨后停滯。到2008年,許多研究人員轉(zhuǎn)向了更加優(yōu)雅的數(shù)學(xué)方法,比如支持向量機(jī)。
當(dāng)時(shí)我不知道,普林斯頓的一支團(tuán)隊(duì)——就在我聽(tīng)課的計(jì)算機(jī)科學(xué)大樓里——正在進(jìn)行一個(gè)項(xiàng)目,這個(gè)項(xiàng)目將顛覆傳統(tǒng)觀念,展示神經(jīng)網(wǎng)絡(luò)的強(qiáng)大能力。那支團(tuán)隊(duì)由李飛飛教授領(lǐng)導(dǎo),他們并沒(méi)有開(kāi)發(fā)更好的神經(jīng)網(wǎng)絡(luò)版本,甚至幾乎沒(méi)有考慮神經(jīng)網(wǎng)絡(luò)。
相反,他們正在創(chuàng)建一個(gè)前所未有的大型圖像數(shù)據(jù)集:1400萬(wàn)張圖像,每張圖像都標(biāo)注了將近2.2萬(wàn)個(gè)類別之一。
圖片
李飛飛在她的最新回憶錄《The Worlds I See》中講述了ImageNet的故事。在項(xiàng)目進(jìn)行中,她遇到了許多朋友和同事的質(zhì)疑。
“我認(rèn)為你把這個(gè)想法帶得太遠(yuǎn)了,”一位導(dǎo)師在2007年項(xiàng)目開(kāi)始幾個(gè)月后對(duì)她說(shuō),“訣竅是跟隨你的領(lǐng)域成長(zhǎng),而不是跳得太超前?!?/p>
不僅是創(chuàng)建如此龐大的數(shù)據(jù)集是一個(gè)巨大的后勤挑戰(zhàn),人們還懷疑當(dāng)時(shí)的機(jī)器學(xué)習(xí)算法是否能夠從如此龐大的圖像集合中受益。
“在ImageNet之前,人們并不相信數(shù)據(jù)的價(jià)值,”李飛飛在9月計(jì)算機(jī)歷史博物館的一次采訪中說(shuō),“每個(gè)人都在用很少的數(shù)據(jù)研究完全不同的AI范式?!?/p>
不顧負(fù)面評(píng)價(jià),李飛飛堅(jiān)持項(xiàng)目超過(guò)兩年。這耗費(fèi)了她的研究預(yù)算,也考驗(yàn)了她研究生們的耐心。2009年她在斯坦福找到了一份新工作,她帶著幾位學(xué)生以及ImageNet項(xiàng)目前往加州。
ImageNet在2009年發(fā)布后最初幾年幾乎沒(méi)有受到關(guān)注。然而在2012年,多倫多大學(xué)的一個(gè)團(tuán)隊(duì)在ImageNet數(shù)據(jù)集上訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別方面取得了前所未有的性能。那個(gè)劃時(shí)代的AI模型,因首席作者Alex Krizhevsky的名字而得名AlexNet,引發(fā)了持續(xù)至今的深度學(xué)習(xí)熱潮。
AlexNet的成功離不開(kāi)ImageNet數(shù)據(jù)集。同樣,如果沒(méi)有Nvidia的CUDA平臺(tái)使圖形處理單元(GPU)能在非圖形應(yīng)用中使用,AlexNet也無(wú)法實(shí)現(xiàn)。2006年Nvidia推出CUDA時(shí),很多人持懷疑態(tài)度。
過(guò)去12年的AI熱潮得益于三位在面對(duì)廣泛批評(píng)時(shí)依然追求非傳統(tǒng)理念的先驅(qū)。一位是多倫多大學(xué)的Geoffrey Hinton,他幾十年如一日地推廣神經(jīng)網(wǎng)絡(luò),盡管幾乎所有人都懷疑它。
第二位是Nvidia的CEO黃仁勛,他早早意識(shí)到GPU不僅僅能用于圖形處理。
第三位是李飛飛。她創(chuàng)建了一個(gè)在大多數(shù)同行看來(lái)荒謬龐大的圖像數(shù)據(jù)集,最終證明了使用GPU訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的潛力。
1.Geoffrey Hinton:反向傳播算法推動(dòng)深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的突破
神經(jīng)網(wǎng)絡(luò)是數(shù)千、數(shù)百萬(wàn)甚至數(shù)十億個(gè)神經(jīng)元的網(wǎng)絡(luò)。每個(gè)神經(jīng)元是一個(gè)數(shù)學(xué)函數(shù),基于輸入的加權(quán)平均值產(chǎn)生輸出。
圖片
假設(shè)你想創(chuàng)建一個(gè)能夠識(shí)別手寫(xiě)十進(jìn)制數(shù)字(比如紅色方框中的數(shù)字2)的網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)會(huì)接收?qǐng)D像中每個(gè)像素的強(qiáng)度值作為輸入,并輸出一個(gè)關(guān)于十個(gè)可能數(shù)字(0、1、2等)的概率分布。
為了訓(xùn)練這個(gè)網(wǎng)絡(luò),首先用隨機(jī)權(quán)重初始化它。然后,將它應(yīng)用于一系列示例圖像。對(duì)于每張圖像,通過(guò)加強(qiáng)那些推動(dòng)網(wǎng)絡(luò)趨向正確答案的連接(在這種情況下,是“2”輸出的高概率值)并削弱那些推動(dòng)錯(cuò)誤答案的連接(降低“2”的概率、提高其他數(shù)字的概率)來(lái)訓(xùn)練網(wǎng)絡(luò)。如果在足夠多的示例圖像上進(jìn)行訓(xùn)練,當(dāng)顯示數(shù)字2時(shí),模型應(yīng)該能夠預(yù)測(cè)出“2”有較高的概率,而其他情況則不會(huì)。
在20世紀(jì)50年代末,科學(xué)家們開(kāi)始嘗試使用包含單層神經(jīng)元的基礎(chǔ)網(wǎng)絡(luò)。然而,當(dāng)他們發(fā)現(xiàn)這種簡(jiǎn)單的網(wǎng)絡(luò)缺乏完成復(fù)雜計(jì)算的能力時(shí),最初的熱情逐漸消退。
更深層的網(wǎng)絡(luò)——即包含多層的網(wǎng)絡(luò)——具有更高的靈活性潛力。然而,在20世紀(jì)60年代,人們并不知道如何高效地訓(xùn)練這些網(wǎng)絡(luò)。因?yàn)樵诙鄬泳W(wǎng)絡(luò)的中間層改變一個(gè)參數(shù),可能會(huì)對(duì)輸出產(chǎn)生復(fù)雜且不可預(yù)測(cè)的影響。
因此,當(dāng)辛頓在20世紀(jì)70年代開(kāi)始他的職業(yè)生涯時(shí),神經(jīng)網(wǎng)絡(luò)已不再受到歡迎。辛頓希望研究神經(jīng)網(wǎng)絡(luò),但他難以找到一個(gè)合適的學(xué)術(shù)環(huán)境來(lái)進(jìn)行研究。在1976年至1986年期間,辛頓曾在四個(gè)不同的研究機(jī)構(gòu)任職:薩塞克斯大學(xué)(University of Sussex)、加州大學(xué)圣地亞哥分校(UCSD)、英國(guó)醫(yī)學(xué)研究委員會(huì)的一個(gè)分支機(jī)構(gòu),最后是在卡內(nèi)基梅隆大學(xué)(Carnegie Mellon),他于1982年成為該校的教授。
圖片
在1986年,辛頓與他在UCSD的兩位前同事大衛(wèi)·魯梅爾哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams)共同發(fā)表了一篇具有里程碑意義的論文,介紹了一種名為“反向傳播”(backpropagation)的技術(shù),用于高效訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)。
他們的想法是從網(wǎng)絡(luò)的最后一層開(kāi)始,逐步向后推導(dǎo)。對(duì)于最后一層中的每一個(gè)連接,該算法計(jì)算出一個(gè)梯度——即增強(qiáng)該連接的強(qiáng)度是否會(huì)將網(wǎng)絡(luò)推向正確答案的數(shù)學(xué)估算?;谶@些梯度,該算法調(diào)整模型最后一層中的每個(gè)參數(shù)。
然后,該算法將這些梯度反向傳播到倒數(shù)第二層。一個(gè)關(guān)鍵創(chuàng)新點(diǎn)在于一種公式——基于高中微積分中的鏈?zhǔn)椒▌t——用于基于后一層的梯度來(lái)計(jì)算前一層的梯度。利用這些新的梯度,該算法更新模型倒數(shù)第二層中的每個(gè)參數(shù)。隨后,梯度再次反向傳播到倒數(shù)第三層,并重復(fù)整個(gè)過(guò)程。
該算法在每一輪訓(xùn)練中只對(duì)模型進(jìn)行微小的調(diào)整。但隨著這個(gè)過(guò)程在成千上萬(wàn)、數(shù)百萬(wàn)、數(shù)十億甚至數(shù)萬(wàn)億的訓(xùn)練樣本上重復(fù)進(jìn)行,模型的準(zhǔn)確性會(huì)逐漸提高。
辛頓和他的同事們并非第一個(gè)發(fā)現(xiàn)反向傳播基本思想的人,但他們的論文普及了這種方法。隨著人們意識(shí)到如今可以訓(xùn)練更深層的網(wǎng)絡(luò),這引發(fā)了對(duì)神經(jīng)網(wǎng)絡(luò)的新一輪熱情。
1987年,辛頓搬到了多倫多大學(xué),并開(kāi)始吸引希望研究神經(jīng)網(wǎng)絡(luò)的年輕研究人員。法國(guó)計(jì)算機(jī)科學(xué)家楊立昆(Yann LeCun)是其中之一,他在1988年搬到貝爾實(shí)驗(yàn)室之前,曾在辛頓身邊做了一年的博士后研究。
辛頓的反向傳播算法讓楊立昆得以訓(xùn)練深度足夠的模型,能夠在諸如手寫(xiě)識(shí)別等現(xiàn)實(shí)任務(wù)中表現(xiàn)良好。到90年代中期,楊立昆的技術(shù)效果如此出色,以至于美國(guó)的銀行開(kāi)始用它來(lái)處理支票。
“在某個(gè)時(shí)期,楊立昆的系統(tǒng)讀取了全美超過(guò)10%的支票?!眲P德·梅茨(Cade Metz)在2022年出版的《天才制造者》一書(shū)中寫(xiě)道。
但是,當(dāng)楊立昆和其他研究人員嘗試將神經(jīng)網(wǎng)絡(luò)應(yīng)用于更大、更復(fù)雜的圖像時(shí),效果并不理想。神經(jīng)網(wǎng)絡(luò)再度失寵,一些專注于神經(jīng)網(wǎng)絡(luò)的研究人員也轉(zhuǎn)向了其他項(xiàng)目。
辛頓始終堅(jiān)信神經(jīng)網(wǎng)絡(luò)能夠超越其他機(jī)器學(xué)習(xí)方法。但要真正證明這一點(diǎn),他還需要許多年才能獲得足夠的數(shù)據(jù)和計(jì)算能力。
2.黃仁勛:神經(jīng)網(wǎng)絡(luò)訓(xùn)練成了CUDA的“殺手級(jí)應(yīng)用”
圖片
每臺(tái)個(gè)人計(jì)算機(jī)的大腦是中央處理單元(CPU)。這些芯片設(shè)計(jì)為按順序一步步執(zhí)行計(jì)算,對(duì)于像Windows和Office這樣的傳統(tǒng)軟件來(lái)說(shuō),這樣的方式完全可以滿足需求。然而,一些視頻游戲需要極高的計(jì)算量,這對(duì)CPU的能力是極大的考驗(yàn)。像《雷神之錘》、《使命召喚》和《俠盜獵車(chē)手》這類游戲尤其如此,它們每秒呈現(xiàn)多個(gè)三維世界畫(huà)面。
因此,玩家們依賴GPU來(lái)提升性能。GPU內(nèi)部有許多執(zhí)行單元——本質(zhì)上是微型的CPU——集成在一個(gè)芯片上。在游戲中,不同的執(zhí)行單元負(fù)責(zé)繪制屏幕的不同區(qū)域。這種并行處理能夠?qū)崿F(xiàn)比單純用CPU更高的圖像質(zhì)量和更高的幀率。
Nvidia在1999年發(fā)明了GPU,并自那時(shí)起一直主導(dǎo)市場(chǎng)。到了2000年代中期,Nvidia的首席執(zhí)行官黃仁勛(Jensen Huang)開(kāi)始懷疑GPU的強(qiáng)大計(jì)算能力是否可以用于游戲以外的應(yīng)用。他希望科學(xué)家們能夠?qū)⑵溆糜谟?jì)算密集型任務(wù),比如天氣模擬或石油勘探。
因此在2006年,Nvidia發(fā)布了CUDA平臺(tái)。CUDA允許程序員編寫(xiě)“內(nèi)核”,即為單個(gè)執(zhí)行單元設(shè)計(jì)的簡(jiǎn)短程序。內(nèi)核可以將龐大的計(jì)算任務(wù)分解為小塊并行處理的任務(wù),從而使某些類型的計(jì)算比單靠CPU更快完成。
然而,正如Steven Witt去年在《紐約客》上所寫(xiě),CUDA最初發(fā)布時(shí)幾乎沒(méi)有引起興趣:
“CUDA在2006年末發(fā)布時(shí),華爾街反應(yīng)冷淡。黃仁勛正在將超級(jí)計(jì)算帶給大眾,但大眾卻似乎并不需要這樣的東西?!?/p>
“他們?cè)谛滦酒軜?gòu)上投入了巨額資金,”《Acquired》這個(gè)硅谷流行播客的共同主持人Ben Gilbert說(shuō)道?!八麄兓藬?shù)十億目標(biāo)瞄準(zhǔn)學(xué)術(shù)和科學(xué)計(jì)算的一個(gè)小眾角落,而這個(gè)市場(chǎng)在當(dāng)時(shí)并不大——遠(yuǎn)小于他們投入的資金?!?/p>
黃仁勛認(rèn)為,CUDA的存在本身就會(huì)擴(kuò)大超級(jí)計(jì)算的市場(chǎng)。但這一觀點(diǎn)并未被廣泛接受,到2008年底,Nvidia的股價(jià)已下跌了70%……
CUDA的下載量在2009年達(dá)到峰值,隨后三年持續(xù)下降。董事會(huì)擔(dān)心Nvidia因股價(jià)低迷會(huì)成為企業(yè)掠奪者的目標(biāo)。
創(chuàng)建CUDA平臺(tái)時(shí),黃仁勛并未特別考慮到AI或神經(jīng)網(wǎng)絡(luò)。然而,事后證明,Hinton的反向傳播算法可以輕松分解為小任務(wù)單元。因此,神經(jīng)網(wǎng)絡(luò)訓(xùn)練最終成了CUDA的“殺手級(jí)應(yīng)用”。
根據(jù)Witt的說(shuō)法,Hinton迅速意識(shí)到CUDA的潛力:
2009年,Hinton的研究小組使用Nvidia的CUDA平臺(tái)訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別人類語(yǔ)音。他對(duì)結(jié)果的質(zhì)量感到驚訝,并在當(dāng)年的一個(gè)會(huì)議上展示了該成果。隨后他聯(lián)系了Nvidia?!拔野l(fā)了一封電子郵件,說(shuō)‘我剛告訴了上千名機(jī)器學(xué)習(xí)研究人員他們應(yīng)該去買(mǎi)Nvidia的顯卡。能給我免費(fèi)發(fā)一個(gè)嗎?’”Hinton告訴我?!八麄冋f(shuō)不行?!?/p>
盡管被拒絕,Hinton和他的研究生Alex Krizhevsky及Ilya Sutskever獲得了一對(duì)Nvidia GTX 580 GPU用于AlexNet項(xiàng)目。每塊GPU都有512個(gè)執(zhí)行單元,使得Krizhevsky和Sutskever能以比CPU快數(shù)百倍的速度訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這一速度使得他們能夠訓(xùn)練一個(gè)更大的模型,并對(duì)更多的訓(xùn)練圖像進(jìn)行訓(xùn)練。而他們需要所有這些額外的計(jì)算能力來(lái)處理龐大的ImageNet數(shù)據(jù)集。
3.李飛飛:顛覆性的大數(shù)據(jù)集 ImageNet
圖片
李飛飛在2007年初加入普林斯頓大學(xué)擔(dān)任計(jì)算機(jī)科學(xué)教授時(shí),并未關(guān)注神經(jīng)網(wǎng)絡(luò)或GPU。在加州理工學(xué)院攻讀博士學(xué)位期間,她創(chuàng)建了名為Caltech 101的數(shù)據(jù)集,其中包含101個(gè)類別的9000張圖片。
這段經(jīng)歷讓她意識(shí)到,計(jì)算機(jī)視覺(jué)算法在用更大、更多樣的數(shù)據(jù)集訓(xùn)練時(shí)表現(xiàn)更佳。不僅她自己的算法在使用Caltech 101訓(xùn)練時(shí)表現(xiàn)出色,其他研究人員也開(kāi)始用她的數(shù)據(jù)集訓(xùn)練模型,并彼此比較性能。這讓Caltech 101成為了計(jì)算機(jī)視覺(jué)領(lǐng)域的基準(zhǔn)數(shù)據(jù)集。
因此,當(dāng)她來(lái)到普林斯頓時(shí),她決定將數(shù)據(jù)集做得更大。她對(duì)視覺(jué)科學(xué)家Irving Biederman的估計(jì)深感興趣:普通人能識(shí)別約30,000種不同類型的物體。李飛飛開(kāi)始思考是否可以構(gòu)建一個(gè)真正全面的圖像數(shù)據(jù)集——一個(gè)包含人們?nèi)粘=佑|的所有物體的數(shù)據(jù)集。
一位普林斯頓的同事向她介紹了WordNet,一個(gè)試圖整理和組織14萬(wàn)個(gè)詞的大型數(shù)據(jù)庫(kù)。李飛飛將她的新數(shù)據(jù)集命名為ImageNet,并用WordNet作為選擇類別的起點(diǎn)。她去掉了動(dòng)詞和形容詞以及像“真理”這樣的抽象名詞。最終,剩下的是一個(gè)包含22,000個(gè)可數(shù)物體的列表,從“救護(hù)車(chē)”到“西葫蘆”不等。
她計(jì)劃沿用在Caltech 101數(shù)據(jù)集中使用的策略:使用Google的圖像搜索來(lái)尋找候選圖像,然后由人類進(jìn)行驗(yàn)證。
她打算采用與 Caltech 101 數(shù)據(jù)集相同的方法:利用 Google 的圖片搜索找到候選圖片,然后由人工進(jìn)行驗(yàn)證。在 Caltech 101 項(xiàng)目中,李飛飛親自花了幾個(gè)月完成了這一工作。這一次,她需要更多的幫助,計(jì)劃雇傭幾十位普林斯頓的本科生來(lái)幫助挑選和標(biāo)注圖片。
即使在大幅優(yōu)化了標(biāo)注流程(例如,預(yù)先下載候選圖片以便學(xué)生可以立即查看)后,李飛飛和她的研究生鄧嘉計(jì)算出,完成數(shù)百萬(wàn)張圖片的篩選和標(biāo)注仍需超過(guò) 18 年的時(shí)間。
這個(gè)項(xiàng)目因亞馬遜 Mechanical Turk 平臺(tái)而得以拯救。李飛飛了解到,亞馬遜推出的眾包平臺(tái) AMT 提供的國(guó)際勞動(dòng)力不僅比普林斯頓的本科生更加經(jīng)濟(jì),而且平臺(tái)更具靈活性和擴(kuò)展性。李的團(tuán)隊(duì)可以根據(jù)需要雇傭任意多的人員,按工作量支付酬勞。
AMT 將完成 ImageNet 的時(shí)間從 18 年縮短到兩年。李飛飛寫(xiě)道,他們的實(shí)驗(yàn)室花了兩年“在資金的刀刃上掙扎”以完成 ImageNet 項(xiàng)目,但資金剛好足夠支付三位人員查看最終數(shù)據(jù)集的每一張 1400 萬(wàn)張圖片。
2009 年,ImageNet 準(zhǔn)備發(fā)布,李飛飛將其提交至當(dāng)年在邁阿密舉辦的計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議。論文被接受了,但并未獲得她期望的關(guān)注。
“ImageNet 被歸入了海報(bào)展示,”李飛飛寫(xiě)道,“這意味著我們不能在演講廳內(nèi)向觀眾展示,而是在會(huì)場(chǎng)中擺放一張大型海報(bào),希望路人停下來(lái)并提出問(wèn)題……在經(jīng)歷了這么多年的努力后,這顯得有些反高潮?!?/p>
為了引起公眾關(guān)注,李飛飛將 ImageNet 打造成一個(gè)比賽。她意識(shí)到,完整數(shù)據(jù)集可能過(guò)于龐大,無(wú)法分發(fā)給幾十位參賽者,因此創(chuàng)建了一個(gè)小得多但依然龐大的數(shù)據(jù)集,包含 1000 個(gè)類別和 140 萬(wàn)張圖片。
2010 年的首次比賽吸引了 11 個(gè)團(tuán)隊(duì)參加。優(yōu)勝作品基于支持向量機(jī)。但李飛飛寫(xiě)道,它“僅略微優(yōu)于該領(lǐng)域的前沿成果”。
第二年參加 ImageNet 比賽的團(tuán)隊(duì)比第一年更少。2011 年的獲勝作品再次是支持向量機(jī),僅比 2010 年的優(yōu)勝者略有改進(jìn)。李飛飛開(kāi)始懷疑批評(píng)者是否正確。也許“ImageNet 對(duì)大多數(shù)算法來(lái)說(shuō)過(guò)于復(fù)雜”。
“連續(xù)兩年中,久經(jīng)考驗(yàn)的算法僅展示了能力的增量增長(zhǎng),而真正的進(jìn)展幾乎不存在,”李飛飛寫(xiě)道。“如果說(shuō) ImageNet 是一次賭注,那么現(xiàn)在該開(kāi)始懷疑我們是否已經(jīng)輸了?!?/p>
然而,2012 年李飛飛勉強(qiáng)再次舉辦比賽時(shí),結(jié)果完全不同。杰弗里·辛頓的團(tuán)隊(duì)率先提交了一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的模型,其 top-5 準(zhǔn)確率達(dá)到了 85%,比 2011 年的獲勝者高出 10 個(gè)百分點(diǎn)。
李飛飛最初的反應(yīng)是難以置信:“我們大多數(shù)人都認(rèn)為神經(jīng)網(wǎng)絡(luò)是一件被玻璃罩和絨布繩保護(hù)起來(lái)的古董?!?/p>
4.“這就是證明”
ImageNet 的獲勝者被安排在佛羅倫薩的歐洲計(jì)算機(jī)視覺(jué)會(huì)議上公布。李飛飛的家在加州,她計(jì)劃缺席會(huì)議,但當(dāng)她看到 AlexNet 在數(shù)據(jù)集上的優(yōu)異表現(xiàn)時(shí),意識(shí)到這一時(shí)刻過(guò)于重要,不容錯(cuò)過(guò):“我最終選擇了一段二十小時(shí)的睡眠不足且擁擠的旅程?!?/p>
在佛羅倫薩的一個(gè)十月的日子里,Alex Krizhevsky 向滿座的計(jì)算機(jī)視覺(jué)研究人員展示了他的成果。李飛飛和楊立昆都在觀眾席中。
凱德·梅茨報(bào)道,演講結(jié)束后,楊立昆站起來(lái)稱 AlexNet 為“計(jì)算機(jī)視覺(jué)史上無(wú)可爭(zhēng)議的轉(zhuǎn)折點(diǎn)。這就是證明。”
AlexNet 的成功驗(yàn)證了辛頓對(duì)神經(jīng)網(wǎng)絡(luò)的信念,但對(duì)于楊立昆來(lái)說(shuō),這無(wú)疑是更大的肯定。
AlexNet 是一種卷積神經(jīng)網(wǎng)絡(luò),這類網(wǎng)絡(luò)由楊立昆在 20 年前開(kāi)發(fā),用于識(shí)別支票上的手寫(xiě)數(shù)字。AlexNet 的架構(gòu)與 1990 年代楊立昆的圖像識(shí)別網(wǎng)絡(luò)幾乎沒(méi)有太大差異。
唯一的區(qū)別在于 AlexNet 的規(guī)模更大。在 1998 年的論文中,楊立昆描述了一個(gè)擁有七層和六萬(wàn)個(gè)可訓(xùn)練參數(shù)的文檔識(shí)別網(wǎng)絡(luò)。而 AlexNet 具有八層,其中包含了六千萬(wàn)個(gè)可訓(xùn)練參數(shù)。
1990 年代初期勒坤不可能訓(xùn)練這么大的模型,因?yàn)楫?dāng)時(shí)沒(méi)有具有 2012 年 GPU 那樣處理能力的計(jì)算機(jī)芯片。即使楊立昆搭建了一臺(tái)足夠大的超級(jí)計(jì)算機(jī),他也不會(huì)有足夠的圖像來(lái)進(jìn)行訓(xùn)練。收集這些圖像在 Google 和亞馬遜 Mechanical Turk 出現(xiàn)之前會(huì)非常昂貴。
這就是李飛飛在 ImageNet 上的工作為何如此重要的原因。她沒(méi)有發(fā)明卷積網(wǎng)絡(luò),也沒(méi)有研究出如何在 GPU 上高效運(yùn)行它們,但她提供了大型神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練數(shù)據(jù),使其能夠?qū)崿F(xiàn)潛力。
科技界立即認(rèn)識(shí)到 AlexNet 的重要性。辛頓和他的學(xué)生創(chuàng)建了一家殼公司,目標(biāo)是被一家大公司“收購(gòu)”。幾個(gè)月內(nèi),谷歌以 4400 萬(wàn)美元收購(gòu)了這家公司。辛頓在谷歌工作了十年,同時(shí)保留了多倫多的學(xué)術(shù)職位。伊利亞·蘇茨克弗在谷歌工作了幾年后成為 OpenAI 的聯(lián)合創(chuàng)始人。
AlexNet 還使得 Nvidia 的 GPU 成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的行業(yè)標(biāo)準(zhǔn)。2012 年,市場(chǎng)對(duì) Nvidia 的估值不足 100 億美元。如今,Nvidia 是全球最有價(jià)值的公司之一,市值超過(guò) 3 萬(wàn)億美元。這一高估值主要由對(duì) H100 等優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練的 GPU 的巨大需求驅(qū)動(dòng)。
5.有時(shí),常識(shí)會(huì)出錯(cuò)
“那一刻對(duì) AI 世界具有象征意義,因?yàn)楝F(xiàn)代 AI 的三大基本要素首次融合,”李飛飛在九月的計(jì)算機(jī)歷史博物館訪談中說(shuō)道。“第一個(gè)要素是神經(jīng)網(wǎng)絡(luò)。第二個(gè)要素是大數(shù)據(jù),即 ImageNet 的使用。第三個(gè)要素是 GPU 計(jì)算?!?/p>
如今,領(lǐng)先的 AI 實(shí)驗(yàn)室認(rèn)為推動(dòng) AI 進(jìn)步的關(guān)鍵在于用大量數(shù)據(jù)集訓(xùn)練巨型模型。大型科技公司急于建造數(shù)據(jù)中心來(lái)訓(xùn)練更大的模型,以至于開(kāi)始租賃整個(gè)核電站來(lái)提供所需的電力。
您可以將其視為 AlexNet 經(jīng)驗(yàn)教訓(xùn)的直接應(yīng)用。但我想我們也許應(yīng)該從 AlexNet 中得出相反的教訓(xùn):過(guò)于依賴傳統(tǒng)觀念是一個(gè)錯(cuò)誤。
在 AlexNet 之后的 12 年里,“Scaling laws”取得了顯著的成果,也許我們將在未來(lái)幾代看到更多令人印象深刻的結(jié)果,因?yàn)轭I(lǐng)先的實(shí)驗(yàn)室繼續(xù)擴(kuò)大其基礎(chǔ)模型。
但我們應(yīng)當(dāng)小心,不要讓 AlexNet 的教訓(xùn)固化成教條。我認(rèn)為,在未來(lái)幾年,“Scaling laws”可能會(huì)失效。如果那時(shí)到來(lái),我們將需要新一代頑固的非傳統(tǒng)主義者來(lái)察覺(jué)到舊方法不起作用并嘗試新的方向。
原文:https://www.understandingai.org/p/why-the-deep-learning-boom-caught
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
