何愷明做科研也emo!最新QA完整版在此
AI大牛何愷明的一句話(huà)火了,他說(shuō):
科研中95%的時(shí)間是令人沮喪的。
什么???就連何愷明都覺(jué)得科研很煎熬?
沒(méi)錯(cuò),此話(huà)正是他最近在香港中文大學(xué)參加一個(gè)講座過(guò)程中所述:
△小紅書(shū)@阿巴阿巴(已授權(quán))
而這只是何愷明這次講座內(nèi)容中的一小部分,隨著網(wǎng)友們陸陸續(xù)續(xù)把其它片段po到小紅書(shū)上,關(guān)于他此次所談及的話(huà)題也逐漸清晰了起來(lái)——
有關(guān)科研,有關(guān)大模型,還有關(guān)AI for Science。
總而言之,片段視頻可謂是發(fā)一個(gè)火??一個(gè),網(wǎng)友們也上演了一出大型追劇現(xiàn)場(chǎng),看得那叫一個(gè)津津有味。

現(xiàn)在,量子位給家人們找來(lái)了完整版視頻!??
我們?cè)诓桓淖冊(cè)獾幕A(chǔ)上,就大家最為感興趣的問(wèn)答環(huán)節(jié)進(jìn)行了梳理。
何愷明完整版問(wèn)題解答

大模型的未來(lái):數(shù)據(jù)效益是個(gè)問(wèn)題
Q:您剛剛(演講)展示的圖片,呈現(xiàn)了深度網(wǎng)絡(luò)加深時(shí),性能先上升后下降的趨勢(shì)。

起初人們可能誤認(rèn)為是過(guò)擬合導(dǎo)致的,就增加數(shù)據(jù)量,問(wèn)題確實(shí)得到了改善。但又發(fā)現(xiàn)當(dāng)神經(jīng)網(wǎng)絡(luò)真的非常深入時(shí),性能還是會(huì)再次下降。而你的研究揭示了這其實(shí)與某種優(yōu)化并不是最佳解決方案有關(guān),基本上涉及三大要素:數(shù)據(jù)量、網(wǎng)絡(luò)深度、模型復(fù)雜度及其優(yōu)化方式。
考慮到現(xiàn)如今的大模型數(shù)據(jù)量比以前要大得多,那么您認(rèn)為可能存在哪些局限性?或者接下來(lái)應(yīng)該如何應(yīng)對(duì)數(shù)據(jù)模型復(fù)雜性和優(yōu)化帶來(lái)的挑戰(zhàn)?
何愷明:通常,我們認(rèn)為增加網(wǎng)絡(luò)的深度和寬度是提高神經(jīng)網(wǎng)絡(luò)模型性能的方法。而在機(jī)器學(xué)習(xí)中,擬合與泛化之間存在權(quán)衡,也就是說(shuō)要實(shí)現(xiàn)適當(dāng)?shù)臄M合并減少過(guò)擬合。
目前要想減少過(guò)擬合、提高泛化,最有效的方法就是增加數(shù)據(jù)量。
雖然大量數(shù)據(jù)的擬合和記憶仍是一個(gè)挑戰(zhàn),但大模型其實(shí)有足夠的能力做到這一點(diǎn),事實(shí)也證明增加數(shù)據(jù)量是減少過(guò)擬合的最佳解決方案。
然而展望未來(lái),數(shù)據(jù)帶來(lái)的效益是否會(huì)降低是個(gè)問(wèn)題。
比如說(shuō),語(yǔ)言數(shù)據(jù)不是憑空產(chǎn)生的,而是由人類(lèi)創(chuàng)造出來(lái)的。你在寫(xiě)一些新的文本時(shí),是帶有想分享信息、創(chuàng)作新知識(shí)等某種目的的。所以文本數(shù)據(jù)中的信息可能比許多其它形式的數(shù)據(jù)中的信息都要更豐富。
而一張新的照片可能并不會(huì)增加太多新的信息。盡管它看起來(lái)可能包含更多的信息,但實(shí)際上你每天用手機(jī)拍攝的內(nèi)容也許只是你的食物或是自拍。
所以不同類(lèi)型的數(shù)據(jù)所含信息量不同,繼續(xù)增加數(shù)據(jù)的回報(bào)可能會(huì)有所減少。我認(rèn)為這將是未來(lái)的一個(gè)開(kāi)放性的問(wèn)題。
Q:您提到如今深度學(xué)習(xí)像是殘差學(xué)習(xí)已廣泛應(yīng)用于多個(gè)領(lǐng)域,例如AlphaGo和AlphaFold等。

回顧一二十年前,研究人員會(huì)專(zhuān)注于研究每一個(gè)具體的小問(wèn)題,手動(dòng)設(shè)計(jì)各種算法。但現(xiàn)如今,大部分問(wèn)題都是由更通用的模型來(lái)學(xué)習(xí)解決的。
那么您認(rèn)為未來(lái)的發(fā)展趨勢(shì)是會(huì)出現(xiàn)一個(gè)能夠處理大多數(shù)任務(wù)的大型預(yù)訓(xùn)練模型,而我們只需對(duì)其進(jìn)行微調(diào)來(lái)適應(yīng)特定的任務(wù)?還是說(shuō)仍然有一些問(wèn)題需要手動(dòng)設(shè)計(jì)或用更具體的領(lǐng)域知識(shí)來(lái)解決?
何愷明:我認(rèn)為這兩個(gè)方向?qū)?huì)同步發(fā)展。
在自然語(yǔ)言處理中,預(yù)訓(xùn)練模型基本上是默認(rèn)方法。但在計(jì)算機(jī)視覺(jué)領(lǐng)域,情況稍有不同,因?yàn)槿藗冞€沒(méi)有提出一個(gè)好的想法來(lái)開(kāi)發(fā)所謂的視覺(jué)基礎(chǔ)模型。
這或許是因?yàn)橐曈X(jué)任務(wù)更為多樣化,而且更重要的是,語(yǔ)言是人類(lèi)智慧的產(chǎn)物,而像素則來(lái)自于自然,這是語(yǔ)言和圖像之間的本質(zhì)區(qū)別。
展望未來(lái),我們希望神經(jīng)網(wǎng)絡(luò)能夠處理更多的問(wèn)題,比如科學(xué)問(wèn)題、蛋白質(zhì)、分子、材料,甚至是在數(shù)學(xué)、化學(xué)和物理中推導(dǎo)方程。
我們希望有通用基礎(chǔ)模型來(lái)解決大部分問(wèn)題,但同時(shí)也期望有專(zhuān)家模型在特定領(lǐng)域推動(dòng)技術(shù)進(jìn)步。
Q:您認(rèn)為AI距離能夠進(jìn)行抽象數(shù)學(xué)研究還有多遠(yuǎn)?如果我們繼續(xù)沿著現(xiàn)在的方向前進(jìn),我們最終會(huì)到達(dá)那個(gè)目標(biāo)嗎?或者您認(rèn)為兩者之間存在一個(gè)根本的鴻溝嗎?
何愷明:坦白說(shuō)我并不是這個(gè)方向的專(zhuān)家,但是可能有兩種方法可以實(shí)現(xiàn)。一種是只是訓(xùn)練一個(gè)大模型,然后希望這個(gè)模型能夠自行解決問(wèn)題,但我不認(rèn)為這是一個(gè)有前景的方向。
另一個(gè)方向是,如果你為大模型配備了一些代碼等能力,比如ChatGPT代碼解釋器。也就是說(shuō)允許語(yǔ)言模型編寫(xiě)代碼,這些代碼可以進(jìn)行一些計(jì)算或是符號(hào)操作,然后那種計(jì)算可以給模型提供反饋。這樣的話(huà),模型可以決定下一步要做什么。我認(rèn)為這是一個(gè)更有前景的方法。
我們也可以考慮這樣一個(gè)情境,如果我們回到牛頓時(shí)代,我們有那個(gè)時(shí)代的所有文本和數(shù)據(jù),并且在那個(gè)時(shí)代訓(xùn)練了一個(gè)大語(yǔ)言模型,有一天這個(gè)模型是否可以告訴我們牛頓定律?
如果我們能做到這一點(diǎn),那么如果我們只給它今天的數(shù)據(jù),它會(huì)告訴我們一些還不知道的定律嗎?我認(rèn)為這是非常高水平的人工智能。這是一個(gè)終極目標(biāo)。
Q:您如何看待AI在藝術(shù)和人文學(xué)科中的未來(lái)應(yīng)用?
何愷明:我不是這方面的專(zhuān)家??雌饋?lái)藝術(shù)和人文真的是人類(lèi)大腦中非常特殊的領(lǐng)域。我認(rèn)為問(wèn)題應(yīng)該是,人類(lèi)大腦與AI之間的根本區(qū)別是什么。
如果有一天我們可以物理地復(fù)制我們的大腦,但我們稱(chēng)其為機(jī)器,那么那個(gè)大腦所做的事情可以稱(chēng)之為藝術(shù)或人文嗎?還是我們應(yīng)該繼續(xù)稱(chēng)其為人工輸出呢?我認(rèn)為這是一個(gè)哲學(xué)問(wèn)題,更像是一個(gè)科幻問(wèn)題。
未來(lái)三年研究重點(diǎn):視覺(jué)自監(jiān)督學(xué)習(xí)
Q:您未來(lái)三年的研究重點(diǎn)是什么?
何愷明:基本上,我會(huì)做所有事情。如今自然語(yǔ)言處理取得了很大成功,因?yàn)槿藗兛梢栽谡Z(yǔ)言數(shù)據(jù)上進(jìn)行自監(jiān)督學(xué)習(xí),但計(jì)算機(jī)視覺(jué)尚未完全解決這一問(wèn)題。
所以,我一直努力讓計(jì)算機(jī)視覺(jué)復(fù)制這種成功,也就是說(shuō)我想讓視覺(jué)自監(jiān)督學(xué)習(xí)也取得成功。
那么,成功的定義是什么呢?我希望看到與語(yǔ)言模型相同的規(guī)模效應(yīng):只是增加模型的大小、數(shù)據(jù)量,就能看到視覺(jué)模型具有更強(qiáng)大的能力。
不幸的是,這種情況尚未實(shí)現(xiàn)。如今,語(yǔ)言模型非常成功,視覺(jué)加上語(yǔ)言也非常成功。但對(duì)于計(jì)算機(jī)視覺(jué)來(lái)說(shuō),這還沒(méi)有實(shí)現(xiàn)。所以,這將是我接下來(lái)三年,甚至可能是我整個(gè)職業(yè)生涯的研究重點(diǎn)。
Q:您提到想要探索圖像領(lǐng)域的自監(jiān)督。在自然語(yǔ)言處理中,句子詞匯中已經(jīng)包含了一些語(yǔ)義知識(shí),但在圖像中像素只是像RGB這樣,實(shí)際上不包含任何語(yǔ)義知識(shí),它們來(lái)自自然。
所以我想知道,是否有只來(lái)自于圖像本身的監(jiān)督?我也想知道如何定義這種自監(jiān)督?
何愷明:我認(rèn)為這是語(yǔ)言與視覺(jué)之間的根本區(qū)別,這也是我們想要解決但迄今尚未能解決的主要問(wèn)題。我認(rèn)為表示學(xué)習(xí)中最困難的部分是如何在語(yǔ)言問(wèn)題中進(jìn)行抽象和壓縮,這部分工作人類(lèi)已經(jīng)完成了。
圖像這方面,來(lái)自傳感器的輸入比語(yǔ)言更加自然,因此模型需要自己來(lái)完成壓縮和抽象的工作,這仍然是一個(gè)未解決的問(wèn)題。
另一方面,我也認(rèn)為僅從像素或圖像、視頻中進(jìn)行自監(jiān)督學(xué)習(xí)是不夠的。比如動(dòng)物可以看到這個(gè)世界,但動(dòng)物也會(huì)從這個(gè)世界中獲得其它反饋。所以它們可以采取行動(dòng),可以為了生存尋找食物、逃離捕食。所以它們有很多其它形式的信號(hào)、監(jiān)督或從環(huán)境中獲得的獎(jiǎng)勵(lì),并不僅僅是視覺(jué)。
然后,我認(rèn)為我們現(xiàn)在的視覺(jué)系統(tǒng)缺乏來(lái)自環(huán)境的反饋,這可能是視覺(jué)自監(jiān)督學(xué)習(xí)的下一個(gè)研究主題。
選擇課題的標(biāo)準(zhǔn):好奇心和熱情
Q:如何找到一個(gè)好的研究課題,可以發(fā)表為CVPR的那種?
何愷明:我認(rèn)為發(fā)表不應(yīng)該是最終的目標(biāo)。發(fā)表應(yīng)該是研究成果的起點(diǎn),但不是終點(diǎn)。你的論文生命周期從發(fā)表的那一刻開(kāi)始,我希望你能有這樣的預(yù)期。
但我還是會(huì)回答如何選擇研究課題,并希望你能將其發(fā)表。
我認(rèn)為選擇課題最重要的標(biāo)準(zhǔn)是你對(duì)問(wèn)題的好奇心和熱情。
好奇心是人類(lèi)推進(jìn)科學(xué)進(jìn)步、探索未知問(wèn)題的根本原因。我不關(guān)心是否發(fā)表,我只關(guān)心為什么這個(gè)問(wèn)題會(huì)這樣表現(xiàn),我只關(guān)心我如何解決這個(gè)問(wèn)題。如果我發(fā)現(xiàn)了答案,那么可能就有了一篇論文;如果我沒(méi)能解決,那么也許只是有一篇小幅進(jìn)展的論文,但那都不重要。
好奇心和熱情才應(yīng)該是我們研究生涯的重心。
Q:您在研究中是如何保持好奇心和熱情的?對(duì)我來(lái)說(shuō),如果我發(fā)現(xiàn)實(shí)驗(yàn)中出現(xiàn)了錯(cuò)誤,我必須重新進(jìn)行所有實(shí)驗(yàn),那真的很崩潰。
何愷明:我認(rèn)為研究本就充滿(mǎn)了挫折、失敗和沮喪。實(shí)際上,它包含了你能想到的所有負(fù)面詞匯,這就是事實(shí)。如果你沒(méi)有經(jīng)歷過(guò)這些,那意味著你并沒(méi)有進(jìn)行最好的研究。
我的生活就是這樣,我有大約95%的時(shí)間都很失望,然后我會(huì)花5%的時(shí)間完成那篇論文,接著進(jìn)入下一個(gè)循環(huán),不斷經(jīng)歷沮喪、挫敗和焦慮,直到下一項(xiàng)工作完成。享受那5%的時(shí)光,如此反復(fù)。
“AI將成為幾乎所有事情的基礎(chǔ)工具”
Q:我聽(tīng)說(shuō)您打算研究AI for Science,我對(duì)此非常感興趣。比如說(shuō),各學(xué)科領(lǐng)域的人都學(xué)習(xí)AI,然后用這些模型進(jìn)行一些研究;計(jì)算機(jī)科學(xué)領(lǐng)域的人也與其他科學(xué)領(lǐng)域的人合作發(fā)表論文。您對(duì)此有什么看法呢?
何愷明:我相信AI會(huì)成為幾乎所有領(lǐng)域的基礎(chǔ)工具?;叵爰s四五十年前,那時(shí)幾乎沒(méi)有計(jì)算機(jī)科學(xué)系,你可能需要在專(zhuān)門(mén)的計(jì)算機(jī)科學(xué)機(jī)構(gòu)里學(xué)習(xí)一些有關(guān)計(jì)算機(jī)科學(xué)的知識(shí)。
但現(xiàn)在想想,基本上每一個(gè)學(xué)科都與某種計(jì)算、計(jì)算機(jī)程序、模擬、數(shù)據(jù)分析有關(guān)。因此,計(jì)算機(jī)科學(xué)現(xiàn)在實(shí)際上幾乎是每一個(gè)學(xué)科、每一個(gè)領(lǐng)域的工具。
所以,我預(yù)測(cè)在接下來(lái)的十年或是二十年內(nèi),AI將是下一代計(jì)算機(jī)科學(xué),AI將成為幾乎所有事情的基礎(chǔ)工具。也許你不需要擁有一個(gè)有關(guān)AI的學(xué)位,也不需要進(jìn)入一個(gè)專(zhuān)門(mén)的AI機(jī)構(gòu)來(lái)學(xué)習(xí)有關(guān)AI的知識(shí),但你會(huì)在你的科學(xué)問(wèn)題中用AI發(fā)現(xiàn)新的模式、新的行為、新的現(xiàn)象。
我非常期待這一切的發(fā)生,這是我的目標(biāo),也是我對(duì)AI for Science的期望。
Q:您剛剛提到了這方面可能會(huì)產(chǎn)生的一些具體的應(yīng)用。但是對(duì)于某些領(lǐng)域來(lái)說(shuō),數(shù)據(jù)量可能較小,數(shù)據(jù)質(zhì)量可能也很低,這種情況您怎么看?
何愷明:數(shù)據(jù)量的大小都是相對(duì)的。比如圖像數(shù)據(jù)集,按照一二十年前的標(biāo)準(zhǔn)看現(xiàn)在的數(shù)據(jù)集可能是龐大的,但按今天的標(biāo)準(zhǔn)看它們相對(duì)較小。
我認(rèn)為數(shù)據(jù)量的大小和相關(guān)的算法是相輔相成的,它們以一種螺旋式的方式相互促進(jìn)。
也就是說(shuō),如果你有一定量的數(shù)據(jù),你就會(huì)為它們開(kāi)發(fā)算法。而當(dāng)你發(fā)現(xiàn)你的算法可以從更多的數(shù)據(jù)中受益時(shí),你可能會(huì)開(kāi)始收集更多的數(shù)據(jù),然后再根據(jù)新數(shù)據(jù)改進(jìn)你的算法,如此往復(fù)。
所以,我認(rèn)為這既是數(shù)據(jù)問(wèn)題,也是算法問(wèn)題。
Q:我看到ResNet的關(guān)鍵在于最大化地保持信號(hào),我對(duì)此很感興趣。我正在研究構(gòu)建光子神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)它與模擬計(jì)算非常吻合,我們應(yīng)該最大限度地保持信號(hào)強(qiáng)度,我認(rèn)為這是很有創(chuàng)意的,殘差學(xué)習(xí)在模擬計(jì)算中將具有巨大的潛力。您對(duì)此有什么看法?
何愷明:我不確定我是否正確地理解了你的問(wèn)題。我的評(píng)論是這樣的,當(dāng)今的人工神經(jīng)網(wǎng)絡(luò)最初是受到生物神經(jīng)網(wǎng)絡(luò)的啟發(fā),但隨后這兩個(gè)方向開(kāi)始發(fā)散。
人工神經(jīng)網(wǎng)絡(luò)是專(zhuān)門(mén)為某些應(yīng)用或數(shù)據(jù)集而設(shè)計(jì)的,有的可能不具有生物學(xué)起源,像殘差連接就是這樣的。
但有趣的是,實(shí)際上還有許多并行的研究是關(guān)于映射人腦或動(dòng)物腦中的連接模式。相關(guān)研究有時(shí)被稱(chēng)為“連接學(xué)”之類(lèi)的術(shù)語(yǔ)。
人們?cè)谀切┤祟?lèi)或動(dòng)物的神經(jīng)網(wǎng)絡(luò)中發(fā)現(xiàn)了與當(dāng)今最先進(jìn)的人工神經(jīng)網(wǎng)絡(luò)非常相似的模式。這些模式包括長(zhǎng)距離跳過(guò)連接、循環(huán)連接和其他類(lèi)型的反饋連接。
所以我認(rèn)為人工智能與認(rèn)知科學(xué)或腦科學(xué)可以相互受益。人腦中的發(fā)現(xiàn)可以啟發(fā)我們的AI設(shè)計(jì)。但另一方面,AI網(wǎng)絡(luò)中的成功實(shí)踐也可以啟發(fā)科學(xué)家更好地解釋我們的大腦。
用疑問(wèn)解答AI模型可解釋性問(wèn)題
Q:我的問(wèn)題是關(guān)于AI模型的可解釋性。我發(fā)現(xiàn)一些AI模型表現(xiàn)得非常好,在某些指標(biāo)上可以超越人類(lèi)。然而,我們?nèi)绾谓忉孉I模型的整體行為呢?我們是否可以對(duì)AI模型進(jìn)行準(zhǔn)確的預(yù)測(cè),以及我們的AI模型是否真的可以變得非常可靠?我想知道您如何看待這個(gè)問(wèn)題。
何愷明:我想問(wèn)你一個(gè)問(wèn)題,當(dāng)你乘坐出租車(chē)時(shí),為什么你會(huì)信任一個(gè)人類(lèi)司機(jī)?這位司機(jī)一般對(duì)你來(lái)說(shuō)是個(gè)陌生人,你并不了解他,你只知道他是個(gè)人類(lèi)。
你會(huì)信任他是因?yàn)槟阌X(jué)得他的大腦是可以解釋的?還是因?yàn)槟阏J(rèn)為一個(gè)經(jīng)過(guò)良好培訓(xùn)、有豐富實(shí)踐經(jīng)驗(yàn)的人類(lèi)司機(jī)在實(shí)際操作中大概率會(huì)做得很好?
我并不需要你的答案,這是我的疑問(wèn)。人們也問(wèn)過(guò)同樣的問(wèn)題。為什么我們信任飛機(jī)?是因?yàn)槲覀冇凶銐虻奈锢矶苫驍?shù)學(xué)推導(dǎo)可以確保飛機(jī)在空中飛行,還是因?yàn)轱w機(jī)已經(jīng)在空中被測(cè)試了數(shù)百萬(wàn)次?
所以我相信,可解釋性是一個(gè)非常好的屬性,我真心鼓勵(lì)大家去追求它。但另一方面,我們需要認(rèn)識(shí)到,我們系統(tǒng)的成功大部分也是基于實(shí)證來(lái)推動(dòng)或驗(yàn)證的。
One More Thing
何愷明博士畢業(yè)12年,再回港中文,校友們激動(dòng)追星,會(huì)廳外面排滿(mǎn)了人。
有人表示提前一個(gè)小時(shí)去都搶不到位置:

前不久何愷明在美國(guó)MIT開(kāi)展求職演講時(shí),也是同樣的場(chǎng)面。身處現(xiàn)場(chǎng)的聽(tīng)眾朋友傳消息道,有同學(xué)提前3個(gè)小時(shí)已經(jīng)蹲在門(mén)口排隊(duì)了。
演講開(kāi)始前半個(gè)小時(shí),門(mén)口的隊(duì)伍據(jù)說(shuō)都打了好幾個(gè)彎……

果然,AI大牛何愷明走到哪兒火??到哪兒。
視頻鏈接:https://cutv.cpr.cuhk.edu.hk/detail/1572?t=dr-kaiming-he-2023-future-science-prize-laureates-lecture




























