李飛飛最新訪談:沒(méi)有空間智能,AGI就不完整
這是“AI教母”李飛飛在最新訪談中對(duì)AGI的判斷——是的,李飛飛也開(kāi)始談?wù)揂GI了。
不過(guò)她有自己的表述,從進(jìn)入人工智能領(lǐng)域開(kāi)始,她就確定了她終身奮斗的夢(mèng)想:讓智能體能夠講述世界的故事。
而這,離不開(kāi)空間智能。
圖片
正如她本人所說(shuō):
我整個(gè)職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問(wèn)題。
李飛飛如今聚焦于空間智能領(lǐng)域——這個(gè)人工智能最艱難的領(lǐng)域之一。
她認(rèn)為3D世界建模對(duì)于實(shí)現(xiàn)AGI至關(guān)重要,并表示:
理解三維世界、生成三維世界、推理三維世界、在三維世界中做事,是人工智能的基本問(wèn)題。
她的目標(biāo)是創(chuàng)建一個(gè)超越平面像素、跨越語(yǔ)言障礙、能夠真正捕捉三維世界結(jié)構(gòu)和空間智能的世界模型。
在這次對(duì)話中,她從ImageNet的起源和影響說(shuō)起,講述了AI范式轉(zhuǎn)變與關(guān)鍵突破,并提到了3D建模面臨的挑戰(zhàn)以及空間智能的數(shù)據(jù)缺失問(wèn)題。
量子位翻譯并總結(jié)了全文,讓我們一起來(lái)學(xué)習(xí)李飛飛的最新認(rèn)知和分享。
ImageNet為現(xiàn)代計(jì)算機(jī)視覺(jué)搭建數(shù)據(jù)骨架
Q:你最早創(chuàng)建的項(xiàng)目之一是2009年的ImageNet,距今已有16年了。那篇文章有超過(guò)8萬(wàn)次引用,真正觸及了人工智能的一個(gè)關(guān)鍵問(wèn)題,即數(shù)據(jù)問(wèn)題。請(qǐng)告訴我們那個(gè)項(xiàng)目是如何產(chǎn)生的——在那會(huì)兒,這可是開(kāi)創(chuàng)性的工作。
李飛飛:實(shí)際上,我們構(gòu)思這個(gè)(ImageNet)已經(jīng)是幾乎18年前的事情了。我曾在普林斯頓大學(xué)擔(dān)任助理教授,當(dāng)時(shí)人工智能和機(jī)器學(xué)習(xí)的世界完全不同,數(shù)據(jù)非常少,至少在計(jì)算機(jī)視覺(jué)領(lǐng)域,算法并不起作用——那里沒(méi)有產(chǎn)業(yè)。你知道,就公眾而言,AI這個(gè)詞并不存在。

但是我們中間仍有一些人——從AI的創(chuàng)始人開(kāi)始——然后是John McCarthy、Geoffrey Hinton等人。我想我們只是做了一個(gè)人工智能的夢(mèng):我們真的真的想讓機(jī)器能夠思考和行動(dòng)。而我個(gè)人的夢(mèng)想就是想讓機(jī)器能夠看見(jiàn),因?yàn)?/span>看見(jiàn)是智能的基石。
視覺(jué)智能不僅僅是感知,它的真正意義在于理解世界并在世界中行動(dòng)。我癡迷于讓機(jī)器看見(jiàn)的問(wèn)題,在我當(dāng)時(shí)癡迷地開(kāi)發(fā)機(jī)器學(xué)習(xí)算法時(shí),我們嘗試了神經(jīng)網(wǎng)絡(luò),但它沒(méi)有成功,然后我們轉(zhuǎn)向基礎(chǔ)網(wǎng)絡(luò)來(lái)支持向量機(jī)。
但有一個(gè)問(wèn)題一直困擾著我,那就是泛化的問(wèn)題:如果你在機(jī)器學(xué)習(xí)領(lǐng)域工作,你必須認(rèn)識(shí)到泛化是機(jī)器學(xué)習(xí)的核心數(shù)學(xué)基礎(chǔ)或目標(biāo)。為了泛化,這些算法需要數(shù)據(jù)。但當(dāng)時(shí)還沒(méi)有人在計(jì)算機(jī)視覺(jué)領(lǐng)域有數(shù)據(jù),而我是第一批開(kāi)始接觸數(shù)據(jù)的研究生,因?yàn)槲沂亲钤缈吹交ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)大發(fā)展的那一代研究生。
時(shí)間快進(jìn)到21世紀(jì),大約在2007年前后,我和我的學(xué)生決定,我們必須進(jìn)行一次大膽的賭注:我們必須賭機(jī)器學(xué)習(xí)需要一次范式轉(zhuǎn)變,而這個(gè)轉(zhuǎn)變必須由數(shù)據(jù)驅(qū)動(dòng)的方法引領(lǐng),但當(dāng)時(shí)根本沒(méi)有數(shù)據(jù)。
所以我們想,好吧,去互聯(lián)網(wǎng)上下載十億張圖片——那是當(dāng)時(shí)我們能獲取到的最大數(shù)量——然后創(chuàng)建整個(gè)世界的視覺(jué)分類體系,并用這個(gè)來(lái)訓(xùn)練和評(píng)估機(jī)器學(xué)習(xí)算法。這就是ImageNet被構(gòu)想出來(lái)并誕生的原因。
自然語(yǔ)言與視覺(jué)信號(hào)的融合,讓智能體能夠講述世界的故事
Q:這個(gè)過(guò)程持續(xù)了一段時(shí)間,才發(fā)展出一些有前景的算法,直到2012年AlexNet出現(xiàn),這才構(gòu)成了通往人工智能的第二個(gè)關(guān)鍵部分——獲得計(jì)算能力,并投入足夠的資源到算法中。請(qǐng)告訴我們,您是什么時(shí)候開(kāi)始意識(shí)到這一點(diǎn)的?就是當(dāng)你發(fā)現(xiàn)“用數(shù)據(jù)播種”的方法開(kāi)始奏效,整個(gè)AI社區(qū)在此基礎(chǔ)上取得了更多突破性進(jìn)展的那個(gè)時(shí)刻。
李飛飛:在2009年,我們發(fā)表了一個(gè)非常小的CVPR海報(bào),然后在2009年到2012年之間,那三年我們真的相信數(shù)據(jù)會(huì)驅(qū)動(dòng)人工智能,但我們幾乎沒(méi)有關(guān)于它是否有效的信號(hào)。所以我們做了一些事情,其中一件就是開(kāi)源。從一開(kāi)始我們就相信,必須將這個(gè)項(xiàng)目開(kāi)源給整個(gè)研究界,讓所有人都能參與進(jìn)來(lái)。
另一件事情是,我們發(fā)起了一個(gè)挑戰(zhàn)賽,希望全世界最聰明、最優(yōu)秀的學(xué)生和研究人員都能來(lái)解決這個(gè)問(wèn)題。這就是我們所說(shuō)的ImageNet挑戰(zhàn)賽。我們每年都會(huì)發(fā)布一個(gè)測(cè)試數(shù)據(jù)集,然后公開(kāi)邀請(qǐng)所有人參與。最初幾年其實(shí)是在建立基準(zhǔn)線——當(dāng)時(shí)的識(shí)別錯(cuò)誤率徘徊在30%左右,雖然不算完全隨機(jī)猜測(cè)的水平,但確實(shí)不盡如人意。
圖片
但是,在第三年也就是2012年(我在一本我出版的書(shū)中寫(xiě)到了這一點(diǎn)),我依然記得那是在夏天快要結(jié)束的時(shí)候,我們正在處理ImageNet挑戰(zhàn)賽的所有結(jié)果,并在我們的服務(wù)器上運(yùn)行,然后有一天深夜,我收到了我研究生的消息:他說(shuō)我們得到了一個(gè)特別特別突出的結(jié)果,我應(yīng)該看看。于是我們仔細(xì)研究了它,那是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuronet network)之類的。
當(dāng)時(shí)Geoffrey Hinton的團(tuán)隊(duì)還不叫Alex這個(gè)名字,他們當(dāng)時(shí)命名為“SuperVision”,這是對(duì)“超級(jí)視覺(jué)”和“監(jiān)督學(xué)習(xí)”的巧妙雙關(guān),所以“SuperVision”。
讓我們看看他們做了什么——這是一個(gè)老算法,卷積神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代問(wèn)世,而他們?cè)谒惴ㄉ献龀隽艘恍┱{(diào)整。最初看到這樣的飛躍變化,對(duì)我們來(lái)說(shuō)還是挺令人驚訝的,嗯,你們知道,我們?cè)谀且荒甑囊獯罄鹆_倫薩ICCV挑戰(zhàn)研討會(huì)上展示了這個(gè),Alex Krizhevsky和很多研究者都來(lái)了。
圖片
如今這一刻已經(jīng)被載入史冊(cè),被稱為“ImageNet挑戰(zhàn)賽的AlexNet時(shí)刻”——這不僅僅是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,這是Alex和他的團(tuán)隊(duì)第一次將兩個(gè)GPU并聯(lián)用于深度學(xué)習(xí)計(jì)算的壯舉。所以這實(shí)際上是數(shù)據(jù)、GPU和神經(jīng)網(wǎng)絡(luò)第一次結(jié)合的時(shí)刻。
Q:現(xiàn)在,順著計(jì)算機(jī)視覺(jué)智能發(fā)展的趨勢(shì),ImageNet真正成為解決物體識(shí)別概念的關(guān)鍵,然后緊接著,人工智能也達(dá)到了能夠解析視覺(jué)場(chǎng)景的程度。因?yàn)槟愫湍愕膶W(xué)生,比如Andrej Kaparthy,做了很多重要工作,讓AI首次實(shí)現(xiàn)了場(chǎng)景描述的能力。請(qǐng)告訴我們物體到場(chǎng)景是如何轉(zhuǎn)變的。
李飛飛:ImageNet解決的核心問(wèn)題是:當(dāng)系統(tǒng)接收一張圖像時(shí),能夠準(zhǔn)確識(shí)別其中的物體,比如“這里有一只貓”“那是一把椅子”等等。這是視覺(jué)識(shí)別中的一個(gè)基本問(wèn)題。
從我作為研究生進(jìn)入人工智能領(lǐng)域開(kāi)始,我就有一個(gè)夢(mèng)想,我認(rèn)為這是一個(gè)長(zhǎng)達(dá)一百年的夢(mèng)想,即讓智能體能夠講述世界的故事:當(dāng)你在這個(gè)房間睜開(kāi)眼睛時(shí),你看見(jiàn)的不僅僅是人、椅子、椅子和椅子,你實(shí)際上可以看到一整個(gè)會(huì)議室,有屏幕、有舞臺(tái)、有人、有觀眾,還有攝像機(jī)……你實(shí)際上能描述你看到的整個(gè)場(chǎng)景。這是人類視覺(jué)智能的基礎(chǔ)能力,對(duì)我們的日常生活來(lái)說(shuō)至關(guān)重要。
所以我真的認(rèn)為這個(gè)問(wèn)題會(huì)困擾我的一生,字面意義上的,當(dāng)我作為研究生畢業(yè)時(shí),我告訴自己,如果我在臨終前能夠創(chuàng)造一個(gè)能夠講述場(chǎng)景故事的算法,我就成功了。
隨著Alex時(shí)刻的到來(lái),深度學(xué)習(xí)迎來(lái)了爆發(fā)式發(fā)展。當(dāng)Andrej和后來(lái)的Justin Johnson進(jìn)入我的實(shí)驗(yàn)室時(shí),我們開(kāi)始觀察到自然語(yǔ)言與視覺(jué)信號(hào)相互融合的跡象。隨后,我和Andrej提出了為圖像添加字幕或講故事的問(wèn)題。長(zhǎng)話短說(shuō),2015年左右,Andrej和我發(fā)表了一系列論文,同期也有幾篇類似研究,關(guān)于制造一臺(tái)可以為圖像添加字幕的計(jì)算機(jī)。那時(shí)我的感受是,天啊,我該怎么度過(guò)我的余生?那是我一生的目標(biāo),那對(duì)我們兩個(gè)人來(lái)說(shuō)都是難以置信的時(shí)刻。
去年我做了一個(gè)TED演講,我實(shí)際上使用了Andrej幾年前在完成圖像字幕工作時(shí)發(fā)的推文,基本上就是他的論文。我還和他開(kāi)了個(gè)玩笑,我說(shuō):“嘿Andrej,我們?yōu)槭裁床环催^(guò)來(lái)做呢?取一個(gè)句子然后生成一張圖片。”當(dāng)然他知道我在開(kāi)玩笑,他說(shuō):“哈哈,我要走了~這個(gè)世界還沒(méi)有準(zhǔn)備好?!笨爝M(jìn)到今天,我們都知道生成式AI了,現(xiàn)在我們可以用一句話生成美麗的圖片。所以這個(gè)故事的寓意是,AI已經(jīng)取得了不可思議的增長(zhǎng)。
我個(gè)人認(rèn)為我是世界上最幸運(yùn)的人,因?yàn)槲业恼麄€(gè)職業(yè)生涯始于AI寒冬結(jié)束的初期,也就是AI開(kāi)始騰飛的起點(diǎn),而我自己的工作、我自己的職業(yè)生涯有很大一部分都參與了這一變革,或者為這一變革提供了助力。所以我感到非常幸運(yùn)和自豪。
沒(méi)有空間智能,通用智能就不完整
Q:我認(rèn)為最瘋狂的事情是,即使你實(shí)現(xiàn)了你一生的夢(mèng)想——描述場(chǎng)景,甚至用擴(kuò)散模型生成它們——你實(shí)際上還在夢(mèng)想更大的事情,因?yàn)檎麄€(gè)計(jì)算機(jī)視覺(jué)的發(fā)展歷程從物體變成了場(chǎng)景,而現(xiàn)在這個(gè)概念是整個(gè)世界,而你決定從學(xué)術(shù)界成為教授,到現(xiàn)在成為World Labs的創(chuàng)始人和CEO。請(qǐng)告訴我們,有什么是比看見(jiàn)物體更難的事情?
李飛飛:要總結(jié)過(guò)去五六年的經(jīng)歷真的很難,我們正生活在科技進(jìn)步的這樣一個(gè)文明時(shí)刻,對(duì)吧?而作為計(jì)算機(jī)視覺(jué)科學(xué)家,我們見(jiàn)證了計(jì)算機(jī)視覺(jué)從圖像識(shí)別到圖像描述再到使用擴(kuò)散技術(shù)進(jìn)行圖像生成的驚人發(fā)展,這一切都在以一種非常令人興奮的方式發(fā)生。
圖片
我們還有另一個(gè)同樣令人興奮的領(lǐng)域,那就是語(yǔ)言,也就是LLMs,2022年11月,ChatGPT打開(kāi)了真正能夠通過(guò)圖靈測(cè)試的工作生成模型的大門。對(duì)我來(lái)說(shuō),這個(gè)進(jìn)展非常鼓舞人心,即使是像我這樣年紀(jì)的人,也會(huì)大膽地思考未來(lái)會(huì)怎樣。
作為一名計(jì)算機(jī)視覺(jué)科學(xué)家,我有一個(gè)習(xí)慣——我的很多靈感其實(shí)都來(lái)自進(jìn)化論和腦科學(xué)——在我的職業(yè)生涯中,我常常在尋找下一個(gè)要解決的目標(biāo)問(wèn)題,我問(wèn)我自己,進(jìn)化論做了什么,腦發(fā)育做了什么。有一點(diǎn)非常值得注意或者說(shuō)值得欣賞的事情是,非常寬泛地來(lái)說(shuō),人類語(yǔ)言的進(jìn)化發(fā)展大約花了3億年到5億年,還不到十億年,而且基本上人類是唯一擁有復(fù)雜語(yǔ)言的動(dòng)物。我們可以爭(zhēng)論動(dòng)物是否具有語(yǔ)言,但就語(yǔ)言作為交流、推理、抽象的工具而言,真正擁有語(yǔ)言的是人類,這花費(fèi)的時(shí)間還不到5億年。
但想想視覺(jué),想想理解三維世界的能力,弄清楚在這個(gè)三維世界中該做什么、導(dǎo)航三維世界、與三維世界互動(dòng)、理解三維世界、交流三維世界……這個(gè)進(jìn)化持續(xù)了5.4億年。5.4億年前,首批三葉蟲(chóng)在水下進(jìn)化出了視覺(jué)感知能力,而正是視覺(jué)的出現(xiàn)引爆了這場(chǎng)進(jìn)化的軍備競(jìng)賽。在視覺(jué)誕生前的五億年間,地球上的生物都極其簡(jiǎn)單。但在隨后的5億年,也就是在這5.4億年里——正因生物獲得了觀察世界、理解世界的能力——進(jìn)化競(jìng)賽正式開(kāi)啟,動(dòng)物智能開(kāi)始相互競(jìng)爭(zhēng)。
所以對(duì)我來(lái)說(shuō),解決空間智能的問(wèn)題:如何理解三維世界、生成三維世界、推理三維世界、在三維世界中做事,是人工智能的基本問(wèn)題。在我看來(lái),沒(méi)有空間智能,通用人工智能就不完整。我想要解決這個(gè)問(wèn)題:這涉及到創(chuàng)造性的世界模型,它超越了平面像素、超越了語(yǔ)言,是真正捕捉三維世界的結(jié)構(gòu)和空間智能的世界模型。
我一生中最幸運(yùn)的事,就是無(wú)論我年紀(jì)多大,總能和最優(yōu)秀的年輕人共事。所以,你知道的,我和三位了不起的年輕但世界級(jí)的技術(shù)專家——Justin Johnson、Ben Mildenhall和Christoph Lassner共同創(chuàng)立了一家科技公司,我們即將嘗試解決在我看來(lái)目前AI領(lǐng)域中最困難的問(wèn)題。
Q:那真是令人難以置信的天賦,我是說(shuō),Chris,他是Pulsar的創(chuàng)造者,而Pulsar是Gosh和Splats的雛形,可以進(jìn)行大量可區(qū)分的渲染;你的前學(xué)生Justin Johnson擁有超強(qiáng)的系統(tǒng)工程思維,實(shí)現(xiàn)了實(shí)時(shí)神經(jīng)風(fēng)格遷移;然后是Ben,他是Nerf的作者。所以這是一支超級(jí)精銳團(tuán)隊(duì),而你需要這樣的一支超級(jí)精銳團(tuán)隊(duì)。我們之前稍微聊過(guò),實(shí)際上,視覺(jué)任務(wù)在某些方面比LLM更難——也許這話說(shuō)出來(lái)有些爭(zhēng)議,但畢竟LLMs基本上是一維的,而你談?wù)摰氖抢斫馊S世界的結(jié)構(gòu)。為什么這會(huì)如此困難并且落后于語(yǔ)言的研究呢?
李飛飛:我很感謝你能體會(huì)到我們的問(wèn)題有多困難,哈哈。語(yǔ)言在本質(zhì)上是一維的對(duì)吧?那些音節(jié)按照順序排列,這就是為什么序列到序列、序列建模如此經(jīng)典。還有一些人們沒(méi)有意識(shí)到的語(yǔ)言方面的東西:語(yǔ)言純粹是生成性的。自然界中不存在語(yǔ)言,你無(wú)法觸碰或者看見(jiàn)語(yǔ)言,語(yǔ)言源自每個(gè)人的大腦,而這是一種純粹的生成信號(hào)——當(dāng)然,你把它寫(xiě)在紙上,它就存在了。
但是語(yǔ)言的生成、構(gòu)建和效用是非常具有創(chuàng)造性的,現(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。首先,現(xiàn)實(shí)世界是3D的。如果加上時(shí)間,那就是4D,但就讓我們局限于空間吧,認(rèn)為世界本質(zhì)上是3D的,這本身就是一個(gè)組合難度更大的問(wèn)題;
其次,視覺(jué)對(duì)世界的感知和接收是一種投射,無(wú)論是你的眼睛、視網(wǎng)膜還是相機(jī),它總是將3D轉(zhuǎn)換為2D,你得明白這有多難,從數(shù)學(xué)角度來(lái)說(shuō)這是錯(cuò)誤的,這就是為什么人類和動(dòng)物有很多個(gè)傳感器;
第三,世界并非完全是生成性的,我們可以生成虛擬的3D世界,它仍然必須遵守物理規(guī)律等等,但外面也有一個(gè)真實(shí)的世界?,F(xiàn)在虛擬世界突然以一種非常流暢的方式在生成和重建之間切換,而且用戶行為、實(shí)用性、使用場(chǎng)景都大不相同——如果你把時(shí)間撥到這一代,我們就可以談?wù)動(dòng)螒?、元宇宙之類的話題,如果你一路撥入現(xiàn)實(shí)世界,你就會(huì)發(fā)現(xiàn)我們正在談?wù)摼呱碇悄艿鹊取5@一切都處于世界建模和空間智能的連續(xù)體上。
一個(gè)顯而易見(jiàn)卻常被回避的問(wèn)題是:互聯(lián)網(wǎng)上充斥著大量的語(yǔ)言數(shù)據(jù),而空間智能的數(shù)據(jù)在哪里呢?當(dāng)然,這些信息都存在于人類大腦中,但它不像語(yǔ)言那樣容易獲取,這些都是它如此困難的原因。但坦白說(shuō),這讓我興奮,因?yàn)槿绻苋菀?,那別人早就解決了。我的整個(gè)職業(yè)生涯都在追逐那些極其困難、近乎瘋狂的問(wèn)題,我認(rèn)為這就是那個(gè)瘋狂的問(wèn)題。
Q:即使從最基本的原理來(lái)思考這個(gè)問(wèn)題,人類大腦視覺(jué)皮層中處理數(shù)據(jù)的神經(jīng)元數(shù)量遠(yuǎn)多于處理語(yǔ)言的神經(jīng)元數(shù)量,人腦的這種架構(gòu)與LLMs有很大差別,你也逐漸發(fā)現(xiàn)了這一點(diǎn),對(duì)吧?
李飛飛:這實(shí)際上是個(gè)非常好的問(wèn)題,現(xiàn)在仍然存在很多不同的觀點(diǎn),我們?cè)诖笳Z(yǔ)言模型中看到的很多內(nèi)容實(shí)際上是在寫(xiě)作,通過(guò)寫(xiě)作技能將故事擴(kuò)展到完美的結(jié)局,你幾乎可以一路通過(guò)暴力手段進(jìn)行自監(jiān)督。
而建設(shè)性世界模型可能會(huì)更復(fù)雜一些,世界更加結(jié)構(gòu)化,可能需要我們用來(lái)引導(dǎo)它的信號(hào),你可以把它看成一種先驗(yàn)形式,或者是數(shù)據(jù)監(jiān)督。
我認(rèn)為以上這些是我們必須解決的一些開(kāi)放性的問(wèn)題,而且,我們甚至都不能完全理解人類的所有感知,我們還沒(méi)有解決3D在人類視覺(jué)中如何運(yùn)作這個(gè)問(wèn)題,雖然從機(jī)械原理上,我們用眼睛對(duì)物體進(jìn)行三維測(cè)量,但在此之后,數(shù)學(xué)模型又在哪里呢?
人類并不像3D動(dòng)物那么偉大,所以還有很多問(wèn)題有待解答,我只是在指望一件事:我期待我們之中最聰明的人來(lái)解決這個(gè)問(wèn)題。
Q:那是否可以認(rèn)為你們的World Labs正在構(gòu)建的是全新的基礎(chǔ)模型,它輸出的是3D世界。你們?cè)O(shè)想的應(yīng)用有哪些?因?yàn)槟阋呀?jīng)列出了從感知到生成的所有內(nèi)容,但生成模型和判別模型之間始終存在著矛盾,那么(輸出的)這些3D世界有什么作用呢?
李飛飛:就空間智能而言,就像語(yǔ)言模型一樣,從創(chuàng)作的角度來(lái)看這個(gè)模型用例非常廣泛,比如,可以當(dāng)設(shè)計(jì)師、建筑師、工業(yè)設(shè)計(jì)師,以及藝術(shù)家,還有從創(chuàng)作到游戲開(kāi)發(fā)者,再到機(jī)器人、機(jī)器人學(xué)習(xí)等方面,空間智能模型或者說(shuō)是世界模型的實(shí)用性非常大。
實(shí)際上,我對(duì)元宇宙非常感興趣,我知道很多人仍然覺(jué)得它不管用,雖然我也知道它仍然無(wú)法運(yùn)作,但我認(rèn)為硬件和軟件的融合即將到來(lái),這也是未來(lái)的另一個(gè)絕佳用例。
Q:我個(gè)人對(duì)于你正在解決元宇宙的問(wèn)題感到非常興奮,因?yàn)槲乙苍谥暗墓緡L試過(guò)(這個(gè)問(wèn)題)。
李飛飛:我認(rèn)為硬件是目前元宇宙障礙的一部分,在元宇宙中需要內(nèi)容生成,而內(nèi)容生成需要世界模型。
思想上要有無(wú)畏精神
Q:對(duì)于一些觀眾來(lái)說(shuō),他們可能會(huì)覺(jué)得你從學(xué)術(shù)界到現(xiàn)在成為創(chuàng)始人兼CEO的轉(zhuǎn)變很突然,但實(shí)際上你一生都有著非凡的經(jīng)歷,這不是你第一次從0到1了,你曾移民到美國(guó)時(shí),青少年時(shí)期不會(huì)說(shuō)英語(yǔ)的情況下甚至開(kāi)了好幾年洗衣店,跟我們講講這些經(jīng)歷是如何塑造現(xiàn)在的你的吧。
李飛飛:我當(dāng)時(shí)19歲,我需要去普林斯頓大學(xué)學(xué)物理,所以我沒(méi)有辦法養(yǎng)家糊口,于是我開(kāi)了一家還不錯(cuò)的干洗店,用硅谷的話說(shuō),我開(kāi)始籌集資金。
我曾是創(chuàng)始人、CEO,也曾做過(guò)收銀員等。但不管怎樣,我看著你們感到無(wú)比興奮,因?yàn)槟銈兊哪挲g差不多只有我的一半,甚至,可能只有我年齡的30%,而你們又如此優(yōu)秀,你們放手去做想做的事情就好。
在我剛開(kāi)始當(dāng)教授的時(shí)候,我也不顧很多人的反對(duì),去了那些我是首個(gè)計(jì)算機(jī)視覺(jué)教授的學(xué)院——雖然我知道,作為一名年輕教授,我本應(yīng)該去哪些有學(xué)術(shù)氛圍和資深導(dǎo)師的地方。當(dāng)然,我也很希望那些地方有資深導(dǎo)師,如果沒(méi)有的話,我就開(kāi)辟自己的道路,闖出自己的一片天,我并不害怕。
后來(lái),我去了谷歌,了解了很多谷歌企業(yè)方面的知識(shí),然后在斯坦福大學(xué)創(chuàng)辦了一家初創(chuàng)公司。大約在2018年,AI成了一個(gè)全人類的問(wèn)題,人類不斷推動(dòng)著科技的進(jìn)步,但是我們不能失去人性,我很在意AI發(fā)展進(jìn)程中的一些積極導(dǎo)向,我想讓AI以人類為中心來(lái)造福人類。
于是我回到斯坦福創(chuàng)立了以人為本AI研究院(HAI),并且運(yùn)營(yíng)了5年,可能有些人不理解,但我對(duì)此感到非常自豪。某種程度上,我覺(jué)得自己就是熱愛(ài)當(dāng)企業(yè)家。
我喜歡那種一切歸零的感覺(jué),就像站在零點(diǎn)一樣,忘掉過(guò)去所做的一切,不在意別人對(duì)你的看法,只管埋頭苦干,努力建設(shè),那是我的舒適區(qū)。
Q:你還有一個(gè)非常了不起的地方,除了你所做的所有令人贊嘆的事情之外,你還指導(dǎo)了很多傳奇的研究人員,比如Andrej Kaparthy、英偉達(dá)的Jim Fan、與你共同完成ImageNet的鄧嘉,他們后來(lái)都取得了非凡的職業(yè)生涯。他們學(xué)生時(shí)代真正突出的地方是什么?
李飛飛:首先,我是個(gè)幸運(yùn)的人。我認(rèn)為學(xué)生對(duì)我而言意義更大,他們真的讓我成為了一個(gè)更好的人、更好的老師、更好的研究者。就像你說(shuō)的,能與這么多傳奇學(xué)生共事,真的是我一生的榮幸。
他們非常不同,他們中的一些人是純粹的科學(xué)家,試圖埋頭解決一個(gè)科學(xué)問(wèn)題;有些人是行業(yè)領(lǐng)袖;還有一些人,是最偉大的AI知識(shí)傳播者。但我認(rèn)為有一件事能將它們統(tǒng)一起來(lái)。
我鼓勵(lì)他們每一個(gè)人都思考一下這個(gè)問(wèn)題,這也是我為那些正在招聘的創(chuàng)始人提一些建議,包括我的招聘標(biāo)準(zhǔn):我尋找的是思想上的無(wú)畏精神。
我認(rèn)為無(wú)論你來(lái)自哪里,無(wú)論我們?cè)噲D解決什么問(wèn)題,都無(wú)關(guān)緊要。那種勇于接受困難之事、全力以赴并想盡辦法去解決問(wèn)題的勇氣和無(wú)畏精神,是成功人士的核心特質(zhì)。我從他們身上學(xué)到了這一點(diǎn),而且我真的在尋找具備這種特質(zhì)的年輕人——作為World Labs的CEO,在招聘時(shí),我會(huì)尋找具備這種特質(zhì)的人。
Q:所以你們也在為World Labs大量招聘。
李飛飛:是的,我們正在招聘工程人才、產(chǎn)品人才、3D人才和生成模型人才。所以,如果你覺(jué)得自己無(wú)所畏懼,并且熱衷于解決空間智能問(wèn)題,那就跟我聊聊,或者訪問(wèn)我們的網(wǎng)站。
通過(guò)梯度下降法找到生活最優(yōu)解
觀眾1:嗨,飛飛,我是你的超級(jí)粉絲。我的問(wèn)題是,二十多年前,您從事過(guò)視覺(jué)識(shí)別方面的工作,如果我想現(xiàn)在開(kāi)始攻讀博士學(xué)位,我應(yīng)該選擇什么方向,才能成為像你一樣的傳奇人物呢?
李飛飛:雖然我可以說(shuō),做任何讓你興奮的事,但我更想給你一個(gè)深思熟慮的答案:首先,我認(rèn)為AI研究已經(jīng)發(fā)生了變化,因?yàn)閷W(xué)術(shù)界不再擁有大部分的AI資源,這和我那個(gè)時(shí)代大不一樣了。芯片、算力和數(shù)據(jù)在學(xué)術(shù)界的資源配置方面確實(shí)非常匱乏。
作為一名博士生,我建議你去尋找那些不用通過(guò)更好的計(jì)算、更好的數(shù)據(jù)就能更好解決的問(wèn)題的團(tuán)隊(duì),在學(xué)術(shù)界,我們?nèi)匀豢梢园l(fā)現(xiàn)一些非常根本性的問(wèn)題:無(wú)論你有多少芯片都能取得很大的進(jìn)展。
其次,跨學(xué)科AI是學(xué)術(shù)界一個(gè)非常令人興奮的領(lǐng)域,尤其是在科學(xué)發(fā)現(xiàn)方面。有太多學(xué)科可以與AI交叉,我認(rèn)為這是理論方面一個(gè)大有可為的領(lǐng)域。
很有意思的是,AI能力已經(jīng)100%超越了理論:我們不知道如何做、我們?nèi)狈山忉屝?、我們不知道如何找出因果關(guān)系、我們有太多不理解的事情……所以人們可以繼續(xù)推進(jìn)。
而且這個(gè)清單可以一直列下去:在計(jì)算機(jī)視覺(jué)領(lǐng)域,仍然存在一些我們尚未解決的表征問(wèn)題。另外,小數(shù)據(jù)也是另一個(gè)非常有趣的領(lǐng)域,這些就是可能性。
觀眾2:再次祝賀你獲得耶魯大學(xué)的榮譽(yù)博士學(xué)位,一個(gè)月前,我有幸在那里見(jiàn)證了那一刻。我的問(wèn)題是:在你看來(lái),AGI更有可能統(tǒng)一模型或作為多智能體系統(tǒng),以統(tǒng)一、單一的形式出現(xiàn)嗎?
李飛飛:你提出這個(gè)問(wèn)題的方式本身就已經(jīng)是兩種定義了。其中一種定義更具理論性,即如果存在一個(gè)智商測(cè)試,通過(guò)該測(cè)試就可定義為AGI;另一個(gè)定義則更具功能性,如果它是基于智能體的,它是否具備功能性,能執(zhí)行哪些任務(wù)?
老實(shí)說(shuō),我也對(duì)這個(gè)AGI的定義感到困惑。1956年齊聚達(dá)特茅斯的AI先驅(qū)們,像John McCarthy和Marvin Minsky這樣的人,他們想要解決機(jī)器思考的問(wèn)題。而這是圖靈早在10年前就提出的問(wèn)題,在那個(gè)陳述中,它不是狹義的AI,而是一種智能的表述。
所以我不太清楚如何區(qū)分關(guān)于AI和這個(gè)新詞AGI的定義。對(duì)我來(lái)說(shuō),它們是一回事。但我明白,如今的行業(yè)喜歡把AGI稱為超越AI的東西,我對(duì)此感到困惑,因?yàn)槲也恢繟GI與AI究竟有何不同。
如果我們說(shuō)如今AGI的系統(tǒng)比80、70、90年代或其他時(shí)期的狹義AI系統(tǒng)表現(xiàn)更好,我認(rèn)為這只是該領(lǐng)域的發(fā)展進(jìn)程。但從根本上說(shuō),我認(rèn)為AI的規(guī)模即智能的規(guī)模,我們是要?jiǎng)?chuàng)造出能夠像人類一樣智能,甚至比人類更加智能地思考和做事的機(jī)器。
我不知道如何定義AGI,不定義它我就不知道它是否是單一的。你把大腦看作一個(gè)整體,但它確實(shí)有不同的功能。甚至還有專門的語(yǔ)言區(qū)域,有視覺(jué)皮層,也有運(yùn)動(dòng)皮層。所以我真不知道該怎么回答那個(gè)問(wèn)題。
觀眾3:看到一位女性在這個(gè)領(lǐng)域發(fā)揮主導(dǎo)作用真的很鼓舞人心。我想問(wèn),在AI迅速崛起的當(dāng)下,你作為一名研究者、教育者和企業(yè)家,認(rèn)為什么樣的人應(yīng)該攻讀研究生學(xué)位?
李飛飛:這是個(gè)很棒的問(wèn)題。這是一個(gè)連家長(zhǎng)都會(huì)問(wèn)我的問(wèn)題。我認(rèn)為研究生階段是你充滿強(qiáng)烈好奇心的4到5年。你被好奇心引領(lǐng)。那種好奇心非常強(qiáng)烈,以至于沒(méi)有比這個(gè)時(shí)期更好的時(shí)期來(lái)滿足。
讀研究生與創(chuàng)業(yè)不同,因?yàn)閯?chuàng)業(yè)不能僅僅靠好奇心來(lái)引領(lǐng),這樣你的投資者會(huì)對(duì)你發(fā)火的。一家有著明確商業(yè)目標(biāo)的初創(chuàng)公司,其中一部分原因是好奇心,但又不只是好奇心。
而對(duì)于基層人員來(lái)說(shuō),解決問(wèn)題或提出正確問(wèn)題的好奇心很重要,我認(rèn)為那些帶著強(qiáng)烈好奇心投身其中的人會(huì)享受這四五年研究生時(shí)光,即便外界正以光速發(fā)展,你依然會(huì)感到快樂(lè),因?yàn)槟阍谀抢镒穼ぶ欠莺闷嫘摹?/span>
觀眾4:你提到開(kāi)源是ImageNet發(fā)展的重要組成部分,而現(xiàn)在,隨著大語(yǔ)言模型的最新發(fā)布,我們看到各組織在開(kāi)源方面采取了不同的做法,有些組織完全采用閉源模式,有些組織則完全公開(kāi)其整個(gè)研究棧,還有些組織處于中間狀態(tài),開(kāi)放權(quán)重或采用限制性許可等類似做法。所以我想問(wèn),你如何看待這些不同的開(kāi)源方法,以及你認(rèn)為作為一家AI公司,正確的開(kāi)源方式是什么?
李飛飛:我并不拘泥于你必須開(kāi)源或必須閉源這種教條。這取決于公司的業(yè)務(wù)戰(zhàn)略。
例如,F(xiàn)acebook、Meta想要開(kāi)源的原因很明顯,他們目前的商業(yè)模式并不是通過(guò)銷售模型來(lái)盈利。他們正在利用它來(lái)發(fā)展生態(tài)系統(tǒng),以便人們來(lái)到他們的平臺(tái)。所以開(kāi)源很有意義。
而其他公司通過(guò)開(kāi)源或者閉源賺錢。所以我對(duì)這個(gè)問(wèn)題挺開(kāi)放的。我認(rèn)為開(kāi)源應(yīng)該受到保護(hù),如果公共部門(如學(xué)術(shù)界)和私營(yíng)部門都有開(kāi)源,那對(duì)創(chuàng)業(yè)生態(tài)系統(tǒng)非常重要。我認(rèn)為應(yīng)該受到技術(shù)保護(hù)。
觀眾4:我有一個(gè)關(guān)于數(shù)據(jù)的問(wèn)題:既然你現(xiàn)在正在研究世界模型,你指出了機(jī)器學(xué)習(xí)向以ImageNet為代表的數(shù)據(jù)驅(qū)動(dòng)方法的轉(zhuǎn)變,并且你提到互聯(lián)網(wǎng)上沒(méi)有這種空間數(shù)據(jù),它只存在于我們的頭腦中,那么你是如何解決這個(gè)問(wèn)題的呢?你是從現(xiàn)實(shí)世界收集這些數(shù)據(jù)嗎?還是合成數(shù)據(jù)?還是你相信那些古老的先驗(yàn)知識(shí)呢?謝謝。
李飛飛:你應(yīng)該加入World Labs,我會(huì)告訴你的。
作為一家公司,我沒(méi)辦法透露太多,但我承認(rèn)我們正在采取混合方式,擁有大量數(shù)據(jù)固然重要,但擁有大量高質(zhì)量數(shù)據(jù)同樣重要,說(shuō)到底,如果不注意數(shù)據(jù)質(zhì)量,仍然會(huì)出現(xiàn)“輸入垃圾,輸出垃圾”的情況。
觀眾5:在你的書(shū)《我看見(jiàn)的世界》中,你談到了作為移民女孩和女性在STEM所面臨的挑戰(zhàn)。我很好奇,你是否有過(guò)在工作場(chǎng)所感覺(jué)自己是少數(shù)群體的時(shí)刻,如果有,你是如何克服這種情況或說(shuō)服他人的?
圖片
李飛飛:感謝你提出這個(gè)問(wèn)題。我想非常謹(jǐn)慎或深思熟慮地回答你,因?yàn)槲覀兌紒?lái)自不同的背景,每個(gè)人的感受都非常獨(dú)特。其實(shí),我們是什么人都無(wú)關(guān)緊要,我們所有人都有過(guò)感覺(jué)自己是少數(shù)人群的時(shí)刻。
有時(shí)這取決于我是誰(shuí),有時(shí)這基于我的想法,有時(shí)候就只是在于我穿的襯衫顏色之類的,但這正是我想要鼓勵(lì)大家的地方,我從小來(lái)到這個(gè)地方,我已經(jīng)檢驗(yàn)了這件事情的本質(zhì),那就是作為一名移民女性,我?guī)缀跖囵B(yǎng)出了一種不過(guò)度關(guān)注此事的能力——和你們每個(gè)人一樣,我來(lái)這里是為了學(xué)習(xí)、做事或創(chuàng)造。
在訪談的最后,李飛飛給所有年輕人送上了美好的祝愿:
你們即將踏上一段征程,或者正處于征程之中,你們會(huì)有脆弱的時(shí)刻,或者遇到奇怪的事情,在創(chuàng)業(yè)過(guò)程中,我每天都有這樣的感受,有時(shí)候我會(huì)想,“天哪,我不知道自己在做什么”。但你們只管專注去做,通過(guò)梯度下降法找到最優(yōu)解。
訪談鏈接: https://www.youtube.com/watch?v=_PioN-CpOP0

































