李飛飛:World Labs這樣實現(xiàn)「空間智能」
說到斯坦福大學(xué)教授李飛飛(Fei-Fei Li),她提倡的「空間智能」最近正在引領(lǐng) AI 發(fā)展方向。
李飛飛已經(jīng)在人工智能歷史上贏得了一席之地,她多年來一直致力于創(chuàng)建 ImageNet 數(shù)據(jù)集和競賽,在深度學(xué)習(xí)革命中發(fā)揮了重要作用。
2012 年,一個名為 AlexNet 的神經(jīng)網(wǎng)絡(luò)引爆了 AI 研究界,它的表現(xiàn)遠(yuǎn)遠(yuǎn)超過所有其他類型的模型,并贏得了當(dāng)年的 ImageNet 競賽。自那時起,神經(jīng)網(wǎng)絡(luò)開始騰飛,其動力來自互聯(lián)網(wǎng)上可用的大量免費訓(xùn)練數(shù)據(jù)和提供空前計算能力的 GPU。
自 ImageNet 以來的 13 年里,計算機視覺研究者們掌握了物體識別,并轉(zhuǎn)向圖像和視頻生成。李飛飛與他人共同創(chuàng)辦了斯坦福大學(xué)以人為本人工智能研究所 (HAI),并繼續(xù)突破計算機視覺的界限。
就在今年,她創(chuàng)辦了一家初創(chuàng)公司 World Labs,旨在生成用戶可以探索的 3D 場景。World Labs 致力于為人工智能提供「空間智能」,即生成、推理和與三維世界互動的能力。
李飛飛昨天在人工智能頂會 NeurIPS 上發(fā)表了主題演講,講述了她對機器視覺的愿景。她表示,非常榮幸第一次在 NeurIPS 上演講,50 分鐘講 180 頁 PPT 是個很有趣的經(jīng)歷。
在演講之前,李飛飛接受了 IEEE Spectrum 的獨家采訪,讓我們看看她對空間智能有哪些新的見解:
Eliza Strickland:你為什么把你的演講命名為「提升視覺智能的階梯(Ascending the Ladder of Visual Intelligence)?」
李飛飛:智能具有不同層次的復(fù)雜性和精細(xì)度。在這次演講中我想傳達的是,在過去幾十年,尤其是深度學(xué)習(xí)發(fā)生變革的十多年里,我們在視覺智能方面學(xué)會做的事情簡直令人嘆為觀止。我們正在變得越來越擅長使用這項技術(shù)。同時,我也受到了 Judea Pearl 因果階梯理論的啟發(fā),這一理論出自他 2020 年出版的書《The Book of Why》。
演講還有一個副標(biāo)題,即「從看到做到(From Seeing to Doing)」。這是人們沒有足夠重視的一點:從看到與交互和做事緊密相關(guān),無論是對于動物還是對于 AI 智能體來說都是如此。這與語言背道而馳。語言從根本上來說是一種用來傳達思想的交流工具。在我看來,它們是非?;パa但同樣深刻的智能模式。
Eliza Strickland:你的意思是我們對某些視覺刺激有本能的反應(yīng)嗎?
李飛飛:我不僅僅是在談?wù)摫灸堋?strong>如果你觀察感知的演變和動物智能的演變,你會發(fā)現(xiàn)它們是深深交織在一起的。每當(dāng)我們能夠從環(huán)境中獲取更多信息時,進化的力量就會推動事物能力和智能向前發(fā)展。如果你不能感知環(huán)境,你與世界的關(guān)系就非常被動;無論你是捕食者還是被捕食者,都是一個非常被動的行為。
但是一旦你能夠通過感知從環(huán)境中獲取線索,進化的壓迫感就會增加,這推動了智能的發(fā)展。
Eliza Strickland:你認(rèn)為這就是我們創(chuàng)造越來越深層次的機器智能的方式嗎?通過讓機器更多地感知環(huán)境?
李飛飛:我不確定「深度」這個詞是不是我該用的形容詞。我認(rèn)為我們正在創(chuàng)造更多的能力。我認(rèn)為它將變得更加復(fù)雜,更有能力。解決空間智能問題確實是朝著全面智能(full-scale intelligence)邁出的一個基本且關(guān)鍵的步驟,這是絕對正確的。
Eliza Strickland:我看到過 World Labs 的演示。你為什么想研究空間智能并構(gòu)建這些 3D 世界。
李飛飛:我認(rèn)為空間智能是視覺智能的發(fā)展方向。如果我們真的想要解決視覺問題,并且將其與行動聯(lián)系起來,有一個非常簡單、顯而易見的事實:世界是三維的。我們不是生活在一個平面世界中。我們的物理智能體,無論是機器人還是設(shè)備,都將生活在三維世界中。即使是虛擬世界也越來越變得三維化。
如果你和藝術(shù)家、游戲開發(fā)者、設(shè)計師、建筑師、醫(yī)生交談,即使他們在虛擬世界中工作,很多內(nèi)容也是三維的。如果你花一點時間認(rèn)識到這個簡單但深刻的事實,毫無疑問,解決 3D 智能的問題是根本性的。
Eliza Strickland:我很好奇 World Labs 中的場景是如何保持物體永久性并遵守物理定律的。這感覺像是一個令人興奮的進步,因為像 Sora 這樣的視頻生成工具仍然在處理這些事情。
李飛飛:一旦你遵循世界的 3D 特性,很多事情就會變得自然而然。例如,在我們發(fā)布的一段視頻中,有一個關(guān)于籃球的視頻。由于場景是 3D 的,籃球會根據(jù)重力或其他物理規(guī)則正確落地并與環(huán)境交互。如果場景只是由 2D 像素生成的,籃球不會有任何物理反應(yīng),無法表現(xiàn)出落地或運動的效果。
Eliza Strickland:就像 Sora,球可能會去某個地方,然后消失。在推動這項技術(shù)發(fā)展的過程中,你面臨的最大技術(shù)挑戰(zhàn)是什么?
李飛飛:沒有人解決了這個問題,對吧?這非常非常困難。在一個 demo 中,我們?nèi)×艘环蟾叩漠嬜?,并圍繞它生成了整個場景,風(fēng)格一致:藝術(shù)風(fēng)格、光線,甚至是那個街區(qū)會有什么樣的建筑。如果你轉(zhuǎn)過身來看到的是摩天大樓,那將完全不可信,對吧?而且它必須是三維的。你必須能夠進入其中。所以它不僅僅是像素。
Eliza Strickland:你能說說你用來訓(xùn)練它的數(shù)據(jù)嗎?
李飛飛:非常多。
Eliza Strickland:在算力方面是否存在很多挑戰(zhàn)?
李飛飛:這需要大量的算力。是公共部門無法承擔(dān)的那種計算能力。這也是我需要通過休學(xué)術(shù)假,以私營部門的方式來做這件事的部分原因。同時,這也是我一直倡導(dǎo)公共部門獲得計算資源訪問權(quán)的部分原因,我自己的經(jīng)歷強調(diào)了在足夠資源支持下進行創(chuàng)新的重要性。
Eliza Strickland:賦予公共部門權(quán)力是一件好事,因為公共部門通常更愿意通過獲取知識,為人類謀福利。
李飛飛:知識發(fā)現(xiàn)需要資源支持,對吧?在伽利略時代,最好的望遠(yuǎn)鏡是讓天文學(xué)家觀察新天體的望遠(yuǎn)鏡。Hooke 意識到放大鏡可以變成顯微鏡,并發(fā)現(xiàn)了細(xì)胞。
每當(dāng)有新的技術(shù)工具出現(xiàn)時,它都會幫助人們尋求知識?,F(xiàn)在,在人工智能時代,技術(shù)工具涉及計算和數(shù)據(jù)。對于公共部門,我們必須認(rèn)識到這一點。
Eliza Strickland:你希望聯(lián)邦政府提供哪些資源?
李飛飛:過去五年來,斯坦福大學(xué) HAI 一直在做這項工作。我們一直在與國會、參議院、白宮、行業(yè)和其他大學(xué)合作,創(chuàng)建國家人工智能研究資源中心 (NAIRR)。
Eliza Strickland:假設(shè)我們能讓人工智能系統(tǒng)真正理解 3D 世界,這會給我們帶來什么?
李飛飛:它將為人們釋放大量創(chuàng)造力和生產(chǎn)力。我希望以更高效的方式設(shè)計我的房子。我知道許多醫(yī)療用途都涉及理解一個非常特殊的 3D 世界,即人體。我們總是談?wù)撐磥砣祟悓?chuàng)造機器人來幫助我們,但機器人在 3D 世界中導(dǎo)航,它們需要空間智能作為大腦的一部分。
我們還談?wù)撎摂M世界,它將允許人們參觀很多地方、學(xué)習(xí)概念或娛樂。這些都要使用 3D 技術(shù),尤其是混合現(xiàn)實技術(shù),我們稱之為 AR [增強現(xiàn)實]。我很想戴著一副眼鏡穿過國家公園,它能讓我了解樹木、道路、云朵的信息。我也想借助空間智能學(xué)習(xí)不同的技能。
Eliza Strickland:會是什么樣的技能?
李飛飛:我舉個蹩腳的例子,如果我在高速公路上爆胎了,我該怎么辦?現(xiàn)在,我打開一個「如何換輪胎」的視頻。但如果我能戴上眼鏡,看看我的車發(fā)生了什么,然后得到指導(dǎo),那就太酷了。但這是一個蹩腳的例子。你可以考慮烹飪,你可以考慮雕刻 —— 有趣的事情。
Eliza Strickland:你認(rèn)為(這個方向)在我們這一代能走多遠(yuǎn)?
李飛飛:我認(rèn)為這會是我們有生之年的事,因為技術(shù)進步的速度非???。你已經(jīng)看到了過去 10 年帶來的變化。這肯定預(yù)示著接下來會發(fā)生什么。