千尋智能高陽(yáng):RobotGPT-1階段已至,4年后達(dá)到3.5階段 | MEET 2025
我對(duì)于具身智能的定義很簡(jiǎn)單,就是能幫人類做各種事,比如幫我們的爺爺奶奶養(yǎng)老。
……
現(xiàn)在定義具身智能的L1-L5級(jí)沒(méi)有意義,核心標(biāo)準(zhǔn)還是我們的機(jī)器人能解決哪些實(shí)際問(wèn)題。
具身智能趨勢(shì)大熱,敢于給斷言的人不多,高陽(yáng)是一個(gè)。
他是清華大學(xué)交叉信息研究院助理教授,于美國(guó)加州大學(xué)伯克利分校獲得博士學(xué)位,后于加州伯克利大學(xué)與 Pieter Abbeel 等人合作完成了博士后研究。目前主持具身視覺(jué)與機(jī)器人實(shí)驗(yàn)室 (Embodied Vision and Robotics,簡(jiǎn)稱EVAR Lab),專注于利用人工智能技術(shù)賦能機(jī)器人,致力于打造通用的具身智能框架,由他提出的ViLa算法被Figure AI采用。
2024年,高陽(yáng)作為聯(lián)合創(chuàng)始人創(chuàng)立具身智能公司千尋智能。這家公司也被稱為中國(guó)版Figure 01,1年時(shí)間快速完成三輪融資,其中種子輪+天使輪2億。
MEET 2025智能未來(lái)大會(huì)上,量子位邀請(qǐng)到高陽(yáng)博士深入探討了具身智能的發(fā)展現(xiàn)狀與未來(lái),從模型架構(gòu)、數(shù)據(jù)、產(chǎn)業(yè)落地等維度展開(kāi)深入探討。
核心觀點(diǎn)
- 具身智能的定義,就是機(jī)器人能幫我們做各種事。
- AI和機(jī)器人制造的成熟,催生具身智能產(chǎn)業(yè)。
- 具身智能要降低對(duì)人工采集數(shù)據(jù)的依賴。
- 現(xiàn)在定義具身智能L1-L5沒(méi)有意義,很長(zhǎng)時(shí)間內(nèi)都只能停留在L2.99。
- 我們抵達(dá)RobotGPT的1.0階段,原理已經(jīng)確定;4年后可以達(dá)到RobotGPT-3.5階段。
- 希望10年后,世界上10%的人可以擁有自己的機(jī)器人。
(為更好呈現(xiàn)高陽(yáng)的觀點(diǎn),量子位在不改變?cè)獾幕A(chǔ)上做了如下梳理)
10年后10%人類可以有專屬機(jī)器人
量子位:你怎么定義具身智能?
高陽(yáng):我覺(jué)得這個(gè)問(wèn)題是一個(gè)非常直觀的問(wèn)題。
有一次我在做一個(gè)關(guān)于具身智能的演講,有一位大概60、70歲老奶奶聽(tīng)我講很多,問(wèn)我說(shuō)什么時(shí)候機(jī)器人能給她養(yǎng)老。
其實(shí)這個(gè)就是具身智能。
具身智能就是我們構(gòu)建一個(gè)機(jī)器人,這個(gè)機(jī)器人能(比如在家里面)幫我們做各種事情,比如幫我們的爺爺奶奶養(yǎng)老。
所以我創(chuàng)建了千尋智能,我最大的一個(gè)理想和愿望就是在十年之后,希望這個(gè)世界上10%的人可以擁有自己的機(jī)器人。
它能干什么,也非常直觀。比如說(shuō)我自己每天晚上回到家已經(jīng)比較晚了,可能想吃點(diǎn)夜宵,吃完之后不想收拾盤(pán)子;周末家里很多東西沒(méi)有歸位,我想讓一個(gè)機(jī)器人幫我把這些東西歸位……
這些就是所謂的具身智能,有實(shí)體機(jī)器人可以幫我們做各種各樣我們自己不想做或者懶得做的一些事情,這是我認(rèn)知里的具身智能。
量子位:具身智能這個(gè)概念來(lái)自于阿蘭·圖靈,是半個(gè)世紀(jì)以前開(kāi)始定義/構(gòu)想的事。今年被我們定義為具身智能元年,或者說(shuō)它發(fā)展成熟了。您在產(chǎn)業(yè)中看到了怎樣的技術(shù)/要素變化,讓您覺(jué)得具身智能變得成熟,并讓您決定開(kāi)始創(chuàng)業(yè)?
高陽(yáng):這里唯一的變量就是OpenAI證明了預(yù)訓(xùn)練(Pre-training)加上一系列Post-training的方式,可以真正產(chǎn)生、至少看起來(lái)像是人類智能,或者達(dá)到人類智能表象一樣的能力,我覺(jué)得這是現(xiàn)在做具身智能創(chuàng)業(yè)的一個(gè)最核心的變量。
像剛才大家講的,以前的機(jī)器人都是手寫(xiě)的一些規(guī)則,都是寫(xiě)死的,就導(dǎo)致對(duì)于環(huán)境的適應(yīng)性很差。其實(shí)我之前對(duì)機(jī)器人硬件并不是特別了解,但當(dāng)我真的去看的時(shí)候,看到工業(yè)機(jī)器人一年的銷量有多少臺(tái),我非常驚訝,工業(yè)機(jī)器人一年的銷量全球只有大概200萬(wàn)臺(tái)的量級(jí)左右。
這個(gè)量級(jí)相比于汽車、手機(jī)都是一個(gè)非常小的量。背后的核心制約就是機(jī)器人非常難用,這只是一個(gè)專用的設(shè)備,你需要有很高的技術(shù)儲(chǔ)備,才能把它用起來(lái)。
所以我覺(jué)得是這兩者之間的區(qū)別在于,一個(gè)是智能技術(shù)使得機(jī)器人變得越來(lái)越好用,另一個(gè)是我們?cè)谠鞕C(jī)器人這件事情上,已經(jīng)走了非常遠(yuǎn),我們可以把機(jī)器人做到亞毫米的精度,以非常便宜的價(jià)格。
這兩方面的成熟催生具身智能產(chǎn)業(yè)。當(dāng)然這個(gè)產(chǎn)業(yè)現(xiàn)在處于非常初期的階段,我也經(jīng)常講,這個(gè)東西其實(shí)很難,因?yàn)榻?jīng)常講具身智能像是一個(gè)硅基生命的造物主,如果把具身智能做出來(lái)了,人類作為碳基生命的引導(dǎo)程序任務(wù)也基本完成了。所以我覺(jué)得這個(gè)東西是很長(zhǎng)期的事情,我至少?gòu)奈易约簛?lái)講,我是把它當(dāng)作一個(gè)lifetime的事業(yè)來(lái)做。
數(shù)據(jù)仍是具身智能發(fā)展攻堅(jiān)重點(diǎn)
量子位:您怎么看過(guò)去一年具身智能領(lǐng)域的核心進(jìn)展,哪些值得在2025年重點(diǎn)攻堅(jiān)?
高陽(yáng):我認(rèn)為具身智能過(guò)去一年比較大的突破,除了剛剛談過(guò)的VLA模型外,還有一些是模型如何做預(yù)訓(xùn)練。像我們現(xiàn)在的方式(包括Phi),都是狂采了一萬(wàn)個(gè)小時(shí)的數(shù)據(jù)去訓(xùn)練,讓模型具備一些能力。
如果我們回顧當(dāng)前所有讓人印象深刻的大模型,比如ChatGPT、Stable Diffusion、視頻生成模型(Sora)等,它們的數(shù)據(jù)量都是100T tokens或者幾十個(gè)billion的image-text pair。
現(xiàn)在我們通過(guò)人工去采集的操作數(shù)據(jù),遠(yuǎn)遠(yuǎn)小于這個(gè)量級(jí)。所以我認(rèn)為在具身智能發(fā)展過(guò)程之中,如何去更多利用互聯(lián)網(wǎng)上的數(shù)據(jù)做預(yù)訓(xùn)練是一個(gè)非常重要的事情。
關(guān)于這個(gè)問(wèn)題,比如VLA其實(shí)做的比較弱。VLA的預(yù)訓(xùn)練數(shù)據(jù)中只有圖像和文本。我覺(jué)得在學(xué)術(shù)界,大家有很多新奇的思路來(lái)解決這個(gè)問(wèn)題,這應(yīng)該是未來(lái)3-4年內(nèi)都能夠持續(xù)發(fā)展且非常重要的事情。
△高陽(yáng)研究組提出ViLa算法
舉幾個(gè)具體的例子。比如我覺(jué)得Google的RT-Trajectory是一個(gè)比較有代表性的工作。這個(gè)模型介紹,如果只用采集的模仿學(xué)習(xí)的數(shù)據(jù)去訓(xùn)練,數(shù)據(jù)量永遠(yuǎn)不夠。
它采用一種新的方法,用一個(gè)中間表示來(lái)表示機(jī)器人移動(dòng)的大致軌跡,讓機(jī)器人去大概follow這條軌跡。具體細(xì)節(jié)是由底層策略直接產(chǎn)生。
類似這類的文章有很多,包括我自己的研究組也做了很多相關(guān)工作。我自己做的是一些用物體的未來(lái)粒子運(yùn)動(dòng)方式來(lái)刻畫(huà)中間層表示。
我覺(jué)得這些工作是非常令人興奮的,因?yàn)橐郧按蠹乙部梢匀ゲ杉瘮?shù)據(jù)、也可以去訓(xùn)練模仿學(xué)習(xí),但是這波大模型浪潮來(lái)臨時(shí),我們需要足夠多的數(shù)據(jù)。
這一年這些新的研究工作,其實(shí)也為我們未來(lái)發(fā)展指明了方向。
VLA本身是一個(gè)非常好的范式,也是未來(lái)核心之一。但是在VLA之外,我看到了更多降低對(duì)人類采集數(shù)據(jù)依賴的工作,這也是今年非常令人興奮的進(jìn)展。
現(xiàn)在定義具身智能L1-L5沒(méi)有意義
量子位:如果我們要定制一個(gè)機(jī)器人、具身智能標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)應(yīng)該是怎樣的?
高陽(yáng):制定一個(gè)標(biāo)準(zhǔn)本意是為了促進(jìn)一個(gè)行業(yè)發(fā)展,可以衡量每個(gè)公司的技術(shù)達(dá)到了怎樣的水平。
但我覺(jué)得可能在一個(gè)相當(dāng)長(zhǎng)的時(shí)間內(nèi),無(wú)論這個(gè)標(biāo)準(zhǔn)是什么樣,可能大多數(shù)具身智能因?yàn)榭陀^技術(shù)限制,只能達(dá)到或者號(hào)稱達(dá)到L2.99,或者是達(dá)到了有限場(chǎng)景內(nèi)的L4.
所以這個(gè)標(biāo)準(zhǔn)最后可能就變成了一個(gè)偏向宣傳話術(shù)的東西,有限時(shí)間內(nèi)大家做不到廣泛場(chǎng)景的L4或L5的水平。
所以標(biāo)準(zhǔn)還是要看我們能不能解決客戶的需求,這可以是非常清晰的。
比如說(shuō)我們要服務(wù)一些工廠、商業(yè)、家庭場(chǎng)景,我們的機(jī)器人到底能不能做到,我們服務(wù)到這個(gè)場(chǎng)景的時(shí)候,downtime的概率是多少。
這些是我認(rèn)為更加明確的、更加可以去追求的一些指標(biāo)。
甚至我現(xiàn)在覺(jué)得,去定義一個(gè)具身智能的L1-L5指標(biāo)也不是非常有意義。
關(guān)鍵在于具身智能大腦能不能解決具體問(wèn)題,比如外賣(mài)送貨、比如工廠安裝零件,這是需要我們探討和追求的。
我們還要等機(jī)器人“大學(xué)畢業(yè)”
量子位:那么,我們現(xiàn)在處于具身智能的什么階段?
高陽(yáng):我們剛剛目睹了GPT從1.0到3.5、4.0再到o1的發(fā)展。GPT-1剛剛出來(lái)時(shí),沒(méi)人瞧得起它,它說(shuō)話不利索、沒(méi)有推理能力,跟人溝通很有問(wèn)題。
但是在GPT-1誕生時(shí),大語(yǔ)言模型技術(shù)的原理已經(jīng)基本確定。
我認(rèn)為現(xiàn)在我們處于RobotGPT的1.0階段。因?yàn)榛驹硪呀?jīng)定下來(lái),可能未來(lái)幾年大家看這個(gè)技術(shù)也還是處于低級(jí)水平、沒(méi)太大進(jìn)展,但是智能發(fā)展是一個(gè)指數(shù)上升的曲線,所以我個(gè)人覺(jué)得對(duì)于具身智能大腦端,會(huì)在4年之后達(dá)到RobotGPT-3.5階段??赡軟](méi)有那么高階,但是已經(jīng)可以看到很多令人驚訝的能力了。
我認(rèn)為我們距離那一天有一段時(shí)間,但也不會(huì)很遠(yuǎn)。
量子位:等RobotGPT上一個(gè)大學(xué)。
高陽(yáng):對(duì),他才剛剛進(jìn)大學(xué),什么都不會(huì),需要大學(xué)畢業(yè),真正進(jìn)入每一個(gè)人的家庭,從現(xiàn)在開(kāi)始算大概需要10年時(shí)間。
雖然GPT-4已經(jīng)可以回答很多問(wèn)題了,但是它仍然有10%的情況沒(méi)有那么可靠,所以我們?nèi)匀恍枰^續(xù)提升語(yǔ)言模型的能力使得它能夠真的深入到人類生產(chǎn)生活中的方方面面。
對(duì)于機(jī)器人的模型來(lái)講,我覺(jué)得也是一樣的,我們?cè)谧龀鰜?lái)3.5之后,他可能沒(méi)有那么魯棒,成本可能有點(diǎn)高,我們需要繼續(xù)改進(jìn)這個(gè)技術(shù),所以我認(rèn)為在10年之后會(huì)有10%的人擁有自己的機(jī)器人。