偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

具身智能最權(quán)威的一場圓桌!王興興回應(yīng)質(zhì)疑:當AI和具身智能到達某一階段,機器人一定能打格斗!

發(fā)布于 2025-6-6 18:44
瀏覽
0收藏

編輯 | 伊風

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

宇樹、銀河通用、穹徹智能……當國內(nèi)頂尖的機器人玩家同框,能碰撞出什么樣的火花?

在今天智源做的AI春晚上,搞了一個很炸裂的“具身智能會客廳”,請來了王興興、熊友軍、王鶴等頂尖大佬,分享最新進展和自己對行業(yè)的判斷和洞察。

會上,王興興首次回應(yīng)了機器人格斗“秀肌肉”的質(zhì)疑,他表示格斗的關(guān)鍵在于動作的演示:

因為我們公司終極目標還是希望機器人是干活的,無論是家里還是工廠。最近幾年,如果讓一個人形機器人馬上去家里干活還是不太現(xiàn)實的。我們公司的核心本質(zhì)是希望通過AI技術(shù),讓一個機器人尤其人形機器人可以做各種全身動作,跳舞和格斗是全身動作的一部分,而且我們真正的理念是希望一個人形機器人可以做各種動作。

幾位大佬從各自公司的新發(fā)布,聊到具身智能的技術(shù)選型、和最硬核的VLA(視覺語言行動模型),對于關(guān)注具身智能和泛AI的朋友,絕對不可錯過!

具身智能最權(quán)威的一場圓桌!王興興回應(yīng)質(zhì)疑:當AI和具身智能到達某一階段,機器人一定能打格斗!-AI.x社區(qū)圖片

左起:

主持人 | 王仲遠

王興興 | 宇樹科技CEO

熊友軍 | 北京人形機器人創(chuàng)新中心總經(jīng)理

王  鶴 | 北京大學(xué)助理教授、智源具身智能研究中?主任、銀河通用創(chuàng)始?兼CTO

盧策吾 | 穹徹智能聯(lián)合創(chuàng)始?、上海交通?學(xué)教授、上海創(chuàng)智學(xué)院副院?

Karol Hausman | Physical Intelligence聯(lián)合創(chuàng)始?兼CEO(線上)

以下是經(jīng)過整理的圓桌全文,enjoy:

1.人形機器人秀了把最新進展!落地家庭成主攻方向

王仲遠:各位嘉賓請入座。

興興,咱們第一次見面是去年4月份,我們?nèi)ビ顦浣涣?,我對宇樹機器人印象最深刻不需要移動吊架可以隨時展示。過去一年里,宇樹科技有了很多變化,還有機器人春晚,宇樹16臺H1表演的《秧BOT》。5?25日全球首個人形機器人格斗賽引爆杭州,宇樹G1“AI策算師”獲得冠軍,我聽工作人員說,這個冠軍機器人也到了現(xiàn)場,請你介紹一下吧!

王興興:大家好,非常感謝參加此次活動,我們也帶來了新的機器人,在這里給大家做一下演示。這是去年最新的G1,前段時間也參加了格斗比賽,讓它展示一些動作。

具身智能最權(quán)威的一場圓桌!王興興回應(yīng)質(zhì)疑:當AI和具身智能到達某一階段,機器人一定能打格斗!-AI.x社區(qū)

我們過去無論是春晚上的表演還是格斗比賽,我們希望給大家真正展示一下當前全球機器人發(fā)展的情況,并且也能帶動整個機器人行業(yè)的發(fā)展。大家覺得目前機器人,相對來說還不能直接去家里干活和工廠干活,這是全球都面臨的問題。我們希望機器人真正去干活,但在真正干活之前,我們已經(jīng)達到的技術(shù)成果,也是希望可以做更多的商業(yè)化拓展和嘗試,所以我們做了這些事情。

我相信機器人格斗,在今年和明年,會成為全球受歡迎的體育賽事。后面大家有興趣,可以來我們公司體驗和玩一下,這是非常激動人心的事情。

王仲遠:謝謝興興,機器人一上臺的表演,立刻調(diào)動起了現(xiàn)場的氣氛。除了這臺冠軍機器人外,北京人形機器人創(chuàng)新中心也有一個冠軍機器人。在北京舉辦的半馬比賽中,天工也獲得了冠軍,聽說今天帶來了天工升級版天工2.0,請您分享一下天工奪冠背后的故事,也介紹一下天工2.0有哪些升級。

熊友軍:我是來自北京人形機器人創(chuàng)新中心總經(jīng)理的熊友軍,今天是天工6.0,這也是一個開源開放的平臺。天工6.0在1.0基礎(chǔ)上做了更新,天工1.0在半程馬拉松2小時40分的成績跑完馬拉松,被證明是能跑的機器人。天工2.0,我們希望它好用,能做更多的事情,所以升級是在于上肢,有更多的自由度、有靈巧手、有負重能力,今天也會現(xiàn)場展示一些能力。

下面有請?zhí)旃じ蠹掖蛘泻簟?/p>

機器人:大家好,我是來自北京人形機器人創(chuàng)新中心的天工2.0,很高興告訴大家。

熊友軍:天工,給大家準備一些茶點吧?

機器人:好的,沒問題。

具身智能最權(quán)威的一場圓桌!王興興回應(yīng)質(zhì)疑:當AI和具身智能到達某一階段,機器人一定能打格斗!-AI.x社區(qū)

熊友軍:天工在參加馬拉松之后,我們進行了系統(tǒng)性更新,因為北京人形機器人創(chuàng)新中心成立于2023年11月2日,是全國首個省級的創(chuàng)新中心。在2024年10月份升級為與國家與地方共建的人形機器人創(chuàng)新中心。這個升級是體系化的能力,我們在這個上面有四個方面的平臺能力的升級。

一是,我們一直在建設(shè)的硬件平臺,我們主打場地、草地、沙地、秋林、石子,對各種路面的適應(yīng)能力,它是最能跑的?,F(xiàn)在的升級,讓它能在工廠和各種危險和有傷害的環(huán)境去完成一些事情,這是硬件方面的升級。更多的升級是在大腦軟件方面,我們在今年3月份發(fā)布了第一個通用的具身智能體慧智開悟,這是一腦多機、一腦多能的平臺。包括具身智能的大腦和小腦,大腦主要負責人機交互、環(huán)境感知、意圖識別、問路規(guī)劃。小腦負責運動和執(zhí)行能力,且把這個執(zhí)行結(jié)果反饋給大腦,完成一個閉環(huán)。這是第二個平臺。

第三個平臺,我們訓(xùn)練它的具身智能體,我們構(gòu)建了一個國內(nèi)大型數(shù)據(jù)采集和機器人訓(xùn)練中心,我們構(gòu)建了20多個場景,是虛實結(jié)合的數(shù)據(jù)采集平臺。并且在上面也構(gòu)建了一些數(shù)據(jù)的采集處理和服務(wù)、人才培養(yǎng)的一整套體系。并且去不斷迭代和升級慧智開悟的具身智能化。為了保證機器人的穩(wěn)定可靠性,我們也在牽頭建設(shè)北京的中試平臺?;揪褪沁@么多。

王仲遠:謝謝友軍,王鶴老師更是智源好朋友,2021年王老師從斯坦福回到北大任教,現(xiàn)在是智源研究中心的負責人。2023年王老師創(chuàng)立了北京銀河通用機器人有限公司,今年非常恭喜王老師獲得了MIT主辦方。王老師做的銀河通用機器人模型,最新有什么新的進展,請介紹一下。

王鶴:謝謝王仲遠博士的介紹。今年是銀河通用機器人第二次亮相智源大會,去年在智源大會我們展示了盒裝物體在貨架上的吸取,今天用VLA技術(shù),也是剛剛Physical Intelligenc提到的端到端具身大模型打造了適用性更強,更貼近一般商超的貨架場景。下面我也展示一下,跟Galbot模型的互動。我中午又餓又熱,Gbot給我搞點吃的和喝的。

機器人:根據(jù)您提到的,為您推薦安慕希酸奶和果粒爽果凍,您想要哪個?

具身智能最權(quán)威的一場圓桌!王興興回應(yīng)質(zhì)疑:當AI和具身智能到達某一階段,機器人一定能打格斗!-AI.x社區(qū)

王鶴:成年人不做選擇,我都要。所以我們在現(xiàn)場用輪式底盤的機器人,基于自研的端到端大模型,在非常密集的貨架上,它沒有辦法規(guī)避碰撞,不使用軌跡生成方式取下來。我們這樣的模型能對貨架琳瑯滿目的各種各樣的貨品,除了袋裝,各種薯片,這是一個用于吸的果凍,這個過程是閉環(huán)的,它拿的過程中你搶,它也會抓。建筑物有我們的展區(qū),那邊大家可以在IPAD端下單,機器人送到你的手邊。我們是全球第一次VLA在這樣的泛化非常多的SKU品類里,做這樣的演示。我們的技術(shù)特點就是背后的訓(xùn)練數(shù)據(jù)不同于π,我們主要是合成數(shù)據(jù),價格非常低廉,是可以擴增的合成數(shù)據(jù)。歡迎大家關(guān)注明天的智源分論壇,我們會介紹更多的技術(shù)細節(jié)。

王仲遠:謝謝王老師。盧老師,去年3月份時我們在上海交大第一次見面,當時我印象很深,您所展示的疊衣服、刮胡子,基于力反饋的具身智能系統(tǒng)非常厲害,不知道最近有沒有什么新的進展?

盧策吾:從產(chǎn)品級角度來講,去年發(fā)布了穹徹大腦V1版本,馬上在7月份會發(fā)布V2版本。這里體現(xiàn)了對于世界物理的理解和交互。

為什么會有力反饋呢?在做很多動作時,其實人都是下意識的。這里對于什么樣經(jīng)濟價值比較高的場景會有用呢?需要復(fù)雜動態(tài)的接觸和操作。比如刮胡子就很典型,抓取之后,基本固定不動了,但是要連續(xù)不停地去接觸,這個事情力氣大一點會刮傷,力氣小一點會刮不干凈,所以魯棒性極高模仿人類下意識的環(huán)境。刮胡子有點炫技,其實我們很早已經(jīng)把它應(yīng)用到實際場景中了。

視頻,這是我們一個樸素版本,在很多食品加工行業(yè)里已經(jīng)批量化落地了,這里就需要非常好的力學(xué)。刮冰淇淋試試看,和一次性抓取不太一樣,它每一毫秒都要非常精確地得到它的動作,特別是動作比較硬的時候,是刮不出來這種結(jié)果的,像人的手感一樣。因為已經(jīng)批量化在食品加工、食品處理行業(yè)落地了,這幾段視頻是因為我們廠商有保密協(xié)議,可能你們吃的食品是我們機器人在背后做的,因為食品是高密度、高持續(xù)的接觸,同時對于物理的理解會有更大的難度。但是拓展到生活場景是非常必要的,比如將來可以照顧人,幫你擦臉,有很多跟人的交互,應(yīng)用到生活場景也是必需的,所以我們的模型就用了力和位置,也是全球唯一用力和位置反饋的大模型。

 王仲遠:謝謝盧老師。Karol Hausman,Physical Intelligence在中國是非常受到歡迎和關(guān)注的,每次只要發(fā)布一款模型或一個視頻都會受到大量的轉(zhuǎn)發(fā),包括π0、π0.5、Hi Robot都在中國得到了大量的關(guān)注。不知道您剛才有沒有看到現(xiàn)場機器人的表演,包括盧老師所展示的精細化的操作,也想請您介紹一下Physical Intelligence最新的具身機器人和具身模型的能力有什么新的進展?

Karol Hausman:非常感謝您提的這個問題,我也意識到這一點。確實看到很多人都比較關(guān)注π和Physical Intelligence,我們也愿意給大家提供更多的模型,這樣能夠讓全球的機器人承擔更多有效的任務(wù)。

關(guān)于π0.5模型,這是我們感到非常驕傲的地方,之前會認為很難讓機器人在陌生的環(huán)境下完成相關(guān)的任務(wù),但發(fā)現(xiàn)這是大家都面臨的挑戰(zhàn)。家庭是非常復(fù)雜的環(huán)境,每個人的家庭都不一樣,如果能夠把機器人帶到一個之前從來沒有去過的家庭,之后進行任務(wù)的完成,這是非常重要的突破。因為每個工廠都比較類似,但家庭場景各不相同,所以我們開始關(guān)注有多少多元化的數(shù)據(jù)才能夠幫助機器人在陌生環(huán)境下完成任務(wù),我們有上百個不同的家庭環(huán)境,先生成上百個不同家庭的數(shù)據(jù),其實并不是每次機器人都會完美地完成任務(wù),也會有這樣或那樣的失誤,但確實展現(xiàn)出非常大的潛力,機器人并不需要考慮數(shù)據(jù)集的多元性才能夠?qū)崿F(xiàn)最終的泛化。我們現(xiàn)在還處在整個研究的初級階段,但是這個研究領(lǐng)域確實有很大的前景。

王仲遠:謝謝Karol Hausman。

2.機器人比賽是技術(shù)驗證,還是“秀肌肉”?

王仲遠:接下來聊一聊近期的熱點,大家知道今年具身智能比較破圈,主要原因是進行各種各樣機器人的賽事,比如馬拉松比賽、格斗比賽。今年8月份,在北京市還將舉辦一場世界人形機器人運動會,我也想聽聽各位朋友對于運動會以及這種賽事活動怎么看,它們是一個技術(shù)的驗證場,還是“秀肌肉”的表演?有沒有可能拉高公眾對機器人能力的預(yù)期?也想聽聽王興興和熊友軍的看法。

王興興:從今年1月份的春晚,包括我們的格斗比賽,最大的點其實很好給到了展示水平,并且更早地讓大家接觸目前機器人發(fā)展到了什么階段。因為比賽很多,有些企業(yè)參加,有些企業(yè)沒參加,因為每家企業(yè)有各自的特點。

因為我們公司終極目標還是希望機器人是干活的,無論是家里還是工廠。最近幾年,如果讓一個人形機器人馬上去家里干活還是不太現(xiàn)實的。我們公司的核心本質(zhì)是希望通過AI技術(shù),讓一個機器人尤其人形機器人可以做各種全身動作,跳舞和格斗是全身動作的一部分,而且我們真正的理念是希望一個人形機器人可以做各種動作,無論是跳舞、極限、格斗,包括家里的端茶倒水或者洗衣做飯,它是全身動作的一部分。所以我一直相信一部分,當AI技術(shù)包括具身智能技術(shù)發(fā)展到一定階段時,一個足夠智能的能家用的機器人肯定是可以跳舞了,肯定是可以打格斗賽的。

所以我們的目標一直是希望通過AI技術(shù)讓機器人做各種的全身動作來實現(xiàn)終極目標,去真正解放人類的生產(chǎn)力,尤其解放一些辛苦的工作。但在這個終極目標未實現(xiàn)之前,我們先參加一些表演、參加一些格斗比賽來給大家展示一下機器人的情況,并且產(chǎn)生一部分商業(yè)價值。

今年上半年,包括人形機器人租賃市場也比較火爆,本身已經(jīng)帶來了一些產(chǎn)業(yè)價值,我們無論是做比賽也好,或者真正想做的事情,做這樣一個說明。

熊友軍:我覺得舉辦機器人比賽非常有意義,尤其是像即將在北京鳥巢舉辦的機器人運動會,從以下幾個方面說:

1.它是一個機器人知識普及的盛會,通過比賽,能夠普羅大眾對機器人現(xiàn)在發(fā)展的狀況、現(xiàn)在的技術(shù)水平有一個比較全面的了解。據(jù)我們所知,這次在鳥巢舉行的比賽會有一些田徑比賽,比如短跑、長跑、障礙賽、接力賽,還有足球、舞蹈等大家喜聞樂見的方式,他們非常愿意看,看的過程中,潛移默化就會對機器人的知識、發(fā)展狀況有比較深的了解,普及了科技水平。

2.它是一個非常好的機器技術(shù)的訓(xùn)練場,因為很多比賽的場景是來自于人類真實的生活場景,之前在實驗室里很多都是我們自己構(gòu)建的場景。據(jù)我所知比賽還有很多實際場景,有一些是工廠提出來的物流搬運的,也有一些是醫(yī)院提出來的醫(yī)藥分揀,還有給病人送藥,以及酒店服務(wù)性場景,這些都是一些具體的企業(yè)或場景提出來的,所以非常符合機器人即將要發(fā)展的方向。因為我們畢竟希望機器人真正走入我們生活、服務(wù)人類,所以這是很好的訓(xùn)練場,對提升機器人的技術(shù)有很大的幫助。

 3.這也是機器人潛在客戶了解和跟機器人企業(yè)溝通的橋梁。通過比賽,有可能會促成機器人加速產(chǎn)業(yè)化,或加速在真實場景里做試點的應(yīng)用。謝謝!

王仲遠:Karol ,有沒有關(guān)注到中國機器人比賽,海外有沒有類似的機器人比賽,你怎么看?

Karol Hausman:海外沒有中國這么受歡迎的比賽,中國有各種各樣的機器人比賽。在海外也有一些比賽,還有很多學(xué)術(shù)性的競賽,但和中國的規(guī)模無法相比,所以我非常期待能看到中國的比賽和機器人技術(shù)的發(fā)展和驗證。

王仲遠:機器人通過比賽可以不斷展示它的極限能力,我們更希望機器人可以幫我們解決一些實際的問題,進到工廠和進到家庭。王鶴老師和盧老師做的產(chǎn)品非常落地,聽聽你們關(guān)于比賽和落地之間的看法。

王鶴:今天我們談具身智能,這有一個當下的目標,就是我們一定要推動具身智能的產(chǎn)業(yè)化。雖然我們看到了很多炫酷的技能,我們一定要反思這樣的技能在新的環(huán)境里,在新的物品下,在用戶非常挑剔,需要成功率接近百分之百的情況下,它能不能成功。所以這也是我們銀河通用和智源聯(lián)合團隊做這件事的思考,就是先把最重要的技能打通。在這里面,主要是指mobile peak and place(音)。剛剛看到π在家庭里做的事情,也是通過Navigation,從地面上去Piak,是一些行為組合而成。我們關(guān)注的是一般性貨架,無論是超市還是工廠的料庫區(qū),還是在外賣前置倉。

如果我們能用人形機器人在24小時服務(wù),這樣就構(gòu)成了具身智能真正走向產(chǎn)業(yè)化,真正能服務(wù)人民,創(chuàng)造生產(chǎn)力的開始。這是我一直談的要推動人形機器人生產(chǎn)力時刻的到來,一個好消息是今天銀河通用機器人已經(jīng)在北京開了7家無人藥店,24小時由我們的人形機器人在里面撿藥,對接騎手。這樣的無人藥店為夜間急需用藥的患者送去了溫暖,同時不會把一個人24小時鎖在房子里面,解決了招聘員工的問題。我們今年將在北京、上海、深圳一共開100家藥店。

相信以后給超市下訂單,在車廠里配料,是由我們的人形機器人在里面當家作主。這些我希望跟后續(xù)賽事,在操作級別上對接起來,用賽事引領(lǐng)有價值、可落地的技能形成,不斷把生態(tài)給轉(zhuǎn)起來。

王仲遠:謝謝,盧老師怎么看。

盧策吾:我同意王老師的觀點,這個賽事很好,可以看到機器人的性能,這是很好的起點。下一步能看到機器人產(chǎn)生價值,能干活,就是有干活的比賽,是生產(chǎn)力的比賽。這一點我同意王老師的看法,我們逐步把技能提高。穹徹也是逐步把一些大模型,特別是物理世界的高持續(xù)接觸、有力反饋模型,應(yīng)用于各種食品食材加工等各種場景里面去。如果有很多技能比賽,我們可以看到勞動最光榮。

3.“人形”不是具身智能的唯一解,卻是得到訓(xùn)練數(shù)據(jù)的最優(yōu)解

王仲遠:謝謝盧老師。接下來聊些技術(shù)!首先是關(guān)于機器人構(gòu)型問題。清華大學(xué)舉辦的學(xué)術(shù)會議上,張博院士表示,人形機器人不是具身智能和AGI的最佳路徑,走向通用機器人,硬件要多樣化,軟件要通用性。王興興對這個觀點有什么評價?

王興興:我過去公開好幾次,我不堅持一定要做人形。對我們公司來說,做機器狗和人形機器人是順理成章的事情。尤其對于腿來說,可以有輪子底盤,這是非常實用的。為什么現(xiàn)在大家喜歡用人形,尤其是上半身保持人的樣子。因為現(xiàn)在AI基于人的數(shù)據(jù)進行采集和訓(xùn)練,尤其是上半身和人的動作一致,數(shù)據(jù)采集方便很多,也方便AI做訓(xùn)練。對于全身也是一樣,比如跳舞、格斗比賽,如果你做成別的樣式,就沒辦法做這個事情。

我相信機器人在AGI或通用AI發(fā)生以后,機器人才會千奇百怪,工廠里干活、醫(yī)療的機器人,到時候形式比現(xiàn)在多很多,甚至?xí)?00倍。因為目前的AI是由數(shù)據(jù)驅(qū)動的,因為長得像人的機器人在落地和訓(xùn)練時,還是有很大的優(yōu)勢。

熊友軍:我同意王興興的說法,現(xiàn)在具身智能的發(fā)展和形式,確實是多種多樣,不一定要局限于人形,人形只是一個比較好的載體。我認可人形機器人是具身智能研究的一個最佳載體,我主要從未來市場的容量來考慮。今天機器人可以不必像人,也可以是四足與輪式,這沒問題。從市場應(yīng)用情況來看,最多的市場是走路、商用和家庭,今天的工廠應(yīng)用場景只是開胃小菜。我認為人形機器人的市場容量比其他的機器人容量要大。

第二,從人機交互來講,既然以后會走入家庭和生活,成為我們的朋友,甚至以后成為我們的愛人都有可能。所以人機交互自然,并被人接受,從這方面來講,人形機器人有非常好的優(yōu)勢。

第三,現(xiàn)在的環(huán)境大部分是為人設(shè)計的,部署人形機器人和適應(yīng)環(huán)境過程非常便利,可以方便地使用我們的工具,不需要做太多的改造。否則為了部署,還要去改造環(huán)境。從這幾個角度來講,人形機器人是最好的一種選擇。我明白大家的擔心,現(xiàn)在成本和技術(shù)不占優(yōu)勢。但放在歷史比較長的角度來看,我堅持人形機器人是一個很好的載體。

王仲遠:聽現(xiàn)在,大家對機器人的構(gòu)型的長期和短期有共識。真正要讓機器人有用,模型非常關(guān)鍵。今天上午的開幕式的主旨演講和各位嘉賓的討論都談到了VLA視覺語言行動模型。王鶴老師也紹了VLA模型,在無人駕駛領(lǐng)域,VLA已經(jīng)成為了很主流的解決方案。但畢竟無人駕駛的操作空間是相對有限,機器人面臨的環(huán)境和實際的行動數(shù)量非常多,不知道大家對于VLA的泛化性怎么看?

王鶴:自動駕駛其實驗證了一件事情,就是端到端的方案有更好的擴展性,它能夠通過數(shù)據(jù)真正驅(qū)動模型,而不是靠無窮無盡的規(guī)則,比如先檢測出來車的三維包圍盒,再機遇這些包圍盒想下一步該怎么走,最后規(guī)劃出軌跡以后,再交給控制,這條路其實自動駕駛走了很多年,但是現(xiàn)在全國各地都能開的車不是通過這種模塊化的,而是端到端的。從這個角度上講,VLA的意義在于什么?直接是視覺觀測,最主要的信息來源,可以給自然語言下達任何命令,最終這個模型端到端輸出動作,不經(jīng)過中間任何中間產(chǎn)物。所以從端到端的角度上來講,真正能夠充分地吸收數(shù)據(jù)背后的知識,讓它能夠發(fā)揮出最大的性能,而不受制于一些模塊化方案中間階段的錯誤級聯(lián)誤差和要寫無窮無盡規(guī)則兜底的問題。

今天的VLA是具身研究的熱點,但是針對VLA究竟要突破什么,也有不同的觀點,有些人認為VLA應(yīng)該把人類能做的一切事情在里面快速地做進去,然后形成一個基座模型。從這個角度來講,有點太著急了。人類視覺的輸入之外,還有力覺、觸覺,做飯時還有嗅覺和味覺,我們抓一些熱的東西還有溫覺,還有聽覺,掉地上,聽見了。所以VLA只能是一個起點,要真的想做到人類級別的具身智能,只能是不斷地融合新的模態(tài)。

VLA現(xiàn)在最適合干什么?我認為就是移動抓取和放置。這幾個技能基本上靠視覺為主,末端再加觸覺或力覺的傳感器,就能夠很好地執(zhí)行,而且它面對的很多任務(wù),在工業(yè)、商業(yè)、服務(wù)等里有非常廣泛的應(yīng)用,如果我們能把這樣一個VLA先做好,做work,在各種場景里部署進去,將會是見證具身智能第一次真正高潮的到來。

 盧策吾:VLA確實很火,我覺得這個東西也是很本質(zhì)的,V理解世界、L溝通人類、A改變世界,我覺得這是集合了機器人幾件要干的事情。L很妙,語言是一個黏合劑,各種高層的語義都能把數(shù)據(jù)聯(lián)結(jié)在一起。

 我跟王老師觀點很像,它有很好的擴展性,但還是有l(wèi)imitation,我們還是要去推進的。我也很同意具身智能要逐步落地,但是也要星辰大海,想把它推到通用智能。它面臨很大的問題是,如果想做到通用的話,空間很大,跟無人車不一樣,無人車有兩個決策維度,而且不用碰撞,不用接觸,場景也相對固定,所以整個空間會比較小。如果做通用情況下,VLA就得壓縮不確定性,相當于VLA是一個火鍋底料,現(xiàn)在只能清湯寡水服務(wù)一部分人,要服務(wù)更多人,需要不停往里面加?xùn)|西,加?xùn)|西本質(zhì)是增加更多額外信息,使得這個事情更加的powerful,而且能夠兼容這個框架里加更多的信息,在端到端的模型里壓縮它的空間。

 壓縮空間有很多方式,比如穹徹一直在做的用力反饋,因為很多人下意識動作是不用動腦的,比如擦桌子不用動腦,其實不用每毫秒去計算。有了力反饋之后,穩(wěn)定性很高。如果用加力反饋話,可能會一掯一掯(ken)的,因為看起來是可以的,但它的魯棒性存在問題,所以加了力反饋之后,很多時候把空間壓縮了。

 我們可以做的事情,就是對于物理世界的理解,其實你看到的視覺是偷偷在理解整個世界,如果我們能夠更好地理解這個世界,物理理解是否能夠進一步壓縮空間。在我們下個月發(fā)布的第二版大腦里加了很多東西,比如進一步壓縮空間的話,會有一個數(shù)字基因的東西,因為仿真合成很重要,產(chǎn)生數(shù)據(jù)資產(chǎn)很關(guān)鍵,各種操作仿真數(shù)據(jù)產(chǎn)生很好的數(shù)據(jù)模型,力反饋其實又帶來新的模型,其實一步一步再壓縮,會使得數(shù)據(jù)量需求大大下降。因為這里面不確定的地方是那么大的空間,究竟有多少數(shù)據(jù)量去fitting它,所以找到好的模態(tài),壓縮它的空間,找到聰明的更加理解世界的方式把它融到里面去,VLA才能逐步推進。

 我們也很期待這樣一步一步去推進到它的整個通用拐點。

王仲遠:謝謝盧老師。Karol Hausman也聽到各位嘉賓對于VLA的一些觀點,在您今天早上也提到了VLA,還有令我印象比較深刻的build model等,跨本體的VLA現(xiàn)在在實踐過程中有沒有什么樣的瓶頸是繞不過去的,抑或我們等待就是時間和數(shù)據(jù)的規(guī)模呢?

Karol Hausman:確實還是有瓶頸存在的,最大的瓶頸是現(xiàn)在這個模型有一些完成的并不是我們需要的,我想應(yīng)該有一些算法的提升,這是必需的。因為現(xiàn)在數(shù)據(jù)是海量、無盡的,要使用現(xiàn)在的算法來運用這些無盡的數(shù)據(jù),所以我們的算法需要提升和改善,并且也需要新的技術(shù),這些是我們現(xiàn)在正在做的,也是我們正在解決的。這是現(xiàn)在最大的一個瓶頸。

 如果你問我的話,幾個月之前,現(xiàn)在π5的出現(xiàn)已經(jīng)能夠更好地處理,并且能夠更好地獲取數(shù)據(jù)。所以現(xiàn)在更多還是算法的問題,并非數(shù)據(jù)的問題。

 王仲遠:謝謝,因為時間關(guān)系,今天會客廳就到這里結(jié)束,感謝大家精彩的分享,希望我們常聚常聊,一起推動具身智能研究與產(chǎn)業(yè)的發(fā)展。

如果大家對這個主題依然意猶未盡,可以關(guān)注智源大會還有兩場具身智能相關(guān)的主題論壇,在會議中心有具身機器人現(xiàn)場展示,也歡迎大家前去體驗。

會客廳就到這里,謝謝大家!

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦