推理與操控能力雙提升!具身機(jī)器人雙系統(tǒng)VLA模型新突破
讓機(jī)器人學(xué)會(huì)聰明且快速精準(zhǔn)執(zhí)行,一直是機(jī)器人操控領(lǐng)域的難題。
為了解決這個(gè)問題,香港中文大學(xué)、北京大學(xué)、智平方和北京智源研究院聯(lián)合創(chuàng)新性地提出了Fast-in-Slow(FiS-VLA),即一個(gè)統(tǒng)一的雙系統(tǒng)VLA模型。
它通過將慢系統(tǒng)2最后幾層的Transformer模塊重新構(gòu)建為一個(gè)高效的執(zhí)行模塊,用作快系統(tǒng)1,從而在一個(gè)模型中實(shí)現(xiàn)了快慢系統(tǒng)融合。

這種創(chuàng)新范式首次在單一預(yù)訓(xùn)練模型內(nèi)實(shí)現(xiàn)慢速推理與快速執(zhí)行的協(xié)同,突破了傳統(tǒng)雙系統(tǒng)分離瓶頸。
從此,系統(tǒng)1不再是“門外漢”,它直接繼承了VLM的預(yù)訓(xùn)練知識(shí),能無縫理解系統(tǒng)2的“思考結(jié)果”(中間層特征),同時(shí)自身設(shè)計(jì)保證其能高速運(yùn)行。
在真機(jī)測(cè)試中,研究團(tuán)隊(duì)在AgileX和AlphaBot兩個(gè)雙臂機(jī)器人平臺(tái)上分別設(shè)計(jì)了8項(xiàng)任務(wù),如“擦黑板”、“倒水”、“折疊毛巾”等。FiS-VLA成功率分別達(dá)到68%和74%,比Pi0模型提升超過10個(gè)百分點(diǎn)。

此外,F(xiàn)iS-VLA在泛化任務(wù)中表現(xiàn)也十分穩(wěn)健。無論是未見過的新物體、復(fù)雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率,而其他模型則普遍出現(xiàn)性能大幅下滑。
方法:首個(gè)“ 異構(gòu)輸入+異步頻率”雙系統(tǒng)VLA模型
盡管近年來的視覺-語言-動(dòng)作模型(VLA)開始借助互聯(lián)網(wǎng)規(guī)模預(yù)訓(xùn)練的視覺-語言模型(VLMs)提升常識(shí)推理能力,但這類模型動(dòng)輒數(shù)十億參數(shù),以及基于自回歸生成動(dòng)作的策略,導(dǎo)致在執(zhí)行速度上往往表現(xiàn)不佳。
受心理學(xué)家丹尼爾?卡尼曼大腦快慢雙系統(tǒng)理論的啟發(fā),業(yè)界把“雙系統(tǒng)”設(shè)計(jì)引入VLA大模型,利用基于VLM的慢系統(tǒng)2模塊處理高級(jí)推理,并使用獨(dú)立的快系統(tǒng)1動(dòng)作模塊負(fù)責(zé)實(shí)時(shí)控制。
但是,現(xiàn)有的設(shè)計(jì)是將兩個(gè)系統(tǒng)保持為獨(dú)立模塊,限制了快系統(tǒng)1充分利用慢系統(tǒng)2的豐富預(yù)訓(xùn)練知識(shí),即系統(tǒng)1這個(gè)“運(yùn)動(dòng)員”很難充分吸收系統(tǒng)2“學(xué)霸”的淵博知識(shí)。
團(tuán)隊(duì)提出的Fast-in-Slow(FiS-VLA),實(shí)現(xiàn)了在一個(gè)模型中快慢系統(tǒng)融合。
考慮到FiS-VLA中兩個(gè)系統(tǒng)在角色上的根本差異,研究者引入異構(gòu)模態(tài)輸入與異步運(yùn)行頻率策略,使得模型既能實(shí)現(xiàn)快速反應(yīng),也具備精細(xì)操控能力。
此外,為提升兩個(gè)系統(tǒng)之間的協(xié)調(diào)性,研究者提出了一種雙系統(tǒng)感知協(xié)同訓(xùn)練策略(dual-aware co-training strategy):一方面為系統(tǒng)1注入動(dòng)作生成能力,另一方面保留系統(tǒng)2的上下文推理能力。
這樣就有效解決了傳統(tǒng)VLA模型執(zhí)行頻率低、推理與動(dòng)作割裂的問題,真正做到“謀動(dòng)并行”。
在模型評(píng)估中,相比于現(xiàn)有的SOTA VLA方法,F(xiàn)iS-VLA在仿真任務(wù)中提升了8%的平均成功率,在真實(shí)環(huán)境下提升了11%,并實(shí)現(xiàn)了117.7 Hz 的控制頻率(動(dòng)作塊大小為8)。

由于系統(tǒng)2與系統(tǒng)1在職責(zé)上存在根本差異:系統(tǒng)2負(fù)責(zé)理解,它處理語言指令和2D圖像,提取任務(wù)語義,節(jié)奏偏慢;系統(tǒng)1負(fù)責(zé)執(zhí)行,它讀取機(jī)器人狀態(tài)、3D點(diǎn)云和當(dāng)前圖像,生成高頻控制動(dòng)作,節(jié)奏極快。
因此,F(xiàn)iS-VLA對(duì)這兩個(gè)系統(tǒng)進(jìn)行了專門設(shè)計(jì):它們接收不同模態(tài)的輸入,并以異步的頻率運(yùn)行。
兩套系統(tǒng)雖任務(wù)不同,但運(yùn)行邏輯連貫、數(shù)據(jù)互通。系統(tǒng)1使用系統(tǒng)2的中間語義表示作為指導(dǎo),同時(shí)結(jié)合自身輸入,實(shí)現(xiàn)高速精準(zhǔn)的動(dòng)作生成。
為了處理點(diǎn)云數(shù)據(jù),研究者設(shè)計(jì)了一個(gè)輕量級(jí)的3D tokenizer。它可以把復(fù)雜的空間信息壓縮成高維token,并通過視覺編碼器提取局部幾何特征。這一做法不僅高效,還讓系統(tǒng)1擁有敏銳的空間感知能力。
在系統(tǒng)運(yùn)行節(jié)奏上,F(xiàn)iS-VLA采用異步頻率設(shè)計(jì)。系統(tǒng)2慢慢思考,系統(tǒng)1快快執(zhí)行。比如系統(tǒng)2每跑一次,系統(tǒng)1可以連續(xù)運(yùn)行4次。這種機(jī)制讓推理不會(huì)成為瓶頸,而動(dòng)作響應(yīng)也足夠及時(shí)。
值得一提的是,快慢雙系統(tǒng)融合正在成為VLA大模型領(lǐng)域的共識(shí),但在異步架構(gòu)的突破設(shè)計(jì)上,F(xiàn)iS-VLA目前仍是領(lǐng)跑同行。
訓(xùn)練:“雙系統(tǒng)”協(xié)同訓(xùn)練,相輔相成
訓(xùn)練過程也很有講究。
FiS-VLA的核心目標(biāo)是生成精確且可執(zhí)行的動(dòng)作,因此特地采用了“雙系統(tǒng)感知協(xié)同訓(xùn)練”策略:
對(duì)于執(zhí)行模塊(系統(tǒng)1)使用了擴(kuò)散建模(diffusion modeling)中概率性與連續(xù)性的特點(diǎn),通過向系統(tǒng)1的嵌入空間注入帶噪動(dòng)作作為潛在變量,來學(xué)習(xí)動(dòng)作生成,具體如下:
給定初始動(dòng)作序列?τ,研究者在隨機(jī)時(shí)間步τ ~ U(1, T)(其中τ ∈ Z,T = 100)注入高斯噪聲η ~ N(0, I)。前向過程以閉式添加噪聲:

其中βτ為預(yù)定義調(diào)度表的噪聲縮放因子。為訓(xùn)練系統(tǒng)1(π_{θ_f}),將學(xué)習(xí)過程建模為以下目標(biāo)的優(yōu)化問題:

其中c表示條件源,包含系統(tǒng)2提取的低頻潛在特征和系統(tǒng)1的高頻輸入。由于系統(tǒng)1執(zhí)行模塊嵌入在系統(tǒng)2的VLM中,若僅針對(duì)擴(kuò)散動(dòng)作生成訓(xùn)練模型,可能導(dǎo)致其自回歸推理能力災(zāi)難性遺忘。
因此,研究者提出聯(lián)合訓(xùn)練目標(biāo),對(duì)于推理模塊(系統(tǒng)2)保留其高維推理能力,采用自回歸逐token預(yù)測(cè)的范式作為訓(xùn)練目標(biāo),生成離散的語言或動(dòng)作,避免慢系統(tǒng)發(fā)生災(zāi)難性遺忘。
以離散動(dòng)作為例:

其中D_t為離散動(dòng)作詞元總長度,a_i為第i個(gè)真實(shí)動(dòng)作詞元,P(a_i | context, θ)為LLM在輸入上下文和參數(shù)θ(θ_f ? θ)下的預(yù)測(cè)概率。最終整體訓(xùn)練目標(biāo)為:

從上面可以看出,兩個(gè)系統(tǒng)的目標(biāo)不同,但訓(xùn)練是同步進(jìn)行的。系統(tǒng)1學(xué)“怎么動(dòng)”,系統(tǒng)2學(xué)“想清楚再動(dòng)”。這種策略避免了模型遺忘系統(tǒng)2的推理能力,也讓兩個(gè)系統(tǒng)在統(tǒng)一模型中共同優(yōu)化。

此外,在預(yù)訓(xùn)練階段,研究者用到了超過86萬條機(jī)器人任務(wù)軌跡,涵蓋多個(gè)機(jī)器人平臺(tái)。FiS-VLA主干采用的是參數(shù)量7B的LLaMA2大語言模型,視覺部分采用了SigLIP和DINOv2編碼器,兼顧語義和空間表達(dá)。
效果:仿真&真機(jī)成功率提升顯著
在RLBench仿真任務(wù)中,F(xiàn)iS-VLA在10個(gè)任務(wù)上取得了69%的平均成功率,明顯優(yōu)于CogACT(61%)和Pi0(55%)。尤其值得注意的是,F(xiàn)iS-VLA在10個(gè)任務(wù)中有8個(gè)任務(wù)表現(xiàn)優(yōu)越,突顯了其在動(dòng)作生成方面的魯棒性。
同時(shí),在控制頻率方面,F(xiàn)iS-VLA在動(dòng)作塊大小設(shè)為1的情況下達(dá)到了21.9 Hz的控制頻率,運(yùn)行速度是CogACT(9.8 Hz)的2倍以上,也比Pi0(13.8 Hz)快超過1.6倍。

消融實(shí)驗(yàn)
為了更細(xì)致地驗(yàn)證模型設(shè)計(jì),研究者進(jìn)行了多輪消融實(shí)驗(yàn)。
首先測(cè)試了系統(tǒng)1在系統(tǒng)2中共享的Transformer塊數(shù)量。結(jié)果顯示,隨著共享塊數(shù)量的增加,操控性能逐步提升,并在使用兩個(gè)塊時(shí)趨于飽和。
然后考察系統(tǒng)1的輸入模態(tài)。實(shí)驗(yàn)表明,機(jī)器人狀態(tài)、2D圖像、3D點(diǎn)云缺一不可。尤其是3D點(diǎn)云,在精細(xì)動(dòng)作控制中發(fā)揮了關(guān)鍵作用。
他們還研究了系統(tǒng)運(yùn)行頻率的配比。系統(tǒng)2與系統(tǒng)1之間的異步運(yùn)行頻率比為1:4時(shí),F(xiàn)iS-VLA取得了最佳性能,在慢速推理與快速動(dòng)作生成之間達(dá)到了理想平衡。這驗(yàn)證了異步協(xié)調(diào)頻率設(shè)計(jì)不僅提升了動(dòng)作生成速率,同時(shí)也增加了傳遞給執(zhí)行模塊的觀察信息的豐富度。

為了進(jìn)一步提升控制效率,F(xiàn)iS-VLA還引入了“動(dòng)作分塊”機(jī)制。即每次預(yù)測(cè)多個(gè)連續(xù)動(dòng)作,而不是逐步推理。這樣做能降低誤差積累風(fēng)險(xiǎn),同時(shí)提升動(dòng)作連續(xù)性。
結(jié)果表明,在動(dòng)作塊設(shè)置為8的情況下,模型成功率保持穩(wěn)定,而控制頻率則飆升至117.7Hz。機(jī)器人行為更加流暢,決策更少、執(zhí)行更穩(wěn)。
泛化能力
更難得的是,F(xiàn)iS-VLA在泛化任務(wù)中表現(xiàn)依舊穩(wěn)健。無論是未見過的新物體、復(fù)雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率。而其他模型則普遍出現(xiàn)性能大幅下滑。

這背后正是快慢系統(tǒng)融合帶來的好處:系統(tǒng)2能夠理解語義,找到任務(wù)核心;系統(tǒng)1能夠根據(jù)感知迅速反應(yīng)。二者結(jié)合,使模型具備強(qiáng)泛化能力與魯棒性。
目前FiS-VLA的結(jié)構(gòu)仍是靜態(tài)配置:Transformer共享層數(shù)、系統(tǒng)頻率比都需提前設(shè)定。研究者計(jì)劃在未來探索動(dòng)態(tài)調(diào)參機(jī)制,讓模型能根據(jù)任務(wù)復(fù)雜度和環(huán)境自動(dòng)調(diào)整運(yùn)行策略。
這種自適應(yīng)機(jī)制將進(jìn)一步釋放FiS-VLA的潛力,讓它更接近通用智能機(jī)器人的核心大腦。
總結(jié)來看,F(xiàn)iS-VLA不是對(duì)已有模型的簡單優(yōu)化,而是一種全新的架構(gòu)思路。它打通了思考與行動(dòng)、語義與物理、計(jì)劃與執(zhí)行之間的壁壘。
它不僅讓機(jī)器人“會(huì)想”,更讓它“快動(dòng)”;不僅理解復(fù)雜任務(wù),還能高頻率完成。
這或許就是未來通用智能機(jī)器人的基礎(chǔ)形態(tài)——既有認(rèn)知大腦,又有靈巧身體,統(tǒng)一于同一個(gè)神經(jīng)系統(tǒng)中。
論文鏈接: https://arxiv.org/pdf/2506.01953
項(xiàng)目主頁: https://fast-in-slow.github.io/






























