開啟輕量化機(jī)器人控制新時(shí)代
視覺-語(yǔ)言-動(dòng)作模型(Vision-Language-Action,VLA)已成為機(jī)器人智能控制的重要突破口。然而,傳統(tǒng)的VLA模型往往依賴于擁有數(shù)十億參數(shù)的大型變換器架構(gòu),這不僅帶來了巨大的內(nèi)存和計(jì)算成本,還將實(shí)驗(yàn)和部署局限在資源充足的實(shí)驗(yàn)室和云端環(huán)境中。
Hugging Face于2025年6月3日正式發(fā)布了SmolVLA——一個(gè)專為經(jīng)濟(jì)和高效部署而設(shè)計(jì)的緊湊型VLA模型。
SmolVLA的推出標(biāo)志著機(jī)器人控制技術(shù)的一個(gè)重要轉(zhuǎn)折點(diǎn)。它不僅打破了傳統(tǒng)VLA模型的資源壁壘,還為廣大開發(fā)者和研究人員提供了一個(gè)可在單GPU或CPU環(huán)境中運(yùn)行的開源解決方案。這一創(chuàng)新不僅降低了機(jī)器人學(xué)習(xí)的門檻,更為實(shí)現(xiàn)真正的邊緣計(jì)算機(jī)器人控制奠定了基礎(chǔ)。
1.傳統(tǒng)VLA局限性
硬件資源門檻過高:現(xiàn)有的VLA模型普遍采用基于變換器的骨干網(wǎng)絡(luò),參數(shù)規(guī)模動(dòng)輒數(shù)十億,導(dǎo)致顯著的內(nèi)存和計(jì)算開銷。這種高資源需求使得只有配備高端硬件的實(shí)驗(yàn)室才能進(jìn)行相關(guān)研究,嚴(yán)重限制技術(shù)普及和應(yīng)用。
研究成果封閉性:目前VLA研究領(lǐng)域的大部分進(jìn)展要么屬于專有技術(shù),要么基于不可復(fù)現(xiàn)的方法論,這嚴(yán)重阻礙了開放性研究的發(fā)展。
數(shù)據(jù)異構(gòu)性問題:不同機(jī)器人平臺(tái)在形態(tài)學(xué)、傳感器配置、控制模式等方面存在顯著差異,這種數(shù)據(jù)異構(gòu)性為通用化學(xué)習(xí)和跨平臺(tái)部署帶來了巨大挑戰(zhàn)。
2.SmolVLA
SmolVLA采用了創(chuàng)新的雙組件架構(gòu)設(shè)計(jì),將感知和動(dòng)作預(yù)測(cè)功能巧妙分離。感知模塊(SmolVLM-2)基于預(yù)訓(xùn)練的緊湊型視覺-語(yǔ)言編碼器,負(fù)責(zé)處理RGB圖像序列、感知運(yùn)動(dòng)狀態(tài)和語(yǔ)言指令。為了提高效率,該模塊通過下采樣限制視覺令牌數(shù)量,并僅使用Transformer的下半部分,因?yàn)橛醒芯孔C明早期層通常產(chǎn)生更具可轉(zhuǎn)移性的特征。
動(dòng)作專家模塊采用輕量級(jí)Transformer架構(gòu),使用流匹配(Flow Matching)技術(shù)訓(xùn)練,預(yù)測(cè)連續(xù)控制動(dòng)作序列。該模塊在自注意力和交叉注意力層之間交替。
SmolVLA的最大技術(shù)創(chuàng)新之一是其異步推理堆棧,該架構(gòu)將動(dòng)作預(yù)測(cè)與執(zhí)行解耦。傳統(tǒng)方法中,機(jī)器人必須等待當(dāng)前動(dòng)作塊完全執(zhí)行完畢后才能預(yù)測(cè)下一個(gè)動(dòng)作塊,這會(huì)導(dǎo)致推理間隙期間的系統(tǒng)空閑,影響實(shí)時(shí)性能。
SmolVLA的異步架構(gòu)通過RobotClient和PolicyServer的分離設(shè)計(jì),實(shí)現(xiàn)了動(dòng)作預(yù)測(cè)與執(zhí)行的并行處理。當(dāng)終端仍在消費(fèi)先前可用的動(dòng)作隊(duì)列時(shí),系統(tǒng)就可以觸發(fā)新的動(dòng)作塊預(yù)測(cè),顯著提高了系統(tǒng)響應(yīng)性。相比傳統(tǒng)同步推理,異步方法將平均任務(wù)時(shí)間減少約30%,在固定時(shí)間場(chǎng)景下完成的動(dòng)作數(shù)量翻倍。這對(duì)于推理延遲會(huì)影響實(shí)時(shí)性能的邊緣部署場(chǎng)景尤為重要。
SmolVLA采用基于流匹配的動(dòng)作專家架構(gòu),這是一個(gè)重要的技術(shù)突破。與傳統(tǒng)僅依賴自注意力或交叉注意力的方法不同,SmolVLA采用交替的設(shè)計(jì)方案。每個(gè)塊包含自注意力(SA)或交叉注意力(CA)層,其中CA層交叉關(guān)注VLM的鍵值對(duì),SA層允許動(dòng)作令牌相互關(guān)注。
在SA層中采用因果注意力掩碼,確保每個(gè)動(dòng)作令牌只能關(guān)注塊內(nèi)的過去令牌,防止未來動(dòng)作依賴性。這一設(shè)計(jì)有效提高了動(dòng)作塊的平滑性,特別是在真實(shí)機(jī)器人評(píng)估中表現(xiàn)突出。
基于先驗(yàn)研究發(fā)現(xiàn),SmolVLA只使用VLM的前半部分層(N = L/2),這一設(shè)計(jì)在速度和性能之間實(shí)現(xiàn)了良好平衡,有效將LLM和動(dòng)作專家的計(jì)算成本減半。雖然高分辨率圖像對(duì)VLM性能至關(guān)重要,但會(huì)增加推理成本。SmolVLA不使用圖像分塊技術(shù),僅使用全局圖像加像素重排操作,將每幀的視覺令牌限制為64個(gè)。
VLM(視覺-語(yǔ)言模型)的不同層處理不同層次的信息:
前半部分層(淺層)提取基礎(chǔ)視覺特征(邊緣、紋理、形狀),處理基本語(yǔ)言語(yǔ)義,計(jì)算效率高,參數(shù)相對(duì)較少。后半部分層(深層)進(jìn)行高級(jí)抽象和推理,復(fù)雜的多模態(tài)融合,計(jì)算成本高,參數(shù)眾多。
假設(shè)任務(wù)是拿起紅色的杯子,前半部分層已經(jīng)能提供識(shí)別出紅色區(qū)域,檢測(cè)到杯子的形狀,理解拿起的基本含義,物體的3D位置信息。
后半部分層提供的額外能力:關(guān)于杯子的文化背景知識(shí),對(duì)于機(jī)器人執(zhí)行動(dòng)作來說,前者已經(jīng)足夠了。
3.數(shù)據(jù)處理與標(biāo)準(zhǔn)化創(chuàng)新
SmolVLA在數(shù)據(jù)處理方面實(shí)現(xiàn)了重要突破,從481個(gè)社區(qū)數(shù)據(jù)集中篩選出約23,000個(gè)episode,覆蓋1060萬幀數(shù)據(jù)。這一數(shù)據(jù)規(guī)模雖然比其他最先進(jìn)方法至少小一個(gè)數(shù)量級(jí),但通過巧妙的數(shù)據(jù)處理策略實(shí)現(xiàn)了優(yōu)異的性能。
VLM自動(dòng)標(biāo)注:針對(duì)社區(qū)數(shù)據(jù)集中任務(wù)標(biāo)注質(zhì)量參差不齊的問題,SmolVLA采用現(xiàn)成的VLM(Qwen2.5-VL-3B-Instruct)自動(dòng)生成簡(jiǎn)潔的任務(wù)描述。系統(tǒng)對(duì)每個(gè)數(shù)據(jù)集采樣代表性幀,結(jié)合原始指令,生成面向動(dòng)作的簡(jiǎn)短句子摘要。
標(biāo)準(zhǔn)化處理:為解決相機(jī)命名約定的高度變異性問題,SmolVLA手動(dòng)將每個(gè)相機(jī)映射到標(biāo)準(zhǔn)化視圖類型,優(yōu)先考慮頂部、腕部和側(cè)面視角,并重命名為OBS_IMAGE_1、OBS_IMAGE_2和OBS_IMAGE_3。
LIBERO基準(zhǔn)測(cè)試:在LIBERO基準(zhǔn)測(cè)試中,SmolVLA(0.45B參數(shù))實(shí)現(xiàn)了87.3%的平均成功率,接近或超越了參數(shù)規(guī)模更大的模型如π?(3.3B參數(shù))。這一表現(xiàn)尤其令人矚目,因?yàn)镾molVLA沒有經(jīng)過機(jī)器人特定的預(yù)訓(xùn)練。Meta-World評(píng)估:在Meta-World基準(zhǔn)測(cè)試中,SmolVLA在各個(gè)任務(wù)難度級(jí)別上均優(yōu)于擴(kuò)散策略和小規(guī)模VLA模型,展現(xiàn)了其優(yōu)秀的泛化能力。
在真實(shí)世界設(shè)置中,SmolVLA在抓取-放置、堆疊和分揀任務(wù)中實(shí)現(xiàn)了78.3%的平均成功率,顯著優(yōu)于從頭訓(xùn)練的ACT和經(jīng)過微調(diào)的π?。更令人印象深刻的是,SmolVLA展現(xiàn)了優(yōu)秀的跨機(jī)器人實(shí)體泛化能力。盡管僅在SO100數(shù)據(jù)上訓(xùn)練,但在SO101平臺(tái)上仍保持了良好的性能表現(xiàn)。相比π?,SmolVLA的訓(xùn)練速度快約40%,內(nèi)存消耗減少6倍,為資源受限環(huán)境
下的機(jī)器人學(xué)習(xí)提供了可行的解決方案。
SmolVLA的核心設(shè)計(jì)哲學(xué)是追求效率與性能的最優(yōu)平衡點(diǎn)。無論是前半部分VLM層的選擇、交替注意力的架構(gòu),還是適度的專家容量配置,每一個(gè)技術(shù)決策都體現(xiàn)了對(duì)計(jì)算資源的精打細(xì)算和對(duì)實(shí)用性的深度考量。
本文轉(zhuǎn)載自??????魯班模錘??????,作者:龐德公
