SmolVLA來襲:用“小模型”解鎖高效機器人控制 精華
在當今這個科技飛速發(fā)展的時代,機器人已經(jīng)逐漸走進了我們的生活。從工業(yè)生產(chǎn)線上的機械臂,到家庭中的掃地機器人,它們都在以各種形式為我們提供便利。然而,盡管我們在機器人控制領域取得了不少進展,但將這些技術真正應用到現(xiàn)實場景中,依然面臨著諸多挑戰(zhàn)。尤其是那些基于大規(guī)模視覺-語言-動作(VLA)模型的機器人系統(tǒng),往往因為硬件和數(shù)據(jù)需求過高,而難以在普通環(huán)境中廣泛部署。這些模型通常依賴于擁有數(shù)十億參數(shù)的Transformer架構,不僅需要大量的內(nèi)存,還對計算能力提出了極高的要求。這使得許多研究和實驗只能在資源豐富的實驗室或云端進行,那些使用低成本硬件的研究者們往往被拒之門外。此外,目前VLA領域的許多研究成果要么是保密的,要么無法復現(xiàn),這極大地阻礙了開放研究的進程。再加上不同機器人平臺之間在形態(tài)、傳感器和控制模式上的差異,使得數(shù)據(jù)異構性問題愈發(fā)突出,進一步增加了跨平臺學習和泛化的難度。
但就在最近,Hugging Face給我們帶來了一個好消息——他們推出了SmolVLA,一款專為低成本和高效部署而設計的緊湊型視覺-語言-動作模型。與傳統(tǒng)的VLA模型不同,SmolVLA完全基于社區(qū)收集的數(shù)據(jù)集進行訓練,并且經(jīng)過優(yōu)化,能夠在單GPU甚至CPU環(huán)境下運行。它的模型架構將一個預訓練的緊湊型視覺-語言模型(SmolVLM-2)和一個基于Transformer的動作專家模塊相結合,能夠從自然語言指令和RGB相機輸入中實現(xiàn)高效的低級控制。
SmolVLA有一個非常獨特的特點,那就是它的異步推理堆棧。這種設計將動作預測與執(zhí)行解耦,使得模型即使在資源受限的環(huán)境中,也能實現(xiàn)低延遲控制,非常適合實時應用。而且,SmolVLA是以開源許可證發(fā)布的,附帶了代碼、訓練數(shù)據(jù)和部署工具,這對于推動整個行業(yè)的發(fā)展無疑是一個巨大的福音。
架構概覽與設計權衡
SmolVLA模型主要由兩個部分構成:
感知模塊(SmolVLM-2)
這個模塊是一個預訓練的緊湊型視覺-語言編碼器,能夠處理RGB圖像序列、傳感器運動狀態(tài)和語言指令。為了提高效率,模型通過下采樣限制了視覺標記的數(shù)量,并且只使用了Transformer層的下半部分。這是因為研究發(fā)現(xiàn),較早的層通常會產(chǎn)生更具可遷移性的特征。
動作專家
這是一個輕量級的Transformer,通過流匹配進行訓練,用于預測連續(xù)控制動作的序列。動作專家在自注意力層和交叉注意力層之間交替,以平衡內(nèi)部動作的一致性和對感知輸入的條件約束。同時,為了確保時間一致性,還應用了因果掩碼。
為了減少計算開銷,模型使用線性投影來對齊不同模態(tài)的標記維度,并且生成動作塊而不是單步預測,從而減少了推理調用的頻率。此外,模型還通過bfloat16精度和Torch的JIT編譯進行了運行時優(yōu)化。
實證評估:仿真與現(xiàn)實世界的性能
SmolVLA在仿真基準測試(LIBERO和Meta-World)以及使用低成本SO100和SO101平臺的真實機器人任務中都進行了評估。模型從頭開始在481個社區(qū)數(shù)據(jù)集上進行了訓練,涵蓋了約2.3萬個劇集,任務標簽由一個VLM自動生成。評估指標包括在分布內(nèi)和分布外條件下任務級別的成功率。
在LIBERO基準測試中,SmolVLA(0.45B)的平均成功率達到了87.3%,與π?(3.3B)等更大的模型不相上下,甚至在某些情況下還超過了它們。在Meta-World中,該模型在不同難度級別的任務中都優(yōu)于擴散策略和較小規(guī)模的VLA??紤]到SmolVLA較小的訓練足跡以及缺乏針對機器人學的預訓練,這些結果尤其令人印象深刻。
在現(xiàn)實場景中,SmolVLA在抓取放置、堆疊和排序任務中的平均成功率達到了78.3%,超過了從頭開始訓練的ACT和經(jīng)過微調的π?。此外,SmolVLA還能夠跨機器人實體進行泛化,即使只在SO100數(shù)據(jù)上進行訓練,也能在SO101上保持性能。
異步推理的性能影響
SmolVLA的異步推理堆棧通過重疊預測和執(zhí)行來提高控制效率。與傳統(tǒng)的同步推理相比,這種方法將平均任務時間縮短了約30%,并且在固定時間場景下,完成的動作數(shù)量翻了一番。這對于邊緣部署來說尤其有利,因為在這些場景中,推理延遲會嚴重影響實時性能。
結論
SmolVLA證明了緊湊型、可復現(xiàn)和開源的VLA模型能夠在低成本硬件上實現(xiàn)高效的機器人控制。通過精心的架構選擇——包括層剪枝、分塊動作預測和異步執(zhí)行——SmolVLA在顯著降低計算需求的同時,保持了性能。
SmolVLA的開放訓練和部署堆棧,加上真實世界的評估,為高效和可訪問的機器人學習研究提供了一個實用的基礎。未來的研究方向包括擴展跨實體數(shù)據(jù)集、在不犧牲延遲的情況下擴展模型容量,以及探索在機器人數(shù)據(jù)之外的多模態(tài)語料庫上進行聯(lián)合訓練。
本文轉載自??Halo咯咯?? 作者:基咯咯
