偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

具身智能新時代!VLA迎來最強基礎模型Magma:UI導航、機器人操作全能

人工智能
Magma是一個新型多模態(tài)基礎模型,能夠理解和執(zhí)行多模態(tài)任務,適用于數(shù)字和物理環(huán)境:通過標記集合(SoM)和標記軌跡(ToM)技術,將視覺語言數(shù)據(jù)轉化為可操作任務,顯著提升了空間智能和任務泛化能力。

現(xiàn)有的大語言模型、圖像生成模型等都只是在某幾個模態(tài)數(shù)據(jù)上進行操作,無法像人類一樣與物理世界產(chǎn)生交互。

視覺-語言-行動(VLA,Vision-Language-Action)模型是可以感知視覺刺激、語言輸入以及其他與環(huán)境相關數(shù)據(jù)的自主智能體,能夠在物理和數(shù)字環(huán)境中生成有意義的「具身行動」(embodied actions)以完成特定任務。

圖片圖片

由于二維數(shù)字世界和三維物理世界之間存在差異,現(xiàn)有的VLA模型通常對任務進行簡化,導致多模態(tài)理解能力偏弱,在跨任務和跨領域的泛化能力上不夠通用。

微軟、馬里蘭大學、威斯康星大學麥迪遜分校、韓國科學技術院、華盛頓大學的研究人員開發(fā)了一個具備多模態(tài)理解、行動預測的智能體基礎模型Magma,不僅保留了視覺語言模型的語言理解能力(語言智能),還具備在視覺空間世界中進行規(guī)劃和行動的能力(時空智能),能夠完成從用戶界面(UI)導航到機器人操作等各種智能體任務。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2502.13130

代碼鏈接:https://microsoft.github.io/Magma

為了賦予Magma智能體能力,研究人員使用海量圖像、視頻和機器人數(shù)據(jù)集對其進行預訓練:

在圖像中,可操作的視覺對象(如用戶界面中的點擊按鈕)通過「標記集合」(SoM,Set-of-Mark)進行標注,以便實現(xiàn)行動定位;

在視頻中,物體的運動(如人類手部或機器人臂的動作軌跡)則通過「標記軌跡」(ToM,Trace-of-Mark)進行標注,以支持行動規(guī)劃。

圖片圖片

實驗結果表明,SoM和ToM之間形成了良好的協(xié)同效應,Magma在UI導航和機器人操作任務上實現(xiàn)了最佳性能記錄,同時在圖像和視頻相關多模態(tài)任務中的表現(xiàn)也優(yōu)于其他常用的多模態(tài)模型。

多模態(tài)智能體建模

問題定義

通用的多模態(tài)AI智能體π能夠同時執(zhí)行多模態(tài)理解和行動執(zhí)行,以過去的視覺觀察圖像L={I1, ..., Ik}和文本形式的任務描述作為輸入,并輸出一組至少包含T≥1個token的集合O:

圖片圖片

其中,ctx為上下文,l ∈ {verbal,spatial}表示第i個token是語言token還是空間token

二維截圖中的UI導航任務:對于「預訂酒店」任務,智能體的輸出應該包括表示動作語義類型的語言token(如type、click等)以及動作應用的具體位置(x, y)或矩形框(x, y, w, h);

三維世界中的機器人操作任務:對于「關閉抽屜」任務,智能體的輸出包括終端執(zhí)行器的六自由度(6-DoF)位移(x, y, z, 偏航角、俯仰角、翻滾角),還可以添加一個維度來表示夾爪是打開還是關閉狀態(tài);

多模態(tài)理解任務:如果任務僅與輸入圖像L有關,例如視覺問答(VQA)任務,問題就簡化為對生成「輸入圖像/視頻的文本描述」或「目標位置」。

盡管任務的輸出形式看似不同,但研究人員通常會將所有輸出統(tǒng)一轉換為文本token,以便于模型的學習。

方法

研究人員提出了一種簡單、有效的方法,結合「標記集合」(Set-of-Mark, SoM)和「標記軌跡」(Trace-of-Mark, ToM)將模型擴展到空間預測任務(可點擊按鈕)和時間維度,解決了兩個通用性難題

1)如何構建一個統(tǒng)一的預訓練接口,以便實現(xiàn)聯(lián)合訓練?

2)現(xiàn)有的視覺語言動作數(shù)據(jù)在數(shù)量和多樣性上都較為有限,沒有足夠的數(shù)據(jù)用于擴大模型規(guī)模。

基于標記集合(SoM)的動作定位

「標記集合」提示方法最初是為了增強GPT-4V的視覺定位能力而提出的,但以往的研究主要利用SoM來增強現(xiàn)成的大型多模態(tài)模型(LMMs)的視覺語言定位能力,研究人員提出利用SoM來訓練智能體模型,使其能夠定位特定任務中的可操作點或區(qū)域,并在需要時進一步預測基本動作。

假設在時間步t,智能體觀察到一張圖像It,其大小為H×W×3(即高度、寬度和顏色通道),同時智能體的輸入還包括任務描述和上下文信息。

圖片圖片

先從圖像中提取一組可操作的候選區(qū)域或點P = {p1, ..., pK},其中每個點pk可以是一個四維的矩形框坐標(例如x, y, w, h)或二維的點坐標(x, y),然后在圖像上對應的位置疊加標記和矩形框,并用數(shù)字標簽標記它們,例如M = {1: p1, 2: p2, ..., K: pK},從而生成一張帶有標記的新圖像。

模型需要從候選標記中選擇相應的標記,并結合原始坐標,極大簡化了智能體模型的動作定位任務。

圖片圖片

基于標記軌跡(ToM)的動作規(guī)劃

視頻數(shù)據(jù)包含了大量人類動作和活動的信息,可以用來提升智能體模型的能力,但動作標簽數(shù)據(jù)極為稀缺。

研究人員提出「標記軌跡」(Trace-of-Mark, ToM)的方法,將「疊加標記」(overlaying marks)的策略從靜態(tài)圖像擴展到動態(tài)視頻,讓智能體模型能夠有效地從視頻中學習規(guī)劃和執(zhí)行動作。

對于第t幀It中的K個標記,提取標記在接下來I幀中的對應位置,記為軌跡T = {Mt+1, ..., Mt+l},進一步要求模型預測有效標記的未來軌跡,其中trace[t+1:t+l]為標記集合T中有效標記的軌跡序列的一個子集。

圖片圖片

ToM預測方法可以充分利用視頻數(shù)據(jù),迫使模型理解視頻觀察中的時間動態(tài),并在采取下一步動作之前「向前看」;使用更少的token來捕捉更長時間范圍內(nèi)的動作相關目標動態(tài),且忽略周圍無關的內(nèi)容。

研究人員采用點跟蹤模型CoTracker來提取ToM數(shù)據(jù)。

建模

為了保持Magma所需的多模態(tài)理解能力,研究人員使用一個視覺編碼器V,將每一幀圖像編碼成多個token,然后將所有token拼接成一個序列,并與編碼任務描述的語言token一起輸入到一個僅解碼器的語言模型(LLM)中。

由于任務的多樣性,研究人員選擇ConvNeXt作為視覺主干網(wǎng)絡,能夠無縫處理各種分辨率圖像和視頻,能夠很好地捕捉全局上下文,效果與結合全局和局部裁剪的方法相當。

圖片圖片

智能體建模為一個自回歸解碼過程,即基于之前的所有輸出、視覺編碼器對圖像的編碼、任務描述以及上下文信息,來生成下一個輸出。

實驗結果

智能體能力

研究人員使用了ScreenSpot來評估用戶界面(UI)動作定位和導航能力,使用VisualWebBench來測試其在網(wǎng)頁環(huán)境中的表現(xiàn),同時還用SimplerEnv來評估機器人操作任務的表現(xiàn)。

圖片圖片

結果顯示,Magma在所有測試中都持續(xù)超越了其他通用領域的大型多模態(tài)模型(例如LLaVA和Qwen-VL),以及特定領域的智能體模型,比如用于UI導航的SeeClick和用于機器人操作的OpenVLA;在用戶界面任務上,Magma的零樣本性能甚至超過了目前最先進的基于視覺的方法(結合了GPT-4V和Omniparser)。

圖片圖片

Magma預訓練模型的成功率比排名第二的OpenVLA高出19.6%,幾乎達到了平均成功率的兩倍。

空間推理

研究人員將Magma模型在用戶界面(UI)導航和機器人操作任務上表現(xiàn)出色的原因歸結為其在空間推理能力上的提升,然后在視覺空間推理(VSR)、BLINK和SpatialEval基準測試中進行評估。

圖片圖片

結果可以看到,Magma在VSR和SpatialEval上的表現(xiàn)顯著優(yōu)于現(xiàn)有的方法,并且其預訓練僅使用了大約2900萬張圖像,對比CogVLM使用了約15億張圖像,兩個模型的性能大致相當;消融實驗證明了標記集合(SoM)和標記軌跡(ToM)預訓練任務在幫助Magma提升空間推理能力方面的有效性。

圖片圖片

多模態(tài)理解

圖像指令微調(diào):研究人員在Magma-SFT-820K數(shù)據(jù)集上進行微調(diào),然后將微調(diào)后的Magma模型與現(xiàn)有的視覺語言模型(VLMs)在一系列常用的圖像推理基準測試上進行了比較,結果顯示Magma在大多數(shù)任務上的表現(xiàn)都優(yōu)于最近提出的VLMs,尤其是在TextVQA和ChartQA任務上,分別取得了約5%和22%的顯著提升。

圖片圖片

視頻指令微調(diào):研究人員報告了Magma模型在多個視頻問答(QA)基準測試上的表現(xiàn),包括IntentQA、NextQA、VideoMME和MVBench,結果展現(xiàn)了預訓練方法的有效性。

圖片圖片

Magma在不同基準測試中持續(xù)超越了大多數(shù)參數(shù)數(shù)量相當?shù)淖钕冗M模型,表明Magma能夠很好地理解和推理視頻內(nèi)容,即使在復雜的任務場景中也能表現(xiàn)出色。

參考資料:https://huggingface.co/papers/2502.13130


責任編輯:武曉燕 來源: 新智元
相關推薦

2024-12-19 14:44:22

2025-06-25 09:04:59

2023-12-23 23:16:36

機器人模型

2023-10-04 11:54:34

2023-11-08 13:20:00

模型數(shù)據(jù)

2024-07-22 08:00:00

機器人虛擬

2024-11-01 09:45:08

2025-06-25 09:02:05

2025-01-09 12:39:27

2024-12-11 12:00:00

2025-05-28 13:25:14

2024-07-04 10:16:26

點贊
收藏

51CTO技術棧公眾號