偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢

發(fā)布于 2025-9-25 06:51
瀏覽
0收藏

當(dāng)你結(jié)束一天的工作,期待AI能自主整理雜亂的桌面、按照需求烹飪簡單的餐食,甚至協(xié)助完成家電維修時,是否曾疑惑:為何現(xiàn)有AI多局限于屏幕交互,難以真正“走進(jìn)”物理世界?這一問題的核心,指向了AI領(lǐng)域的關(guān)鍵方向——具身智能體(Embodied AI Agent)。Meta超級智能實驗室的Jianwei Yang團(tuán)隊CVPR2025發(fā)布的教程系統(tǒng)梳理了多模態(tài)具身智能體從“感知環(huán)境”到“邏輯思考”再到“自主行動”的技術(shù)路徑,為我們揭示了多模態(tài)具身智能體領(lǐng)域的突破與未來可能。

第一章 具身智能體:定義與需求原點

1.1 為什么需要具身智能體?

人類對“自主助手”的需求從未停止,而具身智能體正是這一需求的技術(shù)載體。其應(yīng)用場景已覆蓋三大核心領(lǐng)域:

?自動駕駛:無需人類干預(yù),自主感知路況、規(guī)避障礙、規(guī)劃路線;

?工業(yè)機器人:在工廠環(huán)境中完成精密組裝、物料搬運等重復(fù)性任務(wù);

?家用機器人:處理清潔、收納、看護(hù)等日常繁瑣事務(wù),降低人類生活負(fù)擔(dān)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如研究中指出的,人類長期夢想擁有能“融入生活”的自主AI智能體,而具身智能體正是實現(xiàn)這一夢想的關(guān)鍵技術(shù)形態(tài)。

1.2 什么是具身智能體?

根據(jù)Wikipedia定義,具身智能體是“能夠感知環(huán)境、自主采取行動以實現(xiàn)目標(biāo),并可通過機器學(xué)習(xí)或知識獲取提升性能的實體”。微軟研究院進(jìn)一步將其核心能力拆解為兩大維度:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?多模態(tài)理解:接收視覺、觸覺等多感官輸入,構(gòu)建對環(huán)境的完整認(rèn)知(例如通過攝像頭識別物體位置,通過觸覺感知物體重量);

?動作預(yù)測:基于環(huán)境認(rèn)知和目標(biāo),生成與環(huán)境交互、操縱物體的行動指令(例如“將杯子放到餐桌上”的具體動作序列)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

簡言之,具身智能體的核心目標(biāo)是“像人類一樣,在物理世界中自主解決問題”。

第二章 多模態(tài)具身智能體的發(fā)展浪潮

2.1 技術(shù)演進(jìn)時間線:從基礎(chǔ)到突破

具身智能體的關(guān)鍵發(fā)展節(jié)點,呈現(xiàn)出清晰的技術(shù)迭代路徑:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?2023年前:基礎(chǔ)模型探索期,代表成果包括DroidBot-GPT(結(jié)合LLM的機器人控制)、WebAgent(網(wǎng)頁交互智能體),此時模型多聚焦單一模態(tài)或特定任務(wù),泛化能力有限;

?2024年:多模態(tài)融合加速期,RT-2X(視覺-語言-動作跨模態(tài)模型)、AppAgent(應(yīng)用交互智能體)、TraceVLA(引入軌跡提示的VLA模型)、OpenVLA(開源視覺-語言-動作模型)等相繼出現(xiàn),模型開始具備跨場景適應(yīng)能力;

?2025+:通用化探索期,方向集中于“更強的推理與規(guī)劃能力”,目標(biāo)是讓智能體在未知環(huán)境中自主拆解復(fù)雜任務(wù)(例如“清理廚房”分解為“整理臺面→清洗餐具→收納物品”)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

2.2 視覺語言預(yù)訓(xùn)練(VLP):“看見”的基礎(chǔ)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

要實現(xiàn)“感知環(huán)境”,視覺語言預(yù)訓(xùn)練(VLP)模型是核心支撐。這類模型通過大規(guī)模圖像-文本數(shù)據(jù)學(xué)習(xí),具備兩大關(guān)鍵能力:

?開放詞匯(Open-vocabulary):無需針對特定物體重新訓(xùn)練,即可識別未見過的類別(例如訓(xùn)練過“貓”“狗”后,能識別“兔子”);

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?空間接地(Spatially grounded):精準(zhǔn)定位物體在空間中的位置(例如指出“杯子在桌子左上角”)。

代表性模型包括:

?CLIP(OpenAI):通過對比學(xué)習(xí)將圖像與文本映射到同一特征空間,實現(xiàn)零樣本物體識別;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?Florence(Microsoft Research):構(gòu)建“統(tǒng)一視覺?!?,支持分類、檢測、分割等44項視覺任務(wù),在多個基準(zhǔn)測試中達(dá)到state-of-the-art(SOTA);

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?GLIP、Grounding DINO:進(jìn)一步強化“文本-空間定位”關(guān)聯(lián),例如輸入“黑色小狗”,可直接輸出小狗的邊界框。


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


第三章 “思考”的核心:多模態(tài)大語言模型(MLLM)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

具身智能體僅“看見”還不夠,還需具備“理解指令、邏輯推理”的能力——這一功能由多模態(tài)大語言模型(MLLM)實現(xiàn)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.1 MLLM的視覺理解能力

MLLM通過融合視覺編碼器與語言模型,實現(xiàn)“圖像輸入+語言輸出”的跨模態(tài)交互。以GPT-4V(OpenAI,2023)為例:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?極端熨燙場景:輸入“人在移動的出租車頂熨衣服”的圖像,GPT-4V能準(zhǔn)確指出“異常點在于熨燙行為發(fā)生在移動車輛頂部,而非固定的室內(nèi)環(huán)境”;

?雞塊地圖 meme:輸入“用雞塊擺成世界地圖”的圖像,GPT-4V可解讀出“文本暗示‘太空看地球的美景’,但圖像實際是雞塊,幽默源于預(yù)期與現(xiàn)實的反差”。

3.2 視覺指令調(diào)優(yōu):讓MLLM“聽懂需求”

LLaVA(Large Language and Vision Assistant)的研究提出了兩階段訓(xùn)練方法,大幅降低MLLM的落地成本:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 對齊階段:僅訓(xùn)練“視覺編碼器與語言模型之間的投影權(quán)重(W)”,使用圖像-文本對讓兩者“理解同一語義”,8×A100 GPU僅需數(shù)小時;

? 指令跟隨階段:用指令數(shù)據(jù)(如“描述這張圖”“這張圖里有什么異常”)微調(diào)投影權(quán)重與語言模型,8×A100 GPU不到1天即可完成。

這種方法實現(xiàn)了“低成本復(fù)現(xiàn)GPT-4V級視覺理解”,例如LLaVA對“車頂熨燙”場景的解讀,與GPT-4V的一致性超過90%。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.3 空間推理的突破:Set-of-Marks(SoM)技術(shù)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

傳統(tǒng)MLLM在“精準(zhǔn)空間定位”上存在短板,而SoM技術(shù)通過“圖像標(biāo)注+語言關(guān)聯(lián)”解決了這一問題。其核心是在圖像中添加數(shù)字標(biāo)記,讓模型將標(biāo)記與空間位置綁定:

?物體計數(shù):在水果籃圖像中標(biāo)記蘋果(1、2、5等)和橙子(3、4、6等),GPT-4V可準(zhǔn)確統(tǒng)計“6個蘋果、4個橙子”,錯誤率從傳統(tǒng)方法的20%降至5%以下;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?控制器操作指導(dǎo):在游戲手柄圖像中標(biāo)記按鍵(1為方向鍵、2為左搖桿等),模型可詳細(xì)說明“左搖桿(2)控制角色移動,右搖桿(3)控制鏡頭方向”,大幅提升操作指導(dǎo)的精準(zhǔn)度。


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第四章 “行動”的關(guān)鍵:視覺-語言-動作(VLA)模型

具身智能體的最終目標(biāo)是“行動”,而視覺-語言-動作(VLA)模型是連接“思考”與“行動”的橋梁。Jianwei Yang團(tuán)隊的研究重點分析了VLA模型的演進(jìn)——從OpenVLA的基礎(chǔ)探索,到TraceVLA、LAPA的技術(shù)補全,再到Magma的統(tǒng)一突破。

4.1 OpenVLA:開源VLA的基礎(chǔ)探索

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA是首個開源的通用VLA模型,其架構(gòu)核心是“多模態(tài)輸入→動作輸出”的端到端流程:

?輸入層:接收圖像(物體狀態(tài))與語言指令(如“把茄子放進(jìn)碗里”);

?特征融合:通過DinoV2(視覺編碼器)、SigLIP(圖像-文本對齊)提取特征,經(jīng)MLP投影后輸入Llama 2(7B參數(shù)語言模型);

?輸出層:通過“動作解令牌器”生成機器人可執(zhí)行的動作指令(如Δx=5cm、旋轉(zhuǎn)角度=10°)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA在“視覺泛化”“運動泛化”等任務(wù)上表現(xiàn)優(yōu)異,例如在“拿起茄子”“翻轉(zhuǎn)鍋具”等未見場景中,成功率超過傳統(tǒng)模型30%。但它存在三大短板:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? 僅依賴單張圖像,無法捕捉歷史動作(如“機器人之前移動了多少距離”);

? 動作預(yù)測短視,無法規(guī)劃多步動作;

? 僅用機器人數(shù)據(jù)訓(xùn)練,易過擬合,丟失多模態(tài)理解能力。

4.2 TraceVLA:用“軌跡提示”補全歷史信息

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

為解決“歷史信息缺失”問題,TraceVLA提出“視覺軌跡提示”技術(shù):

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡提取:用CoTracker算法跟蹤視頻序列中“機器人末端執(zhí)行器”與“移動物體”的關(guān)鍵點,生成運動軌跡;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡疊加:將軌跡疊加到當(dāng)前圖像上(例如用虛線標(biāo)記機器人之前的移動路徑),形成“原始圖像+軌跡圖像”的雙輸入;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?指令融合:結(jié)合語言指令(如“把海綿移到藍(lán)色瓶子旁”),讓模型基于歷史軌跡預(yù)測下一步動作。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

在Google Robot的SimplerEnv環(huán)境中,TraceVLA的表現(xiàn)顯著優(yōu)于OpenVLA:面對“背景變化”場景,成功率從41.2%提升至52.3%;面對“干擾物增加”場景,成功率從54.3%提升至66.7%。在真實WidowX機器人上,“折疊布料”“拿起刀具”等任務(wù)的成功率也提升了40%以上。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.3 LAPA:從人類視頻中學(xué)習(xí)“潛在動作”

機器人數(shù)據(jù)采集成本高、場景有限,而LAPA(Latent Pretraining from Videos)提出“從人類視頻中學(xué)習(xí)動作”的思路,大幅降低數(shù)據(jù)依賴:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? 潛在動作量化:用C-ViViT(視頻編碼器)+VQ-VAE(向量量化)將人類動作(如“拿起杯子”)轉(zhuǎn)化為“潛在動作令牌”;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?預(yù)訓(xùn)練:用Large World Model(LWM-7B)學(xué)習(xí)“視頻幀→潛在動作”的映射關(guān)系;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?微調(diào):用少量機器人數(shù)據(jù)微調(diào),將人類動作轉(zhuǎn)化為機器人可執(zhí)行的指令。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

LAPA在“真實桌面操作”任務(wù)中,僅用人類視頻預(yù)訓(xùn)練,成功率就超過“從頭訓(xùn)練”模型2倍;若結(jié)合少量機器人數(shù)據(jù),成功率與“用全量機器人數(shù)據(jù)訓(xùn)練的OpenVLA”持平。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4 Magma:多模態(tài)統(tǒng)一的“終極突破”

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma是當(dāng)前最全面的具身智能體模型,其核心是“同時具備多模態(tài)理解與動作預(yù)測能力”,而非構(gòu)建單一功能的專用模型。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.1 技術(shù)架構(gòu)

?輸入層:支持圖像、視頻、語言指令、UI界面等多模態(tài)輸入;

?特征編碼器:用ConvNeXt-XXLarge(視覺)+Llama-3-8B(語言)提取跨模態(tài)特征;


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?任務(wù)適配:通過SoM(Set-of-Marks)處理空間定位任務(wù),通過ToM(Trace-of-Mark)處理時序動作任務(wù)。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.2 訓(xùn)練數(shù)據(jù)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma使用3900萬條多源數(shù)據(jù),覆蓋四大類型:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? instructional視頻(如人類做飯、維修的視頻);

? 機器人操作數(shù)據(jù)(如Open-X-Embodiment的940萬條軌跡);

? UI導(dǎo)航數(shù)據(jù)(如網(wǎng)頁點擊、APP操作);

? 多模態(tài)理解數(shù)據(jù)(如圖像描述、視覺問答)。

4.4.3 性能表現(xiàn)

Magma是目前唯一能覆蓋“多模態(tài)理解→UI接地→機器人操作”全任務(wù)譜的模型:

? 在“UI導(dǎo)航”任務(wù)中,“點擊指定按鈕”的成功率達(dá)96.3%,遠(yuǎn)超GPT-4V的67.5%;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在真實WidowX機器人上,“放置蘑菇到鍋中”“推動布料”等任務(wù)的平均成功率達(dá)67.5%,是OpenVLA(25.0%)的2.7倍;

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在“空間推理”任務(wù)中,“網(wǎng)格定位”“迷宮導(dǎo)航”的準(zhǔn)確率超過LLaVA-1.5、Qwen-VL等模型20%以上。

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第五章 挑戰(zhàn)與未來:走向“會思考”的具身智能體

盡管技術(shù)已取得突破,當(dāng)前具身智能體仍存在兩大核心短板:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

5.1 多模態(tài)推理能力不足

現(xiàn)有模型缺乏“系統(tǒng)2思考”(即深度邏輯推理)能力。例如面對“如何修理故障的微波爐”,模型無法像人類一樣拆解“檢查電源→打開外殼→更換零件”的邏輯鏈。雖有LMM-R1等模型嘗試引入“思維鏈(Chain-of-Thought)”,但在多模態(tài)場景下的推理精度仍需提升。

5.2 多模態(tài)規(guī)劃能力欠缺

復(fù)雜任務(wù)需“多步規(guī)劃+自我修正”,而現(xiàn)有模型多局限于“單步動作”。例如“清理桌子”需分解為“收起餐具→擦拭臺面→收納雜物”,但模型難以自主規(guī)劃步驟,也無法在“擦拭臺面后發(fā)現(xiàn)殘留污漬”時進(jìn)行修正。Pi 0.5等模型雖嘗試解決這一問題,但在開放場景中的泛化能力仍有限。

5.3 未來方向:進(jìn)入“體驗時代”

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如DeepMind創(chuàng)始人David Silver提出的“AI發(fā)展三階段”(模擬時代→人類數(shù)據(jù)時代→體驗時代),具身智能體的終極目標(biāo)是“在真實環(huán)境中通過自主體驗學(xué)習(xí)”。未來技術(shù)將聚焦三大方向:

Meta團(tuán)隊CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?融合多智能:整合“語言智能”(理解指令)、“視覺智能”(感知環(huán)境)、“時空智能”(捕捉物體位置與運動);

?低成本數(shù)據(jù):進(jìn)一步利用人類視頻、仿真環(huán)境數(shù)據(jù),降低機器人數(shù)據(jù)依賴;

?長程規(guī)劃:提升“多步任務(wù)拆解+動態(tài)修正”能力,讓智能體在未知環(huán)境中自主解決復(fù)雜問題。

參考資料

? 標(biāo)題:Towards Multimodal AI Agent That Can See, Think and Act

? 作者:Jianwei Yang

? 單位:Meta AGI

? 鏈接:https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Jianwei.pdf

本文轉(zhuǎn)載自????旺知識??,作者:旺知識

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦