偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成 精華

發(fā)布于 2025-8-12 08:42
瀏覽
0收藏

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2508.05580 

亮點(diǎn)直擊

  • 提出基于MLLM的高效數(shù)據(jù)合成智能體框架Follow-Your-Instruction,可為多樣AIGC任務(wù)合成真實(shí)世界數(shù)據(jù);
  • 為實(shí)現(xiàn)高質(zhì)量高效數(shù)據(jù)生成,引入綜合基準(zhǔn)以評估MLLM驅(qū)動(dòng)智能體在2D、3D與4D層級的表現(xiàn),并開發(fā)多種MLLM輔助數(shù)據(jù)生成形式(包括上下文引導(dǎo)與長期指導(dǎo));
  • 通過微調(diào)3種最新基線模型在典型2D、3D與4D任務(wù)上的實(shí)驗(yàn)證明,采用我們的數(shù)據(jù)能顯著提升模型在下游應(yīng)用的性能。


隨著AI生成內(nèi)容(AIGC)需求的增長,對高質(zhì)量、多樣化且可擴(kuò)展數(shù)據(jù)的需求變得日益關(guān)鍵。然而,收集大規(guī)模真實(shí)世界數(shù)據(jù)仍然成本高昂且耗時(shí),阻礙了下游應(yīng)用的發(fā)展。盡管部分工作嘗試通過渲染過程收集任務(wù)特定數(shù)據(jù),但大多數(shù)方法仍依賴手動(dòng)場景構(gòu)建,限制了其可擴(kuò)展性和準(zhǔn)確性。為應(yīng)對這些挑戰(zhàn),提出Follow-Your-Instruction,一個(gè)由多模態(tài)大語言模型(MLLM)驅(qū)動(dòng)的框架,用于自動(dòng)合成高質(zhì)量的2D、3D和4D數(shù)據(jù)。


Follow-Your-Instruction首先通過多模態(tài)輸入使用MLLM-Collector收集資產(chǎn)及其關(guān)聯(lián)描述,隨后構(gòu)建3D布局,并分別通過MLLM-GeneratorMLLM-Optimizer利用視覺語言模型(VLMs)對多視角場景進(jìn)行語義優(yōu)化。最后,使用MLLM-Planner生成時(shí)間連貫的未來幀。通過在2D、3D和4D生成任務(wù)上的全面實(shí)驗(yàn)評估生成數(shù)據(jù)的質(zhì)量。結(jié)果表明,本文的合成數(shù)據(jù)顯著提升了現(xiàn)有基線模型的性能,證明了Follow-Your-Instruction作為生成智能的可擴(kuò)展高效數(shù)據(jù)引擎的潛力。

引言

AI生成內(nèi)容(AIGC)旨在利用生成模型創(chuàng)造具有創(chuàng)意且逼真的內(nèi)容,目前已廣泛應(yīng)用于電影工業(yè)、增強(qiáng)現(xiàn)實(shí)、自動(dòng)化廣告以及社交媒體內(nèi)容創(chuàng)作?;A(chǔ)模型的最新進(jìn)展,例如擴(kuò)散模型和多模態(tài)大語言模型(MLLMs),顯著提升了生成內(nèi)容的質(zhì)量與靈活性。作為數(shù)據(jù)驅(qū)動(dòng)模型,這些模型通過大規(guī)模訓(xùn)練數(shù)據(jù)集學(xué)習(xí)強(qiáng)大的先驗(yàn)知識,使其能夠輕松應(yīng)對多模態(tài)理解、生成、視覺編輯、動(dòng)畫以及具身機(jī)器人等復(fù)雜任務(wù)。


然而,隨著AIGC應(yīng)用向更復(fù)雜和細(xì)粒度場景發(fā)展,對高質(zhì)量、任務(wù)特定數(shù)據(jù)的需求大幅增加。盡管大多數(shù)開源基礎(chǔ)模型訓(xùn)練于LAION-400M和WebVid-10M等大規(guī)模通用數(shù)據(jù)集,但這些數(shù)據(jù)集通常缺乏細(xì)粒度應(yīng)用所需的特定任務(wù)標(biāo)注。例如,物體移除任務(wù)需要精確的背景掩碼,而4D生成則依賴準(zhǔn)確的相機(jī)軌跡。此類精確監(jiān)督信號的缺失,往往限制了這些數(shù)據(jù)集在專用生成任務(wù)中的直接適用性。


目前已有部分早期工作[23, 46]嘗試通過渲染管線構(gòu)建任務(wù)特定數(shù)據(jù)集。Blender等渲染引擎能夠精細(xì)控制物體布局、光照條件和物理交互,適合為特定AIGC任務(wù)定制數(shù)據(jù)集。此類合成數(shù)據(jù)集常被用于微調(diào)強(qiáng)大的基礎(chǔ)模型,以提升下游應(yīng)用性能。然而,手動(dòng)設(shè)計(jì)與構(gòu)建此類數(shù)據(jù)集仍是主要瓶頸,因其需要大量人力、領(lǐng)域?qū)I(yè)知識,且難以平衡真實(shí)性、準(zhǔn)確性與可擴(kuò)展性。


為應(yīng)對這些局限性,本文提出Follow-Your-Instruction——一種基于MLLM的高效數(shù)據(jù)合成智能體框架,旨在為廣泛AIGC任務(wù)生成逼真且多樣化的世界數(shù)據(jù)。更重要的是,據(jù)我們所知,這是首個(gè)同時(shí)支持2D、3D與4D生成任務(wù)的數(shù)據(jù)生成系統(tǒng)。如下圖1所示,該框架涵蓋七種代表性應(yīng)用,包括2D物體移除、3D修復(fù)、補(bǔ)全以及4D多視角生成。具體而言,通過利用MLLM對真實(shí)世界的廣泛理解與交互能力,我們將強(qiáng)大MLLM集成至智能體中,并引入四個(gè)核心組件(MLLM-Collector、MLLM-Generator、MLLM-OptimizerMLLM-Planner)以協(xié)助基準(zhǔn)的設(shè)計(jì)與驗(yàn)證。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

主要從兩個(gè)維度評估Follow-Your-Instruction的性能:

  • MLLM驅(qū)動(dòng)合成數(shù)據(jù)質(zhì)量評估:為衡量MLLM驅(qū)動(dòng)合成的能力,我們在8種MLLM(含商業(yè)工具與研究方法)上針對4項(xiàng)指標(biāo)進(jìn)行實(shí)驗(yàn);
  • 下游應(yīng)用效果驗(yàn)證:進(jìn)一步檢驗(yàn)合成數(shù)據(jù)的有效性,我們使用合成數(shù)據(jù)微調(diào)3類下游任務(wù)(如2D物體移除、3D重建和4D視頻生成)。結(jié)果表明任務(wù)特定性能顯著提升,凸顯了框架的實(shí)用價(jià)值。

相關(guān)工作

多模態(tài)大語言模型

多模態(tài)大語言模型(MLLMs)通過整合文本、視覺與3D模態(tài)持續(xù)演進(jìn)。在內(nèi)容修復(fù)領(lǐng)域,RestoreAgent展現(xiàn)2D任務(wù)的強(qiáng)勁性能,RL-Restore專注于模糊與噪聲的漸進(jìn)恢復(fù),Clarity ChatGPT雖結(jié)合對話但適用范圍有限??臻g建模方面,Text2World與Spatial-MLLM分別聚焦符號化結(jié)構(gòu)生成與雙編碼器推理,VSI-Bench則評估計(jì)數(shù)、導(dǎo)航等空間推理任務(wù)。具身交互中,GEA等模型在VisualAgentBench表現(xiàn)優(yōu)異,而Embodied-Bench揭示GPT-4V等模型在長期規(guī)劃中的局限。盡管進(jìn)展顯著,統(tǒng)一多模態(tài)評估與訓(xùn)練數(shù)據(jù)的缺失仍是挑戰(zhàn)。

基于擴(kuò)散模型的生成應(yīng)用

擴(kuò)散模型廣泛應(yīng)用于2D、3D與4D領(lǐng)域的生成任務(wù)。2D任務(wù)(如物體移除與重光照)依賴人工標(biāo)注數(shù)據(jù)集與分割流程;3D領(lǐng)域,LiDAR Diffusion Models利用專用數(shù)據(jù)集重建深度/點(diǎn)云,MV-Adapter通過即插即用模塊確保多視角一致性;4D方法如ReCamMaster與TrajectoryCrafter借助3D結(jié)構(gòu)保證跨相機(jī)視頻生成的連貫性,F(xiàn)ollow-Your-Creation則探索4D視頻編輯框架。然而這些方法需依賴成本高昂的大規(guī)模數(shù)據(jù)集。Follow-Your-Instruction利用MLLM生成高質(zhì)量合成數(shù)據(jù),降低真實(shí)數(shù)據(jù)依賴并增強(qiáng)適應(yīng)性。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

方法

本文提出的智能體框架——一個(gè)基于MLLM、覆蓋2D/3D/4D層級的綜合基準(zhǔn)。如下圖2所示,該框架基于先進(jìn)多模態(tài)大語言模型(如GPT-4o、QWEN3)構(gòu)建。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

基于多模態(tài)輸入的資產(chǎn)收集

給定條件輸入(如圖像I、文本T或動(dòng)作A),本文的目標(biāo)是創(chuàng)建高質(zhì)量場景并保持時(shí)空一致性?,F(xiàn)有工作如SceneCraft采用LLM分解器生成資產(chǎn)列表與子場景描述以支持場景生成,但該方法受限于輸入的固有缺陷:復(fù)雜視覺概念與風(fēng)格難以僅通過語言完整表達(dá),從而限制了用戶對生成場景的定制能力。


本文提出的智能體引入多模態(tài)資產(chǎn)檢索機(jī)制,利用MLLM在資產(chǎn)發(fā)現(xiàn)過程中整合文本與視覺信息。如圖2所示,除自然語言提示外,用戶可提供參考圖像或特定對象等多模態(tài)輸入,從而以更靈活的方式指定創(chuàng)作意圖。具體而言,我們首先使用MLLM將輸入轉(zhuǎn)化為資產(chǎn)列表。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

全局場景構(gòu)建與優(yōu)化

3D布局生成

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

  1. 人工指令引導(dǎo)布局:根據(jù)輸入指令中的具體位置放置對象,公式如下:

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

  1. 默認(rèn)策略:將對象的底部中心點(diǎn)對齊至世界矩陣中合適的未占用區(qū)域進(jìn)行放置。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

隨后,通過變換矩陣將對象嵌入全局布局:

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

其中與分別為估計(jì)的旋轉(zhuǎn)矩陣與縮放矩陣。


最終,MLLM-Locator通過標(biāo)定相機(jī)的內(nèi)參矩陣和外參位姿將3D布局投影至2D圖像平面:

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

其中表示透視投影函數(shù),為對象的圖像坐標(biāo)。

多視角優(yōu)化

盡管通過多模態(tài)輸入構(gòu)建了完整場景,全局布局仍可能存在不匹配問題?,F(xiàn)有工作[15]采用基于MLLM的迭代視覺反饋循環(huán)優(yōu)化場景布局,但僅依賴單視角渲染往往不足,尤其在處理物體間物理交互時(shí)。例如下圖3所示,當(dāng)輸入文本條件為"將兩個(gè)杯子放在桌上"時(shí),若僅從單一視角優(yōu)化,可能僅調(diào)整粉色杯子在當(dāng)前視圖中的位置,而其他角度下該杯子仍懸浮于桌面(如圖3(a))。這種差異源于MLLM無法感知當(dāng)前視角隱藏的深度不一致性。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

為確保場景布局更可靠且符合物理規(guī)律,需在反饋過程中引入多視角渲染。多視角使模型能更好驗(yàn)證空間關(guān)系,減少單視角導(dǎo)致的視覺歧義,生成更魯棒的布局。本文智能體提出由強(qiáng)大視覺語言模型(VLM)引導(dǎo)的多視角反饋優(yōu)化策略:從多視角渲染當(dāng)前場景,并與VLM交互(如"粉色杯子是否放置在桌上?")以驗(yàn)證各視角的空間關(guān)系。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

其中為VLM反饋的置信分?jǐn)?shù),若分?jǐn)?shù)超過閾值,智能體判定當(dāng)前場景優(yōu)化成功;否則通過MLLM-Locator重新生成對象位置進(jìn)行優(yōu)化。該策略的有效性如圖3(b)所示:粉色杯子在側(cè)視圖中初始位置錯(cuò)誤,經(jīng)VLM引導(dǎo)修正后,所有視角下均被準(zhǔn)確放置。

MLLM引導(dǎo)的任務(wù)規(guī)劃

盡管MLLM-Optimizer生成的2D圖像數(shù)據(jù)集足以支持簡單任務(wù)(如2D物體移除、重光照與補(bǔ)全),我們?nèi)孕铻閷?shí)際應(yīng)用合成高質(zhì)量視頻數(shù)據(jù)集。借助MLLM的上下文學(xué)習(xí)與長期學(xué)習(xí)能力,我們引入MLLM-Planner進(jìn)行視頻生成。


如圖2所示,MLLM-Planner接收人類指令與生成場景作為輸入,首先理解視覺場景并創(chuàng)建視覺狀態(tài)描述,定位當(dāng)前幀的主對象;隨后結(jié)合人類指令與VLM優(yōu)化器的反饋精煉動(dòng)作,推理準(zhǔn)確目標(biāo);最終將語言計(jì)劃轉(zhuǎn)化為可執(zhí)行計(jì)劃以生成后續(xù)幀。


但連續(xù)幀間的時(shí)間不一致性問題仍然存在,這源于MLLM-Planner專注于離散動(dòng)作執(zhí)行而未能確保平滑過渡,導(dǎo)致生成序列可能出現(xiàn)突變、不自然運(yùn)動(dòng)或中間狀態(tài)缺失。為此,我們引入VLM引導(dǎo)的幀預(yù)測模塊(圖2步驟14),利用VLM的視覺推理能力評估幀間運(yùn)動(dòng)、對象狀態(tài)與場景動(dòng)態(tài)。當(dāng)檢測到不一致時(shí),該模塊反饋至MLLM-Planner促使其優(yōu)化動(dòng)作或插入中間步驟,通過迭代提升時(shí)間連貫性與視頻質(zhì)量。

實(shí)驗(yàn)

生成場景質(zhì)量評估

實(shí)驗(yàn)設(shè)置現(xiàn)有大多數(shù)多模態(tài)大語言模型(MLLMs)已展現(xiàn)出優(yōu)秀的視覺與語言理解能力。參照近期工作[63],對比的基線為最先進(jìn)的MLLMs,可分為閉源專有模型與開源模型,因其代表了多模態(tài)推理與決策的前沿水平。


閉源模型包括GPT-4o與GPT-4o-mini、Claude-3.5-Sonnet與Claude-4-Sonnet、Gemini-2.5-Pro與Gemini-2.0-flash以及Qwen-VL-Max。這些模型以通用多模態(tài)任務(wù)中的強(qiáng)大性能著稱,具備先進(jìn)的推理能力與互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的廣泛訓(xùn)練。開源模型如Llama-3.2 Vision Instruct、InternVL2.5與InternVL3、Qwen3與Qwen2.5-VL、Gemma-3及Ovis2,覆蓋7B至90B參數(shù)量級,為研究提供可深入分析架構(gòu)設(shè)計(jì)與縮放效應(yīng)的替代方案。

實(shí)驗(yàn)結(jié)果

下表1展示了不同MLLMs應(yīng)用于數(shù)據(jù)合成智能體的定量對比。我們使用美學(xué)分?jǐn)?shù)評估感知質(zhì)量,并基于VBench衡量主體外觀與背景穩(wěn)定性的場景一致性,文本對齊度通過CLIP相似度評估。結(jié)果表明MLLM引導(dǎo)在Follow-Your-Instruction中的關(guān)鍵作用:GPT-4o在所有指標(biāo)中表現(xiàn)最優(yōu),凸顯其卓越的跨模態(tài)推理與對齊能力;Claude-4-Sonnet與Claude-3.7-Sonnet在美學(xué)與一致性上緊隨其后,但對齊度稍遜。開源模型中InternVL3-78B與Qwen3-235B-A22B-Ins綜合表現(xiàn)最佳,但與GPT-4o仍有顯著差距。需注意,本實(shí)驗(yàn)旨在證明框架核心MLLM驅(qū)動(dòng)能力對多樣AIGC任務(wù)與MLLM結(jié)構(gòu)的普適性,而非追求單一MLLM的峰值性能。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

應(yīng)用展示

如下圖4所示,展示了若干代表性任務(wù)及智能體生成的對應(yīng)真實(shí)標(biāo)注。這些案例凸顯了智能體跨環(huán)境與任務(wù)目標(biāo)的泛化能力。所提智能體的應(yīng)用涵蓋2D(物體移除與重光照)、3D(重建、旋轉(zhuǎn)與具身智能)及4D環(huán)境(4D補(bǔ)全與重建),體現(xiàn)了Follow-Your-Instruction在新興研究領(lǐng)域內(nèi)容創(chuàng)作中的潛力。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

下游應(yīng)用評估

基線模型

為全面評估合成數(shù)據(jù)質(zhì)量,在2D/3D/4D AIGC應(yīng)用(包括物體移除、3D重建與4D視頻生成)上微調(diào)多個(gè)基線模型。2D物體移除任務(wù)采用RoRem作為基線,評估數(shù)據(jù)微調(diào)后的改進(jìn);3D重建任務(wù)使用最新多視角重建框架MV-Adapter,衡量幾何精度與一致性的提升;4D視頻生成任務(wù)通過ReCamMaster評測動(dòng)態(tài)場景合成的時(shí)間連貫性與保真度。這些基線系統(tǒng)化量化了合成數(shù)據(jù)對多維度AIGC模型的影響。

定性結(jié)果

下圖5展示了2D/3D/4D應(yīng)用的視覺對比??梢姡何词褂蒙蓴?shù)據(jù)微調(diào)時(shí),物體移除任務(wù)在語義補(bǔ)全上表現(xiàn)欠佳(如圖5首行2D任務(wù),模型生成異常白色物體而非修補(bǔ)砧板),移除后存在偽影(圖5第二行2D任務(wù));經(jīng)數(shù)據(jù)微調(diào)后這些問題顯著緩解。3D任務(wù)中,未微調(diào)模型雖能生成優(yōu)質(zhì)前視圖,但后視圖質(zhì)量與一致性較差,微調(diào)后幻覺問題得以修正。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

4D生成作為新興范式,需在相機(jī)軌跡引導(dǎo)下合成可控視頻。如圖5所示,盡管ReCamMaster實(shí)現(xiàn)了較好的姿態(tài)精度與平滑鏡頭運(yùn)動(dòng),背景仍存在不一致性與偽影,而我們的生成數(shù)據(jù)提升了其性能。

定量結(jié)果

針對三類應(yīng)用的定量實(shí)驗(yàn)顯示(2D物體移除與3D重建結(jié)果詳見附錄),4D生成結(jié)果如下表2所示。參照ReCamMaster,評估視覺質(zhì)量、相機(jī)精度與視角同步性:通過旋轉(zhuǎn)/平移誤差衡量相機(jī)軌跡精度,計(jì)算CLIP-V與FVD-V評估同場景多視角同步性。結(jié)果表明基線模型經(jīng)微調(diào)后性能均獲提升。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

消融實(shí)驗(yàn)

多視角優(yōu)化有效性

如下圖6所示,評估多視角優(yōu)化策略中不同幀數(shù)的影響。僅使用單視角優(yōu)化時(shí),當(dāng)前視角物體位置雖正確,但其他視角常出現(xiàn)錯(cuò)位;增加優(yōu)化視角可緩解該問題。定量消融實(shí)驗(yàn)(下表3)表明:視角增加會延長生成時(shí)間,而優(yōu)化成功率提升有限。基于此,我們選擇雙視角作為效率與性能平衡的最優(yōu)配置。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

VLM引導(dǎo)幀預(yù)測的有效性

下圖7與表4展示了VLM引導(dǎo)幀預(yù)測模塊的貢獻(xiàn)。如圖7第二行所示,未采用該策略時(shí),生成視頻常出現(xiàn)時(shí)間不一致性——相鄰幀間運(yùn)動(dòng)突變且不連貫。具體表現(xiàn)為:飛機(jī)旋轉(zhuǎn)角度在連續(xù)幀間過大,導(dǎo)致短時(shí)間內(nèi)呈現(xiàn)兩次轉(zhuǎn)向。這表明規(guī)劃動(dòng)作缺乏連續(xù)性,從而產(chǎn)生次優(yōu)的視覺質(zhì)量與時(shí)間斷層。

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

告別人工標(biāo)注!首個(gè)MLLM數(shù)據(jù)流水線!中國團(tuán)隊(duì)重構(gòu)AIGC生態(tài):2D→3D→4D全自動(dòng)生成-AI.x社區(qū)

結(jié)論與討論

結(jié)論
Follow-Your-Instruction——一種基于MLLM的高效數(shù)據(jù)合成智能體框架,能夠從多模態(tài)輸入(如文本、圖像或混合文件)生成跨2D、3D與4D層級的逼真場景。該框架以多模態(tài)大語言模型為核心,結(jié)合四大組件:MLLM-Collector、MLLM-Generator、MLLM-OptimizerMLLM-Planner。


首先,MLLM-Collector將文本輸入轉(zhuǎn)化為資產(chǎn)或整合視覺輸入的資產(chǎn),增強(qiáng)用戶導(dǎo)向的場景創(chuàng)建;

隨后,MLLM-Generator構(gòu)建場景3D布局并由MLLM-Optimizer優(yōu)化;

最終,MLLM-Planner生成后續(xù)幀并通過VLM引導(dǎo)的幀預(yù)測模塊進(jìn)行精修。


實(shí)驗(yàn)結(jié)果表明,我們的智能體在數(shù)據(jù)合成過程中充分發(fā)揮了MLLM的能力,顯著促進(jìn)了多種下游AIGC應(yīng)用。

局限性

當(dāng)前方法存在三點(diǎn)不足:(1) 性能依賴于底層專有MLLM的能力;(2) 未驗(yàn)證生成數(shù)據(jù)對提升其他真實(shí)世界基準(zhǔn)泛化性的效果;(3) 可擴(kuò)展性受限于對既有資產(chǎn)庫的依賴。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/f0KGiFgsXOKfoK0OvoXs7A??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄