偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻生成模型變身智能體:斯坦福Percy Liang等提出VideoAgent,竟能自我優(yōu)化

人工智能 新聞
文本生視頻模型的這些近期應(yīng)用既有望實現(xiàn)互聯(lián)網(wǎng)規(guī)模級別的知識遷移(比如從生成人類視頻到生成機(jī)器人視頻),也有望打通實現(xiàn)通用智能體的道路(比如用單個策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù))。

現(xiàn)在正是「文本生視頻」賽道百花齊放的時代,而且其應(yīng)用場景非常多,比如生成創(chuàng)意視頻內(nèi)容、創(chuàng)建游戲場景、制作動畫和電影。甚至有研究表明還能將視頻生成用作真實世界的模擬器,比如 OpenAI 今年初就發(fā)布過一份將視頻生成模型作為世界模擬器的技術(shù)報告,參閱機(jī)器之心報道《我在模擬世界!OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié):是數(shù)據(jù)驅(qū)動物理引擎》。

文本生視頻模型的這些近期應(yīng)用既有望實現(xiàn)互聯(lián)網(wǎng)規(guī)模級別的知識遷移(比如從生成人類視頻到生成機(jī)器人視頻),也有望打通實現(xiàn)通用智能體的道路(比如用單個策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù))。

然而,現(xiàn)實情況是,文本生視頻模型的下游應(yīng)用還很有限,原因包括幻覺問題以及生成的視頻內(nèi)容不符合現(xiàn)實物理機(jī)制等。

雖然理論上可以通過擴(kuò)大數(shù)據(jù)集和模型大小來有效減輕這些問題,但對視頻生成模型來說,這會很困難。

部分原因是標(biāo)注和整理視頻的人力成本很高。另外,視頻生成方面還沒有一個非常適合大規(guī)模擴(kuò)展的架構(gòu)。

除了擴(kuò)大規(guī)模,LLM 領(lǐng)域的另一個重要突破是能整合外部反饋來提升生成質(zhì)量。那文本生視頻模型也能受益于這一思路嗎?

為了解答這一問題,一個多所機(jī)構(gòu)的研究團(tuán)隊探索了視頻生成模型能自然獲得的兩種反饋類型,即來自視覺 - 語言模型(VLM)的 AI 反饋和將生成的視頻轉(zhuǎn)換成運(yùn)動控制時得到的真實世界執(zhí)行反饋。

為了利用這些反饋來實現(xiàn)視頻生成模型的自我提升,該團(tuán)隊提出了 VideoAgent,即視頻智能體。該研究有三位共一作者:Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他參與者包括滑鐵盧大學(xué) Sebastian Fischmeister 教授、斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang(楊夢嬌)。

圖片

  • 論文標(biāo)題:VideoAgent: Self-Improving Video Generation
  • 論文地址:https://arxiv.org/pdf/2410.10076
  • 代碼地址:https://github.com/Video-as-Agent/VideoAgent

不同于將生成的視頻直接轉(zhuǎn)換成運(yùn)動控制的策略,VideoAgent 的訓(xùn)練目標(biāo)是使用來自預(yù)訓(xùn)練 VLM 的反饋來迭代式地優(yōu)化生成的視頻規(guī)劃。

在推理階段,VideoAgent 會查詢 VLM 以選擇最佳的改進(jìn)版視頻規(guī)劃,然后在環(huán)境中執(zhí)行該規(guī)劃。

在在線執(zhí)行過程中,VideoAgent 會觀察任務(wù)是否已成功完成,并根據(jù)來自環(huán)境的執(zhí)行反饋和從環(huán)境收集的其它數(shù)據(jù)進(jìn)一步改進(jìn)視頻生成模型。

生成的視頻規(guī)劃獲得了兩方面的改進(jìn):

  • 該團(tuán)隊受一致性模型的啟發(fā),提出了用于視頻擴(kuò)散模型的自我調(diào)節(jié)一致性(self-conditioning consistency),其可將來自視頻擴(kuò)散模型的低質(zhì)量樣本進(jìn)一步優(yōu)化成高質(zhì)量樣本。
  • 當(dāng)可在線訪問環(huán)境時,VideoAgent 會執(zhí)行當(dāng)前視頻策略并收集其它成功軌跡,以進(jìn)一步在成功軌跡上微調(diào)視頻生成模型。

圖 1 是 VideoAgent 的直觀圖示。

圖片

通過自我調(diào)節(jié)一致性實現(xiàn)視頻優(yōu)化

他們首先考慮的是基于第一幀和語言的視頻生成,即根據(jù)語言描述找到從初始圖像開始的一個圖像幀序列。通常來說,當(dāng)某個樣本來自一個視頻生成模型時,其中一部分更真實(開始部分),另一部分則充滿幻覺(結(jié)尾部分)。

也就是說,雖然生成的視頻規(guī)劃可能無法完全完成指定的任務(wù),但它能提供有意義的信息,以幫助進(jìn)一步改進(jìn)以實現(xiàn)正確的規(guī)劃。

為了利用這樣的部分進(jìn)展,該團(tuán)隊使用了一個視頻一致性模型,即基于之前的自我生成的樣本為 ground truth 視頻執(zhí)行擴(kuò)散,這樣模型就可以學(xué)會保留視頻的真實部分,同時優(yōu)化其中的幻覺部分。

圖片

此外,除了基于之前生成的樣本來優(yōu)化視頻,該團(tuán)隊還納入了反饋,包括來自人類的反饋和來自 VLM 的反饋。這被稱為反饋引導(dǎo)的自我調(diào)節(jié)一致性。

這里我們僅描述了其大概方法,詳細(xì)過程和形式化描述請參閱原論文。

通過 VLM 引導(dǎo)的視頻生成實現(xiàn)推理

在訓(xùn)練了視頻生成模型和視頻優(yōu)化模型之后,可采樣視頻生成模型然后迭代式地使用優(yōu)化模型來實現(xiàn)視頻優(yōu)化。

具體來說,VideoAgent 首先會基于第一幀和語言的視頻生成來「猜測」視頻規(guī)劃。

接下來,迭代地使用優(yōu)化模型來執(zhí)行優(yōu)化,這里會使用 VLM 來提供反饋。

算法 1 展示了使用 VLM 反饋的視頻生成和優(yōu)化模型。

圖片

算法 2 則給出了在推理時間生成、優(yōu)化和選擇視頻規(guī)劃(重新規(guī)劃)的方式。

圖片

通過在線微調(diào)實現(xiàn)自我改進(jìn)

除了上面描述的基于自我調(diào)節(jié)一致性的視頻優(yōu)化,該團(tuán)隊還進(jìn)一步將視頻生成和視頻細(xì)化的組合描述為一種策略,該策略可以通過在線交互期間從環(huán)境中收集的額外真實數(shù)據(jù)進(jìn)行訓(xùn)練,從而實現(xiàn)改進(jìn)。

有多種強(qiáng)化學(xué)習(xí)技術(shù)可以滿足這一需求,算法 3 描述了其細(xì)節(jié)。

圖片

實驗

為了評估 VideoAgent,該團(tuán)隊進(jìn)行了多個實驗,包括該模型的端到端成功率、不同組件的效果以及能否提升真實機(jī)器人視頻的質(zhì)量。

數(shù)據(jù)集

實驗中,該團(tuán)隊考慮了三個數(shù)據(jù)集:

  • Meta-World:11 個機(jī)器人操作任務(wù),由模擬的 Sawyer 機(jī)器臂執(zhí)行,視頻演示是從三個不同的攝像機(jī)角度拍攝的。
  • iTHOR:一個模擬的 2D 目標(biāo)導(dǎo)航基準(zhǔn),其中智能體在四種房間類型中搜索指定的目標(biāo)物體。
  • BridgeData V2:一個真實的機(jī)器人操作數(shù)據(jù)集。

端到端任務(wù)成功率

實驗過程就不過多贅述了,直接來看結(jié)果。

首先,表 1 給出了在 Meta-World 上的端到端任務(wù)成功率。

圖片

可以看到,自我調(diào)節(jié)一致性已經(jīng)能讓 VideoAgent 的總體成功率超越基線(19.6% 到 22.3%),其中一些任務(wù)更是大幅提升,比如在關(guān)閉水龍頭(faucet-close)任務(wù)上的成功率從 12% 猛增至 46.7%。

而如果再進(jìn)一步引入在線微調(diào),成功率還能進(jìn)一步提升,并且多迭代一次都會多一點提升。

引入重新規(guī)劃后,VideoAgent 的優(yōu)勢仍然存在,并且總體任務(wù)成功率達(dá)到了 50%,達(dá)成了該設(shè)置下的當(dāng)前最佳水平。

表 2 展示了在 iTHOR 上的成功率,可以看到 VideoAgent 同樣全面優(yōu)于基線 AVDC。

圖片

理解 VideoAgent 不同組件的效果

該團(tuán)隊也通過對比研究分析了 VideoAgent 不同組件的效果,具體包括 (1) 向優(yōu)化模型提供不同類型的反饋,(2) 改變優(yōu)化和在線迭代的次數(shù),(3) 調(diào)整 VLM 反饋的質(zhì)量。

表 3 展示了不同 VLM 反饋的效果(基于 Meta-World)??梢钥吹?,不管是二元反饋還是描述性反饋,都比沒有反饋好,更比基線 AVDC 好得多。

圖片

圖 3 和 4 分別展示了優(yōu)化和在線迭代的次數(shù)的影響。整體來看,增多迭代次數(shù)有助于提升模型,并且效果很顯著。

圖片

由于這項研究是首批利用 VLM 為視頻生成提供反饋的研究之一,因此一個重要的研究課題是:了解 VLM 是否真的可以為視頻生成提供足夠準(zhǔn)確的反饋。

表 4 給出了 VLM 反饋的各項性能指標(biāo),這里使用了人工標(biāo)注作為 ground truth 來進(jìn)行評估。

圖片

可以看到,原始提示詞(Unweighted)的準(zhǔn)確度是 69%,這說明 VLM 足以評價生成的視頻。而通過重新加權(quán)來懲罰假正例(Weighted)還能大幅提升其準(zhǔn)確度。另外值得注意的是,從提示詞中移除第三個攝像頭甚至還能獲得更高的準(zhǔn)確度,這說明 VLM 的準(zhǔn)確性會受到部分可觀測性的影響。

在真實世界視頻上評估自我優(yōu)化

最后,該團(tuán)隊也評估了 VideoAgent 改進(jìn)真實視頻的能力。結(jié)果見表 5。

圖片

可以看到,在視頻分?jǐn)?shù)的 5 個子指標(biāo)上,VideoAgent 在其中 4 個上表現(xiàn)更優(yōu),在唯一的例外「動態(tài)分?jǐn)?shù)」上也與基線差距細(xì)微。此外,VideoAgent 在 CLIP 分?jǐn)?shù)、流一致性和人類評估上也都更好。這表明 VideoAgent 可以生成更流暢、更符合現(xiàn)實世界的物理邏輯的視頻。

最后,圖 5 給出了一個定性評估結(jié)果。

圖片

其中,中間行是基線,可以看到其出現(xiàn)了幻覺(碗消失了),而 VideoAgent 很好地完成了視頻生成任務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-13 09:10:00

2023-11-29 14:53:00

AI數(shù)據(jù)

2023-07-07 17:03:23

AI智能

2023-12-14 12:51:28

LLM3D場景

2021-07-06 10:37:37

模型人工智能深度學(xué)習(xí)

2024-06-21 09:24:03

2020-12-02 10:09:00

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2023-10-17 13:33:00

AI數(shù)據(jù)

2023-08-10 14:01:08

開源虛擬

2023-06-19 13:59:00

研究測試

2022-10-08 12:38:23

模型開源

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-03-06 09:22:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2024-04-24 09:47:36

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2019-03-27 10:47:05

人工智能法律AI

2025-06-13 08:46:00

2023-08-15 08:36:20

ChatGPT模型
點贊
收藏

51CTO技術(shù)棧公眾號