偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視頻上下文學(xué)習(xí)!大模型學(xué)會(huì)“照貓畫虎”生成,結(jié)合模擬器還能精準(zhǔn)控制真實(shí)環(huán)境交互,來(lái)自MSRA

人工智能 新聞
Vid-ICL通過(guò)一段示例視頻來(lái)指導(dǎo)模型在新場(chǎng)景下的生成,使得生成結(jié)果可以在新場(chǎng)景下“模仿”示例視頻中完成的任務(wù)。

視頻生成也能參考“上下文”?!

MSRA提出視頻上下文學(xué)習(xí)(Video In-Context Learning, Vid-ICL),讓大模型學(xué)會(huì)“照貓畫虎”式模仿生成。

Vid-ICL通過(guò)一段示例視頻來(lái)指導(dǎo)模型在新場(chǎng)景下的生成,使得生成結(jié)果可以在新場(chǎng)景下“模仿”示例視頻中完成的任務(wù)。

比如,示例視頻鏡頭視角向下移動(dòng)(左),生成視頻同樣視角向下移動(dòng)(右)

圖片

示例視頻物體向上移動(dòng)(左),生成視頻同樣向上移動(dòng)(右)

圖片

物體抓取也能模仿:

圖片

△左:示例視頻,機(jī)械臂抓取物體;右:生成視頻

打開(kāi)抽屜也可以按示例進(jìn)行:

圖片

△左:示例視頻,打開(kāi)中間的抽屜;右:生成視頻

在相同的電風(fēng)扇場(chǎng)景下,用不同示例視頻指導(dǎo)模型生成效果belike:

圖片

△左:示例視頻,鏡頭左移;右:生成視頻

圖片

△左:示例視頻,鏡頭右移;右:生成視頻

要知道,在一個(gè)理想的世界模型中,模型與外界環(huán)境的交互應(yīng)當(dāng)是多樣的。而大部分現(xiàn)有工作都聚焦在用文本作為主要的交互方式,這使得對(duì)生成結(jié)果細(xì)節(jié)和多樣性的控制變得困難。

視頻是高度具象且通用的,能夠傳遞廣泛的信息如完成各種任務(wù)的示例,包括移動(dòng)或抓取對(duì)象等。

研究團(tuán)隊(duì)提出的Vid-ICL方法提供了語(yǔ)言和圖像之外的一個(gè)新的接口,使模型與現(xiàn)實(shí)世界的交互變得更為多樣。

圖片

除了上面展示的生成視頻之外,Vid-ICL也可以與模擬器結(jié)合,用生成視頻和當(dāng)前狀態(tài)來(lái)預(yù)測(cè)與環(huán)境正確交互的相應(yīng)動(dòng)作,從而實(shí)現(xiàn)與真實(shí)環(huán)境的交互。

下圖中展示了Vid-ICL與真實(shí)環(huán)境交互,從t=0時(shí)的狀態(tài)開(kāi)始,與RoboDesk模擬器交互完成“Push_red”任務(wù)。Vid-ICL對(duì)環(huán)境交互提供了更精確的控制:

圖片

好家伙,電影《鐵甲鋼拳》照進(jìn)現(xiàn)實(shí)了。

Vid-ICL究竟是如何做到的?

Vid-ICL框架解讀

Vid-ICL以視頻為基本單元進(jìn)行運(yùn)作。

具體而言,給定一個(gè)查詢視頻片段和k個(gè)示例視頻片段,Vid-ICL的目標(biāo)是生成一個(gè)視頻片段,該視頻片段應(yīng)首先保持與查詢視頻片段在感知上的連貫性,同時(shí)在語(yǔ)義(如鏡頭移動(dòng)、動(dòng)作)上與示例視頻一致。

圖片

  • 自回歸模型訓(xùn)練

Vid-ICL采用Transformer作為模型結(jié)構(gòu)。

Transformer作為文本大模型的基座架構(gòu),在語(yǔ)言的上下文推理、生成任務(wù)上展現(xiàn)了強(qiáng)大的能力。視覺(jué)信息的生成式Transformer訓(xùn)練包括兩個(gè)階段:

第一,訓(xùn)練視覺(jué)編碼器,如 VQ-VAE,將每個(gè)圖像轉(zhuǎn)換為離散Token;

第二,每個(gè)訓(xùn)練樣本被構(gòu)建為Token序列,Transformer解碼器的目標(biāo)是恢復(fù)該Token序列。

具體實(shí)現(xiàn)上,Vid-ICL采用Llama架構(gòu),利用RMSNorm歸一化旋轉(zhuǎn)位置嵌入(RoPE),以自回歸方式訓(xùn)練 Transformer解碼器。在訓(xùn)練階段,每個(gè)序列是從一個(gè)原始視頻中采樣的,沒(méi)有拼接來(lái)自不同視頻的視頻片段。

  • 零樣本能力

研究團(tuán)隊(duì)在本文中提到一個(gè)關(guān)鍵的觀察:

模型可以從沒(méi)有顯式上下文形式的視頻數(shù)據(jù),即連續(xù)視頻片段中自發(fā)地學(xué)習(xí)出上下文推理能力,即對(duì)于Video In-context Learning的“零樣本能力”。

這可以歸因于兩個(gè)關(guān)鍵因素。首先,每個(gè)視頻幀之間沒(méi)有插入特殊的分隔符,這允許模型在訓(xùn)練期間,將連續(xù)的視頻序列隱式地視為示例視頻+查詢視頻的格式。這意味著模型已經(jīng)學(xué)會(huì)了處理類似示例-查詢結(jié)構(gòu)的序列。

其次,Transformer的自回歸特性使其能夠?qū)我粓?chǎng)景的視頻序列預(yù)測(cè)能力拓展到示例和query來(lái)自不同視頻的場(chǎng)景,將文本上下文學(xué)習(xí)的范式無(wú)縫地泛化到視頻上下文學(xué)習(xí)上。

  • 融合其他模態(tài)

雖然Vid-ICL主要關(guān)注視頻作為示例,但是可以擴(kuò)展到其他模態(tài)如文本上。

為此,只需通過(guò)預(yù)訓(xùn)練的語(yǔ)言模型將原始文本描述轉(zhuǎn)換為潛在表示,然后在訓(xùn)練Transformer以及進(jìn)行上下文推理時(shí)將該潛在表示作為前綴,通過(guò)投影層對(duì)齊到Transformer的隱空間內(nèi)。

實(shí)驗(yàn)表明,Vid-ICL可以同時(shí)接收文本和視頻作為示例,并且加入文本可以進(jìn)一步增強(qiáng)生成結(jié)果的質(zhì)量。

  • 數(shù)據(jù)與模型大小

可以看到,Vid-ICL可以學(xué)習(xí)到示例視頻中包含的語(yǔ)義信息,并遷移到新的場(chǎng)景上進(jìn)行生成,這要求訓(xùn)練數(shù)據(jù)中主要包含的是因果關(guān)系清晰、交互性強(qiáng)的視頻。

因此,研究人員選擇了兩個(gè)數(shù)據(jù)集作為主要訓(xùn)練數(shù)據(jù)源: Ego4d和Kinetics-600。

此外,為了增加視頻內(nèi)容的多樣性,一小部分Webvid中的數(shù)據(jù)也加入到訓(xùn)練集中。

團(tuán)隊(duì)還驗(yàn)證了受限于互聯(lián)網(wǎng)視頻中包含的語(yǔ)義信息較為模糊和發(fā)散,簡(jiǎn)單地通過(guò)添加更多的互聯(lián)網(wǎng)視頻來(lái)增加數(shù)據(jù)規(guī)模并不能幫助提高模型的上下文性能

模型大小上,團(tuán)隊(duì)訓(xùn)練了300M,700M和1.1B三種大小的模型,并且發(fā)現(xiàn)模型生成視頻的質(zhì)量和上下文性能都遵循了Scaling Law。

實(shí)驗(yàn)結(jié)果

Vid-ICL主要通過(guò)對(duì)一條相同的查詢視頻提供不同語(yǔ)義的示例視頻,來(lái)評(píng)估視頻上下文學(xué)習(xí)的有效性和精確性。

例如,對(duì)一個(gè)將物體向左移的查詢視頻,通過(guò)給向左移、隨機(jī)移動(dòng)、向相反方向移動(dòng)的示例視頻來(lái)生成不同的視頻,對(duì)該生成結(jié)果的評(píng)測(cè)來(lái)判斷模型是否真的生成了示例相關(guān)的視頻。

定性結(jié)果方面,下圖中給出了不同示例視頻下的生成視頻(更多樣例可參照論文原文)

可以觀察到:

1)對(duì)于單個(gè)視頻生成的質(zhì)量,Vid-ICL保持了生成視頻與查詢視頻的連貫性,且都有不錯(cuò)的生成質(zhì)量;

2)對(duì)于生成視頻和示例視頻的語(yǔ)義一致性,可以觀察到生成的視頻都跟隨了示例視頻的過(guò)程,這表明Vid-ICL有自發(fā)獲取示例視頻語(yǔ)義信息并生成相應(yīng)視頻的能力。

如下圖中,對(duì)同一個(gè)查詢視頻片段,Vid-ICL根據(jù)示例視頻中鏡頭的移動(dòng),選擇對(duì)生成視頻進(jìn)行相應(yīng)的移動(dòng)。

圖片

定量結(jié)果方面,研究團(tuán)隊(duì)提出了兩個(gè)方面的自動(dòng)評(píng)測(cè)指標(biāo):

1)視頻質(zhì)量上,采用傳統(tǒng)視覺(jué)任務(wù)上基于像素匹配或分布的指標(biāo),如PSNR,F(xiàn)ID等;

2)語(yǔ)義一致性上,采用基于分類準(zhǔn)確率的兩個(gè)指標(biāo):視頻分類準(zhǔn)確率和探針?lè)诸悳?zhǔn)確率。

在不同的指標(biāo)上,Vid-ICL均表現(xiàn)出了超出基準(zhǔn)模型的效果??梢钥闯?,在同類示例視頻的引導(dǎo)下,Vid-ICL均生成了更加真實(shí)、語(yǔ)義一致的視頻。

圖片

更多細(xì)節(jié)請(qǐng)參考原論文。

項(xiàng)目主頁(yè):https://aka.ms/vid-icl
論文鏈接:https://arxiv.org/abs/2407.07356

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-06-15 15:45:42

自然語(yǔ)言語(yǔ)言模型

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2024-03-14 08:11:45

模型RoPELlama

2023-07-09 15:09:18

機(jī)器學(xué)習(xí)能力

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2023-03-31 13:37:34

研究

2025-09-16 12:49:11

2023-11-24 17:01:30

模型推理

2025-03-18 08:14:05

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2025-02-26 00:16:56

RAGAI服務(wù)

2023-11-15 13:18:50

2023-11-26 18:05:00

文本訓(xùn)練

2025-09-10 09:38:56

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-06-06 08:00:00

上下文管理器Python開(kāi)發(fā)

2025-09-28 07:00:00

2025-03-18 09:23:22

2012-12-31 10:01:34

SELinuxSELinux安全

2025-08-07 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)