偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

500萬(wàn)視頻數(shù)據(jù)集+全新評(píng)測(cè)框架!北大開(kāi)源主體一致性視頻生成領(lǐng)域新基建OpenS2V-Nexus,生成視頻 「像」 又 「自然」

人工智能 新聞
北大團(tuán)隊(duì)推出了全新的開(kāi)源套件 OpenS2V-Nexus,專為 S2V 生成打造。

想讓 AI 能 「看著你的自拍就生成一致且自然的短視頻」 嗎?這就是 Subject-to-Video(S2V)生成要解決的問(wèn)題:讓視頻生成不僅對(duì)齊文本,還能準(zhǔn)確保留指定人物或物體的特征,讓生成的視頻既 「像」 又 「自然」。這一能力對(duì)于短視頻生成、虛擬人、AI 剪輯等都有巨大意義。

然而,要訓(xùn)練和評(píng)價(jià)這樣的模型,過(guò)去一直缺少公開(kāi)可用的大規(guī)模數(shù)據(jù)集和細(xì)粒度評(píng)測(cè)基準(zhǔn),限制了 S2V 技術(shù)的快速突破。

為此,北大團(tuán)隊(duì)推出了全新的開(kāi)源套件 OpenS2V-Nexus,專為 S2V 生成打造:

?? OpenS2V-Eval:全球首個(gè)面向主體一致性、自然度和文本對(duì)齊的 S2V 細(xì)粒度評(píng)測(cè)基準(zhǔn),讓不同模型在主體一致性上真正可比。

?? OpenS2V-5M:全球首個(gè)公開(kāi)的 500 萬(wàn)條高質(zhì)量 720P 人物文本視頻三元組數(shù)據(jù)集,覆蓋真實(shí)和合成數(shù)據(jù),幫助研究者快速訓(xùn)練更強(qiáng)大的生成模型。

北大團(tuán)隊(duì)還在 18 個(gè)代表性 S2V 模型上進(jìn)行了系統(tǒng)評(píng)測(cè),首次揭示了目前主流模型在保持主體一致性和自然度方面的真實(shí)能力差距。

通過(guò) OpenS2V-Nexus,未來(lái)做 AI 視頻生成不再盲人摸象,讓訓(xùn)練更高效、評(píng)測(cè)更科學(xué),讓真正可控、自然且保持人物一致的 AI 視頻生成技術(shù)更快落地到你的應(yīng)用里。

該工作帶來(lái)三大核心貢獻(xiàn):

  • 構(gòu)建 OpenS2V-Eval:領(lǐng)域最全面的 S2V 評(píng)測(cè)基準(zhǔn),構(gòu)建了 180 個(gè)多領(lǐng)域提示詞 + 真實(shí) / 合成雙類別測(cè)試數(shù)據(jù)。提出了 NexusScore、NaturalScore 和 GmeScore,精準(zhǔn)量化模型在主體一致性、自然度、文本對(duì)齊三大維度的能力。
  • 同步開(kāi)源 OpenS2V-5M 百萬(wàn)計(jì)數(shù)據(jù)集:包含 540 萬(wàn) 720P 高清「圖片 - 文本 - 視頻」三元組,通過(guò)跨視頻關(guān)聯(lián)分割 + 多視角合成技術(shù),實(shí)現(xiàn)主題多樣性與高質(zhì)量標(biāo)注。
  • 提供 S2V 模型選擇的新見(jiàn)解:基于全新評(píng)測(cè)框架,團(tuán)隊(duì)對(duì) 18 個(gè)主流 S2V 模型展開(kāi)全面測(cè)評(píng),揭示不同方法在復(fù)雜場(chǎng)景下的優(yōu)劣差異。

圖片


  • 論文地址:https://arxiv.org/abs/2505.20292
  • 項(xiàng)目地址:https://pku-yuangroup.github.io/OpenS2V-Nexus/
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
  • 評(píng)估基準(zhǔn)地址:https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

Subject-to-video 領(lǐng)域面臨著三大問(wèn)題

(1)泛化能力不足:當(dāng)遇到訓(xùn)練中未見(jiàn)過(guò)的主體類別時(shí),模型的生成效果往往顯著下降。例如,僅在西方面孔上訓(xùn)練的模型,在生成亞洲人主體時(shí)通常表現(xiàn)更差。

(2)“復(fù)制粘貼” 問(wèn)題:模型在生成視頻時(shí),往往會(huì)直接照搬參考圖像中的姿勢(shì)、光照和輪廓,導(dǎo)致生成結(jié)果缺乏自然感。

(3)人物一致性不足:相比于生成非人類主體,現(xiàn)有模型在保持人物身份一致性方面仍存在明顯不足。

一個(gè)有效的評(píng)測(cè)基準(zhǔn)理應(yīng)能夠揭示并量化這些問(wèn)題。然而,即便生成的視頻主體看起來(lái)不自然或身份一致性較差,現(xiàn)有評(píng)測(cè)基準(zhǔn)往往仍給出較高的分?jǐn)?shù),阻礙了 S2V 領(lǐng)域的進(jìn)一步突破和改進(jìn)。

北大團(tuán)隊(duì)通過(guò) OpenS2V-Eval 揭示了現(xiàn)有模型在這三個(gè)方面的缺陷,并提出 OpenS2V-5M 從數(shù)據(jù)層面解決這些問(wèn)題。

OpenS2V-Eval 評(píng)測(cè)基準(zhǔn)

圖片

現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多聚焦于文本生成視頻(text-to-video)任務(wù),典型代表包括 VBench 和 ChronoMagic-Bench。雖然 ConsisID-Bench 可用于 S2V 任務(wù),但其評(píng)測(cè)范圍僅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持對(duì)開(kāi)放域 S2V 模型進(jìn)行評(píng)測(cè),但它們主要采用的是全局、粗粒度的評(píng)測(cè)方式。例如,這些基準(zhǔn)未能對(duì)生成視頻中主體的自然度進(jìn)行有效評(píng)估。

圖片

為應(yīng)對(duì)這一挑戰(zhàn),團(tuán)隊(duì)提出了 OpenS2V-Eval,這是領(lǐng)域內(nèi)首個(gè)全面的 Subject-to-Video(S2V)評(píng)測(cè)基準(zhǔn)。具體而言,團(tuán)隊(duì)定義了七大類別(見(jiàn)圖示):① 單人臉生成視頻,② 單人全身生成視頻,③ 單實(shí)體生成視頻,④ 多人臉生成視頻,⑤ 多人全身生成視頻,⑥ 多實(shí)體生成視頻,⑦ 人物與實(shí)體混合生成視頻。針對(duì)每個(gè)類別,設(shè)計(jì)了 30 個(gè)富含視覺(jué)內(nèi)容的測(cè)試樣本,用于全面評(píng)測(cè)模型在不同主體上的泛化能力。

圖片

并且,針對(duì)現(xiàn)有自動(dòng)化評(píng)測(cè)穩(wěn)健性不足的問(wèn)題,團(tuán)隊(duì)首先提出 NexusScore,結(jié)合圖像檢測(cè)和多模態(tài)檢索模型,用于精準(zhǔn)評(píng)估主體一致性。其次,團(tuán)隊(duì)提出基于 VLM 的 NaturalScore,填補(bǔ)了當(dāng)前評(píng)測(cè)中對(duì)主體自然度評(píng)價(jià)的空白。最后,團(tuán)隊(duì)提出 GmeScore,相比傳統(tǒng)方法能更準(zhǔn)確地評(píng)估文本相關(guān)性。

OpenS2V-5M 百萬(wàn)級(jí)數(shù)據(jù)集

圖片

此外,當(dāng)社區(qū)嘗試將基礎(chǔ)模型擴(kuò)展到下游任務(wù)時(shí),現(xiàn)有數(shù)據(jù)集在支持復(fù)雜任務(wù)方面仍存在明顯不足(見(jiàn)表格對(duì)比)。為彌補(bǔ)這一限制,團(tuán)隊(duì)提出了 OpenS2V-5M,這是首個(gè)專為 Subject-to-Video(S2V)設(shè)計(jì)的百萬(wàn)級(jí)規(guī)模數(shù)據(jù)集,同時(shí)也可用于文本生成視頻等任務(wù)。

圖片

以往方法通常直接從訓(xùn)練視頻幀中裁剪出主體圖像,著可能導(dǎo)致模型傾向于學(xué)習(xí)捷徑而非真正的內(nèi)在知識(shí)。為了解決這一問(wèn)題,團(tuán)隊(duì)在數(shù)據(jù)層面引入了 Nexus Data,具體包括:(1)通過(guò)跨視頻關(guān)聯(lián)構(gòu)建豐富的配對(duì)信息;(2)在原始幀上使用多模態(tài)大模型生成多視角表示,以豐富數(shù)據(jù)的多樣性和泛化能力,從而有針對(duì)性地應(yīng)對(duì)前述的三大核心挑戰(zhàn)。常規(guī)數(shù)據(jù)與 Nexus 數(shù)據(jù)之間的比較如下圖 5 所示,可見(jiàn) OpenS2V-5M 具有更高的質(zhì)量,有望解決 S2V 模型面臨的三大核心挑戰(zhàn)。

評(píng)估實(shí)驗(yàn)

團(tuán)隊(duì)評(píng)估了幾乎所有的 S2V 模型,包括四個(gè)閉源模型和十二個(gè)開(kāi)源模型。這些模型涵蓋了支持所有類型主體的模型,以及僅支持人物身份的模型。結(jié)果如下圖所示,總體而言,閉源模型在整體能力方面表現(xiàn)出明顯優(yōu)勢(shì)(例如 Kling)。以 Phantom 和 VACE 為代表的開(kāi)源模型正在逐步縮小這一差距;然而,這兩種模型都存在以下三個(gè)共同問(wèn)題:(1)泛化能力差:某些主體的保真度較低。例如,在下圖 6 的案例 2 中,Kling 生成了錯(cuò)誤的操場(chǎng)背景,而 VACE、Phantom 和 SkyReels-A2 生成了保真度較低的人物和鳥(niǎo)類;(2)復(fù)制粘貼問(wèn)題:在圖 7 中,SkyReels-A2 和 VACE 錯(cuò)誤地將參考圖像中的表情、光照或姿態(tài)復(fù)制到生成視頻中,導(dǎo)致輸出不自然;(3)人類保真度不足:圖 7 顯示所有模型都未能準(zhǔn)確渲染人物側(cè)臉。此外,還觀察到:(1)隨著參考圖像數(shù)量的增加,保真度逐漸下降;(2)初始幀可能模糊或直接被復(fù)制;(3)保真度隨時(shí)間逐漸下降。

圖片

圖片

圖片

圖片

圖片

圖片

驗(yàn)證實(shí)驗(yàn)

團(tuán)隊(duì)還通過(guò)人工交叉驗(yàn)證驗(yàn)證指標(biāo)和數(shù)據(jù)集的有效性。顯然,所提出的三個(gè)指標(biāo)與人類感知一致,能夠準(zhǔn)確反映主體一致性、主體自然性和文本相關(guān)性。并且數(shù)據(jù)集能有效解決 S2V 的三大核心問(wèn)題。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-03 08:32:00

模型AI訓(xùn)練

2025-05-06 09:41:06

2024-01-22 08:59:00

AI

2025-07-03 09:09:51

2025-03-20 09:20:00

2023-04-03 10:04:44

開(kāi)源模型

2025-03-11 10:15:00

模型視頻生成

2025-06-12 11:57:56

視頻生成模型AI

2024-03-20 00:00:00

StabilityAI開(kāi)源人工智能

2025-03-27 09:24:16

2024-11-26 17:56:38

2024-12-05 14:20:00

模型AI

2024-10-28 07:30:00

2025-07-02 08:30:00

視頻生成AI模型

2025-01-26 10:50:00

模型視頻生成

2023-08-15 08:36:20

ChatGPT模型

2025-02-10 13:15:00

2024-05-06 12:21:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)