偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<legend id="qcb51"><abbr id="qcb51"></abbr></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

500萬(wàn)視頻數(shù)據(jù)集+全新評(píng)測(cè)框架！北大開(kāi)源主體一致性視頻生成領(lǐng)域新基建OpenS2V-Nexus，生成視頻「像」又「自然」

2025-07-09 09:09:42

人工智能新聞

北大團(tuán)隊(duì)推出了全新的開(kāi)源套件 OpenS2V-Nexus，專為 S2V 生成打造。

想讓 AI 能「看著你的自拍就生成一致且自然的短視頻」嗎？這就是 Subject-to-Video（S2V）生成要解決的問(wèn)題：讓視頻生成不僅對(duì)齊文本，還能準(zhǔn)確保留指定人物或物體的特征，讓生成的視頻既「像」又「自然」。這一能力對(duì)于短視頻生成、虛擬人、AI 剪輯等都有巨大意義。

然而，要訓(xùn)練和評(píng)價(jià)這樣的模型，過(guò)去一直缺少公開(kāi)可用的大規(guī)模數(shù)據(jù)集和細(xì)粒度評(píng)測(cè)基準(zhǔn)，限制了 S2V 技術(shù)的快速突破。

為此，北大團(tuán)隊(duì)推出了全新的開(kāi)源套件 OpenS2V-Nexus，專為 S2V 生成打造：

?? OpenS2V-Eval：全球首個(gè)面向主體一致性、自然度和文本對(duì)齊的 S2V 細(xì)粒度評(píng)測(cè)基準(zhǔn)，讓不同模型在主體一致性上真正可比。

?? OpenS2V-5M：全球首個(gè)公開(kāi)的 500 萬(wàn)條高質(zhì)量 720P 人物文本視頻三元組數(shù)據(jù)集，覆蓋真實(shí)和合成數(shù)據(jù)，幫助研究者快速訓(xùn)練更強(qiáng)大的生成模型。

北大團(tuán)隊(duì)還在 18 個(gè)代表性 S2V 模型上進(jìn)行了系統(tǒng)評(píng)測(cè)，首次揭示了目前主流模型在保持主體一致性和自然度方面的真實(shí)能力差距。

通過(guò) OpenS2V-Nexus，未來(lái)做 AI 視頻生成不再盲人摸象，讓訓(xùn)練更高效、評(píng)測(cè)更科學(xué)，讓真正可控、自然且保持人物一致的 AI 視頻生成技術(shù)更快落地到你的應(yīng)用里。

該工作帶來(lái)三大核心貢獻(xiàn)：

構(gòu)建 OpenS2V-Eval：領(lǐng)域最全面的 S2V 評(píng)測(cè)基準(zhǔn)，構(gòu)建了 180 個(gè)多領(lǐng)域提示詞 + 真實(shí) / 合成雙類別測(cè)試數(shù)據(jù)。提出了 NexusScore、NaturalScore 和 GmeScore，精準(zhǔn)量化模型在主體一致性、自然度、文本對(duì)齊三大維度的能力。
同步開(kāi)源 OpenS2V-5M 百萬(wàn)計(jì)數(shù)據(jù)集：包含 540 萬(wàn) 720P 高清「圖片 - 文本 - 視頻」三元組，通過(guò)跨視頻關(guān)聯(lián)分割 + 多視角合成技術(shù)，實(shí)現(xiàn)主題多樣性與高質(zhì)量標(biāo)注。
提供 S2V 模型選擇的新見(jiàn)解：基于全新評(píng)測(cè)框架，團(tuán)隊(duì)對(duì) 18 個(gè)主流 S2V 模型展開(kāi)全面測(cè)評(píng)，揭示不同方法在復(fù)雜場(chǎng)景下的優(yōu)劣差異。

論文地址：https://arxiv.org/abs/2505.20292
項(xiàng)目地址：https://pku-yuangroup.github.io/OpenS2V-Nexus/
數(shù)據(jù)集地址：https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
評(píng)估基準(zhǔn)地址：https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

Subject-to-video 領(lǐng)域面臨著三大問(wèn)題

（1）泛化能力不足：當(dāng)遇到訓(xùn)練中未見(jiàn)過(guò)的主體類別時(shí)，模型的生成效果往往顯著下降。例如，僅在西方面孔上訓(xùn)練的模型，在生成亞洲人主體時(shí)通常表現(xiàn)更差。

（2）“復(fù)制粘貼” 問(wèn)題：模型在生成視頻時(shí)，往往會(huì)直接照搬參考圖像中的姿勢(shì)、光照和輪廓，導(dǎo)致生成結(jié)果缺乏自然感。

（3）人物一致性不足：相比于生成非人類主體，現(xiàn)有模型在保持人物身份一致性方面仍存在明顯不足。

一個(gè)有效的評(píng)測(cè)基準(zhǔn)理應(yīng)能夠揭示并量化這些問(wèn)題。然而，即便生成的視頻主體看起來(lái)不自然或身份一致性較差，現(xiàn)有評(píng)測(cè)基準(zhǔn)往往仍給出較高的分?jǐn)?shù)，阻礙了 S2V 領(lǐng)域的進(jìn)一步突破和改進(jìn)。

北大團(tuán)隊(duì)通過(guò) OpenS2V-Eval 揭示了現(xiàn)有模型在這三個(gè)方面的缺陷，并提出 OpenS2V-5M 從數(shù)據(jù)層面解決這些問(wèn)題。

OpenS2V-Eval 評(píng)測(cè)基準(zhǔn)

現(xiàn)有的視頻生成評(píng)測(cè)基準(zhǔn)大多聚焦于文本生成視頻（text-to-video）任務(wù)，典型代表包括 VBench 和 ChronoMagic-Bench。雖然 ConsisID-Bench 可用于 S2V 任務(wù)，但其評(píng)測(cè)范圍僅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持對(duì)開(kāi)放域 S2V 模型進(jìn)行評(píng)測(cè)，但它們主要采用的是全局、粗粒度的評(píng)測(cè)方式。例如，這些基準(zhǔn)未能對(duì)生成視頻中主體的自然度進(jìn)行有效評(píng)估。

為應(yīng)對(duì)這一挑戰(zhàn)，團(tuán)隊(duì)提出了 OpenS2V-Eval，這是領(lǐng)域內(nèi)首個(gè)全面的 Subject-to-Video（S2V）評(píng)測(cè)基準(zhǔn)。具體而言，團(tuán)隊(duì)定義了七大類別（見(jiàn)圖示）：① 單人臉生成視頻，② 單人全身生成視頻，③ 單實(shí)體生成視頻，④ 多人臉生成視頻，⑤ 多人全身生成視頻，⑥ 多實(shí)體生成視頻，⑦ 人物與實(shí)體混合生成視頻。針對(duì)每個(gè)類別，設(shè)計(jì)了 30 個(gè)富含視覺(jué)內(nèi)容的測(cè)試樣本，用于全面評(píng)測(cè)模型在不同主體上的泛化能力。

并且，針對(duì)現(xiàn)有自動(dòng)化評(píng)測(cè)穩(wěn)健性不足的問(wèn)題，團(tuán)隊(duì)首先提出 NexusScore，結(jié)合圖像檢測(cè)和多模態(tài)檢索模型，用于精準(zhǔn)評(píng)估主體一致性。其次，團(tuán)隊(duì)提出基于 VLM 的 NaturalScore，填補(bǔ)了當(dāng)前評(píng)測(cè)中對(duì)主體自然度評(píng)價(jià)的空白。最后，團(tuán)隊(duì)提出 GmeScore，相比傳統(tǒng)方法能更準(zhǔn)確地評(píng)估文本相關(guān)性。

OpenS2V-5M 百萬(wàn)級(jí)數(shù)據(jù)集

此外，當(dāng)社區(qū)嘗試將基礎(chǔ)模型擴(kuò)展到下游任務(wù)時(shí)，現(xiàn)有數(shù)據(jù)集在支持復(fù)雜任務(wù)方面仍存在明顯不足（見(jiàn)表格對(duì)比）。為彌補(bǔ)這一限制，團(tuán)隊(duì)提出了 OpenS2V-5M，這是首個(gè)專為 Subject-to-Video（S2V）設(shè)計(jì)的百萬(wàn)級(jí)規(guī)模數(shù)據(jù)集，同時(shí)也可用于文本生成視頻等任務(wù)。

以往方法通常直接從訓(xùn)練視頻幀中裁剪出主體圖像，著可能導(dǎo)致模型傾向于學(xué)習(xí)捷徑而非真正的內(nèi)在知識(shí)。為了解決這一問(wèn)題，團(tuán)隊(duì)在數(shù)據(jù)層面引入了 Nexus Data，具體包括：（1）通過(guò)跨視頻關(guān)聯(lián)構(gòu)建豐富的配對(duì)信息；（2）在原始幀上使用多模態(tài)大模型生成多視角表示，以豐富數(shù)據(jù)的多樣性和泛化能力，從而有針對(duì)性地應(yīng)對(duì)前述的三大核心挑戰(zhàn)。常規(guī)數(shù)據(jù)與 Nexus 數(shù)據(jù)之間的比較如下圖 5 所示，可見(jiàn) OpenS2V-5M 具有更高的質(zhì)量，有望解決 S2V 模型面臨的三大核心挑戰(zhàn)。

評(píng)估實(shí)驗(yàn)

團(tuán)隊(duì)評(píng)估了幾乎所有的 S2V 模型，包括四個(gè)閉源模型和十二個(gè)開(kāi)源模型。這些模型涵蓋了支持所有類型主體的模型，以及僅支持人物身份的模型。結(jié)果如下圖所示，總體而言，閉源模型在整體能力方面表現(xiàn)出明顯優(yōu)勢(shì)（例如 Kling）。以 Phantom 和 VACE 為代表的開(kāi)源模型正在逐步縮小這一差距；然而，這兩種模型都存在以下三個(gè)共同問(wèn)題：（1）泛化能力差：某些主體的保真度較低。例如，在下圖 6 的案例 2 中，Kling 生成了錯(cuò)誤的操場(chǎng)背景，而 VACE、Phantom 和 SkyReels-A2 生成了保真度較低的人物和鳥(niǎo)類；（2）復(fù)制粘貼問(wèn)題：在圖 7 中，SkyReels-A2 和 VACE 錯(cuò)誤地將參考圖像中的表情、光照或姿態(tài)復(fù)制到生成視頻中，導(dǎo)致輸出不自然；（3）人類保真度不足：圖 7 顯示所有模型都未能準(zhǔn)確渲染人物側(cè)臉。此外，還觀察到：（1）隨著參考圖像數(shù)量的增加，保真度逐漸下降；（2）初始幀可能模糊或直接被復(fù)制；（3）保真度隨時(shí)間逐漸下降。

驗(yàn)證實(shí)驗(yàn)

團(tuán)隊(duì)還通過(guò)人工交叉驗(yàn)證驗(yàn)證指標(biāo)和數(shù)據(jù)集的有效性。顯然，所提出的三個(gè)指標(biāo)與人類感知一致，能夠準(zhǔn)確反映主體一致性、主體自然性和文本相關(guān)性。并且數(shù)據(jù)集能有效解決 S2V 的三大核心問(wèn)題。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 視頻生成模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)