偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR2025視頻生成統(tǒng)一評(píng)估架構(gòu),上交x斯坦福聯(lián)合提出讓MLLM像人類一樣打分

人工智能 新聞
Video-Bench視頻評(píng)估框架,能夠通過模擬人類的認(rèn)知過程,建立起連接文本指令與視覺內(nèi)容的智能評(píng)估體系。

視頻生成技術(shù)正以前所未有的速度革新著當(dāng)前的視覺內(nèi)容創(chuàng)作方式,從電影制作到廣告設(shè)計(jì),從虛擬現(xiàn)實(shí)到社交媒體,高質(zhì)量且符合人類期望的視頻生成模型正變得越來越重要。

那么,要如何評(píng)估AI生成的視頻是否符合人類的審美和需求呢?

Video-Bench視頻評(píng)估框架,能夠通過模擬人類的認(rèn)知過程,建立起連接文本指令與視覺內(nèi)容的智能評(píng)估體系。

簡(jiǎn)單地說,能夠讓多模態(tài)大模型(MLLM)“像人一樣評(píng)估視頻”。

實(shí)驗(yàn)結(jié)果表明,Video-Bench不僅能精準(zhǔn)識(shí)別生成視頻在物體一致性(0.735相關(guān)性)、動(dòng)作合理性等維度的缺陷,還能穩(wěn)定評(píng)估美學(xué)質(zhì)量等傳統(tǒng)難題,顯著優(yōu)于現(xiàn)有的評(píng)估方法。

圖片

Video-Bench的研究團(tuán)隊(duì)來自上海交通大學(xué)、斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)。

Video-Bench:基于MLLM的自動(dòng)化視頻評(píng)估框架

Video-Bench團(tuán)隊(duì)在面對(duì)已有的視頻評(píng)估方法時(shí),發(fā)現(xiàn)了兩個(gè)問題:

1.簡(jiǎn)單的評(píng)分規(guī)則往往無法捕捉視頻流暢度、美學(xué)表現(xiàn)等復(fù)雜維度——

那么,當(dāng)評(píng)判“視頻質(zhì)量”時(shí),如何將人類出于“直覺”的模糊感受轉(zhuǎn)化為可量化的評(píng)估指標(biāo)?

2.現(xiàn)有基于大語言模型(Large Language Model,LLM)的基準(zhǔn)雖能更好模擬人類評(píng)估邏輯,但在視頻-條件對(duì)齊評(píng)估中存在跨模態(tài)比較困難,在視頻質(zhì)量評(píng)估中則面臨文本評(píng)價(jià)標(biāo)準(zhǔn)模糊化的局限——

那么,評(píng)估”視頻是否符合文字描述”時(shí),評(píng)估系統(tǒng)如何實(shí)現(xiàn)跨模態(tài)對(duì)比?

針對(duì)上述的兩個(gè)問題,Video-Bench作出了兩點(diǎn)核心創(chuàng)新:

圖片

(1)系統(tǒng)性地構(gòu)建了覆蓋視頻-條件對(duì)齊(Video-Condition Alignment)視頻質(zhì)量(Video quality)的雙維度評(píng)估框架。

(2)引入了鏈?zhǔn)讲樵儯–hain-of-Query)少樣本評(píng)分(Few-shot scoring)兩項(xiàng)核心技術(shù)。

鏈?zhǔn)讲樵兺ㄟ^多輪迭代的”描述-提問-驗(yàn)證”流程,有效解決了文本與視頻跨模態(tài)對(duì)齊的評(píng)估難題;少樣本評(píng)分則通過多視頻對(duì)比建立相對(duì)質(zhì)量標(biāo)尺,將主觀的美學(xué)評(píng)判轉(zhuǎn)化為可量化的客觀標(biāo)準(zhǔn)。

這樣的功能設(shè)計(jì)使Video-Bench突破了現(xiàn)有視頻質(zhì)量評(píng)估方法的限制,能夠更全面、更智能地對(duì)視頻進(jìn)行評(píng)分。

更全面、更智能

一方面,Video-Bench將視頻生成質(zhì)量解構(gòu)為“視頻-條件對(duì)齊”和“視頻質(zhì)量”兩個(gè)正交維度,分別評(píng)估生成內(nèi)容與文本指令的符合度以及視頻本身的觀感質(zhì)量。

視頻-條件一致性關(guān)注評(píng)估生成的視頻是否準(zhǔn)確地反映了文本提示中的內(nèi)容,包括以下幾個(gè)關(guān)鍵維度對(duì)象類別一致性、動(dòng)作一致性、顏色一致性、場(chǎng)景一致性、視頻-文本一致性;

視頻質(zhì)量的評(píng)估則側(cè)重于視頻本身的視覺保真度和美學(xué)價(jià)值。包括成像質(zhì)量、美學(xué)質(zhì)量、時(shí)間一致性、運(yùn)動(dòng)質(zhì)量。

這種雙維度的評(píng)估框架能使Video-Bench全面覆蓋視頻生成的各個(gè)要素,在評(píng)估視頻是否“保真”的同時(shí),關(guān)注到視頻的美觀程度。

另一方面,Video-Bench的評(píng)估框架利用多模態(tài)大語言模型(Multimodal Large Language Model,MLLM)的強(qiáng)大能力,通過鏈?zhǔn)讲樵兗夹g(shù)和少樣本評(píng)分技術(shù),實(shí)現(xiàn)對(duì)視頻生成質(zhì)量的高效評(píng)估:

圖片

(1)鏈?zhǔn)讲樵兗夹g(shù):通過多輪問答的方式,逐步深入地評(píng)估視頻與文本提示之間的一致性。

這種方法避免了直接的跨模態(tài)比較,而是先將視頻內(nèi)容轉(zhuǎn)換為文本描述,然后通過一系列精心設(shè)計(jì)的問題,逐步檢查視頻內(nèi)容是否與文本提示完全一致,有效解決了跨模態(tài)對(duì)比的語義鴻溝問題。

圖片

(2)少樣本評(píng)分技術(shù):模仿人類橫向比較的本能,通過同時(shí)對(duì)比多個(gè)同主題視頻,使抽象的美學(xué)評(píng)價(jià)變得可量化。

例如在評(píng)估”電影感”時(shí),Video-Bench會(huì)橫向比較不同生成結(jié)果的運(yùn)鏡流暢度、光影層次感,而非孤立打分。

“像人一樣評(píng)估視頻”

圖片

將Video-Bench與當(dāng)前主流評(píng)估方法進(jìn)行系統(tǒng)性對(duì)比,可以看到,在視頻-條件對(duì)齊維度,Video-Bench以平均0.733的Spearman相關(guān)系數(shù)顯著優(yōu)于傳統(tǒng)方法CompBench;在視頻質(zhì)量維度,其0.620的平均相關(guān)性同樣領(lǐng)先EvalCrafter。

此外,在對(duì)象類別一致性這一關(guān)鍵指標(biāo)上,Video-Bench達(dá)到0.735的相關(guān)性,較基于GRiT的方法提升56.3%。

圖片

為驗(yàn)證評(píng)估結(jié)果的可靠性,Video-Bench還組織了10人專家小組對(duì)35,196個(gè)視頻樣本進(jìn)行標(biāo)注。

對(duì)齊結(jié)果顯示,評(píng)估者間一致性(Krippendorff’s α)達(dá)0.52,與人類自評(píng)水平相當(dāng)。

圖片

通過組件設(shè)計(jì)的消融實(shí)驗(yàn),可以看到,鏈?zhǔn)讲樵兪挂曨l-條件對(duì)齊評(píng)估提升了9.3%,少樣本評(píng)分將成像質(zhì)量評(píng)估相關(guān)性從46.1%(單樣本)提升至62.4%(7樣本)。

組合使用兩項(xiàng)技術(shù)時(shí),評(píng)估穩(wěn)定性(TARA@3)達(dá)67%,Krippendorff’s α達(dá)0.867,驗(yàn)證了這些組件設(shè)計(jì)的有效性。

圖片

魯棒性測(cè)試結(jié)果發(fā)現(xiàn),添加高斯噪聲后,Video-Bench的視頻-文本一致性評(píng)估誤差<5%,且三次重復(fù)實(shí)驗(yàn)的評(píng)分一致性達(dá)87%,對(duì)不同復(fù)雜度提示的評(píng)估穩(wěn)定性優(yōu)于基線方法32%。

現(xiàn)有視頻生成模型的測(cè)評(píng)結(jié)果

圖片

使用Vedio-Bench對(duì)7個(gè)主流視頻生成模型進(jìn)行測(cè)評(píng),結(jié)果發(fā)現(xiàn),商業(yè)模型整體優(yōu)于開源模型(Gen3綜合得分4.38v.s.VideoCrafter2綜合得分3.87),不同模型存在顯著特長(zhǎng)差異(如CogVideoX在視頻-文本一致性領(lǐng)先,而Gen3在成像質(zhì)量最優(yōu))。

總體來看,當(dāng)前的模型在動(dòng)作合理性(平均2.53/3)和動(dòng)態(tài)模糊(3.11/5)等動(dòng)態(tài)維度表現(xiàn)較弱。

圖片

對(duì)不同基礎(chǔ)模型進(jìn)行比較,結(jié)果發(fā)現(xiàn),與Gemini1.5pro和Qwen2vl-72b相比,GPT-4o通常在視頻質(zhì)量和一致性評(píng)分上表現(xiàn)更優(yōu),特別是在成像質(zhì)量(0.807)和視頻-文本一致性(0.750)方面,GPT-4o-0806表現(xiàn)尤為突出。

然而,性能并不總是隨著GPT-4o版本的更新而持續(xù)提升。例如,GPT-4o-1120在運(yùn)動(dòng)效果方面相較于GPT-4o-0806有所下降(0.309vs.0.469),這表明在更新過程中,時(shí)間運(yùn)動(dòng)檢測(cè)可能存在潛在退化。

作者簡(jiǎn)介

共同第一作者

韓慧,上海交通大學(xué)碩士生,研究方向?yàn)槎嗄B(tài)語言模型

李思遠(yuǎn),上海交通大學(xué)碩士生,研究方向?yàn)槎嗄B(tài)語言模型

陳家棋,復(fù)旦大學(xué)碩士,斯坦福訪問學(xué)者,F(xiàn)ellou 研究員,研究方向?yàn)?LLM agent

袁怡雯,CMU 本科,xAI 研究員,研究方向?yàn)槎嗄B(tài)語言模型和 RAG

通訊作者為倪泳鑫,波士頓大學(xué)博士

代碼鏈接:https://github.com/Video-Bench/Video-Bench.git論文地址:https://arxiv.org/html/2504.04907v1

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-06-13 08:46:00

2024-10-21 12:40:00

視頻生成模型

2024-10-28 10:30:00

AI開源模型

2023-05-30 13:29:25

2023-12-14 12:51:28

LLM3D場(chǎng)景

2023-11-29 14:53:00

AI數(shù)據(jù)

2022-07-28 14:46:01

人工智能機(jī)器人計(jì)算機(jī)科學(xué)

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2020-01-09 17:03:29

人工智能技術(shù)算法

2023-11-13 07:51:58

ChatGPT研究

2022-07-14 15:08:23

AI模型

2024-06-21 09:24:03

2023-04-05 14:19:07

FlinkRedisNoSQL

2025-03-20 09:20:00

2023-12-26 14:56:59

模型訓(xùn)練

2023-09-22 11:56:57

模型駕駛

2023-02-14 09:45:11

模型測(cè)試

2018-10-25 22:34:34

機(jī)器人人工智能系統(tǒng)

2024-10-17 10:23:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)