當(dāng)“駱駝打包行李”難倒AI:ImagerySearch如何讓視頻模型學(xué)會(huì)想象?

大家好,我是肆〇柒。今天我們一起閱讀一篇來自中國科學(xué)院大學(xué)(UCAS)、阿里巴巴高德地圖(AMAP)與中科院智能系統(tǒng)與工程研究中心(CRISE) 聯(lián)合團(tuán)隊(duì)的最新工作——《ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints》。這項(xiàng)研究直面當(dāng)前視頻生成模型在“想象力任務(wù)”中的系統(tǒng)性失效,提出了一種無需額外訓(xùn)練、僅靠測(cè)試時(shí)自適應(yīng)策略即可顯著提升長(zhǎng)距離語義生成能力的新范式。
當(dāng)提示為“駱駝在沙漠行走”時(shí),Wan2.1能生成合理視頻;但當(dāng)提示僅改變一個(gè)動(dòng)詞,變?yōu)椤榜橊劥虬欣睢睍r(shí),模型便徹底失效——生成的仍是駱駝行走的普通場(chǎng)景,完全忽略了“打包”這一關(guān)鍵動(dòng)作。

長(zhǎng)距離語義提示挑戰(zhàn)
上圖直觀揭示了這一困境:左側(cè)短距離語義提示(語義距離0.3)下,模型表現(xiàn)穩(wěn)健;右側(cè)長(zhǎng)距離語義提示(語義距離0.86)下,Wan2.1及現(xiàn)有測(cè)試時(shí)擴(kuò)展方法(VideoT1、EvoSearch)均無法正確生成“打包”動(dòng)作,而ImagerySearch則能生成駱駝?dòng)帽亲雍颓疤阏硇欣畹倪B貫動(dòng)作(上圖右下角橙色框)。這種“最小語義改動(dòng)引發(fā)最大生成差異”的現(xiàn)象,暴露了當(dāng)前文本到視頻(T2V)生成模型的核心瓶頸:它們擅長(zhǎng)復(fù)現(xiàn)現(xiàn)實(shí),卻難以理解人類的想象力。
長(zhǎng)距離語義為何成為T2V模型的致命短板?
長(zhǎng)距離語義提示具有明確的定義特征:對(duì)象與動(dòng)作間語義距離大(如“交通燈跳舞”)、實(shí)體在訓(xùn)練數(shù)據(jù)中極少共現(xiàn)(ImageNet+Kinetics組合)、平均語義距離達(dá)0.86,遠(yuǎn)超現(xiàn)實(shí)場(chǎng)景基準(zhǔn)(0.3-0.4)。這種提示代表了人類想象力的核心——將通常不會(huì)共現(xiàn)的概念進(jìn)行創(chuàng)造性組合,而正是這種能力使人類能夠超越現(xiàn)實(shí)經(jīng)驗(yàn)進(jìn)行思考和表達(dá)。
生成模型在處理這類提示時(shí)面臨兩大核心挑戰(zhàn)。首先是模型語義依賴約束:生成模型對(duì)長(zhǎng)距離語義提示表現(xiàn)出強(qiáng)語義依賴約束,難以泛化到訓(xùn)練分布之外的想象力場(chǎng)景。也就是,當(dāng)提示中對(duì)象與動(dòng)作之間存在長(zhǎng)距離語義關(guān)系時(shí),模型往往無法建立正確的關(guān)聯(lián),導(dǎo)致“語義漂移”現(xiàn)象。例如,“駱駝打包行李”這一提示中,“駱駝”與“打包”的語義距離較大,模型傾向于忽略“打包”動(dòng)作,轉(zhuǎn)而生成“駱駝在沙漠行走”等更常見的場(chǎng)景。這一現(xiàn)象源于擴(kuò)散模型在訓(xùn)練過程中主要學(xué)習(xí)現(xiàn)實(shí)世界中常見的語義組合,對(duì)于罕見的、創(chuàng)造性的語義關(guān)系缺乏建模能力。
其次是想象力訓(xùn)練數(shù)據(jù)稀缺:

如(d)所示-不同基準(zhǔn)數(shù)據(jù)集分布對(duì)比
如上圖(d)所示,清晰展示了這一問題。主流視頻數(shù)據(jù)集(如ImageNet-1K、Kinetics-600、ActivityNet等)主要包含現(xiàn)實(shí)場(chǎng)景,提供有限的想象力組合,這些組合通常具有長(zhǎng)距離語義關(guān)系。數(shù)據(jù)顯示,現(xiàn)有訓(xùn)練數(shù)據(jù)中長(zhǎng)距離語義關(guān)系的覆蓋率極低,導(dǎo)致模型缺乏處理此類提示的訓(xùn)練經(jīng)驗(yàn)。在ImageNet-1K和Kinetics-600的組合中,對(duì)象-動(dòng)作對(duì)的平均語義距離僅為0.3-0.4,而LDT-Bench中的平均語義距離高達(dá)0.86,表明現(xiàn)實(shí)數(shù)據(jù)集與想象力場(chǎng)景之間存在巨大差距。
現(xiàn)有方法的局限性進(jìn)一步加劇了這一問題。傳統(tǒng)測(cè)試時(shí)搜索(TTS)方法(如VideoT1、EvoSearch)使用固定搜索空間和靜態(tài)獎(jiǎng)勵(lì)函數(shù),無法適應(yīng)開放式的創(chuàng)意生成需求。這些方法假設(shè)所有提示具有相似的復(fù)雜度,采用統(tǒng)一的搜索策略和評(píng)估標(biāo)準(zhǔn),忽視了長(zhǎng)距離語義提示所需的額外認(rèn)知資源。例如,VideoT1在所有提示上使用相同的采樣數(shù)量(N=10)和固定的獎(jiǎng)勵(lì)函數(shù),而EvoSearch雖然引入了進(jìn)化算法,但其搜索空間和獎(jiǎng)勵(lì)機(jī)制仍然是靜態(tài)的,無法針對(duì)不同語義復(fù)雜度的提示進(jìn)行自適應(yīng)調(diào)整。
與之形成鮮明對(duì)比的是,人類心智意象構(gòu)建理論指出:對(duì)語義距離大的概念(這也許標(biāo)志了想象力??),人類需投入更多認(rèn)知資源構(gòu)建心理意象。這一認(rèn)知原理為解決長(zhǎng)距離語義生成問題提供了關(guān)鍵啟示:模型需要根據(jù)提示的語義復(fù)雜度動(dòng)態(tài)調(diào)整搜索策略,為復(fù)雜提示分配更多計(jì)算資源,同時(shí)保持簡(jiǎn)單提示的效率。
基于這一認(rèn)知科學(xué)發(fā)現(xiàn),研究者提出了ImagerySearch方法,將人類構(gòu)建心理意象的過程轉(zhuǎn)化為可計(jì)算的工程實(shí)現(xiàn):當(dāng)面對(duì)語義距離較大的提示時(shí),系統(tǒng)自動(dòng)擴(kuò)大搜索空間并調(diào)整評(píng)估標(biāo)準(zhǔn),模擬人類投入更多認(rèn)知資源的過程。
ImagerySearch核心機(jī)制
ImagerySearch的核心思想是將人類心智意象構(gòu)建的認(rèn)知原理轉(zhuǎn)化為可計(jì)算的工程實(shí)現(xiàn)。

ImagerySearch系統(tǒng)架構(gòu)
上圖展示了其整體工作流程:提示通過約束語義評(píng)分器計(jì)算語義距離D?_sem,同時(shí)輸入到T2V骨干網(wǎng)絡(luò)(Wan2.1);在Imagery scheduler指定的每個(gè)時(shí)間步t,系統(tǒng)采樣一組候選片段,根據(jù)與D?_sem條件相關(guān)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行排序,并僅保留由D?_sem控制的子集;該循環(huán)重復(fù)直到生成完成。這一設(shè)計(jì)使模型能夠根據(jù)提示的語義復(fù)雜度動(dòng)態(tài)調(diào)整搜索策略,顯著提升長(zhǎng)距離語義提示的生成質(zhì)量。
語義距離 D?_sem(p) 是 ImagerySearch 的核心調(diào)控變量,它像一個(gè)“認(rèn)知難度計(jì)”,實(shí)時(shí)測(cè)量提示的想象力挑戰(zhàn)程度。當(dāng) D?_sem(p) 接近 0.3(短距離語義)時(shí),系統(tǒng)保持高效精簡(jiǎn)的搜索;當(dāng) D?_sem(p) 超過 0.8(長(zhǎng)距離語義)時(shí),系統(tǒng)自動(dòng)激活全面的探索模式,為模型提供足夠的“認(rèn)知資源”來構(gòu)建復(fù)雜的心理意象。
SaDSS(Semantic-distance-aware Dynamic Search Space)
為克服固定搜索空間在高語義距離下探索不足的問題(見下圖),SaDSS動(dòng)態(tài)擴(kuò)大采樣數(shù)量,其核心創(chuàng)新在于根據(jù)提示的語義跨度自適應(yīng)調(diào)節(jié)采樣粒度,使模型在需要時(shí)探索更多樣化的視覺假設(shè),提高復(fù)雜條件下的視覺合理性,同時(shí)避免對(duì)簡(jiǎn)單提示產(chǎn)生不必要的計(jì)算開銷。


如上圖b-運(yùn)動(dòng)質(zhì)量指標(biāo)變化
語義距離的精準(zhǔn)計(jì)算是SaDSS的基礎(chǔ)。如下是這一計(jì)算過程:

其中,?(·)表示T5編碼器嵌入函數(shù),E是提示中關(guān)鍵實(shí)體對(duì)集合(如對(duì)象-動(dòng)作對(duì)、動(dòng)作-動(dòng)作對(duì))。在實(shí)現(xiàn)中,研究者將高維嵌入通過PCA投影到2D共享語義空間,這一選擇基于對(duì)不同維度投影效果的實(shí)驗(yàn)驗(yàn)證。PCA不僅保留了語義關(guān)系的主要特征,還提供了直觀的可視化能力,便于篩選高質(zhì)量的長(zhǎng)距離語義提示。在2D空間中,語義相似的概念會(huì)自然聚集,而語義距離遠(yuǎn)的概念則相距較遠(yuǎn),這種可視化特性對(duì)構(gòu)建LDT-Bench至關(guān)重要。然后計(jì)算歐氏距離作為語義距離度量。
關(guān)鍵實(shí)體對(duì)的提取過程經(jīng)過精心設(shè)計(jì):系統(tǒng)首先通過關(guān)鍵詞提取器從提示中識(shí)別出對(duì)象和動(dòng)作實(shí)體,例如在“駱駝打包行李”中,識(shí)別出“駱駝”(對(duì)象)和“打包”(動(dòng)作)作為關(guān)鍵實(shí)體。然后,計(jì)算這些實(shí)體在T5編碼器嵌入空間中的距離。為了確保距離計(jì)算的準(zhǔn)確性,系統(tǒng)排除了介詞、冠詞等語法詞,只關(guān)注具有實(shí)際語義的詞匯。
基于這一度量,SaDSS動(dòng)態(tài)調(diào)整候選視頻數(shù)量:

語義距離越大,候選視頻數(shù)量越多。例如,當(dāng)D?_sem(p)=0.86(長(zhǎng)距離語義)時(shí),Nt=1.86×Nbase;而當(dāng)D?_sem(p)=0.3(短距離語義)時(shí),Nt=1.3×Nbase。這種設(shè)計(jì)實(shí)現(xiàn)了智能平衡:簡(jiǎn)單提示保持高效,復(fù)雜提示擴(kuò)大探索范圍。
關(guān)鍵實(shí)現(xiàn)細(xì)節(jié)表明,ImagerySearch在關(guān)鍵噪聲級(jí)別{5, 10, 20, 45}處激活搜索,這些特定點(diǎn)的選擇基于對(duì)擴(kuò)散過程的系統(tǒng)分析:在去噪早期階段(如t=45),模型主要確定視頻的整體結(jié)構(gòu)和內(nèi)容;中期(t=20-10)影響動(dòng)作的連貫性和時(shí)序關(guān)系;晚期(t=5)則細(xì)化視覺細(xì)節(jié)。通過在這些關(guān)鍵階段引入搜索機(jī)制,ImagerySearch能在最能影響語義對(duì)齊的環(huán)節(jié)進(jìn)行自適應(yīng)調(diào)整,同時(shí)保持計(jì)算效率。在每個(gè)關(guān)鍵噪聲級(jí)別,系統(tǒng)根據(jù)當(dāng)前D?_sem(p)動(dòng)態(tài)確定采樣數(shù)量,然后對(duì)候選視頻進(jìn)行評(píng)估和篩選。
也就是,在擴(kuò)散模型的去噪過程中,早期噪聲級(jí)別(如t=45)主要影響視頻的整體結(jié)構(gòu)和內(nèi)容,而后期噪聲級(jí)別(如t=5)則影響細(xì)節(jié)和視覺質(zhì)量。ImagerySearch在這些關(guān)鍵點(diǎn)引入搜索機(jī)制,確保在最能影響語義對(duì)齊的階段進(jìn)行自適應(yīng)調(diào)整。例如,對(duì)于“交通燈跳舞”這樣的長(zhǎng)距離語義提示,系統(tǒng)在t=45時(shí)可能采樣30個(gè)候選(Nbase=16, D?_sem=0.86),而在t=5時(shí)可能采樣18個(gè)候選,以確保在關(guān)鍵階段有足夠的探索空間。
AIR(Adaptive Imagery Reward)
為解決靜態(tài)獎(jiǎng)勵(lì)無法保障關(guān)鍵元素生成的語義漂移問題,AIR將語義距離融入獎(jiǎng)勵(lì)加權(quán),通過根據(jù)提示語義難度調(diào)制評(píng)估反饋,增強(qiáng)生成視頻與長(zhǎng)距離語義提示的對(duì)齊,是解決“語義漂移”問題的關(guān)鍵。論文中詳細(xì)闡述了這一創(chuàng)新組件:

其中,MQ、TA和VQ分別代表Motion Quality(運(yùn)動(dòng)質(zhì)量)、Temporal Alignment(時(shí)序?qū)R)和Visual Quality(視覺質(zhì)量),這些指標(biāo)源自VideoAlign;Rany表示可擴(kuò)展獎(jiǎng)勵(lì)(如VideoScore、VMBench等)。
關(guān)鍵創(chuàng)新在于動(dòng)態(tài)權(quán)重機(jī)制:α、β、γ和ω根據(jù)語義距離D?_sem動(dòng)態(tài)調(diào)整。對(duì)于長(zhǎng)距離語義提示,系統(tǒng)會(huì)強(qiáng)化語義對(duì)齊獎(jiǎng)勵(lì)(如TA),降低對(duì)視覺質(zhì)量的過度關(guān)注,從而解決“語義漂移”問題。具體而言,當(dāng)D?_sem較高時(shí),系統(tǒng)會(huì)增加β的權(quán)重,使模型更注重時(shí)序?qū)R,確保生成的視頻準(zhǔn)確反映提示中的語義關(guān)系。
AIR的實(shí)現(xiàn)包含一個(gè)自適應(yīng)權(quán)重調(diào)度器,根據(jù)D?_sem(p)動(dòng)態(tài)調(diào)整各獎(jiǎng)勵(lì)成分的貢獻(xiàn)。例如,當(dāng)D?_sem(p)>0.7時(shí),系統(tǒng)將β(TA的權(quán)重)提升至0.6,而將γ(VQ的權(quán)重)降低至0.2;當(dāng)D?_sem(p)<0.4時(shí),系統(tǒng)則將β降低至0.3,γ提升至0.4。這種動(dòng)態(tài)調(diào)整確保了獎(jiǎng)勵(lì)函數(shù)能夠根據(jù)提示的語義復(fù)雜度進(jìn)行自適應(yīng)變化。


如上圖f-獎(jiǎng)勵(lì)權(quán)重變化影響分析
上圖(f)展示了這一機(jī)制的有效性:當(dāng)獎(jiǎng)勵(lì)權(quán)重在0.2-1.2范圍內(nèi)變化時(shí),ImagerySearch的TA(時(shí)序?qū)R)指標(biāo)顯著提升,而MQ和VQ保持穩(wěn)定。這一結(jié)果證明,ImagerySearch對(duì)獎(jiǎng)勵(lì)參數(shù)變化具有魯棒性,能夠根據(jù)提示的語義難度自適應(yīng)調(diào)整評(píng)估標(biāo)準(zhǔn)。
AIR的另一個(gè)關(guān)鍵特性是其與SaDSS的協(xié)同作用。SaDSS負(fù)責(zé)擴(kuò)大搜索空間以探索更多可能性,而AIR則負(fù)責(zé)從這些可能性中選擇最符合語義要求的結(jié)果。這種協(xié)同機(jī)制使ImagerySearch能夠在保持計(jì)算效率的同時(shí),顯著提升長(zhǎng)距離語義提示的生成質(zhì)量。
例如,在生成“本地熊熟練使用遙控器”這一提示時(shí),SaDSS會(huì)根據(jù)高語義距離(D?_sem≈0.88)擴(kuò)大搜索空間,生成多個(gè)候選視頻片段,其中可能包括熊拿著遙控器但未操作、熊操作其他設(shè)備、或正確操作遙控器等不同場(chǎng)景。然后,AIR會(huì)根據(jù)高β權(quán)重(強(qiáng)調(diào)時(shí)序?qū)R),優(yōu)先選擇那些熊與遙控器互動(dòng)關(guān)系正確的候選,確保最終生成的視頻準(zhǔn)確呈現(xiàn)“熊使用遙控器”的語義關(guān)系。
LDT-Bench:首個(gè)面向長(zhǎng)距離語義的視頻生成評(píng)測(cè)基準(zhǔn)
為系統(tǒng)評(píng)估模型在長(zhǎng)距離語義提示下的表現(xiàn),研究者構(gòu)建了LDT-Bench,這是首個(gè)專門針對(duì)此類任務(wù)的評(píng)測(cè)基準(zhǔn)。LDT-Bench的構(gòu)建流程包含三個(gè)關(guān)鍵階段,每個(gè)階段都經(jīng)過精心設(shè)計(jì)以確保提示的質(zhì)量和多樣性。
上圖(a)-LDT-Bench元信息提取流程
上圖(a)展示了第一個(gè)階段:元信息提取。研究者從ImageNet-1K和COCO中提取1,938個(gè)對(duì)象,從ActivityNet、UCF101和Kinetics-600中收集901個(gè)動(dòng)作。這些集合為后續(xù)提示生成奠定了基礎(chǔ)。具體來說,對(duì)象集覆蓋了廣泛的類別,從常見的“駱駝”、“交通燈”到較少見的“水母”、“風(fēng)車”;動(dòng)作集則包括了“行走”、“跳舞”等基本動(dòng)作,以及“打包”、“使用遙控器”等復(fù)雜動(dòng)作。
在語義距離計(jì)算階段,每個(gè)對(duì)象和動(dòng)作元素通過預(yù)訓(xùn)練T5文本編碼器編碼,獲取高維文本特征,然后通過PCA投影到2D共享語義空間。語義距離通過計(jì)算元素對(duì)之間的歐氏距離來度量。這種投影方法不僅保留了語義關(guān)系,還提供了直觀的可視化能力,有助于篩選高質(zhì)量的長(zhǎng)距離語義提示。
投影過程的具體實(shí)現(xiàn)是:首先將每個(gè)對(duì)象和動(dòng)作文本通過T5編碼器轉(zhuǎn)換為768維向量,然后使用PCA將這些向量降維到2D空間。選擇2D空間是因?yàn)樗诒3终Z義距離區(qū)分度的同時(shí),提供了直觀的可視化能力,便于人工篩選和驗(yàn)證。在2D空間中,語義相似的概念會(huì)聚集在一起,而語義距離遠(yuǎn)的概念則相距較遠(yuǎn)。
上圖(b)-LDT-Bench長(zhǎng)距離提示生成流程
上圖(b)詳細(xì)展示了第二個(gè)階段:長(zhǎng)距離提示生成。研究者構(gòu)建了兩個(gè)候選集:一個(gè)通過將每個(gè)對(duì)象與語義距離最遠(yuǎn)的動(dòng)作配對(duì)(1,938個(gè)對(duì)象-動(dòng)作對(duì)),另一個(gè)通過匹配語義距離最遠(yuǎn)的動(dòng)作對(duì)(901個(gè)動(dòng)作-動(dòng)作對(duì))。從每個(gè)集合中選擇160個(gè)距離最遠(yuǎn)的對(duì),形成320個(gè)高距離提示。隨后,GPT-4o用于生成流暢完整的文本提示,每個(gè)提示經(jīng)過DeepSeekR1和人工雙重校驗(yàn)確保質(zhì)量。
提示生成過程經(jīng)過嚴(yán)格的質(zhì)量控制:首先,GPT-4o根據(jù)對(duì)象-動(dòng)作對(duì)生成初始提示;然后,DeepSeekR1對(duì)提示進(jìn)行語法和語義校驗(yàn),過濾掉不符合語言習(xí)慣或邏輯矛盾的提示;最后,人工標(biāo)注者進(jìn)行最終驗(yàn)證,確保提示既具有長(zhǎng)距離語義特性,又保持語言流暢性。這一雙重校驗(yàn)機(jī)制確保了LDT-Bench中2,839個(gè)提示的高質(zhì)量和多樣性。
上圖(e)-LDT-Bench語義距離分布對(duì)比
上圖(e)清晰展示了LDT-Bench與其他基準(zhǔn)的語義距離分布對(duì)比:LDT-Bench的語義距離分布明顯右移,峰值出現(xiàn)在0.8-0.9區(qū)間,而VBench、EvalCrafter等其他基準(zhǔn)多集中在0.3-0.5區(qū)間。這一可視化證據(jù)有力支持了LDT-Bench專注于長(zhǎng)距離語義任務(wù)的定位。具體數(shù)據(jù)對(duì)比顯示:
LDT-Bench: 2,839提示 | 1,938對(duì)象 | 901動(dòng)作 | ASD=0.86
VBench: 800對(duì)象 | ASD=0.33
EvalCrafter: 700對(duì)象 | ASD=0.4其中ASD(Average Semantic Distance)表示平均語義距離,LDT-Bench的0.86遠(yuǎn)高于其他基準(zhǔn),證明其專注于最具挑戰(zhàn)性的長(zhǎng)距離語義提示。
為全面評(píng)估模型表現(xiàn),研究者開發(fā)了ImageryQA評(píng)測(cè)體系,包含三個(gè)維度:
- ElementQA:使用Qwen2.5-VL-72B-Instruct檢查元素覆蓋(如“交通燈是否出現(xiàn)?是否在跳舞?”)
- AlignQA:采用Q-Align評(píng)估視覺質(zhì)量和美學(xué)
- AnomalyQA:利用GPT-4o識(shí)別異常內(nèi)容(如“熊使用遙控器”的合理性)
上圖(c)-ImageryQA評(píng)估框架工作流程
上圖(c)詳細(xì)展示了這一自動(dòng)化評(píng)估系統(tǒng):首先基于文本提示生成針對(duì)性問題,然后多模態(tài)大語言模型分析生成視頻并回答問題,最后系統(tǒng)將回答轉(zhuǎn)化為量化評(píng)估結(jié)果。例如,對(duì)于“交通燈跳舞”這一提示,ElementQA會(huì)生成兩個(gè)問題:“視頻中是否出現(xiàn)交通燈?”和“交通燈是否在跳舞?”,然后由Qwen2.5-VL-72B-Instruct分析生成視頻并給出是/否答案。
每個(gè)維度的評(píng)估都有其特定的技術(shù)實(shí)現(xiàn):ElementQA側(cè)重于基礎(chǔ)語義內(nèi)容的覆蓋情況,使用Qwen2.5-VL-72B-Instruct作為評(píng)估模型,該模型在視覺-語言理解任務(wù)上表現(xiàn)出色;AlignQA關(guān)注視頻的視覺質(zhì)量和美學(xué),采用專門優(yōu)化的Q-Align模型,該模型經(jīng)過大量人類偏好數(shù)據(jù)訓(xùn)練;AnomalyQA則利用GPT-4o的強(qiáng)大推理能力,識(shí)別視頻中不符合邏輯或物理規(guī)律的異常內(nèi)容。
實(shí)驗(yàn)結(jié)果與深度分析

在LDT-Bench上的量化對(duì)比顯示,ImagerySearch實(shí)現(xiàn)了最佳的平均性能表現(xiàn)
如下圖所示,ImagerySearch在“熊使用遙控器”提示下,準(zhǔn)確生成了前爪操作動(dòng)作,而基線模型僅呈現(xiàn)靜態(tài)持握。這一差異直接反映在LDT-Bench的ElementQA指標(biāo)上——ImagerySearch以2.01%領(lǐng)先基線1.66%,證明其對(duì)關(guān)鍵動(dòng)作元素的捕捉能力。LDT-Bench上的性能對(duì)比(上表)提供了ImagerySearch有效性的直接證據(jù)。數(shù)據(jù)顯示,ImagerySearch得分為57.11%(ElementQA 2.01% | AlignQA 36.82% | AnomalyQA 18.28%),比基線Wan2.1(48.28%)提升8.83%,也優(yōu)于VideoT1(54.75%)和EvoSearch(54.48%)。特別值得注意的是,ImagerySearch在元素覆蓋(ElementQA)上的提升尤為顯著,證明其語義對(duì)齊能力明顯增強(qiáng)。這一結(jié)果與核心機(jī)制設(shè)計(jì)直接相關(guān):SaDSS擴(kuò)大了搜索空間,使模型能夠探索更多可能的語義組合;而AIR則確保了這些組合的語義正確性。

長(zhǎng)距離語義提示生成案例
ElementQA的提升最為關(guān)鍵,因?yàn)檫@一指標(biāo)直接衡量模型是否生成了提示中指定的元素。ImagerySearch在ElementQA上達(dá)到2.01%,雖然絕對(duì)值不高,但相對(duì)于基線1.66%的提升表明,模型在生成長(zhǎng)距離語義提示的關(guān)鍵元素方面取得了實(shí)質(zhì)性進(jìn)步。例如,在“駱駝打包行李”這一提示中,基線模型完全忽略了“打包”動(dòng)作,而ImagerySearch能夠生成駱駝?dòng)帽亲雍颓疤阏硇欣畹暮侠韯?dòng)作。
在VBench上的全面評(píng)估進(jìn)一步驗(yàn)證了ImagerySearch的有效性。數(shù)據(jù)顯示,ImagerySearch得分為83.48%(動(dòng)態(tài)程度84.05% | 主體一致性95.90%),優(yōu)于EvoSearch(82.08%)等方法。尤其在動(dòng)態(tài)程度、主體一致性等維度表現(xiàn)最優(yōu),證明其能準(zhǔn)確呈現(xiàn)指定主體及其動(dòng)作。這一結(jié)果表明,ImagerySearch不僅在長(zhǎng)距離語義提示上表現(xiàn)優(yōu)異,在常規(guī)提示上也具有競(jìng)爭(zhēng)力。
下圖(a)展示了語義距離魯棒性測(cè)試結(jié)果:隨著語義距離增加,ImagerySearch保持穩(wěn)定性能,而其他方法性能波動(dòng)劇烈。這一發(fā)現(xiàn)具有重要實(shí)踐意義——在實(shí)際應(yīng)用中,用戶無論輸入簡(jiǎn)單還是復(fù)雜提示,都能獲得一致體驗(yàn),而其他方法在復(fù)雜提示下可能完全失效。例如,當(dāng)語義距離從0.3增加到0.9時(shí),Wan2.1的性能下降了約25%,而ImagerySearch僅下降了約5%,證明其對(duì)長(zhǎng)距離語義的魯棒性。


(a)不同模型在語義距離變化下的表現(xiàn)。隨著語義距離的增加,論文方法保持了最穩(wěn)定的性能。(b-e)自適應(yīng)意象獎(jiǎng)勵(lì)(AIR)始終展現(xiàn)出卓越的性能。ImagerySearch和基線方法在推理計(jì)算量增加時(shí)的性能變化。從左到右,y軸分別表示運(yùn)動(dòng)質(zhì)量(MQ)、時(shí)序?qū)R(TA)、視覺質(zhì)量(VQ)和綜合評(píng)分(VideoAlign(Liu et al., 2025b))的變化。(f)獎(jiǎng)勵(lì)權(quán)重的影響
上圖共同揭示了ImagerySearch的測(cè)試時(shí)擴(kuò)展特性:隨著推理時(shí)計(jì)算量(以函數(shù)評(píng)估次數(shù)NFEs衡量)的增加,ImagerySearch在運(yùn)動(dòng)質(zhì)量(MQ)、時(shí)序?qū)R(TA)和視覺質(zhì)量(VQ)等指標(biāo)上均表現(xiàn)出單調(diào)的性能提升。而在Wan2.1上,ImagerySearch隨著NFEs的增長(zhǎng)持續(xù)獲得改進(jìn),而基線方法在約1×103 NFEs(對(duì)應(yīng)第30個(gè)時(shí)間步)后達(dá)到平臺(tái)期。
這一“無平臺(tái)期”特性對(duì)實(shí)際部署具有重要指導(dǎo)意義——在計(jì)算資源充足的場(chǎng)景(如專業(yè)視頻創(chuàng)作),可以顯著增加采樣數(shù)量以獲得更高質(zhì)量的輸出;而在資源受限的場(chǎng)景(如移動(dòng)端應(yīng)用),則可以適當(dāng)減少采樣以保持效率,系統(tǒng)會(huì)自動(dòng)根據(jù)語義距離調(diào)整資源分配策略。
消融實(shí)驗(yàn)(下表)提供了機(jī)制有效性的直接證據(jù)。動(dòng)態(tài)搜索空間(83.48%)明顯優(yōu)于固定大小(81.22%),這一差距(約2.26%)比與基線模型的差距(4.95%)更能說明動(dòng)態(tài)調(diào)整機(jī)制的價(jià)值。具體而言,當(dāng)處理“駱駝打包行李”這類高語義距離提示時(shí)(D?_sem=0.86),SaDSS會(huì)將候選視頻數(shù)量增加至1.86倍,使模型能夠探索更多可能的“打包”動(dòng)作變體;而AIR則確保篩選出那些駱駝與行李互動(dòng)關(guān)系正確的候選。這種協(xié)同機(jī)制使模型在關(guān)鍵語義環(huán)節(jié)獲得更充分的探索空間,同時(shí)保持對(duì)語義對(duì)齊的嚴(yán)格要求。

消融實(shí)驗(yàn)
此外,上表中的“Search”部分比較了Best-of-N、Particle Sampling等替代搜索策略,數(shù)據(jù)顯示ImagerySearch在這些對(duì)比中均表現(xiàn)最佳,表明針對(duì)長(zhǎng)距離語義任務(wù)需要專門設(shè)計(jì)的搜索策略,而非簡(jiǎn)單應(yīng)用現(xiàn)有方法。
下圖可視化案例深度剖析揭示了ImagerySearch的實(shí)際效果。以“The native bear skillfully uses remote controls.”(本地熊熟練使用遙控器)為例,Wan2.1無法正確呈現(xiàn)“熊”與“遙控器”的互動(dòng)關(guān)系,VideoT1和EvoSearch仍存在語義漂移問題,而ImagerySearch準(zhǔn)確生成了熊操作遙控器的連貫動(dòng)作。
在“The camel packs its belongings with care.”案例中,ImagerySearch的生成過程展現(xiàn)了其對(duì)語義結(jié)構(gòu)的精細(xì)理解。

長(zhǎng)距離語義提示生成案例
上圖顯示,Wan2.1完全忽略了“打包”動(dòng)作,僅生成駱駝行走的普通場(chǎng)景;而ImagerySearch準(zhǔn)確捕捉到了“打包”這一復(fù)雜動(dòng)作的多個(gè)關(guān)鍵環(huán)節(jié):在t=45時(shí),系統(tǒng)識(shí)別出高語義距離(D?_sem=0.86),將候選數(shù)量增至30個(gè);在t=20時(shí),AIR通過高β權(quán)重(強(qiáng)調(diào)時(shí)序?qū)R)篩選出那些包含駱駝與行李互動(dòng)的候選;在t=10時(shí),系統(tǒng)進(jìn)一步細(xì)化動(dòng)作細(xì)節(jié),確保駱駝使用鼻子和前蹄整理行李的動(dòng)作連貫合理;最終在t=5時(shí),完成細(xì)節(jié)優(yōu)化。這一過程完美體現(xiàn)了SaDSS和AIR的協(xié)同作用如何逐步構(gòu)建出符合長(zhǎng)距離語義提示的視頻內(nèi)容。
總結(jié):對(duì)生成式AI研究的啟示
ImagerySearch的價(jià)值不僅在于提升8.83%的分?jǐn)?shù),更在于證明:即使訓(xùn)練數(shù)據(jù)局限于現(xiàn)實(shí)世界,通過模擬人類構(gòu)建心理意象的認(rèn)知過程,AI也能在測(cè)試時(shí)“想象”出訓(xùn)練分布之外的合理場(chǎng)景。這為生成式AI從“現(xiàn)實(shí)復(fù)現(xiàn)者”邁向“創(chuàng)意協(xié)作者”提供了可行路徑。
這一成果對(duì)生成式AI研究具有重要啟示:未來T2V系統(tǒng)應(yīng)更關(guān)注“語義結(jié)構(gòu)感知”的推理機(jī)制,使模型能夠理解提示中實(shí)體之間的復(fù)雜關(guān)系;測(cè)試時(shí)搜索策略設(shè)計(jì)需考慮提示的語義復(fù)雜度,為不同難度的提示分配適當(dāng)?shù)挠?jì)算資源;動(dòng)態(tài)獎(jiǎng)勵(lì)機(jī)制對(duì)解決語義漂移問題至關(guān)重要,應(yīng)根據(jù)提示的語義難度調(diào)整評(píng)估標(biāo)準(zhǔn)。
研究者開源了LDT-Bench和ImagerySearch代碼,為社區(qū)提供標(biāo)準(zhǔn)化評(píng)測(cè)工具和方法,填補(bǔ)了長(zhǎng)距離語義評(píng)測(cè)空白,推動(dòng)創(chuàng)意視頻生成研究。LDT-Bench不僅提供了2,839個(gè)精心篩選的長(zhǎng)距離語義提示,還包含完整的評(píng)估協(xié)議ImageryQA,使研究者能夠系統(tǒng)地評(píng)估模型在想象力任務(wù)上的表現(xiàn)。
未來,可以繼續(xù)探索更靈活的獎(jiǎng)勵(lì)機(jī)制,進(jìn)一步增強(qiáng)視頻生成的創(chuàng)意能力。隨著這一方向的持續(xù)發(fā)展,生成式AI有望突破現(xiàn)有局限,將“熊貓?jiān)诨鹦巧硥m暴中演奏小提琴”這樣的超現(xiàn)實(shí)想象轉(zhuǎn)化為高質(zhì)量的視覺內(nèi)容,開啟創(chuàng)意表達(dá)的新路徑。ImagerySearch不僅是技術(shù)上的突破,更是對(duì)AI如何理解和呈現(xiàn)人類想象力的一次重要探索。通過將人類心智意象構(gòu)建的認(rèn)知原理轉(zhuǎn)化為可計(jì)算的工程實(shí)現(xiàn),ImagerySearch為解決生成式AI中的長(zhǎng)尾分布問題提供了新思路。這一工作表明,即使在訓(xùn)練數(shù)據(jù)有限的情況下,通過智能的測(cè)試時(shí)推理策略,模型也能超越訓(xùn)練分布的限制,展現(xiàn)出更接近人類的想象力和創(chuàng)造力。隨著這一研究方向的深入,我們有望看到AI系統(tǒng)在創(chuàng)意內(nèi)容生成領(lǐng)域?qū)崿F(xiàn)質(zhì)的飛躍,真正成為人類創(chuàng)造力的延伸和增強(qiáng)。


































