1080p飛升4k,浙大開源原生超高清視頻生成方案,突破AI視頻生成清晰度上限
為什么AI生成的視頻總是模糊卡頓?為什么細(xì)節(jié)紋理經(jīng)不起放大?為什么動作描述總與畫面錯位?
其中一個重要原因在于,現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于1080P(1920×1080),且大部分視頻的說明(caption)簡單粗糙,不利于大模型學(xué)習(xí)。
當(dāng)主流視頻生成模型還在720P畫質(zhì)掙扎時,浙江大學(xué)APRIL實驗室聯(lián)合多家高校推出的高質(zhì)量開源UHD-4K(其中22.4%為8K)文本到視頻數(shù)據(jù)集——UltraVideo,破解了這一困局。
該數(shù)據(jù)集涵蓋廣泛主題(超過100種),每個視頻配備9個結(jié)構(gòu)化字幕及一個總結(jié)性字幕(平均824詞)。
作為全球首個開源4K/8K超高清視頻數(shù)據(jù)集,UltraVideo配合結(jié)構(gòu)化語義描述框架,讓視頻生成實現(xiàn)從“勉強(qiáng)能看”到“影院級質(zhì)感”的跨越式進(jìn)化。
團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型,實現(xiàn)三大突破:
- 原生4K生成:直接輸出4K(3840×2160)分辨率視頻;
- 語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;
- 資源高效:僅用LoRA輕量化訓(xùn)練,單卡可部署。
方法:四階過濾打造高質(zhì)量4K視頻數(shù)據(jù)集
當(dāng)前視頻生成面臨兩大瓶頸:
分辨率陷阱:模型在低清數(shù)據(jù)訓(xùn)練后,直接生成4K視頻會出現(xiàn)嚴(yán)重失真。如圖2所示,na?ve Wan-T2V-1.3B在1080P生成時畫質(zhì)顯著下降,而提升到4K(2160×3840)分辨率時完全失效。
語義鴻溝:簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。
然而,以電影級應(yīng)用為目標(biāo)的4K/8K內(nèi)容生成急需超高清數(shù)據(jù)與結(jié)構(gòu)化語義視頻描述指導(dǎo)。
UltraVideo通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷:
源頭把控:人工從YouTube精選5000部4K/8K原片,時長從1分鐘到2小時不等,并對視頻進(jìn)行二次人工審核,以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題,在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。
統(tǒng)計信息過濾:去OCR字幕、去黑邊、曝光/灰度檢測淘汰劣質(zhì)視頻片段
模型二次過濾:視頻美學(xué)評估、時序運(yùn)動打分、視頻-文本一致性排序、基于MLLM的16種常見視頻缺陷過濾。
結(jié)構(gòu)化描述:基于Qwen2.5-VL-72B自動化caption管線,生成9類語義標(biāo)簽(鏡頭運(yùn)動/光影/氛圍等),并通過Qwen3-4B匯總總結(jié)描述(每個視頻平均824個單詞)。
最終,團(tuán)隊獲得了3s-10s的42k短視頻和10秒以上的17k長視頻,其中8K視頻占比22.4%,以支持未來更高分辨率的研究。
視頻的主題多樣性對視頻模型的訓(xùn)練效果至關(guān)重要。團(tuán)隊對Koala-36M的標(biāo)題進(jìn)行了名詞統(tǒng)計,經(jīng)由LLMs和人工處理確認(rèn)后,獲得了七個主要主題(108個主題),即視頻場景、主體、動作、時間事件、攝像機(jī)運(yùn)動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進(jìn)行的統(tǒng)計分析。
實測:小樣本撬動4K生成
基于UltraVideo數(shù)據(jù)集,團(tuán)隊在中小規(guī)模的Wan-T2V-1.3B上進(jìn)行實驗。
團(tuán)隊驚訝發(fā)現(xiàn),僅用42K包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。
由于團(tuán)隊僅使用LoRA進(jìn)行微調(diào),并未涉及模型結(jié)構(gòu)的修改,相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他T2V模型上。
此外,由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢,團(tuán)隊從VBench中隨機(jī)抽取了十分之一(?96)的提示進(jìn)行測試。
如表4所示,團(tuán)隊比較了五個模型:(1)官方Wan-T2V-1.3B模型,分辨率為480×832(2)將分辨率提高到1K(1088×1920)(3)1K全參數(shù)微調(diào)(4)1K LoRA PEFT。(5)4K LoRA PEFT
結(jié)果顯示,
1、將官方模型擴(kuò)展到1K會導(dǎo)致性能顯著下降。
2、基于UltraWan-1K的全參數(shù)訓(xùn)練顯著提升了1K分辨率下的生成效果。但與原生模型相比,訓(xùn)練超參數(shù)(如批大小和提示)的差異可能導(dǎo)致其整體結(jié)果略差于基于UltraWan-1K的LoRA模型??紤]到訓(xùn)練成本,研究團(tuán)隊推薦使用基于LoRA的UltraWan-1K方案。
3、更高的UltraWan-4K模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率(推理使用33幀以確保時間超過1秒)導(dǎo)致某些指標(biāo)與UltraWan-1K相比有所下降。
團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型,實現(xiàn)三大突破——原生4K生成:直接輸出4K(3840×2160)分辨率視頻;語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;資源高效:僅用LoRA輕量化訓(xùn)練,單卡可部署。
下圖展示了定性的效果對比。官方的Wan-T2V-1.3B無法直接生成高分辨率1K視頻,而UltraWan能夠處理語義一致的1K/4K生成任務(wù)。
這是首次證明,少量極致質(zhì)量數(shù)據(jù),能突破視頻生成的分辨率天花板。
在UltraVideo中,通過調(diào)整分辨率、幀率和音頻,它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù),例如探索低級UHD視頻超分辨率、幀插值、編解碼器,以及高級視頻編輯、逐幀處理、音樂生成。
這項工作不僅填補(bǔ)了高分辨率視頻生成研究中的重要空白,還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿,為未來UHD視頻生成的突破奠定了基礎(chǔ)。
團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示,UltraVideo已全面開源,同時也開源了UltraWan-1K/4K LoRA權(quán)重。
論文:https://arxiv.org/abs/2506.13691
項目主頁:https://xzc-zju.github.io/projects/UltraVideo/
數(shù)據(jù)集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo
模型:https://huggingface.co/APRIL-AIGC/UltraWanDemo
展示:https://www.youtube.com/watch?v=KPh62pfSHLQ