1080p飛升4k，浙大開源原生超高清視頻生成方案，突破AI視頻生成清晰度上限

2025-07-02 08:30:00

浙江大學(xué)APRIL實驗室聯(lián)合多家高校推出的高質(zhì)量開源UHD-4K（其中22.4%為8K）文本到視頻數(shù)據(jù)集——UltraVideo。

為什么AI生成的視頻總是模糊卡頓？為什么細(xì)節(jié)紋理經(jīng)不起放大？為什么動作描述總與畫面錯位？

其中一個重要原因在于，現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于1080P（1920×1080），且大部分視頻的說明（caption）簡單粗糙，不利于大模型學(xué)習(xí)。

當(dāng)主流視頻生成模型還在720P畫質(zhì)掙扎時，浙江大學(xué)APRIL實驗室聯(lián)合多家高校推出的高質(zhì)量開源UHD-4K（其中22.4%為8K）文本到視頻數(shù)據(jù)集——UltraVideo，破解了這一困局。

該數(shù)據(jù)集涵蓋廣泛主題（超過100種），每個視頻配備9個結(jié)構(gòu)化字幕及一個總結(jié)性字幕（平均824詞）。

作為全球首個開源4K/8K超高清視頻數(shù)據(jù)集，UltraVideo配合結(jié)構(gòu)化語義描述框架，讓視頻生成實現(xiàn)從“勉強(qiáng)能看”到“影院級質(zhì)感”的跨越式進(jìn)化。

團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型，實現(xiàn)三大突破：

原生4K生成：直接輸出4K（3840×2160）分辨率視頻；
語義精準(zhǔn)控制：利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制；
資源高效：僅用LoRA輕量化訓(xùn)練，單卡可部署。

方法：四階過濾打造高質(zhì)量4K視頻數(shù)據(jù)集

當(dāng)前視頻生成面臨兩大瓶頸：

分辨率陷阱：模型在低清數(shù)據(jù)訓(xùn)練后，直接生成4K視頻會出現(xiàn)嚴(yán)重失真。如圖2所示，na?ve Wan-T2V-1.3B在1080P生成時畫質(zhì)顯著下降，而提升到4K（2160×3840）分辨率時完全失效。

語義鴻溝：簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。

然而，以電影級應(yīng)用為目標(biāo)的4K/8K內(nèi)容生成急需超高清數(shù)據(jù)與結(jié)構(gòu)化語義視頻描述指導(dǎo)。

UltraVideo通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷：

源頭把控：人工從YouTube精選5000部4K/8K原片，時長從1分鐘到2小時不等，并對視頻進(jìn)行二次人工審核，以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題，在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。

統(tǒng)計信息過濾：去OCR字幕、去黑邊、曝光/灰度檢測淘汰劣質(zhì)視頻片段

模型二次過濾：視頻美學(xué)評估、時序運(yùn)動打分、視頻-文本一致性排序、基于MLLM的16種常見視頻缺陷過濾。

結(jié)構(gòu)化描述：基于Qwen2.5-VL-72B自動化caption管線，生成9類語義標(biāo)簽（鏡頭運(yùn)動/光影/氛圍等），并通過Qwen3-4B匯總總結(jié)描述（每個視頻平均824個單詞）。

最終，團(tuán)隊獲得了3s-10s的42k短視頻和10秒以上的17k長視頻，其中8K視頻占比22.4%，以支持未來更高分辨率的研究。

視頻的主題多樣性對視頻模型的訓(xùn)練效果至關(guān)重要。團(tuán)隊對Koala-36M的標(biāo)題進(jìn)行了名詞統(tǒng)計，經(jīng)由LLMs和人工處理確認(rèn)后，獲得了七個主要主題（108個主題），即視頻場景、主體、動作、時間事件、攝像機(jī)運(yùn)動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進(jìn)行的統(tǒng)計分析。

實測：小樣本撬動4K生成

基于UltraVideo數(shù)據(jù)集，團(tuán)隊在中小規(guī)模的Wan-T2V-1.3B上進(jìn)行實驗。

團(tuán)隊驚訝發(fā)現(xiàn)，僅用42K包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。

由于團(tuán)隊僅使用LoRA進(jìn)行微調(diào)，并未涉及模型結(jié)構(gòu)的修改，相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他T2V模型上。

此外，由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢，團(tuán)隊從VBench中隨機(jī)抽取了十分之一（?96）的提示進(jìn)行測試。

如表4所示，團(tuán)隊比較了五個模型：（1）官方Wan-T2V-1.3B模型，分辨率為480×832（2）將分辨率提高到1K（1088×1920）（3）1K全參數(shù)微調(diào)（4）1K LoRA PEFT。（5）4K LoRA PEFT

結(jié)果顯示，

1、將官方模型擴(kuò)展到1K會導(dǎo)致性能顯著下降。

2、基于UltraWan-1K的全參數(shù)訓(xùn)練顯著提升了1K分辨率下的生成效果。但與原生模型相比，訓(xùn)練超參數(shù)（如批大小和提示）的差異可能導(dǎo)致其整體結(jié)果略差于基于UltraWan-1K的LoRA模型?？紤]到訓(xùn)練成本，研究團(tuán)隊推薦使用基于LoRA的UltraWan-1K方案。

3、更高的UltraWan-4K模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率（推理使用33幀以確保時間超過1秒）導(dǎo)致某些指標(biāo)與UltraWan-1K相比有所下降。

團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型，實現(xiàn)三大突破——原生4K生成：直接輸出4K（3840×2160）分辨率視頻；語義精準(zhǔn)控制：利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制；資源高效：僅用LoRA輕量化訓(xùn)練，單卡可部署。

下圖展示了定性的效果對比。官方的Wan-T2V-1.3B無法直接生成高分辨率1K視頻，而UltraWan能夠處理語義一致的1K/4K生成任務(wù)。

這是首次證明，少量極致質(zhì)量數(shù)據(jù)，能突破視頻生成的分辨率天花板。

在UltraVideo中，通過調(diào)整分辨率、幀率和音頻，它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù)，例如探索低級UHD視頻超分辨率、幀插值、編解碼器，以及高級視頻編輯、逐幀處理、音樂生成。

這項工作不僅填補(bǔ)了高分辨率視頻生成研究中的重要空白，還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿，為未來UHD視頻生成的突破奠定了基礎(chǔ)。

團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示，UltraVideo已全面開源，同時也開源了UltraWan-1K/4K LoRA權(quán)重。

論文：https://arxiv.org/abs/2506.13691

項目主頁：https://xzc-zju.github.io/projects/UltraVideo/

數(shù)據(jù)集：https://huggingface.co/datasets/APRIL-AIGC/UltraVideo

模型：https://huggingface.co/APRIL-AIGC/UltraWanDemo

展示：https://www.youtube.com/watch?v=KPh62pfSHLQ

責(zé)任編輯：張燕妮來源：量子位

視頻生成 AI 模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1080p飛升4k，浙大開源原生超高清視頻生成方案，突破AI視頻生成清晰度上限

方法：四階過濾打造高質(zhì)量4K視頻數(shù)據(jù)集

實測：小樣本撬動4K生成

1080p飛升4k，浙大開源原生超高清視頻生成方案，突破AI視頻生成清晰度上限