偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

1080p飛升4k,浙大開源原生超高清視頻生成方案,突破AI視頻生成清晰度上限

人工智能 新聞
浙江大學(xué)APRIL實驗室聯(lián)合多家高校推出的高質(zhì)量開源UHD-4K(其中22.4%為8K)文本到視頻數(shù)據(jù)集——UltraVideo。

為什么AI生成的視頻總是模糊卡頓?為什么細(xì)節(jié)紋理經(jīng)不起放大?為什么動作描述總與畫面錯位?

其中一個重要原因在于,現(xiàn)有的開源千萬級視頻數(shù)據(jù)集分辨率基本低于1080P(1920×1080),且大部分視頻的說明(caption)簡單粗糙,不利于大模型學(xué)習(xí)。

當(dāng)主流視頻生成模型還在720P畫質(zhì)掙扎時,浙江大學(xué)APRIL實驗室聯(lián)合多家高校推出的高質(zhì)量開源UHD-4K(其中22.4%為8K)文本到視頻數(shù)據(jù)集——UltraVideo,破解了這一困局。

該數(shù)據(jù)集涵蓋廣泛主題(超過100種),每個視頻配備9個結(jié)構(gòu)化字幕及一個總結(jié)性字幕(平均824詞)。

作為全球首個開源4K/8K超高清視頻數(shù)據(jù)集,UltraVideo配合結(jié)構(gòu)化語義描述框架,讓視頻生成實現(xiàn)從“勉強(qiáng)能看”到“影院級質(zhì)感”的跨越式進(jìn)化。

團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型,實現(xiàn)三大突破:

  • 原生4K生成:直接輸出4K(3840×2160)分辨率視頻;
  • 語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;
  • 資源高效:僅用LoRA輕量化訓(xùn)練,單卡可部署。

圖片

方法:四階過濾打造高質(zhì)量4K視頻數(shù)據(jù)集

當(dāng)前視頻生成面臨兩大瓶頸:

分辨率陷阱:模型在低清數(shù)據(jù)訓(xùn)練后,直接生成4K視頻會出現(xiàn)嚴(yán)重失真。如圖2所示,na?ve Wan-T2V-1.3B在1080P生成時畫質(zhì)顯著下降,而提升到4K(2160×3840)分辨率時完全失效。

語義鴻溝:簡單文本描述無法很好地細(xì)致控制主題、背景、風(fēng)格、鏡頭、光影等影視級參數(shù)。

圖片

然而,以電影級應(yīng)用為目標(biāo)的4K/8K內(nèi)容生成急需超高清數(shù)據(jù)與結(jié)構(gòu)化語義視頻描述指導(dǎo)。

UltraVideo通過嚴(yán)苛四階篩選實現(xiàn)視頻質(zhì)量躍遷:

源頭把控:人工從YouTube精選5000部4K/8K原片,時長從1分鐘到2小時不等,并對視頻進(jìn)行二次人工審核,以確保盡可能避免低質(zhì)量、模糊、水印和抖動等問題,在源頭把控視頻質(zhì)量而減少后續(xù)流程的漏檢負(fù)載。

統(tǒng)計信息過濾:去OCR字幕、去黑邊、曝光/灰度檢測淘汰劣質(zhì)視頻片段

模型二次過濾:視頻美學(xué)評估、時序運(yùn)動打分、視頻-文本一致性排序、基于MLLM的16種常見視頻缺陷過濾。

結(jié)構(gòu)化描述:基于Qwen2.5-VL-72B自動化caption管線,生成9類語義標(biāo)簽(鏡頭運(yùn)動/光影/氛圍等),并通過Qwen3-4B匯總總結(jié)描述(每個視頻平均824個單詞)。

圖片

最終,團(tuán)隊獲得了3s-10s的42k短視頻和10秒以上的17k長視頻,其中8K視頻占比22.4%,以支持未來更高分辨率的研究。

圖片

視頻的主題多樣性對視頻模型的訓(xùn)練效果至關(guān)重要。團(tuán)隊對Koala-36M的標(biāo)題進(jìn)行了名詞統(tǒng)計,經(jīng)由LLMs和人工處理確認(rèn)后,獲得了七個主要主題(108個主題),即視頻場景、主體、動作、時間事件、攝像機(jī)運(yùn)動、視頻類型以及情感。下圖展示了對每個主題下不同主題的片段比例進(jìn)行的統(tǒng)計分析。

圖片

實測:小樣本撬動4K生成

基于UltraVideo數(shù)據(jù)集,團(tuán)隊在中小規(guī)模的Wan-T2V-1.3B上進(jìn)行實驗。

團(tuán)隊驚訝發(fā)現(xiàn),僅用42K包含全面文本的極高視頻質(zhì)量數(shù)據(jù)就足以顯著提升生成視頻的審美和分辨率。

由于團(tuán)隊僅使用LoRA進(jìn)行微調(diào),并未涉及模型結(jié)構(gòu)的修改,相關(guān)經(jīng)驗可以輕松地遷移到開源社區(qū)的其他T2V模型上。

此外,由于高分辨率需要更多的計算能力導(dǎo)致推理速度變慢,團(tuán)隊從VBench中隨機(jī)抽取了十分之一(?96)的提示進(jìn)行測試。

如表4所示,團(tuán)隊比較了五個模型:(1)官方Wan-T2V-1.3B模型,分辨率為480×832(2)將分辨率提高到1K(1088×1920)(3)1K全參數(shù)微調(diào)(4)1K LoRA PEFT。(5)4K LoRA PEFT

圖片

結(jié)果顯示,

1、將官方模型擴(kuò)展到1K會導(dǎo)致性能顯著下降。

2、基于UltraWan-1K的全參數(shù)訓(xùn)練顯著提升了1K分辨率下的生成效果。但與原生模型相比,訓(xùn)練超參數(shù)(如批大小和提示)的差異可能導(dǎo)致其整體結(jié)果略差于基于UltraWan-1K的LoRA模型??紤]到訓(xùn)練成本,研究團(tuán)隊推薦使用基于LoRA的UltraWan-1K方案。

3、更高的UltraWan-4K模型在圖像質(zhì)量和時間穩(wěn)定性相關(guān)的指標(biāo)上表現(xiàn)更好。但其較低的幀率(推理使用33幀以確保時間超過1秒)導(dǎo)致某些指標(biāo)與UltraWan-1K相比有所下降。

團(tuán)隊基于42K精選視頻微調(diào)的UltraWan-4K模型,實現(xiàn)三大突破——原生4K生成:直接輸出4K(3840×2160)分辨率視頻;語義精準(zhǔn)控制:利用結(jié)構(gòu)化描述實現(xiàn)鏡頭語言控制;資源高效:僅用LoRA輕量化訓(xùn)練,單卡可部署。

下圖展示了定性的效果對比。官方的Wan-T2V-1.3B無法直接生成高分辨率1K視頻,而UltraWan能夠處理語義一致的1K/4K生成任務(wù)。

圖片

這是首次證明,少量極致質(zhì)量數(shù)據(jù),能突破視頻生成的分辨率天花板。

在UltraVideo中,通過調(diào)整分辨率、幀率和音頻,它可以輕松適應(yīng)任何超高清環(huán)境下的相關(guān)視頻任務(wù),例如探索低級UHD視頻超分辨率、幀插值、編解碼器,以及高級視頻編輯、逐幀處理、音樂生成。

這項工作不僅填補(bǔ)了高分辨率視頻生成研究中的重要空白,還通過新穎的數(shù)據(jù)集構(gòu)建、先進(jìn)的數(shù)據(jù)處理流程和精煉的模型架構(gòu)推動了技術(shù)前沿,為未來UHD視頻生成的突破奠定了基礎(chǔ)。

團(tuán)隊計劃在未來利用長時序子集深入探索長視頻生成任務(wù)。團(tuán)隊表示,UltraVideo已全面開源,同時也開源了UltraWan-1K/4K LoRA權(quán)重。

論文:https://arxiv.org/abs/2506.13691

項目主頁:https://xzc-zju.github.io/projects/UltraVideo/

數(shù)據(jù)集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo

模型:https://huggingface.co/APRIL-AIGC/UltraWanDemo

展示:https://www.youtube.com/watch?v=KPh62pfSHLQ

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-26 10:50:00

模型視頻生成

2025-05-06 09:41:06

2023-04-03 10:04:44

開源模型

2024-10-28 07:30:00

2024-01-11 12:45:12

AI訓(xùn)練

2024-07-25 13:04:21

2025-03-27 09:24:16

2025-01-17 09:00:00

2014-04-28 15:23:24

搜狐視頻

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-11-08 17:34:38

2023-11-24 12:10:43

AI模型

2024-09-24 15:51:02

2023-10-14 13:06:11

AI視頻

2024-09-23 15:40:00

2024-02-19 08:31:10

SoraAIOpenAI

2025-06-18 16:42:15

視頻生成AI模型

2024-10-05 08:10:01

2025-01-15 09:21:57

點贊
收藏

51CTO技術(shù)棧公眾號