偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別「偏科」,UniVid實現(xiàn)視頻理解與生成一體化

人工智能 新聞
一個開源項目 UniVid,提出了一個「融合」方向:把理解 + 生成融為一體?——?他們希望用一個統(tǒng)一的模型,兼顧「看懂視頻」+「生成視頻」的能力。

在視頻生成與理解的賽道上,常常見到分頭發(fā)力的模型:有的專注做視頻生成,有的專注做視頻理解(如問答、分類、檢索等)。而最近,一個開源項目 UniVid,提出了一個「融合」方向:把理解 + 生成融為一體 —— 他們希望用一個統(tǒng)一的模型,兼顧「看懂視頻」+「生成視頻」的能力。

這就像把「看圖識物」和「畫圖創(chuàng)作」兩件事,交給同一個大腦去做:理解一段文字 + 理解已有視頻內(nèi)容 → 再「畫」出新的、連貫的視頻 —— 這在技術(shù)上挑戰(zhàn)極大。

  • 論文標題:UniVid: The Open-Source Unified Video Model
  • 論文地址:https://arxiv.org/abs/2509.24200

UniVid 想解決什么問題?

UniVid 嘗試把視頻「理解」與「生成」融合為一體,構(gòu)建出一個真正通用的統(tǒng)一視頻模型(Unified Video Model),一個既能「理解」又能「生成」的視頻多模態(tài)模型。

核心創(chuàng)新

1.統(tǒng)一結(jié)構(gòu):Adapter-based Unified Architecture

在傳統(tǒng)方案中,理解模型和生成模型是完全分開的系統(tǒng),訓練開銷大、互通困難。要把它們?nèi)诤希枰匦掠柧氁粋€龐大的聯(lián)合模型,成本極高。

本文采用適配器(Adapter)插入機制,在已有多模態(tài)大語言模型中插入輕量模塊,使其具備視頻生成能力。這樣,理解模塊 + 生成模塊可以共享大部分參數(shù),只需訓練少量新增參數(shù)。

優(yōu)勢:

  • 顯著降低訓練開銷與算力成本;
  • 提高模型擴展性:已有理解能力的模型能「平滑地」插入生成能力;
  • 兼顧理解與生成,不犧牲已有強大的視覺 / 語言理解基礎(chǔ)。

2. 溫控對齊:Temperature Modality Alignment

在跨模態(tài)(文本 → 視頻)生成中,文本與視覺之間表示尺度、語義強度往往不匹配。若直接融合注意力或特征,很容易出現(xiàn)「提示偏移」(Prompt Drift):生成的視頻越偏離最初的文字意圖。

本文提出模態(tài)溫度對齊機制(Temperature Modality Alignment)。在跨模態(tài)注意力層中對不同模態(tài)(文本 / 視覺特征)引入溫度系數(shù)(類似 softmax 溫度調(diào)節(jié)),動態(tài)調(diào)節(jié)它們的注意力權(quán)重與融合強度。在生成過程的早期階段,更高權(quán)重給文本提示以加強語義引導;在后期階段,則逐漸讓視覺特征主導細節(jié)優(yōu)化。

這能夠有效減少提示偏移,提高語義一致性;讓模型在「理解 → 生成」過程中過渡更自然;保證最終視頻既符合提示,又具備高質(zhì)量視覺細節(jié)。

3. 金字塔反射:Pyramid Reflection

視頻是時序數(shù)據(jù),理解和建模長時域依賴(遠幀之間的關(guān)聯(lián))成本極高。傳統(tǒng) Transformer 全幀注意力的計算量呈平方級增長,難以擴展。

本文提出金字塔反射機制(Pyramid Reflection):

  • 在理解任務(wù)中采用 Reflector 模塊,通過動態(tài)選擇關(guān)鍵幀,并在金字塔層次上進行「反射 / 聚合」操作;
  • 將幀序列映射到不同時間尺度,自底向上或自頂向下反射信息,使模型能在多個尺度上捕捉時序關(guān)系。

在視頻 QA / 時序理解任務(wù)中,PR 模塊結(jié)合 Actor – Evaluator – Reflector 循環(huán)結(jié)構(gòu),讓模型能用最少的幀達到準確推理結(jié)果。

實驗結(jié)果:打敗 SOTA?

UniVid 在視頻生成與理解兩大方向上,都達到了同級模型最優(yōu)表現(xiàn)。

1. 視頻生成:VBench 全維度刷新記錄

測試基準:VBench-Long,是目前最嚴格的視頻生成綜合評測集,涵蓋多個維度:

  • 技術(shù)質(zhì)量(Technical Quality)
  • 美學質(zhì)量(Aesthetic Quality)
  • 語義一致性(Semantic Fidelity)
  • 對象 / 動作 / 場景 / 時序等細粒度指標

UniVid 的成績不僅在總分上超越所有主流視頻生成模型,更在關(guān)鍵維度上超越同級:

  • Temporal Consistency(時序一致性):99.88(幾乎滿分);
  • Motion Smoothness(運動平滑度):99.25;
  • Semantic Alignment(語義一致性):80.58(領(lǐng)先 EasyAnimate 的 77.01);
  • Imaging Quality(影像質(zhì)量):73.03(顯著高于其他模型)。

UniVid 在生成的同時,極大提升了語義契合度與畫面連貫性。

與頂尖視頻生成模型的比較

2. 視頻理解:多項問答任務(wù)登頂

在視頻問答(Video Question Answering, Video-QA)任務(wù)中,UniVid 同樣登頂多個主流基準。

UniVid 在 MSVD-QA 和 ActivityNet-QA 上均創(chuàng)造新紀錄,并在更復(fù)雜的長時序視頻上展現(xiàn)出卓越的時序推理與語義理解能力。

與頂尖視頻生成模型的比較

Demo 展示

為了讓大家更直觀地理解 UniVid 的能力,研究團隊還準備了視頻 Demo,涵蓋視頻生成和視頻理解兩類任務(wù)。

視頻生成:

從左到右的 prompt 分別是:

  • Mouse with large teeth aggressively eating cheese.
  • A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
  • Ten fluffy kittens eat breakfast together in warm sunlight.

視頻理解:

應(yīng)用價值與意義

1. 視頻創(chuàng)作與生成

在影視、廣告、短視頻等場景中,創(chuàng)作者只需輸入文字腳本或圖像提示,UniVid 就能自動生成連貫、符合語義邏輯的視頻。它能「理解」劇情后再去「創(chuàng)作鏡頭」,讓內(nèi)容生產(chǎn)更自然、更高效。

2. 視頻理解與分析

UniVid 還能看懂視頻。無論是體育賽事、監(jiān)控畫面還是教學視頻,它都能識別動作、人物、事件邏輯,生成精準摘要或問答結(jié)果。讓機器不僅看到畫面,更「理解故事」。

3. 機器人與具身智能

在機器人導航、自動駕駛或智能體系統(tǒng)中,UniVid 可以理解攝像頭輸入并生成未來場景預(yù)測,幫助智能體進行規(guī)劃與決策。它讓機器人不僅「看得到」,還能「想得出下一步」。

4. 開源生態(tài)與科研價值

與閉源視頻模型不同,UniVid 的代碼開源,任何研究者或開發(fā)者都可自由使用、復(fù)現(xiàn)、二次開發(fā)。它為視頻智能研究提供了一個通用底座,也讓產(chǎn)業(yè)界能以更低成本構(gòu)建自己的視頻生成系統(tǒng)。

作者介紹

羅嘉濱是北京大學軟微與微電子學院在讀博士生,研究興趣為多智能體系統(tǒng)、多模態(tài)生成、RAG、AI 安全。曾參與多項科研項目,長期致力于構(gòu)建安全可信的 AGI。

林峻輝是北京師范大學在讀本科生,AI Geek 成員,研究興趣為圖像,視頻生成與處理。曾參與多項科研項目,積極探索有趣且有用的計算機視覺模型。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個研究領(lǐng)域擁有豐富的經(jīng)驗,積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進展。

唐浩現(xiàn)任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優(yōu)秀自費留學生獎學金,連續(xù)三年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯(lián)邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領(lǐng)域的研究,在國際頂級期刊與會議發(fā)表論文 100 余篇,相關(guān)成果被引用超過 10000 次。曾獲 ACM Multimedia 最佳論文提名獎,現(xiàn)任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 領(lǐng)域主席及多個人工智能會議和期刊審稿人。

更多信息參見個人主頁: https://ha0tang.github.io/

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2010-12-21 17:22:24

2009-09-07 23:09:17

2024-12-31 14:00:00

模型訓練數(shù)據(jù)

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機器學習

2014-12-02 15:07:11

電信

2011-05-24 09:26:02

有線無線3G

2009-08-17 22:32:25

IT運維管理監(jiān)控運維一體化摩卡

2017-03-21 21:17:06

2009-07-02 09:32:00

2009-12-03 15:34:41

Suse Linux

2020-04-24 11:13:50

物聯(lián)網(wǎng)智慧社區(qū)技術(shù)

2023-11-16 13:24:39

OceanBase數(shù)據(jù)庫

2014-10-14 10:45:18

用友

2023-07-19 22:13:25

一體化推送平臺

2009-03-19 09:50:00

華為機房一體化

2013-04-22 13:47:43

華為一體化智能視訊TE30

2013-11-08 18:01:43

SAP中國商業(yè)同略會

2017-05-16 10:46:06

博陽咨詢流程管理

2014-12-25 11:25:31

點贊
收藏

51CTO技術(shù)棧公眾號