攻克長文檔與多模態(tài)挑戰(zhàn),Paper2Video實現(xiàn)學術(shù)視頻的自動化生產(chǎn)
本研究由新加坡國立大學 Show Lab 團隊主導(dǎo)完成。共一作者 Zeyu Zhu 祝澤宇(博士生)與 Kevin Qinghong Lin 林慶泓(博士生)均來自 ShowLab@NUS,聚焦于多模態(tài)理解以及智能體(Agent)研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

背景:學術(shù)展示視頻生成挑戰(zhàn)
學術(shù)展示視頻作為科研交流的重要媒介,制作過程仍高度依賴人工,需要反復(fù)進行幻燈片設(shè)計、逐頁錄制和后期剪輯,往往需要數(shù)小時才能產(chǎn)出幾分鐘的視頻,效率低下且成本高昂,這凸顯了推動學術(shù)展示視頻自動化生成的必要性。然而,與自然視頻生成不同(如 Sora2、Veo3 等擴散模型),學術(shù)展示視頻面臨以下獨特挑戰(zhàn):
- 長文檔與高密度輸入 (Multi-modal Long-context Input): 來源于完整學術(shù)論文,包含大段專業(yè)文本、復(fù)雜公式、多幅圖表,遠超自然視頻的輸入復(fù)雜度。
- 多模態(tài)通道的協(xié)同生成 (Coordination of Multiple Aligned Channels): 需要同時生成并對齊幻燈片、字幕、語音、光標軌跡與講者視頻,保證多模態(tài)之間的語義一致性與時序同步。
- 缺乏專門的評價標準 (Lacks Well-defined Evaluation Metrics): 現(xiàn)有視頻生成指標主要關(guān)注畫面質(zhì)量或風格一致性,難以衡量學術(shù)展示視頻在 知識傳遞、受眾理解與學術(shù)可用性 上的效果。
因此,現(xiàn)有自然視頻生成模型和簡單的幻燈片 + 語音拼接方法難以勝任,亟需一個系統(tǒng)化的基準和方法來推動自動化、可用的學術(shù)視頻生成。為了解決以上挑戰(zhàn),本文提出了 Paper2Video 基準對學術(shù)展示視頻進行評價,并提出一個多智能圖框架 PaperTalker,為實現(xiàn)自動化和可用的學術(shù)視頻生成邁出切實可行的一步:

圖 1: Paper2Video 概覽

- 論文鏈接:https://arxiv.org/abs/2510.05096
- 項目主頁:https://showlab.github.io/Paper2Video/
- 開源代碼:https://github.com/showlab/Paper2Video
- 開源數(shù)據(jù):https://huggingface.co/datasets/ZaynZhu/Paper2Video

Paper2Video 評價基準
為了評價學術(shù)展示視頻的質(zhì)量,本文收集了 101 片論文和對應(yīng)的作者錄制的學術(shù)展示視頻作為測試基準,并從學術(shù)展示視頻的用途出發(fā),提出了四個評價指標: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。
Paper2Video 基準

圖 2: Paper2Video 基準統(tǒng)計概覽
Paper2Video 基準收集了來自近三年頂會的 101 篇論文及其作者錄制的展示視頻,涵蓋機器學習、計算機視覺與自然語言處理領(lǐng)域。每個樣例包含論文 LaTeX 工程、幻燈片、展示視頻、講者肖像與語音樣本,其中部分還提供原始 PDF 幻燈片。數(shù)據(jù)統(tǒng)計顯示,論文平均 13.3K 字、44.7 幅圖表,展示視頻平均 16 頁幻燈片、時長 6 分鐘。
作為首個系統(tǒng)化的學術(shù)展示視頻基準,它為多模態(tài)長文檔輸入與多通道輸出(幻燈片、字幕、語音、光標、講者)的生成與評估提供了可靠依據(jù),為推動自動化學術(shù)展示視頻生成奠定了基礎(chǔ)。
Paper2Video 評價指標

圖 3: Paper2Video 評價指標設(shè)計
本文從學術(shù)展示視頻的用途出發(fā),認為其質(zhì)量應(yīng)從三個核心視角進行衡量:
- 類人一致性:生成的視頻應(yīng)與作者精心設(shè)計的人類版本保持相似,反映人類偏好。
- 信息傳遞性:生成的視頻應(yīng)盡可能涵蓋論文中的關(guān)鍵信息,并被受眾正確理解。
- 學術(shù)影響力:生成的視頻應(yīng)能突出作者的學術(shù)身份,并增強觀眾對該工作的記憶。
基于上述視角,我們設(shè)計了四個互補的評價指標:
- Meta Similarity — 類人相似度(內(nèi)容級): 比較生成的幻燈片、字幕和語音與人類版本的一致性,衡量生成結(jié)果在細節(jié)和風格上的接近程度。
- PresentArena — 類人一致性(觀感級): 使用 VideoLLM 作為代理觀眾進行成對對比,從清晰度、流暢性與吸引力等維度判斷生成視頻是否符合人類偏好。
- PresentQuiz — 信息傳遞性:通過基于論文構(gòu)造選擇題,使用 VideoLLM 作為代理觀眾進行問答,測試生成視頻能否覆蓋并有效傳遞論文中的關(guān)鍵信息。
- IP Memory — 學術(shù)影響力:模擬會議場景,使用 VideoLLM 作為代理觀眾,評估觀眾是否能夠在觀看后將視頻與作者身份和研究工作正確關(guān)聯(lián),反映學術(shù)可見性與記憶度。
四個指標共同構(gòu)建了一個覆蓋類人偏好、信息傳遞與學術(shù)記憶的系統(tǒng)化評價框架,為學術(shù)展示視頻生成的客觀測評提供了可靠依據(jù)。
PaperTalker 多智體架構(gòu)

圖 4: PaperTalker 流程簡介
為解決學術(shù)展示視頻制作繁瑣且難以自動化的問題,本文提出了 PaperTalker —— 首個支持學術(shù)展示視頻生成的多智能體框架,用于處理這一具有長時依賴的多模態(tài)智能體任務(wù)(Long-horizon Multi-modal Agentic Task)。該框架以研究論文、講者圖像與語音樣本為輸入,自動生成包含幻燈片、字幕、語音、光標軌跡和講者視頻 (slide creation, subtitling, speech, cursor highlight, talking head) 的完整展示視頻。
PaperTalker 由四個關(guān)鍵構(gòu)建模塊組成:
- Slide Builder:基于論文內(nèi)容生成 LaTeX Beamer 幻燈片,并引入 Tree Search Visual Choice 模塊克服大語言模型在細粒度數(shù)值調(diào)整上的局限,從而優(yōu)化版面布局,確保幻燈片布局合理設(shè)計。
- Subtitle Builder:利用視覺語言模型從幻燈片提取關(guān)鍵信息,生成逐句字幕及對應(yīng)的視覺焦點提示詞。
- Cursor Builder:結(jié)合 UI-Grounding 和 WhisperX 模型,實現(xiàn)光標在時間和空間上的精準對齊,在演講過程中,引導(dǎo)觀眾關(guān)注關(guān)鍵信息。
- Talker Builder:根據(jù)講者肖像與語音樣本,合成身份一致、唇形同步的個性化講者視頻,并支持逐頁并行生成以提升效率。
由此,PaperTalker 通過模塊化的多智能體協(xié)作,實現(xiàn)了可控、個性化、學術(shù)風格化的展示視頻生成。
高效魯棒的幻燈片生成
在學術(shù)展示視頻生成任務(wù)中,我們測試發(fā)現(xiàn) LaTeX/Beamer 在輸出效果與穩(wěn)定性上顯著優(yōu)于 pptx,能夠直接生成學術(shù)風格的幻燈片。但在此過程中,即便是閉源 VLM 也難以魯棒地判斷視覺元素(如圖片文字大小、排版比例),導(dǎo)致基于多輪交互的參數(shù)調(diào)優(yōu)效率極低。
Tree Search Visual Choice 布局優(yōu)化機制

圖 5: Tree Search Visual Choice 模塊
為此,本文提出 Tree Search Visual Choice:針對給定的視覺素材,預(yù)設(shè)一組比例參數(shù),渲染得到多種候選布局,并將這些候選拼接成單張大圖,交由 VLM 進行一次性的多選比較,從而將低效的多輪參數(shù)搜索轉(zhuǎn)化為高效的單輪視覺判別,實現(xiàn)圖像尺寸與布局的自動優(yōu)化。
空間–時間對齊的光標生成
本文進一步探討了如何模擬人類在講解過程中使用鼠標的行為。光標軌跡能夠引導(dǎo)觀眾聚焦于幻燈片的關(guān)鍵區(qū)域,但實現(xiàn)這一點需要將幻燈片和演講內(nèi)容與光標停留點 — 時間戳 — 屏幕空間坐標 (x, y, t) 建立起對應(yīng)關(guān)系。為此,我們引入 Computer-Use 和 WhisperX 模型分別進行空間和時間的標定,實現(xiàn)了時間與空間的雙重對齊。
具體來說,我們首先基于幻燈片內(nèi)容生成逐句字幕及視覺焦點提示,然后利用 UI-TARS 將提示 grounding 為屏幕坐標 (x, y),再通過 WhisperX 獲取詞級時間戳并對齊到對應(yīng)的字幕句子,從而得到精確的光標軌跡 (x, y, t)。
高效 Talking-head 生成
在學術(shù)展示視頻生成中,講者部分對于增強觀眾參與感和體現(xiàn)研究者的學術(shù)身份至關(guān)重要。然而,Talking-Head 渲染通常需要數(shù)小時才能生成幾分鐘的視頻,而且部分模型甚至無法原生支持長時段視頻的生成,這嚴重限制了方法的可擴展性與實用性。
為此,本文提出一種高效的解決方案:首先,基于每頁幻燈片的字幕與講者的語音樣本,利用 F5-TTS 合成逐頁的個性化語音;隨后,結(jié)合 Hallo2(高保真頭像驅(qū)動)與 FantasyTalking(支持上半身動作)生成對應(yīng)的講者視頻。受到人類逐頁錄制習慣的啟發(fā),我們進一步將講者生成過程 劃分為獨立的幻燈片片段,并行化執(zhí)行每頁的語音合成與視頻渲染。由于幻燈片間存在自然的硬切換,且無需保持跨頁的動作連續(xù)性,這種設(shè)計既保證了身份一致性與唇形同步,又顯著提升了整體效率,實驗證明這種方式實現(xiàn)了超過 6 倍的加速。
基于 Paper2Video 基準的實驗與評估
在實驗中,本文對比了三類方法:
(i) 端到端方法(如 Wan2.2、Veo3),直接從文本或提示生成視頻;
(ii) 多智能體框架(如 PresentAgent、PPTAgent),將論文內(nèi)容轉(zhuǎn)化為幻燈片并結(jié)合文本轉(zhuǎn)語音生成展示視頻;
(iii) 本文提出的 PaperTalker,通過幻燈片生成與布局優(yōu)化、字幕與光標對齊以及個性化講者合成來生成的學術(shù)展示視頻。
學術(shù)演示視頻性能比較

圖 6: 學術(shù)演示視頻性能比較
- Meta Similarity(相似度)
- PaperTalker 在幻燈片、字幕和語音的相似度上均取得最高分,說明其生成結(jié)果與人類作品最為接近。
- 個性化 Text-to-Speech 模型與基于 Beamer 的幻燈片生成設(shè)計顯著提升了相似度表現(xiàn)。
- PresentArena(觀感質(zhì)量對比)
- 在與人類視頻的成對對比中,PaperTalker 獲得最高的勝率,說明 PaperTalker 視頻觀感質(zhì)量最高。
- 同時,相比去掉講者和光標的變體,完整的 PaperTalker 視頻更受偏好,表明講者與光標均有貢獻。
- PresentQuiz(知識傳遞)
- PaperTalker 在問答準確率上超過了其他基線方法,能夠更好地覆蓋論文信息。
- 缺少講者和光標的版本會導(dǎo)致性能下降,表明這些模塊有助于增強信息傳遞。
- IP Memory(學術(shù)記憶度)
- PaperTalker 在觀眾識別作者與作品的一致性上表現(xiàn)最佳
- 引入講者視頻(面孔與聲音)顯著提升了記憶效果。
- 人類主觀評價
- 人類評價結(jié)果顯示,人類錄制視頻得分最高,PaperTalker 次之,且顯著優(yōu)于其他方法,接近人類水平。
實驗結(jié)果表明,本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四個維度均取得最佳表現(xiàn):其生成的幻燈片、字幕與語音更接近人類作品,整體觀感更受偏好,知識傳遞更完整,且在學術(shù)身份記憶方面更具優(yōu)勢;同時,人類主觀評價也顯示 PaperTalker 的視頻質(zhì)量接近人工錄制水平。
模型效率比較

圖 7: 模型效率比較
PaperTalker 在生成成本上最低。其效率主要來自三個方面:(i) 基于 Beamer 的幻燈片生成顯著減少了 token 消耗;(ii) 引入輕量化的 tree search visual choice 作為幻燈片的后處理;(iii) 采用并行的 talking-head 生成機制縮短了整體運行時間。相比之下,PresentAgent 由于在幻燈片編輯過程中頻繁依賴大模型查詢,導(dǎo)致成本更高。
消融實驗
光標提示對信息定位與理解的貢獻

圖 8: 光標提示消融實驗
光標提示通過提供顯式空間線索,幫助觀眾和 VLM 更好地定位幻燈片中的關(guān)鍵信息。為驗證這一點,本文設(shè)計了定位問答任務(wù),比較有無光標情況下的答題準確率。結(jié)果顯示,帶光標的視頻準確率顯著更高,證明了光標在增強學術(shù)展示視頻的視覺定位與內(nèi)容可達性方面的重要作用。
Tree Search Visual Choice 在幻燈片質(zhì)量提升中的作用

圖 9: Tree Search Visual Choice 消融實驗
為評估 Tree Search Visual Choice 模塊的貢獻,本文進行了消融實驗(表 5),利用 VLM 從內(nèi)容、設(shè)計與連貫性三個維度對生成的幻燈片進行 1–5 分評價。結(jié)果顯示,當去除該模塊時,幻燈片的設(shè)計質(zhì)量明顯下降,說明該方法在解決版面溢出問題、提升整體設(shè)計質(zhì)量方面發(fā)揮了關(guān)鍵作用。圖 9 展示了該模塊的性能。

圖 10: Tree Search Visual Choice 可視化
結(jié)語
本文提出 Paper2Video 基準與 PaperTalker 框架,為學術(shù)展示視頻生成提供了系統(tǒng)化任務(wù)與評測體系。實驗驗證了其在信息傳遞、觀感質(zhì)量與學術(shù)記憶方面的優(yōu)勢,生成效果接近人工水平。我們期待這項工作能推動 AI4Research 的發(fā)展,促進科研交流的自動化與規(guī)?;?。

Paper2Video生成Paper2Video學術(shù)視頻






























