論文秒變PPT!西湖大學(xué)AGI Lab推出Auto-Slides,科研匯報(bào)難度驟降
還在為寫完論文后,制作一份高質(zhì)量的匯報(bào)PPT而焦頭爛額嗎?
西湖大學(xué)AGI Lab的最新力作——Auto-Slides,只需輸入論文PDF,系統(tǒng)即可自動生成結(jié)構(gòu)清晰、邏輯流暢的演示文稿,并支持用戶用自然語言進(jìn)行交互式修改。

除“一鍵變PPT”外,Auto-Slides還能實(shí)現(xiàn)高保真解析、認(rèn)知驅(qū)動重組。經(jīng)過三項(xiàng)用戶研究和自動化評估,其不僅兼顧理解性、教學(xué)友好度和科學(xué)準(zhǔn)確性,還能大幅提升學(xué)術(shù)交流效率,展示出AI在學(xué)術(shù)傳播和教育中的巨大潛力。

Auto-Slides:多智能體協(xié)作,打造專業(yè)級演示文稿
近年來,大模型(LLM)正在深刻改變科研人員與學(xué)術(shù)內(nèi)容的互動方式。然而,現(xiàn)有的LLM學(xué)習(xí)助手在將學(xué)術(shù)論文轉(zhuǎn)化為演示文稿時(shí),仍存在三大痛點(diǎn):
1、碎片化輸出: 論文本身結(jié)構(gòu)嚴(yán)謹(jǐn),但對話式問答往往缺乏全局組織,導(dǎo)致學(xué)習(xí)體驗(yàn)割裂。
2、模態(tài)單一: 缺少圖表和公式,難以有效支撐復(fù)雜概念的理解與傳達(dá)。
3、缺乏教學(xué)邏輯: 學(xué)術(shù)寫作面向?qū)<易x者,直接用于教學(xué)和匯報(bào),內(nèi)容可能過于晦澀。
要真正實(shí)現(xiàn)“從論文到演示”的轉(zhuǎn)化,系統(tǒng)不僅要能精準(zhǔn)解析論文,更要能重組邏輯、補(bǔ)充多模態(tài)信息,并保證可交互性。Auto-Slides正是為此而生。
Auto-Slides的核心創(chuàng)新在于引入了多智能體協(xié)作框架,讓論文轉(zhuǎn)化為演示文稿的過程更專業(yè)、更貼近真實(shí)教學(xué)需求。系統(tǒng)整體分為四大核心環(huán)節(jié):

△Auto-Slides的多智能體協(xié)作框架概覽
1. 高保真解析(Parser Agent):告別亂碼,精準(zhǔn)還原論文精髓
學(xué)術(shù)論文不僅有文字,還包含公式、表格、圖示等多模態(tài)元素。Auto-Slides的解析模塊基于高精度PDF→Markdown轉(zhuǎn)換和LLM抽取策略,能夠完整保留這些信息。
這意味著,復(fù)雜的公式不會被打散成亂碼,表格也能被單獨(dú)識別和結(jié)構(gòu)化存儲,為后續(xù)處理奠定了準(zhǔn)確的基礎(chǔ)。
2. 認(rèn)知驅(qū)動的邏輯重組(Planner Agent):讓演講更像“講故事”
傳統(tǒng)論文采用IMRaD(引言-方法-結(jié)果-討論)結(jié)構(gòu),雖然嚴(yán)謹(jǐn),但并不適合快速教學(xué)或演講。Auto-Slides結(jié)合教育心理學(xué)理論(如認(rèn)知負(fù)荷理論、雙通道理論),將其重組為PMRC(問題-動機(jī)-結(jié)果-結(jié)論)。
這種敘事邏輯更符合聽眾的理解節(jié)奏,讓一篇論文更像是一場引人入勝的“故事化”演講。
3. 質(zhì)量保障(Verification & Adjustment Agents):杜絕“幻覺”,確保學(xué)術(shù)嚴(yán)謹(jǐn)
大模型在生成內(nèi)容時(shí)可能出現(xiàn)遺漏或“幻覺”。為此,Auto-Slides引入了驗(yàn)證-修正環(huán)節(jié):由驗(yàn)證智能體對比幻燈片與原論文,發(fā)現(xiàn)關(guān)鍵信息缺失或表述不當(dāng)時(shí),再由修正智能體進(jìn)行補(bǔ)全。
這一機(jī)制保證了輸出的學(xué)術(shù)準(zhǔn)確性和完整性,不會因?yàn)樽詣踊鵂奚鼑?yán)謹(jǐn)性。
4. 生成與交互優(yōu)化(Generator & Editor Agents):人機(jī)協(xié)作,持續(xù)改進(jìn)
最終生成環(huán)節(jié)基于LaTeX Beamer,產(chǎn)出結(jié)構(gòu)專業(yè)、視覺規(guī)范的幻燈片。更重要的是,用戶可以通過自然語言與Editor Agent交互,例如說“幫我增加一頁解釋Attention機(jī)制”,系統(tǒng)就會自動更新并重新編譯。
這樣,Auto-Slides不只是“一次性生成”,而是支持人機(jī)協(xié)作的持續(xù)改進(jìn)。
這一獨(dú)特的框架,讓Auto-Slides既能自動化生成,又能按需調(diào)整,最終讓論文真正變成教學(xué)友好、演講就緒的多模態(tài)材料。

△Editor Agent可交換功能概覽
實(shí)驗(yàn)驗(yàn)證:用戶與專家共同見證優(yōu)異表現(xiàn)
為了驗(yàn)證Auto-Slides的價(jià)值,團(tuán)隊(duì)設(shè)計(jì)了三項(xiàng)用戶研究和一次自動化評估,從不同角度考察系統(tǒng)的可用性與優(yōu)勢。
1、User Study 1(學(xué)習(xí)者交互體驗(yàn))

參與者為跨學(xué)科的本科生群體,他們首先瀏覽Auto-Slides自動生成的幻燈片,然后通過交互功能按需修改。
結(jié)果發(fā)現(xiàn),交互式功能顯著提升了理解力和學(xué)習(xí)掌控感。學(xué)生普遍表示“更快抓住重點(diǎn)”,并且“能按照自己的需求組織內(nèi)容”。這說明系統(tǒng)不僅降低了學(xué)習(xí)門檻,還增強(qiáng)了學(xué)習(xí)者的主動性。
2、User Study 2(與LLM聊天式學(xué)習(xí)對比)

直接對比LLM對話學(xué)習(xí)與使用Auto-Slides學(xué)習(xí),結(jié)果發(fā)現(xiàn),Auto-Slides在結(jié)構(gòu)清晰度、視覺直觀性、支持理解與記憶上明顯優(yōu)于對話式學(xué)習(xí),而聊天方式則在個性化探索方面表現(xiàn)更好。
此外,研究還發(fā)現(xiàn)學(xué)生的偏好是先用Auto-Slides 快速建立全局框架,再通過LLM對話進(jìn)行深入提問,形成互補(bǔ)工作流。
3、User Study 3(專家評估)

研究邀請有豐富科研經(jīng)驗(yàn)的專家,對比了兩類幻燈片:一種采用 PMRC 敘事優(yōu)化,另一種保留原始 IMRaD 順序。
結(jié)果發(fā)現(xiàn),經(jīng)過敘事優(yōu)化的版本在內(nèi)容準(zhǔn)確性和邏輯流暢性上顯著更優(yōu),更接近真實(shí)演講需要。專家反饋認(rèn)為“聽眾更容易跟上思路,也能更好把握關(guān)鍵信息”。
4、自動化評估(LLM-as-Judge)

通過大模型作為裁判,評估Auto-Slides在表格、公式保真度以及整體內(nèi)容完整性上的表現(xiàn)。
結(jié)果發(fā)現(xiàn),增強(qiáng)解析模塊顯著提升了復(fù)雜多模態(tài)內(nèi)容的保真度,驗(yàn)證–修正機(jī)制則提升了內(nèi)容的準(zhǔn)確性和覆蓋率。整體魯棒性優(yōu)于系統(tǒng)的簡化版本。
應(yīng)用展望:AI賦能學(xué)術(shù)交流新范式
Auto-Slides系統(tǒng)展示了一種全新的AI輔助學(xué)術(shù)傳播范式。它將繁瑣的論文轉(zhuǎn)化為簡潔直觀的多模態(tài)演示材料,并允許用戶與系統(tǒng)共同塑造最終的匯報(bào)文稿。
這一框架未來有望廣泛應(yīng)用于學(xué)術(shù)會議演講、課堂教學(xué)、跨學(xué)科學(xué)習(xí)等場景,為全球的科研工作者和學(xué)生解鎖更高效、更智能的知識傳遞方式。
Auto-Slides不僅僅是一個工具,它更是一個真正經(jīng)過驗(yàn)證的學(xué)術(shù)演示助手,在理解性、教學(xué)友好度和科學(xué)準(zhǔn)確性三方面實(shí)現(xiàn)了完美平衡,并支持交互優(yōu)化,展示出巨大的落地潛力。
本文第一作者為西湖大學(xué)本科生楊宇恒,通訊作者為西湖大學(xué)AGI實(shí)驗(yàn)室助理教授張馳。該工作由楊宇恒在西湖大學(xué)AGI實(shí)驗(yàn)室完成。
論文鏈接: https://arxiv.org/abs/2509.11062
項(xiàng)目地址: https://auto-slides.github.io/

































