偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

論文秒變海報！開源框架PosterAgent一鍵生成頂會級學術(shù)Poster

2025-06-04 09:03:00

人工智能新聞

相比GPT-4o，PosterAgent生成指標更優(yōu)，同時token使用量減少87%，還只需要0.0045美元，就可將22頁的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報。

你好研究僧，聽說剛剛中了頂會，卻還在愁怎么做Poster（學術(shù)海報）？

別急，容在下為你推薦一款新時代科研黨神器——PosterAgent，幫你一鍵從paper.pdf跳轉(zhuǎn)poster.pptx。

相比GPT-4o，PosterAgent生成指標更優(yōu)，同時token使用量減少87%，還只需要0.0045美元，就可將22頁的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報。

來自滑鐵盧大學的聯(lián)合研究團隊，還精心構(gòu)建了首個學術(shù)海報評估標準Paper2Poster，解決了長上下文、多模態(tài)壓縮的評估空白。

話不多說，先給大家展示一波效果，以下面這篇CV論文為例。

先喂給GPT-4o-image，得到的是這樣的：

顯然學術(shù)海報三要素（吸睛標題、重點突出、色彩排版），GPT-4o-image通通都沒有。

不妨交給PosterAgent試試：

視覺更連貫、信息還高效，難怪連已經(jīng)畢業(yè)了的師兄師姐們都在X上哭訴，憑什么我們當年沒有它。

這下媽媽再也不用擔心我做不好Poster，被老板在群里奪命call了（狗頭）。

下面來講講它為啥這么好用。

多模態(tài)海報自動生成

Poster在學術(shù)會議里的重要性不言而喻，需要讓與會者在幾分鐘內(nèi)就迅速從中掌握核心內(nèi)容，這就很考驗制作者的論文濃縮能力，以及文本和圖形的排版功底。

為了幫大家解放雙手，以及更一目了然地評估海報效果，研究團隊提出了評估基準Paper2Poster以及基于此構(gòu)建的多智能體框架PosterAgent。

Paper2Poster：首個學術(shù)海報評估基準

Paper2Poster的數(shù)據(jù)包含100對AI領(lǐng)域論文和作者設計的海報，涵蓋計算機視覺（19%）、自然語言處理（17%）和強化學習（10%）等子領(lǐng)域的280個不同主題，論文平均22頁，生成海報的文本壓縮比約為14.4倍，圖形減少比約為2.6倍。

評估指標覆蓋四個基本維度：

視覺質(zhì)量：使用CLIP圖像嵌入測量生成海報與作者設計海報之間的視覺相似度，再計算圖像和文本的相關(guān)性，以確保圖像屬于有效整合。
文本連貫性：計算文本在Llama-2-7b-hf下的標準困惑度（PPL），衡量文字流暢度。
整體評估：選擇一個VLM（如GPT-4o），從美學（元素質(zhì)量、布局平衡、參與度）和信息（清晰度、完整性、邏輯流）兩個方面進行1到5分打分。
PaperQuiz：這是團隊專門設計的評估指標，以模擬作者和讀者的交流。讓代表不同專業(yè)水平（例如學生和教授）的VLMs閱讀每張海報并回答測驗，獲得最高平均分的海報被認為在傳達論文內(nèi)容方面最有效。

PosterAgent：多階段自動生成框架

根據(jù)Paper2Poster的要求，團隊設計了一個采用自上而下設計理念的多智能體流程PosterAgent。

首先全局地將整個文檔重組為簡潔、連貫的章節(jié)，然后進行局部精煉，以實現(xiàn)顆粒度對齊。

具體包含三個關(guān)鍵組件：

解析器 （Parser）：將工具和基于LLM的摘要相結(jié)合，提取關(guān)鍵文本和視覺內(nèi)容，生成結(jié)構(gòu)化摘要庫（如各章要點、重要圖表）。
規(guī)劃器 （Planner）：匹配文本與圖表，并用二叉樹布局策略將其連貫排列，通過放大（zoom-in）機制迭代生成面板。
繪制器-評論器 （Painter-Commenter）：繪制器將內(nèi)容轉(zhuǎn)為簡潔的要點列表和用于渲染的可執(zhí)行代碼，而VLM作為評論器提供布局反饋，確保整體連貫性和避免溢出。

超越GPT-4o？

眼見為實，為驗證PosterAgent生成效果，研究人員用Paper2Poster評估了四類基線方法：

理想化方法 （Oracle methods）：包含原始PDF和作者設計的海報GT Poster，作為最佳呈現(xiàn)基準。
端到端方法 （End-to-end methods）：使用GPT-4o。
多智能體工作流 （Multi-agent work flows）：使用OWL和PPTAgent。
PosterAgent：框架變體分兩種，PosterAgent-4o在內(nèi)部LLM 和VLM評論器均使用GPT-4o，PosterAgent-Qwen的文本生成使用Qwen-2.5-7B，評論器則使用Qwen-2.5-VL-7B。

實驗結(jié)果表明，在視覺質(zhì)量和文本連貫性上，雖然4o-Image達到了最高的視覺相似度，但它也記錄了最差的困惑度，說明生成的海報可能乍一看吸引人，但實際細看全是嘈雜或不連貫的文本。

PosterAgent則實現(xiàn)了最高的圖形相關(guān)性，在視覺相似度上也緊隨人類設計的海報。

當VLM評判時，PosterAgent-4o的平均得分為3.72，達到了與人類設計海報相當?shù)乃?，而PPTAgent因為經(jīng)常生成無意義的文本或大片空白區(qū)域，因此得分都較低。

在PaperQuiz上，也能發(fā)現(xiàn)PosterAgent變體始終取得最佳分數(shù)。

值得注意的是，PosterAgent-4o雖然依據(jù)GPT-4o實現(xiàn)了冗長輸出，但基于開源的Qwen-2.5系統(tǒng)變體在原始準確率上更勝一籌，說明PaperQuiz在評估時，內(nèi)容量很重要，但呈現(xiàn)質(zhì)量更重要。

團隊還計算了不同方法下的平均token成本，PosterAgent僅使用101.1K和47.6Ktoken，相較于OWL-4o成本降低了60%-87%，相當于每張海報只需要0.55美元 （基于4o）或0.0045美元 （基于Qwen）。

最后為了方便大家更直觀地了解幾種方法的海報生成效果，咱再舉個例子。

這是論文作者自己做的，主題明確，重點突出，色彩搭配也和諧。

這張來自GPT-4o-image，看起來好像還行？但是仔細看文字，里面還是有不少亂碼。

這張由GPT-4o-html生成，圖片嵌入失敗，文本也缺少排版。

這張出自PPTAgent，生成了大量空白區(qū)域。

下面這張來自OWL，同樣缺少圖像，甚至沒有多余色彩填充。

最后是咱們的PostAgent，對比下來，海報結(jié)構(gòu)清晰明了，圖表與文字匹配度也相當高，在視覺效果上更接近作者設計的海報。

擴展一下思路，也許PosterAgent還可以用于制作課程學習資料。

公司里的PPT也未嘗不能一試。

所以感興趣的小伙伴們速速收藏起來這個海報神器～接下來的CVPR、ACL剛好都可以用上。

論文鏈接：https://arxiv.org/abs/2505.21497代碼鏈接：https://github.com/Paper2Poster/Paper2Poster項目鏈接：https://paper2poster.github.io/

責任編輯：張燕妮來源：量子位

模型生成 AI

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<acronym id="0qlby"></acronym>