偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

論文秒變海報!開源框架PosterAgent一鍵生成頂會級學術(shù)Poster

人工智能 新聞
相比GPT-4o,PosterAgent生成指標更優(yōu),同時token使用量減少87%,還只需要0.0045美元,就可將22頁的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報。

你好研究僧,聽說剛剛中了頂會,卻還在愁怎么做Poster(學術(shù)海報)?

別急,容在下為你推薦一款新時代科研黨神器——PosterAgent,幫你一鍵從paper.pdf跳轉(zhuǎn)poster.pptx

圖片

相比GPT-4o,PosterAgent生成指標更優(yōu),同時token使用量減少87%,還只需要0.0045美元,就可將22頁的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報。

圖片

來自滑鐵盧大學的聯(lián)合研究團隊,還精心構(gòu)建了首個學術(shù)海報評估標準Paper2Poster,解決了長上下文、多模態(tài)壓縮的評估空白。

話不多說,先給大家展示一波效果,以下面這篇CV論文為例。

圖片

先喂給GPT-4o-image,得到的是這樣的:

圖片

顯然學術(shù)海報三要素(吸睛標題、重點突出、色彩排版),GPT-4o-image通通都沒有。

不妨交給PosterAgent試試:

圖片

視覺更連貫、信息還高效,難怪連已經(jīng)畢業(yè)了的師兄師姐們都在X上哭訴,憑什么我們當年沒有它

圖片

這下媽媽再也不用擔心我做不好Poster,被老板在群里奪命call了(狗頭)。

圖片

下面來講講它為啥這么好用。

多模態(tài)海報自動生成

Poster在學術(shù)會議里的重要性不言而喻,需要讓與會者在幾分鐘內(nèi)就迅速從中掌握核心內(nèi)容,這就很考驗制作者的論文濃縮能力,以及文本和圖形的排版功底。

為了幫大家解放雙手,以及更一目了然地評估海報效果,研究團隊提出了評估基準Paper2Poster以及基于此構(gòu)建的多智能體框架PosterAgent。

Paper2Poster:首個學術(shù)海報評估基準

Paper2Poster的數(shù)據(jù)包含100對AI領(lǐng)域論文和作者設計的海報,涵蓋計算機視覺(19%)、自然語言處理(17%)和強化學習(10%)等子領(lǐng)域的280個不同主題,論文平均22頁,生成海報的文本壓縮比約為14.4倍,圖形減少比約為2.6倍。

圖片

評估指標覆蓋四個基本維度:

  1. 視覺質(zhì)量:使用CLIP圖像嵌入測量生成海報與作者設計海報之間的視覺相似度,再計算圖像和文本的相關(guān)性,以確保圖像屬于有效整合。
  2. 文本連貫性:計算文本在Llama-2-7b-hf下的標準困惑度(PPL),衡量文字流暢度。
  3. 整體評估:選擇一個VLM(如GPT-4o),從美學 (元素質(zhì)量、布局平衡、參與度)和信息 (清晰度、完整性、邏輯流)兩個方面進行1到5分打分。
  4. PaperQuiz:這是團隊專門設計的評估指標,以模擬作者和讀者的交流。讓代表不同專業(yè)水平(例如學生和教授)的VLMs閱讀每張海報并回答測驗,獲得最高平均分的海報被認為在傳達論文內(nèi)容方面最有效。

圖片

PosterAgent:多階段自動生成框架

根據(jù)Paper2Poster的要求,團隊設計了一個采用自上而下設計理念的多智能體流程PosterAgent。

首先全局地將整個文檔重組為簡潔、連貫的章節(jié),然后進行局部精煉,以實現(xiàn)顆粒度對齊。

圖片

具體包含三個關(guān)鍵組件:

  1. 解析器 (Parser):將工具和基于LLM的摘要相結(jié)合,提取關(guān)鍵文本和視覺內(nèi)容,生成結(jié)構(gòu)化摘要庫(如各章要點、重要圖表)。
  2. 規(guī)劃器 (Planner):匹配文本與圖表,并用二叉樹布局策略將其連貫排列,通過放大(zoom-in)機制迭代生成面板。
  3. 繪制器-評論器 (Painter-Commenter):繪制器將內(nèi)容轉(zhuǎn)為簡潔的要點列表和用于渲染的可執(zhí)行代碼,而VLM作為評論器提供布局反饋,確保整體連貫性和避免溢出。

超越GPT-4o?

眼見為實,為驗證PosterAgent生成效果,研究人員用Paper2Poster評估了四類基線方法:

  • 理想化方法 (Oracle methods):包含原始PDF和作者設計的海報GT Poster,作為最佳呈現(xiàn)基準。
  • 端到端方法 (End-to-end methods):使用GPT-4o。
  • 多智能體工作流 (Multi-agent work flows):使用OWLPPTAgent。
  • PosterAgent:框架變體分兩種,PosterAgent-4o在內(nèi)部LLM 和VLM評論器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,評論器則使用Qwen-2.5-VL-7B。

圖片

實驗結(jié)果表明,在視覺質(zhì)量和文本連貫性上,雖然4o-Image達到了最高的視覺相似度,但它也記錄了最差的困惑度,說明生成的海報可能乍一看吸引人,但實際細看全是嘈雜或不連貫的文本。

PosterAgent則實現(xiàn)了最高的圖形相關(guān)性,在視覺相似度上也緊隨人類設計的海報。

當VLM評判時,PosterAgent-4o的平均得分為3.72,達到了與人類設計海報相當?shù)乃?,而PPTAgent因為經(jīng)常生成無意義的文本或大片空白區(qū)域,因此得分都較低。

圖片

在PaperQuiz上,也能發(fā)現(xiàn)PosterAgent變體始終取得最佳分數(shù)。

值得注意的是,PosterAgent-4o雖然依據(jù)GPT-4o實現(xiàn)了冗長輸出,但基于開源的Qwen-2.5系統(tǒng)變體在原始準確率上更勝一籌,說明PaperQuiz在評估時,內(nèi)容量很重要,但呈現(xiàn)質(zhì)量更重要。

圖片

團隊還計算了不同方法下的平均token成本,PosterAgent僅使用101.1K和47.6Ktoken,相較于OWL-4o成本降低了60%-87%,相當于每張海報只需要0.55美元 (基于4o)或0.0045美元 (基于Qwen)。

最后為了方便大家更直觀地了解幾種方法的海報生成效果,咱再舉個例子。

這是論文作者自己做的,主題明確,重點突出,色彩搭配也和諧。

圖片

這張來自GPT-4o-image,看起來好像還行?但是仔細看文字,里面還是有不少亂碼。

圖片

這張由GPT-4o-html生成,圖片嵌入失敗,文本也缺少排版。

圖片

這張出自PPTAgent,生成了大量空白區(qū)域。

圖片

下面這張來自OWL,同樣缺少圖像,甚至沒有多余色彩填充。

圖片

最后是咱們的PostAgent,對比下來,海報結(jié)構(gòu)清晰明了,圖表與文字匹配度也相當高,在視覺效果上更接近作者設計的海報。

圖片

擴展一下思路,也許PosterAgent還可以用于制作課程學習資料。

圖片

公司里的PPT也未嘗不能一試。

圖片

所以感興趣的小伙伴們速速收藏起來這個海報神器~接下來的CVPR、ACL剛好都可以用上。

圖片

論文鏈接:https://arxiv.org/abs/2505.21497代碼鏈接:https://github.com/Paper2Poster/Paper2Poster項目鏈接:https://paper2poster.github.io/

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-09-05 09:11:00

2021-09-02 10:15:50

計算平臺MaxCompute 阿里云

2023-03-31 09:30:21

ChatGPT論文

2022-08-02 14:27:01

HDF驅(qū)動框架驅(qū)動開發(fā)

2023-12-19 15:45:07

Linux工具

2025-08-29 08:59:59

2024-04-08 14:07:51

Animagine開源

2021-12-02 07:50:29

分支服務git worktre

2025-04-29 10:13:58

2020-03-04 09:35:55

開源技術(shù) 軟件

2024-06-18 12:31:34

模型生成

2024-07-04 10:13:18

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫一鍵巡檢

2019-10-11 11:00:53

Nginx神器前端

2015-02-09 15:25:52

換膚

2017-12-22 09:28:33

微信車險微車保

2025-03-03 03:35:00

DeepSeekXmind思維導圖
點贊
收藏

51CTO技術(shù)棧公眾號