論文秒變海報(bào)!開(kāi)源框架PosterAgent一鍵生成頂會(huì)級(jí)學(xué)術(shù)Poster
你好研究僧,聽(tīng)說(shuō)剛剛中了頂會(huì),卻還在愁怎么做Poster(學(xué)術(shù)海報(bào))?
別急,容在下為你推薦一款新時(shí)代科研黨神器——PosterAgent,幫你一鍵從paper.pdf跳轉(zhuǎn)poster.pptx。
相比GPT-4o,PosterAgent生成指標(biāo)更優(yōu),同時(shí)token使用量減少87%,還只需要0.0045美元,就可將22頁(yè)的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報(bào)。
來(lái)自滑鐵盧大學(xué)的聯(lián)合研究團(tuán)隊(duì),還精心構(gòu)建了首個(gè)學(xué)術(shù)海報(bào)評(píng)估標(biāo)準(zhǔn)Paper2Poster,解決了長(zhǎng)上下文、多模態(tài)壓縮的評(píng)估空白。
話(huà)不多說(shuō),先給大家展示一波效果,以下面這篇CV論文為例。
先喂給GPT-4o-image,得到的是這樣的:
顯然學(xué)術(shù)海報(bào)三要素(吸睛標(biāo)題、重點(diǎn)突出、色彩排版),GPT-4o-image通通都沒(méi)有。
不妨交給PosterAgent試試:
視覺(jué)更連貫、信息還高效,難怪連已經(jīng)畢業(yè)了的師兄師姐們都在X上哭訴,憑什么我們當(dāng)年沒(méi)有它。
這下媽媽再也不用擔(dān)心我做不好Poster,被老板在群里奪命c(diǎn)all了(狗頭)。
下面來(lái)講講它為啥這么好用。
多模態(tài)海報(bào)自動(dòng)生成
Poster在學(xué)術(shù)會(huì)議里的重要性不言而喻,需要讓與會(huì)者在幾分鐘內(nèi)就迅速?gòu)闹姓莆蘸诵膬?nèi)容,這就很考驗(yàn)制作者的論文濃縮能力,以及文本和圖形的排版功底。
為了幫大家解放雙手,以及更一目了然地評(píng)估海報(bào)效果,研究團(tuán)隊(duì)提出了評(píng)估基準(zhǔn)Paper2Poster以及基于此構(gòu)建的多智能體框架PosterAgent。
Paper2Poster:首個(gè)學(xué)術(shù)海報(bào)評(píng)估基準(zhǔn)
Paper2Poster的數(shù)據(jù)包含100對(duì)AI領(lǐng)域論文和作者設(shè)計(jì)的海報(bào),涵蓋計(jì)算機(jī)視覺(jué)(19%)、自然語(yǔ)言處理(17%)和強(qiáng)化學(xué)習(xí)(10%)等子領(lǐng)域的280個(gè)不同主題,論文平均22頁(yè),生成海報(bào)的文本壓縮比約為14.4倍,圖形減少比約為2.6倍。
評(píng)估指標(biāo)覆蓋四個(gè)基本維度:
- 視覺(jué)質(zhì)量:使用CLIP圖像嵌入測(cè)量生成海報(bào)與作者設(shè)計(jì)海報(bào)之間的視覺(jué)相似度,再計(jì)算圖像和文本的相關(guān)性,以確保圖像屬于有效整合。
- 文本連貫性:計(jì)算文本在Llama-2-7b-hf下的標(biāo)準(zhǔn)困惑度(PPL),衡量文字流暢度。
- 整體評(píng)估:選擇一個(gè)VLM(如GPT-4o),從美學(xué) (元素質(zhì)量、布局平衡、參與度)和信息 (清晰度、完整性、邏輯流)兩個(gè)方面進(jìn)行1到5分打分。
- PaperQuiz:這是團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)的評(píng)估指標(biāo),以模擬作者和讀者的交流。讓代表不同專(zhuān)業(yè)水平(例如學(xué)生和教授)的VLMs閱讀每張海報(bào)并回答測(cè)驗(yàn),獲得最高平均分的海報(bào)被認(rèn)為在傳達(dá)論文內(nèi)容方面最有效。
PosterAgent:多階段自動(dòng)生成框架
根據(jù)Paper2Poster的要求,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)采用自上而下設(shè)計(jì)理念的多智能體流程PosterAgent。
首先全局地將整個(gè)文檔重組為簡(jiǎn)潔、連貫的章節(jié),然后進(jìn)行局部精煉,以實(shí)現(xiàn)顆粒度對(duì)齊。
具體包含三個(gè)關(guān)鍵組件:
- 解析器 (Parser):將工具和基于LLM的摘要相結(jié)合,提取關(guān)鍵文本和視覺(jué)內(nèi)容,生成結(jié)構(gòu)化摘要庫(kù)(如各章要點(diǎn)、重要圖表)。
- 規(guī)劃器 (Planner):匹配文本與圖表,并用二叉樹(shù)布局策略將其連貫排列,通過(guò)放大(zoom-in)機(jī)制迭代生成面板。
- 繪制器-評(píng)論器 (Painter-Commenter):繪制器將內(nèi)容轉(zhuǎn)為簡(jiǎn)潔的要點(diǎn)列表和用于渲染的可執(zhí)行代碼,而VLM作為評(píng)論器提供布局反饋,確保整體連貫性和避免溢出。
超越GPT-4o?
眼見(jiàn)為實(shí),為驗(yàn)證PosterAgent生成效果,研究人員用Paper2Poster評(píng)估了四類(lèi)基線(xiàn)方法:
- 理想化方法 (Oracle methods):包含原始PDF和作者設(shè)計(jì)的海報(bào)GT Poster,作為最佳呈現(xiàn)基準(zhǔn)。
- 端到端方法 (End-to-end methods):使用GPT-4o。
- 多智能體工作流 (Multi-agent work flows):使用OWL和PPTAgent。
- PosterAgent:框架變體分兩種,PosterAgent-4o在內(nèi)部LLM 和VLM評(píng)論器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,評(píng)論器則使用Qwen-2.5-VL-7B。
實(shí)驗(yàn)結(jié)果表明,在視覺(jué)質(zhì)量和文本連貫性上,雖然4o-Image達(dá)到了最高的視覺(jué)相似度,但它也記錄了最差的困惑度,說(shuō)明生成的海報(bào)可能乍一看吸引人,但實(shí)際細(xì)看全是嘈雜或不連貫的文本。
PosterAgent則實(shí)現(xiàn)了最高的圖形相關(guān)性,在視覺(jué)相似度上也緊隨人類(lèi)設(shè)計(jì)的海報(bào)。
當(dāng)VLM評(píng)判時(shí),PosterAgent-4o的平均得分為3.72,達(dá)到了與人類(lèi)設(shè)計(jì)海報(bào)相當(dāng)?shù)乃?,而PPTAgent因?yàn)榻?jīng)常生成無(wú)意義的文本或大片空白區(qū)域,因此得分都較低。
在PaperQuiz上,也能發(fā)現(xiàn)PosterAgent變體始終取得最佳分?jǐn)?shù)。
值得注意的是,PosterAgent-4o雖然依據(jù)GPT-4o實(shí)現(xiàn)了冗長(zhǎng)輸出,但基于開(kāi)源的Qwen-2.5系統(tǒng)變體在原始準(zhǔn)確率上更勝一籌,說(shuō)明PaperQuiz在評(píng)估時(shí),內(nèi)容量很重要,但呈現(xiàn)質(zhì)量更重要。
團(tuán)隊(duì)還計(jì)算了不同方法下的平均token成本,PosterAgent僅使用101.1K和47.6Ktoken,相較于OWL-4o成本降低了60%-87%,相當(dāng)于每張海報(bào)只需要0.55美元 (基于4o)或0.0045美元 (基于Qwen)。
最后為了方便大家更直觀地了解幾種方法的海報(bào)生成效果,咱再舉個(gè)例子。
這是論文作者自己做的,主題明確,重點(diǎn)突出,色彩搭配也和諧。
這張來(lái)自GPT-4o-image,看起來(lái)好像還行?但是仔細(xì)看文字,里面還是有不少亂碼。
這張由GPT-4o-html生成,圖片嵌入失敗,文本也缺少排版。
這張出自PPTAgent,生成了大量空白區(qū)域。
下面這張來(lái)自O(shè)WL,同樣缺少圖像,甚至沒(méi)有多余色彩填充。
最后是咱們的PostAgent,對(duì)比下來(lái),海報(bào)結(jié)構(gòu)清晰明了,圖表與文字匹配度也相當(dāng)高,在視覺(jué)效果上更接近作者設(shè)計(jì)的海報(bào)。
擴(kuò)展一下思路,也許PosterAgent還可以用于制作課程學(xué)習(xí)資料。
公司里的PPT也未嘗不能一試。
所以感興趣的小伙伴們速速收藏起來(lái)這個(gè)海報(bào)神器~接下來(lái)的CVPR、ACL剛好都可以用上。
論文鏈接:https://arxiv.org/abs/2505.21497代碼鏈接:https://github.com/Paper2Poster/Paper2Poster項(xiàng)目鏈接:https://paper2poster.github.io/