偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

論文秒變海報(bào)!開(kāi)源框架PosterAgent一鍵生成頂會(huì)級(jí)學(xué)術(shù)Poster

人工智能 新聞
相比GPT-4o,PosterAgent生成指標(biāo)更優(yōu),同時(shí)token使用量減少87%,還只需要0.0045美元,就可將22頁(yè)的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報(bào)。

你好研究僧,聽(tīng)說(shuō)剛剛中了頂會(huì),卻還在愁怎么做Poster(學(xué)術(shù)海報(bào))?

別急,容在下為你推薦一款新時(shí)代科研黨神器——PosterAgent,幫你一鍵從paper.pdf跳轉(zhuǎn)poster.pptx。

圖片

相比GPT-4o,PosterAgent生成指標(biāo)更優(yōu),同時(shí)token使用量減少87%,還只需要0.0045美元,就可將22頁(yè)的論文轉(zhuǎn)化為可編輯的 “.pptx” 終稿海報(bào)。

圖片

來(lái)自滑鐵盧大學(xué)的聯(lián)合研究團(tuán)隊(duì),還精心構(gòu)建了首個(gè)學(xué)術(shù)海報(bào)評(píng)估標(biāo)準(zhǔn)Paper2Poster,解決了長(zhǎng)上下文、多模態(tài)壓縮的評(píng)估空白。

話(huà)不多說(shuō),先給大家展示一波效果,以下面這篇CV論文為例。

圖片

先喂給GPT-4o-image,得到的是這樣的:

圖片

顯然學(xué)術(shù)海報(bào)三要素(吸睛標(biāo)題、重點(diǎn)突出、色彩排版),GPT-4o-image通通都沒(méi)有。

不妨交給PosterAgent試試:

圖片

視覺(jué)更連貫、信息還高效,難怪連已經(jīng)畢業(yè)了的師兄師姐們都在X上哭訴,憑什么我們當(dāng)年沒(méi)有它。

圖片

這下媽媽再也不用擔(dān)心我做不好Poster,被老板在群里奪命c(diǎn)all了(狗頭)。

圖片

下面來(lái)講講它為啥這么好用。

多模態(tài)海報(bào)自動(dòng)生成

Poster在學(xué)術(shù)會(huì)議里的重要性不言而喻,需要讓與會(huì)者在幾分鐘內(nèi)就迅速?gòu)闹姓莆蘸诵膬?nèi)容,這就很考驗(yàn)制作者的論文濃縮能力,以及文本和圖形的排版功底。

為了幫大家解放雙手,以及更一目了然地評(píng)估海報(bào)效果,研究團(tuán)隊(duì)提出了評(píng)估基準(zhǔn)Paper2Poster以及基于此構(gòu)建的多智能體框架PosterAgent。

Paper2Poster:首個(gè)學(xué)術(shù)海報(bào)評(píng)估基準(zhǔn)

Paper2Poster的數(shù)據(jù)包含100對(duì)AI領(lǐng)域論文和作者設(shè)計(jì)的海報(bào),涵蓋計(jì)算機(jī)視覺(jué)(19%)、自然語(yǔ)言處理(17%)和強(qiáng)化學(xué)習(xí)(10%)等子領(lǐng)域的280個(gè)不同主題,論文平均22頁(yè),生成海報(bào)的文本壓縮比約為14.4倍,圖形減少比約為2.6倍。

圖片

評(píng)估指標(biāo)覆蓋四個(gè)基本維度:

  1. 視覺(jué)質(zhì)量:使用CLIP圖像嵌入測(cè)量生成海報(bào)與作者設(shè)計(jì)海報(bào)之間的視覺(jué)相似度,再計(jì)算圖像和文本的相關(guān)性,以確保圖像屬于有效整合。
  2. 文本連貫性:計(jì)算文本在Llama-2-7b-hf下的標(biāo)準(zhǔn)困惑度(PPL),衡量文字流暢度。
  3. 整體評(píng)估:選擇一個(gè)VLM(如GPT-4o),從美學(xué) (元素質(zhì)量、布局平衡、參與度)和信息 (清晰度、完整性、邏輯流)兩個(gè)方面進(jìn)行1到5分打分。
  4. PaperQuiz:這是團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)的評(píng)估指標(biāo),以模擬作者和讀者的交流。讓代表不同專(zhuān)業(yè)水平(例如學(xué)生和教授)的VLMs閱讀每張海報(bào)并回答測(cè)驗(yàn),獲得最高平均分的海報(bào)被認(rèn)為在傳達(dá)論文內(nèi)容方面最有效。

圖片

PosterAgent:多階段自動(dòng)生成框架

根據(jù)Paper2Poster的要求,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)采用自上而下設(shè)計(jì)理念的多智能體流程PosterAgent。

首先全局地將整個(gè)文檔重組為簡(jiǎn)潔、連貫的章節(jié),然后進(jìn)行局部精煉,以實(shí)現(xiàn)顆粒度對(duì)齊。

圖片

具體包含三個(gè)關(guān)鍵組件:

  1. 解析器 (Parser):將工具和基于LLM的摘要相結(jié)合,提取關(guān)鍵文本和視覺(jué)內(nèi)容,生成結(jié)構(gòu)化摘要庫(kù)(如各章要點(diǎn)、重要圖表)。
  2. 規(guī)劃器 (Planner):匹配文本與圖表,并用二叉樹(shù)布局策略將其連貫排列,通過(guò)放大(zoom-in)機(jī)制迭代生成面板。
  3. 繪制器-評(píng)論器 (Painter-Commenter):繪制器將內(nèi)容轉(zhuǎn)為簡(jiǎn)潔的要點(diǎn)列表和用于渲染的可執(zhí)行代碼,而VLM作為評(píng)論器提供布局反饋,確保整體連貫性和避免溢出。

超越GPT-4o?

眼見(jiàn)為實(shí),為驗(yàn)證PosterAgent生成效果,研究人員用Paper2Poster評(píng)估了四類(lèi)基線(xiàn)方法:

  • 理想化方法 (Oracle methods):包含原始PDF和作者設(shè)計(jì)的海報(bào)GT Poster,作為最佳呈現(xiàn)基準(zhǔn)。
  • 端到端方法 (End-to-end methods):使用GPT-4o
  • 多智能體工作流 (Multi-agent work flows):使用OWLPPTAgent。
  • PosterAgent:框架變體分兩種,PosterAgent-4o在內(nèi)部LLM 和VLM評(píng)論器均使用GPT-4o,PosterAgent-Qwen的文本生成使用Qwen-2.5-7B,評(píng)論器則使用Qwen-2.5-VL-7B。

圖片

實(shí)驗(yàn)結(jié)果表明,在視覺(jué)質(zhì)量和文本連貫性上,雖然4o-Image達(dá)到了最高的視覺(jué)相似度,但它也記錄了最差的困惑度,說(shuō)明生成的海報(bào)可能乍一看吸引人,但實(shí)際細(xì)看全是嘈雜或不連貫的文本。

PosterAgent則實(shí)現(xiàn)了最高的圖形相關(guān)性,在視覺(jué)相似度上也緊隨人類(lèi)設(shè)計(jì)的海報(bào)。

當(dāng)VLM評(píng)判時(shí),PosterAgent-4o的平均得分為3.72,達(dá)到了與人類(lèi)設(shè)計(jì)海報(bào)相當(dāng)?shù)乃?,而PPTAgent因?yàn)榻?jīng)常生成無(wú)意義的文本或大片空白區(qū)域,因此得分都較低。

圖片

在PaperQuiz上,也能發(fā)現(xiàn)PosterAgent變體始終取得最佳分?jǐn)?shù)。

值得注意的是,PosterAgent-4o雖然依據(jù)GPT-4o實(shí)現(xiàn)了冗長(zhǎng)輸出,但基于開(kāi)源的Qwen-2.5系統(tǒng)變體在原始準(zhǔn)確率上更勝一籌,說(shuō)明PaperQuiz在評(píng)估時(shí),內(nèi)容量很重要,但呈現(xiàn)質(zhì)量更重要。

圖片

團(tuán)隊(duì)還計(jì)算了不同方法下的平均token成本,PosterAgent僅使用101.1K和47.6Ktoken,相較于OWL-4o成本降低了60%-87%,相當(dāng)于每張海報(bào)只需要0.55美元 (基于4o)或0.0045美元 (基于Qwen)。

最后為了方便大家更直觀地了解幾種方法的海報(bào)生成效果,咱再舉個(gè)例子。

這是論文作者自己做的,主題明確,重點(diǎn)突出,色彩搭配也和諧。

圖片

這張來(lái)自GPT-4o-image,看起來(lái)好像還行?但是仔細(xì)看文字,里面還是有不少亂碼。

圖片

這張由GPT-4o-html生成,圖片嵌入失敗,文本也缺少排版。

圖片

這張出自PPTAgent,生成了大量空白區(qū)域。

圖片

下面這張來(lái)自O(shè)WL,同樣缺少圖像,甚至沒(méi)有多余色彩填充。

圖片

最后是咱們的PostAgent,對(duì)比下來(lái),海報(bào)結(jié)構(gòu)清晰明了,圖表與文字匹配度也相當(dāng)高,在視覺(jué)效果上更接近作者設(shè)計(jì)的海報(bào)。

圖片

擴(kuò)展一下思路,也許PosterAgent還可以用于制作課程學(xué)習(xí)資料。

圖片

公司里的PPT也未嘗不能一試。

圖片

所以感興趣的小伙伴們速速收藏起來(lái)這個(gè)海報(bào)神器~接下來(lái)的CVPR、ACL剛好都可以用上。

圖片

論文鏈接:https://arxiv.org/abs/2505.21497代碼鏈接:https://github.com/Paper2Poster/Paper2Poster項(xiàng)目鏈接:https://paper2poster.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2021-09-02 10:15:50

計(jì)算平臺(tái)MaxCompute 阿里云

2023-03-31 09:30:21

ChatGPT論文

2022-08-02 14:27:01

HDF驅(qū)動(dòng)框架驅(qū)動(dòng)開(kāi)發(fā)

2023-12-19 15:45:07

Linux工具

2024-04-08 14:07:51

Animagine開(kāi)源

2021-12-02 07:50:29

分支服務(wù)git worktre

2025-04-29 10:13:58

2020-03-04 09:35:55

開(kāi)源技術(shù) 軟件

2024-06-18 12:31:34

模型生成

2024-07-04 10:13:18

2019-10-11 11:00:53

Nginx神器前端

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫(kù)一鍵巡檢

2015-02-09 15:25:52

換膚

2017-12-22 09:28:33

微信車(chē)險(xiǎn)微車(chē)保

2025-03-03 03:35:00

DeepSeekXmind思維導(dǎo)圖

2020-05-11 09:40:47

IDEA代碼神器

2025-03-17 08:40:00

開(kāi)源智能體框架

2024-11-11 17:27:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)