偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

rebuttal真的有用!這篇ICLR論文,所有審稿人都加了2分,直接躍升排名第9

人工智能 新聞
這篇論文提出的 Sana 是一種高效且經(jīng)濟(jì)地訓(xùn)練和合成高質(zhì)量圖像的工作流程,并且支持 1024×1024 到 4096×4096 的分辨率。

最近,正處于評(píng)議階段的 ICLR 2025 論文真是看點(diǎn)連連,比如前些天爆出的 ICLR 低分論文作者硬剛審稿人的事件以及今天我們要介紹的這個(gè)通過 rebuttal(反駁)硬是將自己的平均分拉高 2 分,直接晉升第 9 名的論文。

圖片

圖片

ICLR 2025 論文評(píng)分分布圖,圖源:https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/

順帶一提,不知道是不是因?yàn)?ICLR 2025 審稿過程狀況連連,官方此前還決定將論文討論過程延長(zhǎng) 6 天。

圖片

下面我們就來看看這篇「咸魚翻身」的論文究竟研究了什么以及它的評(píng)審和反駁之路。

圖片

  • 論文標(biāo)題:SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
  • 論文地址:https://arxiv.org/abs/2410.10629
  • OpenReview:https://openreview.net/forum?id=N8Oj1XhtYZ
  • 項(xiàng)目地址:https://nvlabs.github.io/Sana/
  • 代碼地址:https://github.com/NVlabs/Sana

論文主要內(nèi)容

這篇論文提出的 Sana 是一種高效且經(jīng)濟(jì)地訓(xùn)練和合成高質(zhì)量圖像的工作流程,并且支持 1024×1024 到 4096×4096 的分辨率。下圖展示了 Sana 生成的一些圖像樣本及其推理延遲情況。

圖片

作者表示:「據(jù)我們所知,除了 PixArt-Σ 之外,還沒有直接探索 4K 分辨率圖像生成的已發(fā)表研究成果。然而,PixArt-Σ 僅能生成接近 4K 分辨率(3840×2160)的圖像,并且生成這種高分辨率圖像的速度相對(duì)較慢?!?/span>

那么,這個(gè)來自英偉達(dá)、MIT 和清華大學(xué)的研究團(tuán)隊(duì)是如何做到這一點(diǎn)的呢?

具體來說,他們提出了多項(xiàng)核心設(shè)計(jì)。

深度壓縮自動(dòng)編碼器

該團(tuán)隊(duì)提出了一種新的自動(dòng)編碼器(AE),可將縮放因子(scaling factor)大幅提升至 32!

過去,主流的 AE 僅能將圖像的長(zhǎng)度和寬度壓縮 8 倍(AE-F8)。與 AE-F8 相比,新提出的 AE-F32 輸出的潛在 token 量可減少 16 倍。這對(duì)高效訓(xùn)練和生成超高分辨率圖像(例如 4K 分辨率)至關(guān)重要。

下表 1 展示了不同 AE 的重建能力。

圖片

圖 3 則展示了對(duì)新提出的深度壓縮自動(dòng)編碼器進(jìn)行消融實(shí)驗(yàn)的結(jié)果。該結(jié)果證明了新 AE 各項(xiàng)設(shè)計(jì)的重要性。

圖片

高效的線性 DiT

圖片

該團(tuán)隊(duì)還提出使用一種新型的線性 DiT 來替代原生的二次注意力模塊,如上右圖所示。

原始 DiT 的自注意力的計(jì)算復(fù)雜度為 O (N2)—— 在處理高分辨率圖像時(shí),這個(gè)復(fù)雜度會(huì)二次級(jí)增長(zhǎng)。該團(tuán)隊(duì)將原生注意力替換成線性注意力后,計(jì)算復(fù)雜度便從 O (N2) 降至 O (N)。

圖片

該團(tuán)隊(duì)表示:「我們認(rèn)為,通過適當(dāng)?shù)脑O(shè)計(jì),線性注意力可以實(shí)現(xiàn)與原生注意力相當(dāng)?shù)慕Y(jié)果,并且還能更高效地生成高分辨率圖像(例如,在 4K 時(shí)加速 1.7 倍)。

同時(shí),他們還提出了 Mix-FFN,其作用是將 3×3 深度卷積集成到 MLP 中以聚合 token 的局部信息。

Mix-FFN 的直接好處是不再需要位置編碼(NoPE)。該團(tuán)隊(duì)表示:「我們首次刪除了 DiT 中的位置嵌入,并且沒有發(fā)現(xiàn)質(zhì)量損失?!?/span>

使用僅解碼器小 LLM 來作為文本編碼器

為了提升對(duì)用戶提示詞的理解和推理能力,該團(tuán)隊(duì)使用了最新版的 Gemma 作為文本編碼器。

盡管這些年來文生圖模型進(jìn)步很大,但大多數(shù)現(xiàn)有模型仍然依賴 CLIP 或 T5 進(jìn)行文本編碼,而這些模型通常缺乏強(qiáng)大的文本理解和指令遵從能力。僅解碼器 LLM(例如 Gemma)表現(xiàn)出的文本理解和推理能力很強(qiáng)大,還能有效遵從人類指令。

下表比較了不同文本編碼器的效果。

圖片

通過直接采用 LLM 作為文本解碼器,訓(xùn)練不穩(wěn)定的問題得到了解決。

另外,他們還設(shè)計(jì)了復(fù)雜人類指令(CHI),以充分理解 LLM 那強(qiáng)大的指令遵從、上下文學(xué)習(xí)和推理能力,進(jìn)而更好地對(duì)齊圖像與文本。從下圖可以看到,有無 CHI 的輸出結(jié)果差異非常明顯。

圖片

高效的訓(xùn)練和推理策略

為了提升文本和圖像的一致性,該團(tuán)隊(duì)提出了一套自動(dòng)標(biāo)注和訓(xùn)練策略。

首先,對(duì)于每張圖像,使用多個(gè) VLM 來重新生成描述。雖然這些 VLM 的能力各不相同,但它們的互補(bǔ)優(yōu)勢(shì)可提高描述的多樣性。

他們還提出了一種基于 Clip Score 的訓(xùn)練策略,即對(duì)于一張圖像的多個(gè)描述,根據(jù)概率動(dòng)態(tài)選擇具有高 Clip Score 的描述。實(shí)驗(yàn)表明,這種方法可以提高訓(xùn)練收斂性和文本圖像對(duì)齊程度。下表比較了訓(xùn)練期間不同的圖像 - 文本對(duì)采樣策略的效果。

圖片

此外,他們也提出了一種 Flow-DPM-Solver,相比于廣泛使用的 Flow-Euler-Solver,這種新的求解器可將推理采樣步驟從 28-50 步減少到 14-20 步,同時(shí)還能實(shí)現(xiàn)更好的結(jié)果。見下圖。

圖片

實(shí)驗(yàn)結(jié)果

總體實(shí)驗(yàn)下來,該團(tuán)隊(duì)的新模型 Sana-0.6B 表現(xiàn)可謂極佳。在生成 4K 圖像時(shí),速度比當(dāng)前最佳(SOTA)的 FLUX 方法快 100 多倍(見下圖 2)。在生成 1K 分辨率圖像時(shí),也快 40 倍(見下圖 4)。同時(shí),Sana-0.6B 的效果在許多基準(zhǔn)上都能與 FLUX 比肩!

圖片

圖片

不僅如此,他們還訓(xùn)練了一個(gè)參數(shù)量更大的 Sana-1.6B 模型。下表更詳細(xì)地展示了這兩個(gè)模型的性能表現(xiàn),可以看到,對(duì)于 512 × 512 分辨率,Sana-0.6 的吞吐量比大小相近的 PixArt-Σ 快 5 倍,并且在 FID、Clip Score、GenEval 和 DPG-Bench 方面表現(xiàn)明顯優(yōu)于后者。對(duì)于 1024 × 1024 分辨率,Sana 比大多數(shù)模型強(qiáng)得多。這些結(jié)果說明 Sana 確實(shí)實(shí)現(xiàn)了低延遲、高性能的圖像生成。

圖片

此外,他們還為 Sana 打造量化版本,并將其部署到了邊緣設(shè)備上。

在單臺(tái)消費(fèi)級(jí) 4090 GPU 上,該模型生成 1024×1024 分辨率圖像只需 0.37 秒,是一個(gè)非常強(qiáng)大的實(shí)時(shí)圖像生成模型。

圖片

下面展示了 Sana-1.6B 模型的一些輸出結(jié)果以及部署量化版模型的筆記本電腦。

圖片

rebuttal 真的有用?

很多時(shí)候,在審稿人的第一印象已經(jīng)確定的情況下,rebuttal 能夠改變的不多。

正如知名長(zhǎng)文《審稿 CVPR 而致的傷痕文學(xué)(續(xù)):關(guān)于 Rebuttal 的形而上學(xué)》所說,從審稿人的角度來看,收到 rebuttal 時(shí),可能早就已經(jīng)忘了當(dāng)時(shí)為什么會(huì)給這個(gè)審稿意見,對(duì)這篇文章的唯一記憶就是「我要拒掉它」。

圖片

引自 https://zhuanlan.zhihu.com/p/679556511 作者 @Minogame

那么,SANA 到底拿出了一份怎樣的 rebuttal,四個(gè)審稿人看過后不再「已讀不回」,反倒不約而同地加了 2 分呢?

第一位審稿人和第三位審稿人的意見比較相似,他們認(rèn)為 SANA 的原創(chuàng)性有些不足。具體來說,第一位審稿人在缺點(diǎn)部分寫道:

  • SANA 的三個(gè)主要組件在文獻(xiàn)中已有探討:深度自編碼器在 [1] 中有涉及,線性 DiT 在 [2] 中已有研究,[3, 4] 中已經(jīng)使用了 LLM 作為文本編碼器。將這些組件結(jié)合起來并不構(gòu)成一個(gè)真正具有創(chuàng)新性的想法。
  • 作者沒有充分解釋他們的 CHI 流程是否與 [5] 中的相同。如果相似,那么這甚至?xí)M(jìn)一步削弱該工作的創(chuàng)新性。

圖片

第三位審稿人則希望作者們補(bǔ)一些消融實(shí)驗(yàn),逐個(gè)組件分析,明確 SANA 相較于 PixArt-Σ 和 Playground v3 等類似的模型有什么創(chuàng)新之處。

圖片

SANA 的研究團(tuán)隊(duì)首先詳細(xì)地說明了站巨人的肩膀上創(chuàng)新和做學(xué)術(shù)裁縫的區(qū)別。

比如,LinFusion 中的線性注意力是蒸餾策略的一部分,而作者們把 SANA 作為一個(gè)基礎(chǔ)生成模型,從頭開始設(shè)計(jì)、訓(xùn)練。為了讓線性注意力在所有層中代替原來的自注意力,他們做出了 Mix-FFN 解碼器。

這樣,相比其他方法將所有 token 映射到一個(gè)低秩的 NxN 狀態(tài)中,SANA 更接近于直接的 O (N) 注意力計(jì)算,這是以前的研究未能有效解決的問題。

對(duì)比同樣提交給 ICLR 2025 的「DC-AE」,SANA 解決了未涉及的獨(dú)特問題,比如簡(jiǎn)單地在潛在空間中增大通道(F8C4→F32C32)會(huì)使得訓(xùn)練收斂速度大大減慢,他們?cè)O(shè)計(jì)了線性注意力 + Mix-FFN 塊加速收斂。

而此前 LLM 作為文本編碼器的方法,更多只是簡(jiǎn)單地用 LLM 替代了 T5/Clip,并未像 SANA 一樣深入研究了如何激發(fā) LLM 的推理能力。

針對(duì)審稿人的問題,作者補(bǔ)充了一系列消融實(shí)驗(yàn),比較了 LiDiT 和 SANA 的 CHI 效果,并逐個(gè)組件地展示了 SANA 在 PixArt-Σ 基礎(chǔ)上的進(jìn)展。

圖片

這兩位審稿人也是給出了一個(gè)提分的大動(dòng)作:

圖片

圖片

第二位審稿人更在意技術(shù)細(xì)節(jié),他覺得 SANA 如何搭建的線性注意力模塊還可以說得更清楚。

具體來說,需要明確一下,他們是如何實(shí)現(xiàn)線性注意力能全局替代傳統(tǒng)自注意力,同時(shí)保持足夠的上下文信息和依賴關(guān)系建模的,還要補(bǔ) 4096*4096 分辨率的圖像與其他方法的實(shí)驗(yàn)對(duì)比。

圖片

在一通極其詳細(xì)的解釋之下,這位(可能不清楚目前沒有 4K 版本 InceptionNet 的)審稿人也把分?jǐn)?shù)也提了 2 分。

圖片

第四位審稿人則給出了 10 分的最高分評(píng)價(jià)。

圖片

一開始,該審稿人指出了這篇論文的一些缺點(diǎn),包括表 9 中的 Gemma2-2B-IT 模型需要解釋、需要進(jìn)一步比較 Gemma2 和 T5-XXL 以及缺乏對(duì) UltraPixel 等引用等等。

然后,作者對(duì)該審稿人的四個(gè)問題逐一進(jìn)行了詳細(xì)解答,并為論文內(nèi)容做了進(jìn)一步的補(bǔ)充。此后,又是關(guān)于 ClipScore 的幾個(gè)來回討論。

圖片

最后,審稿人被作者說服,表示:「我再也看不到這篇論文中任何明顯的缺點(diǎn)了。因此,我提高了我的評(píng)分。這項(xiàng)工作確實(shí)應(yīng)該作為會(huì)議的亮點(diǎn)!很出色的工作!」

圖片

從這些審稿人與作者的互動(dòng)可以看到,建設(shè)性的討論和修正確實(shí)可以幫助改善審稿人對(duì)一篇論文的看法。

在多次交流中,審稿人對(duì)論文中不清晰或薄弱的部分提出了具體改進(jìn)建議,而作者也根據(jù)反饋進(jìn)行了細(xì)致的修改。這種積極的互動(dòng)不僅使論文的質(zhì)量得到了提升,也促進(jìn)了審稿人與作者之間的理解與信任。最終,審稿人對(duì)論文的評(píng)審意見變得更加正面,并愿意為作者提供更多的指導(dǎo)。

對(duì)此,你有什么看法?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-04-21 19:18:38

論文

2023-10-07 13:16:20

GPT-4NatureICLR

2022-11-25 17:33:15

論文技巧

2024-12-02 09:00:00

2024-10-17 13:09:14

2009-04-20 08:42:01

美國(guó)IT企業(yè)惠普

2025-02-27 12:30:00

2021-03-22 10:14:10

技術(shù)研發(fā)論文

2021-05-28 10:10:22

AI 數(shù)據(jù)人工智能

2015-07-24 09:48:19

IT內(nèi)容管理硬件奪冠深信服

2021-07-19 15:02:48

機(jī)器人人工智能算法

2024-11-29 14:00:07

2024-12-09 10:50:00

2024-08-13 14:40:00

AI科學(xué)家

2019-05-29 14:48:43

2020-12-07 09:22:50

量子計(jì)算機(jī)芯片超算

2009-09-21 09:56:40

IT競(jìng)爭(zhēng)力

2018-03-20 09:51:32

程序員開發(fā)工具

2023-11-13 18:50:55

AI數(shù)據(jù)

2023-07-06 14:46:11

華為模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)