偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

rebuttal真的有用！這篇ICLR論文，所有審稿人都加了2分，直接躍升排名第9

作者：機(jī)器之心 2024-11-28 14:30:00

人工智能新聞

這篇論文提出的 Sana 是一種高效且經(jīng)濟(jì)地訓(xùn)練和合成高質(zhì)量圖像的工作流程，并且支持 1024×1024 到 4096×4096 的分辨率。

最近，正處于評(píng)議階段的 ICLR 2025 論文真是看點(diǎn)連連，比如前些天爆出的 ICLR 低分論文作者硬剛審稿人的事件以及今天我們要介紹的這個(gè)通過 rebuttal（反駁）硬是將自己的平均分拉高 2 分，直接晉升第 9 名的論文。

ICLR 2025 論文評(píng)分分布圖，圖源：https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/

順帶一提，不知道是不是因?yàn)?ICLR 2025 審稿過程狀況連連，官方此前還決定將論文討論過程延長(zhǎng) 6 天。

下面我們就來看看這篇「咸魚翻身」的論文究竟研究了什么以及它的評(píng)審和反駁之路。

論文標(biāo)題：SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
論文地址：https://arxiv.org/abs/2410.10629
OpenReview：https://openreview.net/forum?id=N8Oj1XhtYZ
項(xiàng)目地址：https://nvlabs.github.io/Sana/
代碼地址：https://github.com/NVlabs/Sana

論文主要內(nèi)容

這篇論文提出的 Sana 是一種高效且經(jīng)濟(jì)地訓(xùn)練和合成高質(zhì)量圖像的工作流程，并且支持 1024×1024 到 4096×4096 的分辨率。下圖展示了 Sana 生成的一些圖像樣本及其推理延遲情況。

作者表示：「據(jù)我們所知，除了 PixArt-Σ 之外，還沒有直接探索 4K 分辨率圖像生成的已發(fā)表研究成果。然而，PixArt-Σ 僅能生成接近 4K 分辨率（3840×2160）的圖像，并且生成這種高分辨率圖像的速度相對(duì)較慢?！?/span>

那么，這個(gè)來自英偉達(dá)、MIT 和清華大學(xué)的研究團(tuán)隊(duì)是如何做到這一點(diǎn)的呢？

具體來說，他們提出了多項(xiàng)核心設(shè)計(jì)。

深度壓縮自動(dòng)編碼器

該團(tuán)隊(duì)提出了一種新的自動(dòng)編碼器（AE），可將縮放因子（scaling factor）大幅提升至 32！

過去，主流的 AE 僅能將圖像的長(zhǎng)度和寬度壓縮 8 倍（AE-F8）。與 AE-F8 相比，新提出的 AE-F32 輸出的潛在 token 量可減少 16 倍。這對(duì)高效訓(xùn)練和生成超高分辨率圖像（例如 4K 分辨率）至關(guān)重要。

下表 1 展示了不同 AE 的重建能力。

圖 3 則展示了對(duì)新提出的深度壓縮自動(dòng)編碼器進(jìn)行消融實(shí)驗(yàn)的結(jié)果。該結(jié)果證明了新 AE 各項(xiàng)設(shè)計(jì)的重要性。

高效的線性 DiT

該團(tuán)隊(duì)還提出使用一種新型的線性 DiT 來替代原生的二次注意力模塊，如上右圖所示。

原始 DiT 的自注意力的計(jì)算復(fù)雜度為 O (N2)—— 在處理高分辨率圖像時(shí)，這個(gè)復(fù)雜度會(huì)二次級(jí)增長(zhǎng)。該團(tuán)隊(duì)將原生注意力替換成線性注意力后，計(jì)算復(fù)雜度便從 O (N2) 降至 O (N)。

該團(tuán)隊(duì)表示：「我們認(rèn)為，通過適當(dāng)?shù)脑O(shè)計(jì)，線性注意力可以實(shí)現(xiàn)與原生注意力相當(dāng)?shù)慕Y(jié)果，并且還能更高效地生成高分辨率圖像（例如，在 4K 時(shí)加速 1.7 倍）。

同時(shí)，他們還提出了 Mix-FFN，其作用是將 3×3 深度卷積集成到 MLP 中以聚合 token 的局部信息。

Mix-FFN 的直接好處是不再需要位置編碼（NoPE）。該團(tuán)隊(duì)表示：「我們首次刪除了 DiT 中的位置嵌入，并且沒有發(fā)現(xiàn)質(zhì)量損失?！?/span>

使用僅解碼器小 LLM 來作為文本編碼器

為了提升對(duì)用戶提示詞的理解和推理能力，該團(tuán)隊(duì)使用了最新版的 Gemma 作為文本編碼器。

盡管這些年來文生圖模型進(jìn)步很大，但大多數(shù)現(xiàn)有模型仍然依賴 CLIP 或 T5 進(jìn)行文本編碼，而這些模型通常缺乏強(qiáng)大的文本理解和指令遵從能力。僅解碼器 LLM（例如 Gemma）表現(xiàn)出的文本理解和推理能力很強(qiáng)大，還能有效遵從人類指令。

下表比較了不同文本編碼器的效果。

通過直接采用 LLM 作為文本解碼器，訓(xùn)練不穩(wěn)定的問題得到了解決。

另外，他們還設(shè)計(jì)了復(fù)雜人類指令（CHI），以充分理解 LLM 那強(qiáng)大的指令遵從、上下文學(xué)習(xí)和推理能力，進(jìn)而更好地對(duì)齊圖像與文本。從下圖可以看到，有無 CHI 的輸出結(jié)果差異非常明顯。

高效的訓(xùn)練和推理策略

為了提升文本和圖像的一致性，該團(tuán)隊(duì)提出了一套自動(dòng)標(biāo)注和訓(xùn)練策略。

首先，對(duì)于每張圖像，使用多個(gè) VLM 來重新生成描述。雖然這些 VLM 的能力各不相同，但它們的互補(bǔ)優(yōu)勢(shì)可提高描述的多樣性。

他們還提出了一種基于 Clip Score 的訓(xùn)練策略，即對(duì)于一張圖像的多個(gè)描述，根據(jù)概率動(dòng)態(tài)選擇具有高 Clip Score 的描述。實(shí)驗(yàn)表明，這種方法可以提高訓(xùn)練收斂性和文本圖像對(duì)齊程度。下表比較了訓(xùn)練期間不同的圖像 - 文本對(duì)采樣策略的效果。

此外，他們也提出了一種 Flow-DPM-Solver，相比于廣泛使用的 Flow-Euler-Solver，這種新的求解器可將推理采樣步驟從 28-50 步減少到 14-20 步，同時(shí)還能實(shí)現(xiàn)更好的結(jié)果。見下圖。

實(shí)驗(yàn)結(jié)果

總體實(shí)驗(yàn)下來，該團(tuán)隊(duì)的新模型 Sana-0.6B 表現(xiàn)可謂極佳。在生成 4K 圖像時(shí)，速度比當(dāng)前最佳（SOTA）的 FLUX 方法快 100 多倍（見下圖 2）。在生成 1K 分辨率圖像時(shí)，也快 40 倍（見下圖 4）。同時(shí)，Sana-0.6B 的效果在許多基準(zhǔn)上都能與 FLUX 比肩！

不僅如此，他們還訓(xùn)練了一個(gè)參數(shù)量更大的 Sana-1.6B 模型。下表更詳細(xì)地展示了這兩個(gè)模型的性能表現(xiàn)，可以看到，對(duì)于 512 × 512 分辨率，Sana-0.6 的吞吐量比大小相近的 PixArt-Σ 快 5 倍，并且在 FID、Clip Score、GenEval 和 DPG-Bench 方面表現(xiàn)明顯優(yōu)于后者。對(duì)于 1024 × 1024 分辨率，Sana 比大多數(shù)模型強(qiáng)得多。這些結(jié)果說明 Sana 確實(shí)實(shí)現(xiàn)了低延遲、高性能的圖像生成。

此外，他們還為 Sana 打造量化版本，并將其部署到了邊緣設(shè)備上。

在單臺(tái)消費(fèi)級(jí) 4090 GPU 上，該模型生成 1024×1024 分辨率圖像只需 0.37 秒，是一個(gè)非常強(qiáng)大的實(shí)時(shí)圖像生成模型。

下面展示了 Sana-1.6B 模型的一些輸出結(jié)果以及部署量化版模型的筆記本電腦。

rebuttal 真的有用？

很多時(shí)候，在審稿人的第一印象已經(jīng)確定的情況下，rebuttal 能夠改變的不多。

正如知名長(zhǎng)文《審稿 CVPR 而致的傷痕文學(xué)（續(xù)）：關(guān)于 Rebuttal 的形而上學(xué)》所說，從審稿人的角度來看，收到 rebuttal 時(shí)，可能早就已經(jīng)忘了當(dāng)時(shí)為什么會(huì)給這個(gè)審稿意見，對(duì)這篇文章的唯一記憶就是「我要拒掉它」。

引自 https://zhuanlan.zhihu.com/p/679556511 作者 @Minogame

那么，SANA 到底拿出了一份怎樣的 rebuttal，四個(gè)審稿人看過后不再「已讀不回」，反倒不約而同地加了 2 分呢？

第一位審稿人和第三位審稿人的意見比較相似，他們認(rèn)為 SANA 的原創(chuàng)性有些不足。具體來說，第一位審稿人在缺點(diǎn)部分寫道：

SANA 的三個(gè)主要組件在文獻(xiàn)中已有探討：深度自編碼器在 [1] 中有涉及，線性 DiT 在 [2] 中已有研究，[3, 4] 中已經(jīng)使用了 LLM 作為文本編碼器。將這些組件結(jié)合起來并不構(gòu)成一個(gè)真正具有創(chuàng)新性的想法。
作者沒有充分解釋他們的 CHI 流程是否與 [5] 中的相同。如果相似，那么這甚至?xí)M(jìn)一步削弱該工作的創(chuàng)新性。

第三位審稿人則希望作者們補(bǔ)一些消融實(shí)驗(yàn)，逐個(gè)組件分析，明確 SANA 相較于 PixArt-Σ 和 Playground v3 等類似的模型有什么創(chuàng)新之處。

SANA 的研究團(tuán)隊(duì)首先詳細(xì)地說明了站巨人的肩膀上創(chuàng)新和做學(xué)術(shù)裁縫的區(qū)別。

比如，LinFusion 中的線性注意力是蒸餾策略的一部分，而作者們把 SANA 作為一個(gè)基礎(chǔ)生成模型，從頭開始設(shè)計(jì)、訓(xùn)練。為了讓線性注意力在所有層中代替原來的自注意力，他們做出了 Mix-FFN 解碼器。

這樣，相比其他方法將所有 token 映射到一個(gè)低秩的 NxN 狀態(tài)中，SANA 更接近于直接的 O (N) 注意力計(jì)算，這是以前的研究未能有效解決的問題。

對(duì)比同樣提交給 ICLR 2025 的「DC-AE」，SANA 解決了未涉及的獨(dú)特問題，比如簡(jiǎn)單地在潛在空間中增大通道（F8C4→F32C32）會(huì)使得訓(xùn)練收斂速度大大減慢，他們?cè)O(shè)計(jì)了線性注意力 + Mix-FFN 塊加速收斂。

而此前 LLM 作為文本編碼器的方法，更多只是簡(jiǎn)單地用 LLM 替代了 T5/Clip，并未像 SANA 一樣深入研究了如何激發(fā) LLM 的推理能力。

針對(duì)審稿人的問題，作者補(bǔ)充了一系列消融實(shí)驗(yàn)，比較了 LiDiT 和 SANA 的 CHI 效果，并逐個(gè)組件地展示了 SANA 在 PixArt-Σ 基礎(chǔ)上的進(jìn)展。

這兩位審稿人也是給出了一個(gè)提分的大動(dòng)作：

第二位審稿人更在意技術(shù)細(xì)節(jié)，他覺得 SANA 如何搭建的線性注意力模塊還可以說得更清楚。

具體來說，需要明確一下，他們是如何實(shí)現(xiàn)線性注意力能全局替代傳統(tǒng)自注意力，同時(shí)保持足夠的上下文信息和依賴關(guān)系建模的，還要補(bǔ) 4096*4096 分辨率的圖像與其他方法的實(shí)驗(yàn)對(duì)比。

在一通極其詳細(xì)的解釋之下，這位（可能不清楚目前沒有 4K 版本 InceptionNet 的）審稿人也把分?jǐn)?shù)也提了 2 分。

第四位審稿人則給出了 10 分的最高分評(píng)價(jià)。

一開始，該審稿人指出了這篇論文的一些缺點(diǎn)，包括表 9 中的 Gemma2-2B-IT 模型需要解釋、需要進(jìn)一步比較 Gemma2 和 T5-XXL 以及缺乏對(duì) UltraPixel 等引用等等。

然后，作者對(duì)該審稿人的四個(gè)問題逐一進(jìn)行了詳細(xì)解答，并為論文內(nèi)容做了進(jìn)一步的補(bǔ)充。此后，又是關(guān)于 ClipScore 的幾個(gè)來回討論。

最后，審稿人被作者說服，表示：「我再也看不到這篇論文中任何明顯的缺點(diǎn)了。因此，我提高了我的評(píng)分。這項(xiàng)工作確實(shí)應(yīng)該作為會(huì)議的亮點(diǎn)！很出色的工作！」

從這些審稿人與作者的互動(dòng)可以看到，建設(shè)性的討論和修正確實(shí)可以幫助改善審稿人對(duì)一篇論文的看法。

在多次交流中，審稿人對(duì)論文中不清晰或薄弱的部分提出了具體改進(jìn)建議，而作者也根據(jù)反饋進(jìn)行了細(xì)致的修改。這種積極的互動(dòng)不僅使論文的質(zhì)量得到了提升，也促進(jìn)了審稿人與作者之間的理解與信任。最終，審稿人對(duì)論文的評(píng)審意見變得更加正面，并愿意為作者提供更多的指導(dǎo)。

對(duì)此，你有什么看法？

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)