偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它

發(fā)布于 2024-5-8 14:01
瀏覽
0收藏

首屆ICLR時(shí)間檢驗(yàn)獎(jiǎng),頒向變分自編碼器VAE。


這篇跨越十一年的論文,給后續(xù)包括擴(kuò)散模型在內(nèi)的生成模型帶來重要思想啟發(fā),才有了今天的DALL-E3、Stable Diffusion。此外,在音頻、文本等領(lǐng)域都有廣泛應(yīng)用,是深度學(xué)習(xí)中的重要技術(shù)之一。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

論文一作、VAE主要架構(gòu)師Diederik Kingma可是妥妥大佬一枚?,F(xiàn)在他在DeepMind擔(dān)任研究科學(xué)家,曾是OpenAI創(chuàng)始成員、算法負(fù)責(zé)人,還是Adam優(yōu)化器發(fā)明者。


網(wǎng)友紛紛表示祝福:Well Deserved,并稱VAE改變了游戲規(guī)則。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)


首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

值得一提的是,榮獲亞軍的論文也同樣具有代表性,其參與者包括OpenAI首席科學(xué)家的Ilya、GAN的發(fā)明者Ian Goodfellow。


與此同時(shí),杰出論文獎(jiǎng)也悉數(shù)頒出。

首屆ICLR時(shí)間檢驗(yàn)獎(jiǎng)

首先來看榮獲時(shí)間檢驗(yàn)獎(jiǎng)的論文講了什么。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

概率建模是我們推理世界的最基本方法之一。這篇論文率先將深度學(xué)習(xí)與可擴(kuò)展的概率推理(通過所謂的重參數(shù)化技巧進(jìn)行攤平均值場變分推理)整合在一起,從而產(chǎn)生了變分自編碼器(VAE)。


委員會(huì)評(píng)價(jià)這項(xiàng)工作其持久價(jià)值在于它的優(yōu)雅。用于開發(fā) VAE 的原理加深了我們對(duì)深度學(xué)習(xí)和概率建模之間相互作用的理解,并引發(fā)了許多后續(xù)有趣的概率模型和編碼方法的開發(fā)。


傳統(tǒng)自編碼器有個(gè)問題,它學(xué)到的隱向量是確定的、離散的,也沒有很好的可解釋性,而且不能隨機(jī)采樣隱向量來生成新樣本。VAE就是為了解決這些問題而提出的。


VAE的核心思想是把隱向量看作是一個(gè)概率分布。具體而言,編碼器(encoder)不直接輸出一個(gè)隱向量,而是輸出一個(gè)均值向量和一個(gè)方差向量,它們刻畫了隱變量的高斯分布。這樣一來,我們就可以從這個(gè)分布中隨機(jī)采樣隱向量,再用解碼器(decoder)生成新圖片了。


但是問題在于,這個(gè)隱變量的后驗(yàn)分布很復(fù)雜,難以直接求解。


所以VAE的第二個(gè)關(guān)鍵思想是用一個(gè)簡單分布(例如高斯分布)去近似真實(shí)的后驗(yàn)分布,并通過優(yōu)化一個(gè)下界(ELBO)來訓(xùn)練模型。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

這個(gè)下界可以分解為兩部分:一部分讓生成的圖片更接近原始圖片,另一部分讓近似后驗(yàn)分布更接近先驗(yàn)分布(例如標(biāo)準(zhǔn)高斯分布)。直觀地說,這相當(dāng)于在重構(gòu)輸入圖片的同時(shí),對(duì)隱變量分布進(jìn)行了一個(gè)“規(guī)范化”。


為了讓這個(gè)下界能通過梯度下降來優(yōu)化,VAE論文提出了一個(gè)重參數(shù)技巧,它把從分布中采樣的過程改寫成從標(biāo)準(zhǔn)高斯分布采樣并進(jìn)行線性變換。這樣梯度就可以直接反向傳播了。


這樣一來,VAE可以學(xué)習(xí)到數(shù)據(jù)的隱空間表示,并用它來生成新樣本。和傳統(tǒng)自編碼器相比,VAE學(xué)到的隱變量具有更好的可解釋性和泛化能力。


在實(shí)驗(yàn)部分,論文在MNIST數(shù)據(jù)集上展示了VAE生成數(shù)字圖像的效果。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

而這篇研究背后的作者同樣來頭不小。


Diederik P. Kingma博士畢業(yè)于阿姆斯特丹大學(xué)。曾是OpenAI創(chuàng)始成員之一、算法團(tuán)隊(duì)負(fù)責(zé)人,專注于基礎(chǔ)研究,比如用于生成模型的算法。


離開OpenAI之后,他來到谷歌,參與到谷歌大腦、DeepMind團(tuán)隊(duì)研究中去,他主導(dǎo)了一系列生成模型的研究,包括文本、圖像和視頻。除了VAE之外,他也是Adam優(yōu)化器、Glow等發(fā)明者。谷歌學(xué)術(shù)被引超20萬次。


除此之外,他還有著天使投資人這一身份。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

不過目前從Twitter介紹上看,他貌似已經(jīng)離開DeepMind。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

AI大牛Max Welling目前是阿姆斯特丹大學(xué)機(jī)器學(xué)習(xí)研究主席,也是MSR杰出科學(xué)家。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

另外,同樣來自2013年的研究,來自谷歌、紐約大學(xué)、蒙特利爾大學(xué)的論文Intriguing properties of neural networks獲得了亞軍。

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

里面還有不少熟悉面孔,比如那個(gè)消失的OpenAI聯(lián)創(chuàng)兼首席科學(xué)家Ilya Sutskever 、GAN發(fā)明者Ian Goodfellow。


ICLR委員對(duì)這篇論文評(píng)價(jià)如下:

隨著深度神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中的日益普及,了解神經(jīng)網(wǎng)絡(luò)何時(shí)以及如何出現(xiàn)不良行為顯得尤為重要。這篇論文強(qiáng)調(diào)了這樣一個(gè)問題,即神經(jīng)網(wǎng)絡(luò)很容易受到輸入中幾乎難以察覺的微小變化的影響。這一想法有助于催生對(duì)抗性攻擊(試圖愚弄神經(jīng)網(wǎng)絡(luò))和對(duì)抗性防御(訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其不被愚弄)領(lǐng)域。

杰出論文獎(jiǎng)

與此同時(shí),本屆ICLR杰出論文獎(jiǎng)也悉數(shù)頒出,共有5篇優(yōu)秀論文獲獎(jiǎng)、11篇論文獲得榮譽(yù)提名。


那么主要來看看這5篇論文講了什么。

Generalization in diffusion models arises from geometry-adaptive harmonic representations

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

這篇來自紐約大學(xué)、法蘭西學(xué)院的研究,從實(shí)驗(yàn)和理論研究了擴(kuò)散模型中的記憶和泛化特性。作者根據(jù)經(jīng)驗(yàn)研究了圖像生成模型何時(shí)從記憶輸入轉(zhuǎn)換到泛化機(jī)制,并通過 “幾何自適應(yīng)諧波表征 ”與諧波分析的思想建立聯(lián)系,進(jìn)一步從建筑歸納偏差的角度解釋了這一現(xiàn)象。


這篇論文涵蓋了我們對(duì)視覺生成模型理解中的一個(gè)關(guān)鍵缺失部分,很可能會(huì)對(duì)該領(lǐng)域未來的重要理論研究有所啟發(fā)。

Learning Interactive Real-World Simulators

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

研究機(jī)構(gòu)來自UC伯克利、Google DeepMind、MIT、阿爾伯塔大學(xué)。匯集多個(gè)來源的數(shù)據(jù)來訓(xùn)練機(jī)器人基礎(chǔ)模型是一個(gè)長期的宏偉目標(biāo)。由于不同的機(jī)器人具有不同的感知-運(yùn)動(dòng)界面,這阻礙了大規(guī)模數(shù)據(jù)集的訓(xùn)練,因此帶來了巨大的挑戰(zhàn)。這項(xiàng)名為 “UniSim ”的工作是朝著這個(gè)方向邁出的重要一步,也是一項(xiàng)工程壯舉,它使用基于視覺感知和控制文字描述的統(tǒng)一界面來聚合數(shù)據(jù),并利用視覺和語言領(lǐng)域的最新發(fā)展,從數(shù)據(jù)中訓(xùn)練機(jī)器人模擬器。

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

來自特拉維夫大學(xué)、IBM的研究深入探討了最近提出的狀態(tài)空間模型和Transformer架構(gòu)對(duì)長期順序依賴關(guān)系的建模能力。令人驚訝的是,作者發(fā)現(xiàn)從頭開始訓(xùn)練Transformer模型會(huì)導(dǎo)致對(duì)其性能的低估,并證明通過預(yù)訓(xùn)練和微調(diào)設(shè)置可以獲得巨大的收益。


這篇論文執(zhí)行得非常出色,在注重簡潔性和系統(tǒng)性見解方面堪稱典范。

Protein Discovery with Discrete Walk-Jump Sampling

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

基因泰克、紐約大學(xué)的研究解決了基于序列的抗體設(shè)計(jì)問題,這是蛋白質(zhì)序列生成模型的一個(gè)重要應(yīng)用。作者引入了一種創(chuàng)新而有效的新建模方法,專門用于處理離散蛋白質(zhì)序列數(shù)據(jù)的問題。除了在硅學(xué)中驗(yàn)證該方法外,作者還進(jìn)行了大量濕實(shí)驗(yàn)室實(shí)驗(yàn),在體外測量抗體結(jié)合親和力,證明了其生成方法的有效性。


Vision Transformers Need Registers

首個(gè)ICLR時(shí)間檢驗(yàn)獎(jiǎng)出爐!3萬被引論文奠定圖像生成范式,DALL-E 3/SD背后都靠它-AI.x社區(qū)

來自Meta等機(jī)構(gòu)的研究,識(shí)別了vision transformer網(wǎng)絡(luò)特征圖中的偽影,其特點(diǎn)是低信息量背景區(qū)域中的高規(guī)范Tokens。作者對(duì)出現(xiàn)這種情況的原因提出了關(guān)鍵假設(shè),并提供了一個(gè)簡單而優(yōu)雅的解決方案,利用額外的register tokens來解決這些偽影問題,從而提高模型在各種任務(wù)中的性能。從這項(xiàng)工作中獲得的啟示也會(huì)對(duì)其他應(yīng)用領(lǐng)域產(chǎn)生影響。


這篇論文寫得非常好,提供了一個(gè)開展研究的絕佳范例—發(fā)現(xiàn)問題,了解問題發(fā)生的原因,然后提供解決方案。


除此之外,本屆會(huì)議共收到了7262 篇提交論文,接收2260篇,整體接收率約為 31%。此外Spotlights論文比例為 5%,Oral論文比例為 1.2%。


本文轉(zhuǎn)自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/YGvy6GrUHW3HXznWjqMnIQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦