7262篇提交,ICLR 2024爆火,兩篇國內(nèi)論文獲杰出論文提名
ICLR 全稱為國際學(xué)習(xí)表征會(huì)議(International Conference on Learning Representations),今年舉辦的是第十二屆,于 5 月 7 日至 11 日在奧地利維也納展覽會(huì)議中心舉辦。
在機(jī)器學(xué)習(xí)社區(qū)中,ICLR 是較為「年輕」的頂級學(xué)術(shù)會(huì)議,它由深度學(xué)習(xí)巨頭、圖靈獎(jiǎng)獲得者 Yoshua Bengio 和 Yann LeCun 牽頭舉辦,2013 年才剛剛舉辦第一屆。不過 ICLR 很快就獲得了學(xué)術(shù)研究者們的廣泛認(rèn)可,被認(rèn)為是深度學(xué)習(xí)的頂級會(huì)議。
本屆會(huì)議共收到了 7262 篇提交論文,接收 2260 篇,整體接收率約為 31%,與去年持平(31.8%)。此外 Spotlights 論文比例為 5%,Oral 論文比例為 1.2%。
相比于往年,無論是參會(huì)人數(shù)還是論文提交量,ICLR 的熱度可以說是有極大的提升。
歷屆 ICLR 論文數(shù)據(jù)圖
在近日公布的獲獎(jiǎng)?wù)撐闹?,大?huì)評選出了 5 篇杰出論文獎(jiǎng)和 11 篇榮譽(yù)提名獎(jiǎng)。
5 篇杰出論文獎(jiǎng)
Outstanding Paper winners
論文:Generalization in diffusion models arises from geometry-adaptive harmonic representations
- 論文地址:https://openreview.net/pdf?id=ANvmVS2Yr0
- 機(jī)構(gòu):紐約大學(xué)、法蘭西公學(xué)院
- 作者:Zahra Kadkhodaie 、Florentin Guth 、Eero P. Simoncelli 、Stéphane Mallat
本文對圖像擴(kuò)散模型的泛化和記憶方面進(jìn)行了重要的深入分析。作者通過實(shí)證研究了圖像生成模型何時(shí)從記憶輸入切換到泛化模式,并通過幾何自適應(yīng)諧波表示與諧波分析的思想建立聯(lián)系,從架構(gòu)歸納偏差的角度進(jìn)一步解釋了這一現(xiàn)象。本文涵蓋了我們對視覺生成模型理解中缺失的關(guān)鍵部分,對未來研究啟發(fā)巨大。
論文:Learning Interactive Real-World Simulators
- 論文地址:https://openreview.net/forum?id=sFyTZEqmUY
- 機(jī)構(gòu):UC 伯克利、 Google DeepMind 、 MIT 、阿爾伯塔大學(xué)
- 作者:Sherry Yang、 Yilun Du 、 Kamyar Ghasemipour、Jonathan Tompson、Leslie Kaelbling、Dale Schuurmans、Pieter Abbeel
跨多個(gè)來源聚合數(shù)據(jù)以訓(xùn)練機(jī)器人基礎(chǔ)模型是一個(gè)長期目標(biāo)。由于不同的機(jī)器人具有不同的感知運(yùn)動(dòng)接口,這給跨大規(guī)模數(shù)據(jù)集的訓(xùn)練帶來了重大挑戰(zhàn)。
UniSim,是朝著這個(gè)方向邁出的重要一步,也是一項(xiàng)工程壯舉,它利用了基于視覺感知和控制的文本描述的統(tǒng)一接口來聚合數(shù)據(jù),并通過利用視覺和語言領(lǐng)域的最新發(fā)展來訓(xùn)練機(jī)器人模擬器。
總結(jié)而言,本文探索了通過生成模型學(xué)習(xí)真實(shí)世界交互的通用模擬器 UniSim,邁出了構(gòu)建通用模擬器的第一步。例如 UniSim 可以通過模擬「打開抽屜」等高級指令和低級指令的視覺結(jié)果來模擬人類和智能體如何與世界交互。
本文將大量數(shù)據(jù)(包括互聯(lián)網(wǎng)文本 - 圖像對,來自導(dǎo)航、人類活動(dòng)、機(jī)器人動(dòng)作等的豐富數(shù)據(jù),以及來自模擬和渲染的數(shù)據(jù))結(jié)合到一個(gè)條件視頻生成框架中。然后通過仔細(xì)編排沿不同軸的豐富數(shù)據(jù),本文表明 UniSim 可以成功地合并不同軸數(shù)據(jù)的經(jīng)驗(yàn)并泛化到數(shù)據(jù)之外,通過對靜態(tài)場景和對象的細(xì)粒度運(yùn)動(dòng)控制來實(shí)現(xiàn)豐富的交互。
如下圖 3 所示,UniSim 能夠模擬一系列豐富動(dòng)作,例如廚房場景中洗手、拿碗、切胡蘿卜、擦干手這一系列動(dòng)作;圖 3 右上是按下不同的開關(guān);圖 3 下是兩個(gè)導(dǎo)航場景。
對應(yīng)上圖 3 右下的導(dǎo)航場景
上圖 3 右下的導(dǎo)航場景
論文:Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors
- 論文地址:https://openreview.net/forum?id=PdaPky8MUn
- 機(jī)構(gòu):特拉維夫大學(xué)、IBM
- 作者:Ido Amos、Jonathan Berant、Ankit Gupta
這篇論文深入探討了最近提出的狀態(tài)空間模型和 transformer 架構(gòu)對建模長期序列依賴性的能力。
令人驚訝的是,作者發(fā)現(xiàn)從頭開始訓(xùn)練 transformer 模型會(huì)導(dǎo)致其性能被低估,并且通過預(yù)訓(xùn)練和微調(diào)設(shè)置可以實(shí)現(xiàn)顯著的性能提升。該論文在關(guān)注簡潔性和系統(tǒng)性見解方面表現(xiàn)極佳。
論文:Protein Discovery with Discrete Walk-Jump Sampling
- 論文地址:https://openreview.net/forum?id=zMPHKOmQNb
- 機(jī)構(gòu):基因泰克、紐約大學(xué)
- 作者:Nathan C. Frey、Dan Berenberg、Karina Zadorozhny、Joseph Kleinhenz、Julien Lafrance-Vanasse、Isidro Hotzel、Yan Wu、Stephen Ra、Richard Bonneau、Kyunghyun Cho、Andreas Loukas、Vladimir Gligorijevic、Saeed Saremi
這篇論文解決了基于序列的抗體設(shè)計(jì)問題,這是蛋白質(zhì)序列生成模型的一個(gè)及時(shí)而重要的應(yīng)用。
為此,作者引入了一種創(chuàng)新而有效的新建模方法,用來專門針對處理離散蛋白質(zhì)序列數(shù)據(jù)的問題。除了在硅中驗(yàn)證該方法外,作者還進(jìn)行了大量的濕法實(shí)驗(yàn)室實(shí)驗(yàn),以測量體外抗體結(jié)合親和力,展示了他們生成方法的有效性。
論文:Vision Transformers Need Registers
- 論文地址:https://openreview.net/forum?id=2dnO3LLiJ1
- 機(jī)構(gòu):Meta 等
- 作者:Timothée Darcet、Maxime Oquab、Julien Mairal、Piotr Bojanowski
該篇論文識(shí)別了 vision transformer 網(wǎng)絡(luò)的特征圖中的人工痕跡,這些痕跡以低信息背景區(qū)域中的高范數(shù) tokens 為特征。
作者提出了這種現(xiàn)象發(fā)生的關(guān)鍵假設(shè),并提供了一個(gè)簡單而優(yōu)雅的解決方案,使用額外的 register tokens 來解決這些痕跡,從而增強(qiáng)了模型在各種任務(wù)上的性能。從這項(xiàng)工作中獲得的見解還可以影響其他應(yīng)用領(lǐng)域。
這篇論文行文極佳,為進(jìn)行研究提供了一個(gè)很好的示范:「識(shí)別問題,理解其發(fā)生的原因,然后提出解決方案。」
11 篇榮譽(yù)提名
除了 5 篇杰出論文,ICLR 2024 還評選出了 11 篇榮譽(yù)提名獎(jiǎng)。
論文:Amortizing intractable inference in large language models
- 機(jī)構(gòu):蒙特利爾大學(xué)、牛津大學(xué)
- 作者:Edward J Hu、Moksh Jain、Eric Elmoznino、Younesse Kaddar、Guillaume Lajoie、Yoshua Bengio、Nikolay Malkin
- 論文地址:https://openreview.net/forum?id=Ouj6p4ca60
這篇論文從貝葉斯推理的角度提出了一種在大型語言模型中替代自回歸解碼的有前景的方法,這可能會(huì)激發(fā)后續(xù)研究。
論文:Approximating Nash Equilibria in Normal-Form Games via Stochastic Optimization
- 機(jī)構(gòu):DeepMind
- 作者:Ian Gemp、Luke Marris、Georgios Piliouras
- 論文地址:https://openreview.net/forum?id=cc8h3I3V4E
這是一篇寫得非常清晰的論文,對解決開發(fā)高效且可擴(kuò)展的納什求解器這一重要問題意義重大。
論文:Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness
- 機(jī)構(gòu):北京大學(xué)、北京智源人工智能研究院
- 作者:張博航 蓋景初 杜逸恒 葉啟威 賀笛 王立威
- 論文地址:https://openreview.net/forum?id=HSKaGOi7Ar
GNN 的表達(dá)能力是一個(gè)重要課題,而當(dāng)前的解決方案仍然存在很大的局限性。作者提出了一種基于同態(tài)計(jì)數(shù)的新表達(dá)理論(expressivity theory)。
論文:Flow Matching on General Geometries
- 機(jī)構(gòu):Meta
- 作者:Ricky T. Q. Chen、Yaron Lipman
- 論文地址:https://openreview.net/forum?id=g7ohDlTITL
本文探討了在一般幾何流形上進(jìn)行生成建模這一具有挑戰(zhàn)性但又十分重要的問題,并提出了一種實(shí)用且高效的算法。本文的呈現(xiàn)非常出色,并在廣泛的任務(wù)上進(jìn)行了全面的實(shí)驗(yàn)驗(yàn)證。
論文:Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video
- 機(jī)構(gòu):中佛羅里達(dá)大學(xué)、 Google DeepMind、阿姆斯特丹大學(xué)等
- 作者:Shashanka Venkataramanan、Mamshad Nayeem Rizve、Joao Carreira、Yuki M Asano、Yannis Avrithis
- 論文地址:https://openreview.net/forum?id=Yen1lGns2o
本文提出了一種新穎的自監(jiān)督圖像預(yù)訓(xùn)練方法,即通過從連續(xù)視頻中學(xué)習(xí)。本文既貢獻(xiàn)了新類型的數(shù)據(jù),也貢獻(xiàn)了一種從新數(shù)據(jù)中學(xué)習(xí)的方法。
論文:Meta Continual Learning Revisited: Implicitly Enhancing Online Hessian Approximation via Variance Reduction
- 機(jī)構(gòu):香港城市大學(xué)、騰訊 AI 實(shí)驗(yàn)室、西安交通大學(xué)等
- 作者:Yichen Wu、Long-Kai Huang、Renzhen Wang、Deyu Meng、魏穎(Ying Wei)
- 論文地址:https://openreview.net/forum?id=TpD2aG1h0D
作者提出了一種新的元連續(xù)學(xué)習(xí)方差減少方法。該方法表現(xiàn)良好,不僅具有實(shí)際影響,而且還得到了 regret 分析的支持。
論文:Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
- 機(jī)構(gòu):伊利諾伊大學(xué)厄巴納 - 香檳分校、微軟
- 作者:Suyu Ge、Yunan Zhang、Liyuan Liu、Minjia Zhang、Jiawei Han、Jianfeng Gao
- 論文地址:https://openreview.net/forum?id=uNrFpDPMyo
本文針對 KV 緩存壓縮問題(該問題對基于 Transformer 的 LLM 影響很大),通過一個(gè)簡單的想法來減少內(nèi)存,并且無需耗費(fèi)大量資源進(jìn)行微調(diào)或重新訓(xùn)練即可部署。這種方法非常簡單,事實(shí)證明它非常有效。
論文:Proving Test Set Contamination in Black-Box Language Models
- 機(jī)構(gòu):斯坦福大學(xué)、哥倫比亞大學(xué)
- 作者:Yonatan Oren、Nicole Meister、Niladri S. Chatterji、Faisal Ladhak、Tatsunori Hashimoto
- 論文地址:https://openreview.net/forum?id=KS8mIvetg2
本文使用了一個(gè)簡單而優(yōu)雅的方法,用于測試受監(jiān)督的學(xué)習(xí)數(shù)據(jù)集是否已被包含在大型語言模型的訓(xùn)練中。
論文:Robust agents learn causal world models
- 機(jī)構(gòu):Google DeepMind
- 作者:Jonathan Richens、Tom Everitt
- 論文地址:https://openreview.net/forum?id=pOoKI3ouv1
這篇論文在奠定理論基礎(chǔ)方面取得了長足進(jìn)展,以便理解因果推理在智能體推廣到新領(lǐng)域的能力中所起到的作用,對一系列相關(guān)領(lǐng)域也產(chǎn)生了影響。
論文:The mechanistic basis of data dependence and abrupt learning in an in-context classification task
- 機(jī)構(gòu):普林斯頓大學(xué)、哈佛大學(xué)等
- 作者:Gautam Reddy
- 論文地址:https://openreview.net/forum?id=aN4Jf6Cx69
這是一項(xiàng)及時(shí)而極其系統(tǒng)性的研究,探討了我們在開始理解這些現(xiàn)象的時(shí)候,in-context 學(xué)習(xí)與 in-weight 學(xué)習(xí)之間的機(jī)制。
論文:Towards a statistical theory of data selection under weak supervision
- 機(jī)構(gòu):Granica Computing
- 作者:Germain Kolossov、Andrea Montanari、Pulkit Tandon
- 論文地址:https://openreview.net/forum?id=HhfcNgQn6p
這篇論文為數(shù)據(jù)子集選擇建立了統(tǒng)計(jì)基礎(chǔ),并確定了流行的數(shù)據(jù)選擇方法的缺點(diǎn)。