ICML 2023杰出論文獎放榜!北大校友一作斬獲大獎,華人作者參與三篇,DeepMind蘋果紛紛獲選
ICML 2023開獎了!
今年一共有6篇文章摘得杰出論文獎的桂冠,從32篇候選論文中脫穎而出。
官方表示,評選過程包括平均分?jǐn)?shù)篩選,以及程序委員會成員推薦。
然后,選出16個主題的論文,再遞交給杰出論文獎的評委會。
最終,評委會成員根據(jù)論文的清晰度、洞察力、創(chuàng)造力,以及未來可能的影響力,選擇出最后6篇。
下面,就讓我們一起來看看這6篇論文吧!
Learning-Rate-Free Learning by D-Adaptation
機構(gòu):FAIR,三星AI中心
作者:Aaron Defazio, Konstantin Mishchenko
論文地址:https://openreview.net/forum?id=GXZ6cT5cvY
D-Adaptation是一種自動設(shè)置學(xué)習(xí)率的方法,它可以漸近地達到最小化凸Lipschitz函數(shù)的最佳收斂率,無需回溯或直線搜索,每一步也無需額外的函數(shù)值或梯度評估。
該方法克服了傳統(tǒng)學(xué)習(xí)率選擇在優(yōu)化此類問題時施加的限制。
研究人員的方法是該類別中第一種超參數(shù)自由方法,收斂速度中沒有額外的乘法對數(shù)因子。
團隊還介紹了SGD和Adam變體的大量實驗,在這些實驗中,研究人員表示的方法自動匹配了十幾種不同機器學(xué)習(xí)問題的人工調(diào)整學(xué)習(xí)率,包括大規(guī)模視覺和語言問題。
該項目已開源。
ICML官方認(rèn)為,作者提出了一種新方法,克服了傳統(tǒng)學(xué)習(xí)率選擇在優(yōu)化此類問題時施加的限制。
這項研究為優(yōu)化領(lǐng)域做出了寶貴而實用的貢獻,因此拿下杰出論文獎。
A Watermark for Large Language Models
機構(gòu):馬里蘭大學(xué)
作者:John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein
論文地址:https://openreview.net/forum?id=aX8ig9X2a7
水印的事兒這兩天已經(jīng)聊過很多次了。
從美國7大科技巨頭聯(lián)名加水印,再到有論文證明加了水印也檢測不出來,水印到底能不能解決訓(xùn)練數(shù)據(jù)污染的問題依舊懸而未決。
這篇論文給出了一種給LLM生成的內(nèi)容加水印的可行方法。
論文摘要:LLM的潛在危害可以通過對模型輸出的內(nèi)容進行水印處理來減輕,即在生成的文本中嵌入信號,這些信號對人類來說不可見,但通過算法可以從短跨度的標(biāo)記中檢測出來。
研究人員為專有的語言模型創(chuàng)建了一個水印框架。嵌入水印對文本質(zhì)量的影響可以忽略不計,而且可以使用高效的開源算法進行檢測,無需訪問語言模型的應(yīng)用程序接口或參數(shù)。
工作原理是,在單詞生成前隨機選擇一組綠色標(biāo)記,然后在采樣過程中柔和地促進綠色標(biāo)記的使用。
研究團隊提出了一種可解釋p值的水印檢測統(tǒng)計測試方法,并推導(dǎo)出一種信息論框架來分析水印的靈敏度。
使用了開放式預(yù)訓(xùn)練變換器 (OPT) 系列的參數(shù)模型對水印進行了測試,同時還討論了魯棒性和安全性問題。
鑒于檢測和審核由 LLM 生成的合成文本所面臨的嚴(yán)峻挑戰(zhàn),本文有可能對業(yè)界產(chǎn)生重大影響,因此獲獎。
華人作者Yuxin Wen
他本科畢業(yè)于馬里蘭大學(xué)帕克分校,現(xiàn)為馬里蘭大學(xué)帕克分校計算機系博士在讀。
Generalization on the Unseen, Logic Reasoning and Degree Curriculum
機構(gòu):EPFL,蘋果
作者:Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk
論文地址:https://openreview.net/forum?id=3dqwXb1te4
這篇論文探討了邏輯函數(shù)的學(xué)習(xí),重點聚焦GOTU設(shè)置,這是分布外泛化的一種強有力的實例。
這是因為在某些推理任務(wù)(如算術(shù)/邏輯)中,數(shù)據(jù)豐富組合的性質(zhì)使得代表性數(shù)據(jù)采樣更具挑戰(zhàn)性,而在GOTU條件下的成功學(xué)習(xí)則為「外推」或「推理」學(xué)習(xí)者提供了第一手資料。
隨后,團隊研究了由(S)GD訓(xùn)練的不同網(wǎng)絡(luò)架構(gòu)在GOTU下的表現(xiàn),并提供了理論和實驗證據(jù),證明對于一類網(wǎng)絡(luò)模型,包括transformer實例、隨機特征模型和對角線性網(wǎng)絡(luò),可以在未見數(shù)據(jù)上學(xué)習(xí)到最小度插值器(min-degree-interpolator)。
同時,研究人員還證明了其他學(xué)習(xí)率更高的實例或均值場網(wǎng)絡(luò)也能達到泄漏的最小度解決方案。
這些發(fā)現(xiàn)有兩個意義:
(1)為長度泛化問題提供了解釋;
(2)引入一種名為Degree-Curriculum的課程學(xué)習(xí)算法,它能通過遞增支持更有效地學(xué)習(xí)單項式。
ICML官方認(rèn)為,這篇文章勾勒出深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個關(guān)鍵研究方向,從而脫穎而出。
Adapting to game trees in zero-sum imperfect information games
機構(gòu): 巴黎理工學(xué)院,里昂大學(xué),Omron Sinic X,Deepmind,法國國家經(jīng)濟研究中心,CRITEO AI實驗室
作者:C?me Fiegel, Pierre MENARD, Tadashi Kozuno, Remi Munos, Vianney Perchet, Michal Valko
論文地址:https://openreview.net/forum?id=O1j4uFuSVW
ICML官方認(rèn)為,這個研究嚴(yán)格地建立了一個新穎的下界,并提出了兩種算法,Balanced FTRL和Adaptive FTRL。
這些研究成果在不完全信息博弈的優(yōu)化領(lǐng)域中有著顯著的推進作用。
實驗充分地證實了這些研究人員所提出的論斷。
不完全信息博弈(IIG)是指每個參與者只能觀察到部分當(dāng)前的博弈狀態(tài)。
研究人員研究如何通過自我對弈和軌跡反饋(Trajectory Feedback)學(xué)習(xí)零和不完全信息博弈中的最優(yōu)策略。
他們對于學(xué)習(xí)這些高概率策略所需的實現(xiàn)次數(shù)提出了問題不相關(guān)(problem-independent)的下界 。
此外,研究人員提出了兩種用于這種情境的Follow the Regularized Leader(FTRL)算法:
1.Balance FTRL與該下界相匹配,但需要預(yù)先了解信息集結(jié)構(gòu)以定義正則化;
2.Adaptive FTRL則無需這種要求。
Self-Repellent Random Walks on General Graphs - Achieving Minimal Sampling Variance via Nonlinear Markov Chains
機構(gòu):艾昆緯,北卡羅來納州立大學(xué)
作者:Vishwaraj Doshi, Jie Hu, Do Young Eun
論文地址:https://openreview.net/forum?id=450iImFM4U
ICML官方評論認(rèn)為,這篇論文探討了一個具有挑戰(zhàn)性的開放性問題,即使用自我排斥隨機游走的MCMC(馬爾可夫鏈蒙特卡洛)方法。
論文超越了傳統(tǒng)的非回溯(non-backtracking)方法,并為MCMC抽樣研究開辟了新的方向。
作者在馬爾可夫鏈蒙特卡洛文獻中做出了原創(chuàng)而且非凡的貢獻,而且能把這一過程進行嚴(yán)格的分析和證明是一項令人矚目的成就。
論文寫作流暢,對主要概念給出了清晰而直觀的解釋,結(jié)果令人信服而且全面。
具體來說,團隊研究了在離散狀態(tài)空間上的隨機游走問題,例如一般的無向圖(general undirect graphs),其中隨機游走者通過采樣和鄰域探索來逼近網(wǎng)絡(luò)拓?fù)渖系哪繕?biāo)量,這種方法采用了馬爾可夫鏈蒙特卡洛(MCMC)過程。
給定任何對應(yīng)于目標(biāo)概率分布的馬爾可夫鏈,研究人員設(shè)計了一種自我排斥隨機游走(SRRW),它在轉(zhuǎn)移時不太可能轉(zhuǎn)向過去高訪問的節(jié)點,并且更有可能轉(zhuǎn)向很少訪問的節(jié)點。
對于一類由正實數(shù)參數(shù)化的SRRW,研究人員證明了過程的經(jīng)驗分布幾乎必定收斂于潛在馬爾可夫鏈核的目標(biāo)(平穩(wěn))分布。
然后,他們提供了中心極限定理,并推導(dǎo)了產(chǎn)生的漸近協(xié)方差矩陣的精確形式,這使得他們可以證明具有更強斥力(更大參數(shù))的SRRW總是實現(xiàn)更小的漸近協(xié)方差,按照協(xié)方差矩陣的Loewner排序意義。
特別是對于SRRW驅(qū)動的MCMC算法,研究人員證明了漸近抽樣方差的減小是按照的階數(shù),最終趨近于零。
最后,研究人員提供了與理論結(jié)果相補充的數(shù)值模擬,還經(jīng)驗證明一種隨時間增加的版本的SRRW結(jié)合了由較大參數(shù)引起的較小漸近方差的優(yōu)勢,同時具有觀察到的較小參數(shù)下SRRW的更快混合性質(zhì)。
其中的華人作者Jie Hu:
他本科畢業(yè)于武漢理工大學(xué),碩士畢業(yè)于美國西北大學(xué),博士畢業(yè)于北卡羅來納州立大學(xué),現(xiàn)為北卡羅來納州立大學(xué)計算機工程系助理研究員。
Bayesian Design Principles for Frequentist Sequential Learning
機構(gòu):哥倫比亞大學(xué)
作者:Yunbei Xu, Assaf Zeevi
論文地址:https://openreview.net/forum?id=tRhQsHnoFw
ICML官方認(rèn)為,該論文解決了設(shè)計老虎機和其他順序決策策略非常普遍的問題。
提出了一種利用新穎的算法信息比率(algorithmic information ratio)來界定任何策略遺憾(regret)的方法,并推導(dǎo)出優(yōu)化此界限的方法。
與早期類似的信息論量相比,這個界限更緊,而且這些方法在隨機和對抗性賭臂環(huán)境中表現(xiàn)良好,實現(xiàn)了最佳所有世界。
特別有趣的是,該論文可能為探索與眾不同的賭博探索-開發(fā)策略打開了一扇新的大門,超越了眾所周知的老虎機Thompson Sampling和UCB算法。
而且這個原理擴展到強化學(xué)習(xí)領(lǐng)域也會非常有前景。
因此,該論文在專家評審中得到了一致的大力支持。
具體來說,研究團隊開發(fā)了一種通用理論,以優(yōu)化順序?qū)W習(xí)問題中的頻率后悔(frequentist regret),從而可以從統(tǒng)一的貝葉斯原理中導(dǎo)出高效的老虎機(bandit)算法和強化學(xué)習(xí)算法。
他們還提出了一種新穎的優(yōu)化方法,在每一輪創(chuàng)建"算法信念"(algorithmic beliefs),并利用貝葉斯后驗來做決策。
這是首個使貝葉斯類型算法在先驗無關(guān)(prior-free)的情況下,以一種通用且最優(yōu)的方式適用于對抗性環(huán)境的方法,而且算法簡單且易于實現(xiàn)。
作為一個重要應(yīng)用,研究人員還提出了一種新型多臂老虎機算法,能在隨機、對抗性和非平穩(wěn)環(huán)境中實現(xiàn)"最佳的全局表現(xiàn)"。
研究人員還展示了這些原理在線性老虎機、凸老虎機(Convex Bandits)和強化學(xué)習(xí)中的應(yīng)用。
論文中的華人一作,Yunbei Xu
他本科畢業(yè)于北京大學(xué),博士畢業(yè)于哥倫畢業(yè)大學(xué),現(xiàn)在在哥倫畢業(yè)大學(xué)進行博士后研究。