馬毅、沈向洋聯(lián)手,首屆CPAL開(kāi)獎(jiǎng)!16人獲新星獎(jiǎng),華人學(xué)者占據(jù)半壁江山
就在昨天,首屆CPAL簡(jiǎn)約學(xué)術(shù)會(huì)議,正式公布了新星獎(jiǎng)獲獎(jiǎng)?wù)呙麊危?/span>
CPAL專注于解決機(jī)器學(xué)習(xí)、信號(hào)處理、優(yōu)化等領(lǐng)域中普遍存在的簡(jiǎn)約、低維結(jié)構(gòu)問(wèn)題,并探索低維結(jié)構(gòu)在智能硬件與系統(tǒng)、交叉科學(xué)和工程等新興方向的應(yīng)用。
創(chuàng)辦這個(gè)會(huì)議的出發(fā)點(diǎn),就是將其設(shè)計(jì)為一個(gè)普遍的科學(xué)論壇,讓科學(xué)和工程領(lǐng)域的研究人員能夠聚集在一起,分享見(jiàn)解,并最終努力達(dá)成一個(gè)一致認(rèn)同的現(xiàn)代計(jì)算理論框架,從簡(jiǎn)約學(xué)習(xí)的角度理解智能和科學(xué)。
而「新星獎(jiǎng)」除了會(huì)表彰處于職業(yè)生涯關(guān)鍵轉(zhuǎn)折點(diǎn)和起點(diǎn)的杰出初級(jí)研究人員外,還將為博士生、博士后、初級(jí)教師和業(yè)界研究人員提供一個(gè)平臺(tái)和支持性指導(dǎo)網(wǎng)絡(luò),通過(guò)引導(dǎo)學(xué)術(shù)和職業(yè)的發(fā)展,進(jìn)而增加這個(gè)領(lǐng)域的代表性和多樣性。
獲獎(jiǎng)名單
CPAL新星獎(jiǎng)要求申請(qǐng)者必須符合以下之一:博士生畢業(yè)前最后一年,博士后,任職助理教授第一年,或者工業(yè)界研究者博士畢業(yè)兩年內(nèi)。
今年,大會(huì)共收到了來(lái)自世界各地57份申請(qǐng),所有候選人都展示了自己在機(jī)器學(xué)習(xí)、應(yīng)用數(shù)學(xué)、信號(hào)處理、優(yōu)化、系統(tǒng),以及更多跨學(xué)科領(lǐng)域的杰出背景和專業(yè)知識(shí),申請(qǐng)競(jìng)爭(zhēng)極為激烈。
為此,由評(píng)審委員會(huì)主席陳羽北(現(xiàn)任UC Davis助理教授,此前為紐約大學(xué)Yan LeCun教授的博士后研究員)組織了評(píng)審委員會(huì)。每一個(gè)參與評(píng)審的資深研究員,都進(jìn)行了非常認(rèn)真的審查和投票(每個(gè)成員最多可投20票)。
具體來(lái)說(shuō),投票基于以下幾個(gè)方面:1)研究的潛在影響;2)與CPAL主題的相關(guān)性;3)多樣性和包容性。如果出現(xiàn)平票的情況,團(tuán)隊(duì)會(huì)進(jìn)行額外的討論來(lái)確定獲獎(jiǎng)?wù)摺?/span>
經(jīng)過(guò)全面評(píng)估,大會(huì)最終選取了其中的16位,祝賀所有獲獎(jiǎng)?wù)撸?/span>
Lijun Ding,威斯康星大學(xué)/華盛頓大學(xué),IFDS博士后研究員
題目:Optimization for statistical learning with low dimensional structure: regularity and conditioning
很多統(tǒng)計(jì)機(jī)器學(xué)習(xí)問(wèn)題(旨在恢復(fù)底層低維信號(hào))都以優(yōu)化為基礎(chǔ)?,F(xiàn)有的工作往往忽視了解決優(yōu)化問(wèn)題的計(jì)算復(fù)雜性,或者需要針對(duì)具體情況進(jìn)行算法和分析,尤其是非凸問(wèn)題。
本研究從調(diào)節(jié)的統(tǒng)一視角來(lái)解決上述兩個(gè)問(wèn)題。其特別指出,一旦樣本量超過(guò)固有維度,(1)一大類凸問(wèn)題和非光滑非凸問(wèn)題就會(huì)得到良好的條件;(2)良好的條件反過(guò)來(lái)又確保了開(kāi)箱即用優(yōu)化方法的效率,并激發(fā)了新算法的靈感。
最后,研究提出了一種稱為「平坦性」(flatness)的條件概念,它能在超參數(shù)模型中實(shí)現(xiàn)精確恢復(fù)。
Ningyuan Huang,約翰斯·霍普金斯大學(xué),博士生
題目:Approximately Equivariant Graph Networks
圖神經(jīng)網(wǎng)絡(luò)(GNN)的置換同變性經(jīng)常被拿來(lái)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)的平移不變性相比較。然而,這兩種對(duì)稱性有著本質(zhì)區(qū)別:CNN的是主動(dòng)對(duì)稱性,而GNN的是被動(dòng)對(duì)稱性。
本研究重點(diǎn)討論了GNN的主動(dòng)對(duì)稱性,考慮到信號(hào)在固定圖上的學(xué)習(xí)環(huán)境,GNN的自然對(duì)稱性是圖的自同構(gòu)。
由于現(xiàn)實(shí)世界的圖往往是不對(duì)稱的,研究通過(guò)圖粗化來(lái)形式化近似對(duì)稱,從而放寬了對(duì)稱的概念。研究提出了近似等變圖網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這些對(duì)稱性,并研究了對(duì)稱性模型選擇問(wèn)題。
研究從理論和經(jīng)驗(yàn)上表明,根據(jù)所選的對(duì)稱組,學(xué)習(xí)到的估計(jì)值在表現(xiàn)力損失和規(guī)則性增益之間存在偏差-方差權(quán)衡。
Daniel Paul Kunin,斯坦福大學(xué),博士生
題目:Stochastic Collapse: How Gradient Noise Attracts SGD Dynamics Towards Simpler Subnetworks
本項(xiàng)研究揭示了隨機(jī)梯度下降法(SGD)的一個(gè)隱含偏差,它能將表現(xiàn)力過(guò)強(qiáng)的網(wǎng)絡(luò)轉(zhuǎn)化為簡(jiǎn)單得多的子網(wǎng)絡(luò),從而顯著減少獨(dú)立參數(shù)的數(shù)量,提高泛化能力。
為了揭示這種偏差,研究確定了不變集,即在SGD下保持不變的參數(shù)空間的子集。并重點(diǎn)研究了其中兩類與現(xiàn)代架構(gòu)中常見(jiàn)的簡(jiǎn)單(稀疏或低秩)子網(wǎng)相對(duì)應(yīng)的不變集。分析發(fā)現(xiàn),SGD對(duì)這些簡(jiǎn)單的不變集具有隨機(jī)吸引力。
研究建立了一個(gè)基于損失函數(shù)曲率和隨機(jī)梯度引入的噪聲之間競(jìng)爭(zhēng)的充分條件來(lái)解釋隨機(jī)吸引性。值得注意的是,研究現(xiàn)噪聲水平的增加會(huì)增強(qiáng)吸引力,導(dǎo)致出現(xiàn)與訓(xùn)練損失的鞍點(diǎn)或局部最大值相關(guān)的有吸引力的不變集。
研究從經(jīng)驗(yàn)上觀察到,在預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中存在有吸引力的不變量集,這意味著SGD常常會(huì)坍縮為具有消失或冗余神經(jīng)元的簡(jiǎn)單子網(wǎng)絡(luò)。研究進(jìn)一步證明了這種隨機(jī)坍縮的簡(jiǎn)化過(guò)程如何有利于泛化。
最后,通過(guò)這一分析,研究從機(jī)理上解釋了為什么使用大學(xué)習(xí)率進(jìn)行早期訓(xùn)練有助于后續(xù)的泛化。
Daniel LeJeune,斯坦福大學(xué),博士后研究員
題目:Emergent properties of heuristics in machine learning
在現(xiàn)代機(jī)器學(xué)習(xí)實(shí)踐中,成功的方法都是建立在設(shè)計(jì)者扎實(shí)的直覺(jué)和理論洞察力之上的,但最終往往都是啟發(fā)式的,并表現(xiàn)出意想不到的涌現(xiàn)行為。有時(shí),這些涌現(xiàn)行為是有害的,但令人驚訝的是,許多涌現(xiàn)行為卻帶來(lái)了意想不到的好處。
通過(guò)從理論上描述這些涌現(xiàn)行為,我們可以開(kāi)發(fā)出更強(qiáng)大的方法開(kāi)發(fā)流程,在這個(gè)流程中,越來(lái)越多的理想行為可以通過(guò)設(shè)計(jì)納入其中,并以強(qiáng)大的方式加以利用。
本研究將討論啟發(fā)式方法和新興行為的幾個(gè)例子:線性回歸中的子采樣和草圖技術(shù)及其與嶺回歸的等價(jià)性;經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化以及在分布變化下的相對(duì)性能的普適性;以及在dropout和特征學(xué)習(xí)模型中的適應(yīng)性,這些模型等價(jià)于促進(jìn)簡(jiǎn)約的稀疏或低秩正則化。
Shuang Li,愛(ài)荷華州立大學(xué),助理教授
題目:The Future Geometric Analysis of Optimization Problems in Signal Processing and Machine Learning
高維數(shù)據(jù)分析和估計(jì)經(jīng)常會(huì)出現(xiàn)在信號(hào)處理和機(jī)器學(xué)習(xí)應(yīng)用之中。這些高維數(shù)據(jù)的低維結(jié)構(gòu),啟發(fā)我們?yōu)樾盘?hào)處理和機(jī)器學(xué)習(xí)中的基本問(wèn)題,開(kāi)發(fā)最優(yōu)化方法以及基于優(yōu)化的技術(shù)。
近年來(lái),非凸優(yōu)化廣泛出現(xiàn)在工程領(lǐng)域,并被許多啟發(fā)式局部算法所解決,但缺乏全局保證。最近的幾何/形態(tài)分析為確定迭代算法是否能達(dá)到全局最優(yōu)提供了一種方法。
在一系列機(jī)器學(xué)習(xí)問(wèn)題中,包括低秩矩陣因式分解、矩陣傳感、矩陣補(bǔ)全和相位檢索等,都對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)形態(tài)進(jìn)行了廣泛研究。有利的幾何形狀保證很多算法可以避開(kāi)鞍點(diǎn)并收斂到局部最小值。
本研究將討論未來(lái)信號(hào)處理和機(jī)器學(xué)習(xí)中優(yōu)化問(wèn)題幾何分析的潛在方向。
Shiwei Liu,得克薩斯大學(xué)奧斯汀分校,IFML博士后研究員
題目:Sparsity in Neural Networks: Science and Practice
稀疏性通過(guò)有選擇地消除大部分模型參數(shù),在模型壓縮領(lǐng)域表現(xiàn)出了卓越的性能。
為了發(fā)現(xiàn)強(qiáng)大的稀疏神經(jīng)網(wǎng)絡(luò),通常需要先訓(xùn)練一個(gè)過(guò)參數(shù)化的密集模型,然后再進(jìn)行剪枝和重新訓(xùn)練。但隨著現(xiàn)代神經(jīng)網(wǎng)絡(luò)規(guī)模的指數(shù)級(jí)增長(zhǎng),密集預(yù)訓(xùn)練和更新的成本變得越來(lái)越高。
本研究將介紹一種無(wú)需任何預(yù)訓(xùn)練或密集更新,即可從頭開(kāi)始訓(xùn)練稀疏神經(jīng)網(wǎng)絡(luò)的方法。
通過(guò)在時(shí)間上實(shí)現(xiàn)過(guò)參數(shù)化的特性,該方法展示了在僅使用極少部分權(quán)重的情況下,實(shí)現(xiàn)與完全密集網(wǎng)絡(luò)相當(dāng)?shù)男阅芩降哪芰Α?/span>
除了在模型壓縮方面的優(yōu)勢(shì)外,研究還將闡明稀疏性在神經(jīng)網(wǎng)絡(luò)中更廣泛的優(yōu)勢(shì),包括可擴(kuò)展性、魯棒性、公平性,以及構(gòu)建大規(guī)模負(fù)責(zé)任人工智能的巨大潛力。
Yiping Lu,紐約大學(xué),柯朗講師
題目:Simulation-Calibrated Scientific Machine Learning
機(jī)器學(xué)習(xí)(ML)在各種應(yīng)用中取得了巨大成功,為復(fù)雜的高維數(shù)據(jù)提供了一種建立靈活、通用和高效近似值的新方法。
這些成功激勵(lì)了許多研究人員將ML應(yīng)用于其他科學(xué)應(yīng)用領(lǐng)域,如工業(yè)工程、科學(xué)計(jì)算和運(yùn)籌學(xué)等經(jīng)常面臨類似挑戰(zhàn)的領(lǐng)域。
然而,大規(guī)模機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))的數(shù)學(xué)理論仍然匱乏,經(jīng)過(guò)訓(xùn)練的ML預(yù)測(cè)器總是存在偏差,這些長(zhǎng)期存在的問(wèn)題為ML的輝煌成就蒙上了陰影。
在這項(xiàng)研究中中,作者將介紹一個(gè)新穎的SCaSML框架,它可以利用物理模型的結(jié)構(gòu)來(lái)實(shí)現(xiàn)以下目標(biāo):
1)即使基于有偏差的機(jī)器學(xué)習(xí)預(yù)測(cè)器,也能做出無(wú)偏的預(yù)測(cè);
2)通過(guò)使用估計(jì)器克服維度災(zāi)難(the curse of dimensionality)。
SCASML范式將可能有偏差的機(jī)器學(xué)習(xí)算法,與使用嚴(yán)格數(shù)值分析和隨機(jī)模擬的去偏差步驟設(shè)計(jì)相結(jié)合。
從理論上講,作者將嘗試了解SCaSML算法是否最優(yōu),以及哪些因素(如平滑度、維度和約束性)決定了收斂速度的提升。
從實(shí)證角度,作者將介紹不同的估計(jì)器,這些估計(jì)器能用有偏差的機(jī)器學(xué)習(xí)估計(jì)器對(duì)物理量進(jìn)行無(wú)偏且可信的估計(jì)。
其應(yīng)用包括但不限于估計(jì)函數(shù)矩、模擬高維隨機(jī)過(guò)程、使用自助方法(bootstrap methods)進(jìn)行不確定性量化以及隨機(jī)線性代數(shù)。
Omar Montasser,加州大學(xué)伯克利分校,F(xiàn)ODSI-Simons博士后研究員
題目:Theoretical Foundations of Adversarially Robust Learning
盡管取得了非凡的進(jìn)步,但目前的機(jī)器學(xué)習(xí)系統(tǒng)在對(duì)抗性示例方面仍較弱:測(cè)試示例中看似無(wú)害,但經(jīng)過(guò)精心設(shè)計(jì)的擾動(dòng)會(huì)導(dǎo)致機(jī)器學(xué)習(xí)預(yù)測(cè)器分類錯(cuò)誤。
我們能否學(xué)習(xí)對(duì)抗攻擊魯棒性的模型?對(duì)于機(jī)器學(xué)習(xí)中的這一重大挑戰(zhàn),實(shí)證研究界一直很感興趣。
在研究中,作者將從理論角度進(jìn)行闡述,說(shuō)明超越傳統(tǒng)方法和原則(如經(jīng)驗(yàn)(魯棒性)風(fēng)險(xiǎn)最小化)的必要性,并提出具有更強(qiáng)魯棒性學(xué)習(xí)保證的新算法思想。
Ramchandran Muthukumar,約翰斯·霍普金斯大學(xué),博士生
題目:Sparsity-aware generalization theory for deep neural networks
深度人工神經(jīng)網(wǎng)絡(luò)具有令人驚奇的泛化能力,但人們對(duì)這種能力的了解仍然很少。
在本文中,作者提出了一種分析深度前饋ReLU網(wǎng)絡(luò)泛化的新方法,該方法利用了隱層激活的稀疏程度。
通過(guò)開(kāi)發(fā)一個(gè)框架,考慮到每個(gè)輸入樣本的有效模型大小的減少,研究人員能夠展示稀疏性和泛化之間的基本權(quán)衡。
重要的是,研究結(jié)果沒(méi)有對(duì)模型實(shí)現(xiàn)的稀疏程度做出強(qiáng)烈的假設(shè),而且比最近基于規(guī)范的方法有所改進(jìn)。
研究通過(guò)有力的數(shù)字證明了結(jié)果,在特定環(huán)境下與依賴數(shù)據(jù)的先驗(yàn)相結(jié)合時(shí),即使是在過(guò)度參數(shù)化的模型中,也不會(huì)出現(xiàn)非空界(non-vacuous bounds)。
Ambar Pal,約翰斯·霍普金斯大學(xué),博士生
題目:The Role of Parsimonious Structures in Data for Trustworthy Machine Learning
這項(xiàng)研究概述了對(duì)抗魯棒機(jī)器學(xué)習(xí)幾何基礎(chǔ)的最新理論成果。
現(xiàn)代ML分類器在受到特別設(shè)計(jì)的輸入擾動(dòng)(對(duì)抗示例)時(shí),可能會(huì)嚴(yán)重失效。另一方面,在一些涉及視覺(jué)的任務(wù)中,我們?nèi)祟愻敯粜愿鼜?qiáng)。
受這種現(xiàn)象的啟發(fā),在本研究的第一部分,作者將深入探討何時(shí)才能避免對(duì)抗樣本的問(wèn)題。
我們將看到,數(shù)據(jù)分布的一個(gè)關(guān)鍵幾何特性——集中在輸入空間的小體積子集上——決定了是否存在任何魯棒分類器。特別是,這表明自然圖像分布是集中的。
在本研究的第二部分,作者將針對(duì)一些集中的數(shù)據(jù)分布實(shí)證這些結(jié)果,并發(fā)現(xiàn)利用數(shù)據(jù)中的這種結(jié)構(gòu),可以訓(xùn)練出在某些情況下?lián)碛懈玫目勺C明魯棒性保證的分類器
本研究?jī)?nèi)容也基于NeurIPS 2023, 2020和TMLR 2023的工作成果。
Rahul Parhi,洛桑聯(lián)邦理工學(xué)院,博士后研究員
題目:On the Sparsity-Promoting Effect of Weight Decay in Deep Learning
深度學(xué)習(xí)在實(shí)踐中取得了巨大成功,最先進(jìn)的人工智能系統(tǒng)大多基于神經(jīng)網(wǎng)絡(luò)。然而,目前還缺乏一種嚴(yán)格的數(shù)學(xué)理論來(lái)充分解釋深度神經(jīng)網(wǎng)絡(luò)的驚人性能。
在本講座中,作者將介紹一個(gè)新的數(shù)學(xué)框架,為深入理解深度學(xué)習(xí)提供一個(gè)開(kāi)端。
這個(gè)框架通過(guò)稀疏性的視角,精確地描述了訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)的功能特性。支持這一框架的關(guān)鍵數(shù)學(xué)工具包括變換域稀疏正則化、計(jì)算機(jī)斷層掃描的Radon變換和逼近論(approximation theory)。
該框架解釋了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中權(quán)重衰減正則化的效果、網(wǎng)絡(luò)架構(gòu)中跳轉(zhuǎn)連接和低秩權(quán)重矩陣的重要性、稀疏性在神經(jīng)網(wǎng)絡(luò)中的作用,并解釋了神經(jīng)網(wǎng)絡(luò)為何能在高維問(wèn)題中表現(xiàn)出色。
Bahareh Tolooshams,加州理工學(xué)院,博士后研究員
題目:Deep Interpretable Generative Learning for Science and Engineering
判別式人工智能和生成式人工智能是兩種深度學(xué)習(xí)范式,它們徹底改變了根據(jù)文本提示預(yù)測(cè)和生成高質(zhì)量圖像的方法。
然而,判別式學(xué)習(xí)無(wú)法生成數(shù)據(jù),而生成模型則在解碼能力方面能力較弱。此外,這兩種方法都需要大量數(shù)據(jù),而且可解釋性較低。
這些缺點(diǎn)嚴(yán)重阻礙了深度學(xué)習(xí)在以下方面的應(yīng)用:a) 獲取監(jiān)督數(shù)據(jù)成本高昂或不可行;b) 目標(biāo)超出數(shù)據(jù)擬合范圍,無(wú)法獲得科學(xué)見(jiàn)解。
此外,深度學(xué)習(xí)在逆問(wèn)題等具有豐富數(shù)學(xué)和優(yōu)化框架的領(lǐng)域,或在可解釋性很重要的領(lǐng)域的應(yīng)用還相當(dāng)少。
這項(xiàng)研究將討論深度學(xué)習(xí)在數(shù)據(jù)有限或無(wú)監(jiān)督逆問(wèn)題中的理論和應(yīng)用。這些應(yīng)用包括雷達(dá)傳感、圖像中「泊松去噪」和計(jì)算神經(jīng)科學(xué)。
Hongyi Wang,卡內(nèi)基梅隆大學(xué),高級(jí)項(xiàng)目科學(xué)家
題目:Speeding up Large-Scale Machine Learning Model Development Using Low-Rank Models and Gradients
大規(guī)模機(jī)器學(xué)習(xí)(ML)模型,如GPT-4和Llama2,是人工智能領(lǐng)域最前沿的進(jìn)展。
然而,開(kāi)發(fā)這些大規(guī)模ML模型需要大量的計(jì)算資源,以及對(duì)分布式ML和系統(tǒng)的深刻理解。
在這項(xiàng)研究中,作者將介紹三個(gè)框架,即ATOMO、Pufferfish和Cuttlefish,它們使用模型梯度和模型權(quán)重的低階近似來(lái)大大加快ML模型的訓(xùn)練。
- ATOMO 是一種通用壓縮框架,實(shí)驗(yàn)證明,與稀疏梯度相比,使用低秩梯度可以大大加快分布式訓(xùn)練的速度。
- Pufferfish通過(guò)直接訓(xùn)練低秩模型,進(jìn)一步繞過(guò)了壓縮成本。不過(guò),直接訓(xùn)練低秩模型通常會(huì)導(dǎo)致準(zhǔn)確率下降。Pufferfish通過(guò)訓(xùn)練全秩模型,然后轉(zhuǎn)換為低秩模型來(lái)緩解這一問(wèn)題。不過(guò),Pufferfish需要額外的超參數(shù)調(diào)整,例如確定從全秩模型到低秩模型的最佳轉(zhuǎn)換時(shí)間。
- Cuttlefish通過(guò)在訓(xùn)練過(guò)程中自動(dòng)估計(jì)和調(diào)整這些超參數(shù)來(lái)解決這個(gè)問(wèn)題。
研究中詳細(xì)介紹了大規(guī)模ML模型(包括LLM)分布式訓(xùn)練的大量實(shí)驗(yàn)結(jié)果,以展示這些框架的效果。
Peng Wang,密歇根大學(xué),博士后研究員
題目:Understanding Hierarchical Representations in Deep Networks via Intermediate Features
在過(guò)去十年中,深度學(xué)習(xí)已被證明是一種從原始數(shù)據(jù)中學(xué)習(xí)有意義特征的高效方法。這項(xiàng)研究試圖揭開(kāi)深度網(wǎng)絡(luò)中分層特征學(xué)習(xí)的神秘面紗。
具體來(lái)說(shuō),在多類分類問(wèn)題中,作者研究了深度網(wǎng)絡(luò)每層特征輸出,來(lái)探索網(wǎng)絡(luò)如何變換輸入數(shù)據(jù)。
為此,研究人員首先分別定義了中間特征的「類內(nèi)壓縮」和「類間區(qū)分指標(biāo)」。
通過(guò)對(duì)這兩個(gè)指標(biāo)的分析,他們發(fā)現(xiàn),從淺層到深層,特征的演變遵循一個(gè)簡(jiǎn)單而量化的規(guī)律:線性網(wǎng)絡(luò)的每一層都以線性速率逐步壓縮「類內(nèi)特征」,以亞線性速率提升「類間區(qū)分特征」。
據(jù)研究人員所知,這是首次對(duì)深度網(wǎng)絡(luò)分層表示中的特征演化進(jìn)行量化描述。此外,大量實(shí)驗(yàn)從數(shù)值上驗(yàn)證了這一理論發(fā)現(xiàn)。
Yaodong Yu,加州大學(xué)伯克利分校,博士生
題目:White-Box Transformers via Sparse Rate Reduction
這項(xiàng)研究中,作者將介紹白盒Transformer--CRATE(即編碼RAte reduction Transformer)。
研究人員認(rèn)為,表征學(xué)習(xí)的目標(biāo)是壓縮和轉(zhuǎn)換數(shù)據(jù)分布(例如標(biāo)記集),使其混合在不相干子空間上支持的低維高斯分布。
最終表示的質(zhì)量可以用一個(gè)統(tǒng)一的目標(biāo)函數(shù)——稀疏率降低來(lái)衡量。從這個(gè)角度來(lái)看,Transformer等流行的深度網(wǎng)絡(luò)可以自然地被視為漸進(jìn)優(yōu)化這個(gè)目標(biāo)的迭代方案。
特別是,研究人員展示了標(biāo)準(zhǔn)Transformer模塊可以通過(guò)對(duì)這一目標(biāo)的互補(bǔ)部分進(jìn)行交替優(yōu)化而推導(dǎo):多頭自注意力算子可被視為梯度下降步驟,通過(guò)最小化有損編碼率來(lái)壓縮標(biāo)記集。
由此,這就產(chǎn)生了一系列在數(shù)學(xué)上可以解釋的白盒Transformer架構(gòu)。
最后實(shí)驗(yàn)表明,這些網(wǎng)絡(luò)確實(shí)能學(xué)會(huì)優(yōu)化設(shè)計(jì)目標(biāo):它們能壓縮和稀疏化大規(guī)模真實(shí)世界視覺(jué)數(shù)據(jù)集(如 ImageNet)的表示,其性能非常接近精心設(shè)計(jì)的Transformer(ViTs)。
另外,作者還介紹了CRATE在涌現(xiàn)行為、語(yǔ)言建模和自動(dòng)編碼方面的一些最新理論和實(shí)證結(jié)果。
Ravid Shwartz Ziv,紐約大學(xué),CDS特任研究員
題目:Decoding the Information Bottleneck in Self-Supervised Learning: Pathway to Optimal Representation
深度神經(jīng)網(wǎng)絡(luò)(DNN)在許多領(lǐng)域都表現(xiàn)出色,這主要?dú)w功于它們對(duì)監(jiān)督學(xué)習(xí)任務(wù)的熟練掌握。
然而,當(dāng)標(biāo)注數(shù)據(jù)稀缺時(shí),對(duì)大量標(biāo)注數(shù)據(jù)的依賴就會(huì)成為制約因素。
自監(jiān)督學(xué)習(xí)(SSL)是一種很有前途的方法,它利用無(wú)標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí)有意義的表征。然而,自監(jiān)督學(xué)習(xí)如何在沒(méi)有明確標(biāo)注的情況下,它對(duì)如何過(guò)濾不相關(guān)的信息仍不清楚。
在本研究中,作者以信息瓶頸原理為重點(diǎn),從信息論的角度來(lái)揭開(kāi)SSL奧秘。
信息瓶頸原理可以解釋監(jiān)督學(xué)習(xí)中壓縮相關(guān)特征和保留信息的平衡,但在應(yīng)用于SSL時(shí),卻因訓(xùn)練過(guò)程中缺乏標(biāo)簽而帶來(lái)了難題。
研究人員將深入探討SSL中「最優(yōu)表示」的概念、它與數(shù)據(jù)增強(qiáng)、優(yōu)化方法和下游任務(wù)的關(guān)系,以及SSL訓(xùn)練如何學(xué)習(xí)和實(shí)現(xiàn)最優(yōu)表示。
研究中的討論揭示了開(kāi)創(chuàng)性發(fā)現(xiàn),展示了SSL訓(xùn)練如何自然而然地創(chuàng)建與語(yǔ)義標(biāo)簽相關(guān)的最優(yōu)、緊湊表征。
值得注意的是,SSL似乎能協(xié)調(diào)學(xué)習(xí)到的表征與語(yǔ)義類別在多個(gè)層次上的對(duì)齊,這種對(duì)齊在訓(xùn)練過(guò)程中不斷加強(qiáng),并在網(wǎng)絡(luò)深層上變得更加明確。
最后,研究人員基于這些見(jiàn)解設(shè)計(jì)更強(qiáng)大的自監(jiān)督學(xué)習(xí)信息算法,可提升遷移學(xué)習(xí)效果,建立更高效的學(xué)習(xí)系統(tǒng),尤其是在數(shù)據(jù)稀缺的環(huán)境中。