NeurIPS 2024最佳論文開獎(jiǎng)!北大字節(jié)NUS奪冠,Ilya連續(xù)三年獲獎(jiǎng)
剛剛,NeurIPS 2024最佳論文放榜了!

不出所料,今年兩篇最佳論文分別頒給了北大字節(jié)團(tuán)隊(duì),和新加坡國立大學(xué)Sea AI Lab團(tuán)隊(duì)。

除此之外,大會(huì)還公布了「數(shù)據(jù)集與基準(zhǔn)」賽道的最佳論文,以及主賽道最佳論文獎(jiǎng)委員會(huì),數(shù)據(jù)集和基準(zhǔn)賽道最佳論文獎(jiǎng)委員會(huì)。

今年,是NeurIPS第38屆年會(huì),于12月9日-15日在加拿大溫哥華正式拉開帷幕。

前段時(shí)間,NeurIPS 2024剛剛公布的時(shí)間檢驗(yàn)獎(jiǎng),分別頒給了Ilya Sutskever的Seq2Seq,和Ian Goodfellow的GAN。
有網(wǎng)友發(fā)現(xiàn),Ilya已經(jīng)連續(xù)三年拿下該獎(jiǎng),可以創(chuàng)歷史了。

2022年AlexNet,2023年Word2Vec,2024年Seq2Seq
今年,NeurIPS 2024的總投稿數(shù)量再創(chuàng)新高,共有15000多篇論文提交,錄用率為25.8%。
從研究內(nèi)容主題的整體分布來看,主要集中在大模型、文生圖/文生視頻、強(qiáng)化學(xué)習(xí)、優(yōu)化這四大塊。

再細(xì)分來看,機(jī)器視覺、自然語言處理、強(qiáng)化學(xué)習(xí)、學(xué)習(xí)理論、基于擴(kuò)散的模型是最熱的5個(gè)話題。

共計(jì)165000名參會(huì)者,也創(chuàng)下歷年新高。

獲獎(jiǎng)?wù)撐囊唬撼綌U(kuò)散,VAR開啟視覺自回歸模型新范式
拿下最佳論文的第一篇,是由北大字節(jié)團(tuán)隊(duì)共同提出的一種全新范式——視覺自回歸建模(Visual Autoregressive Modeling,VAR)。

論文地址:https://arxiv.org/abs/2404.02905
與傳統(tǒng)的光柵掃描「下一個(gè)token預(yù)測」方法有所不同,VAR重新定義了圖像上的自回歸學(xué)習(xí),采用粗到細(xì)的「下一個(gè)尺度預(yù)測」或「下一個(gè)分辨率預(yù)測」。
這種簡單直觀的方法使得自回歸(AR)Transformer能夠快速學(xué)習(xí)視覺分布,并且具有較好的泛化能力:VAR首次使得類似GPT的AR模型在圖像生成中超越了擴(kuò)散Transformer。

首先,將圖像編碼為多尺度的token映射,然后,自回歸過程從1×1token映射開始,并逐步擴(kuò)展分辨率。
在每一步中,Transformer會(huì)基于之前所有的token映射去預(yù)測下一個(gè)更高分辨率的token映射。
VAR包括兩個(gè)獨(dú)立的訓(xùn)練階段:在圖像上訓(xùn)練多尺度VQVAE,在token上訓(xùn)練VAR Transformer。
第一階段,多尺度VQ自動(dòng)編碼器將圖像編碼為K個(gè)token映射R=(r1,r2,…,rK),并通過復(fù)合損失函數(shù)進(jìn)行訓(xùn)練。
第二階段,通過下一尺度預(yù)測對VAR Transformer進(jìn)行訓(xùn)練:它以低分辨率token映射 ([s],r1,r2,…,rK?1)作為輸入,預(yù)測更高分辨率的token映射 (r1,r2,r3,…,rK)。訓(xùn)練過程中,使用注意力掩碼確保每個(gè)rk僅能關(guān)注 r≤k。訓(xùn)練目標(biāo)采用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),用于優(yōu)化預(yù)測精度。

實(shí)驗(yàn)證明,VAR在多個(gè)維度上超越了擴(kuò)散Transformer(DiT),包括圖像質(zhì)量、推理速度、數(shù)據(jù)效率和可擴(kuò)展性。
其中,VAR初步模仿了大語言模型的兩個(gè)重要特性:Scaling Law和零樣本泛化能力。


獲獎(jiǎng)?wù)撐亩篠TDE,破解高維高階微分算子的計(jì)算難題
第二篇獲獎(jiǎng)?wù)撐?,是由新加坡國立大學(xué)和Sea AI Lab提出的一種可通過高階自動(dòng)微分(AD)高效評估的分?jǐn)偡桨?,稱為隨機(jī)泰勒導(dǎo)數(shù)估計(jì)器(STDE)。

論文地址:https://openreview.net/pdf?id=J2wI2rCG2u
這項(xiàng)工作討論了優(yōu)化神經(jīng)網(wǎng)絡(luò)在處理高維 (d) 和高階 (k) 微分算子時(shí)的計(jì)算復(fù)雜度問題。
當(dāng)使用自動(dòng)微分計(jì)算高階導(dǎo)數(shù)時(shí),導(dǎo)數(shù)張量的大小隨著O(dk)擴(kuò)展,計(jì)算圖的復(fù)雜度隨著 O(2k-1L)增長。其中,d是輸入的維度(域的維度),k是導(dǎo)數(shù)的階數(shù),L是前向計(jì)算圖中的操作數(shù)量。
在之前的研究中,對于多維擴(kuò)展dk,使用的是隨機(jī)化技術(shù),將高維的多項(xiàng)式增長變?yōu)榫€性增長;對于高階擴(kuò)展 2k-1,則通過高階自動(dòng)微分處理了一元函數(shù)(即d=1)的指數(shù)增長問題。

通過反向模式自動(dòng)微分(AD)的重復(fù)應(yīng)用,計(jì)算函數(shù)F(?)的二階梯度的計(jì)算圖。該函數(shù)包含4個(gè)基本操作(L=4),用于計(jì)算Hessian矩陣與向量的乘積。紅色節(jié)點(diǎn)表示在第二次反向傳播過程中出現(xiàn)的余切節(jié)點(diǎn)。隨著向量-雅可比積(VJP)的每次重復(fù)應(yīng)用,順序計(jì)算的長度會(huì)加倍
在研究中,團(tuán)隊(duì)展示了如何通過適當(dāng)構(gòu)造輸入切向量,利用一元高階自動(dòng)微分,有效執(zhí)行多元函數(shù)導(dǎo)數(shù)張量的任意階收縮,從而高效隨機(jī)化任何微分算子。
該方法的核心思想是「輸入切向量構(gòu)造」。通過構(gòu)造特定的「輸入切向量」(方向?qū)?shù)),可以將多維函數(shù)的高階導(dǎo)數(shù)計(jì)算轉(zhuǎn)化為一元高階自動(dòng)微分問題。這意味著將復(fù)雜的多元導(dǎo)數(shù)運(yùn)算轉(zhuǎn)化為多個(gè)一元導(dǎo)數(shù)運(yùn)算,從而減小了計(jì)算復(fù)雜度。

該計(jì)算圖顯示了函數(shù)F的二階導(dǎo)數(shù)d2F,其中F包含4個(gè)基本操作,參數(shù)θi被省略。最左側(cè)的第一列表示輸入的二階射流(2-jet)
,并通過d2F1將其推向下一列中的二階射流
。每一行都可以并行計(jì)算,且不需要緩存評估軌跡
將該方法應(yīng)用于物理信息神經(jīng)網(wǎng)絡(luò)(PINNs)時(shí),相較于使用一階自動(dòng)微分的隨機(jī)化方法,該方案在計(jì)算速度上提高了1000倍以上,內(nèi)存占用減少了30倍以上。
借助該方法,研究團(tuán)隊(duì)能夠在一塊NVIDIA A100 GPU上,在8分鐘內(nèi)求解具有百萬維度的偏微分方程(PDEs)。
這項(xiàng)工作為在大規(guī)模問題中使用高階微分算子開辟了新的可能性,特別是在科學(xué)計(jì)算和物理模擬中具有重要意義。

「數(shù)據(jù)集與基準(zhǔn)」最佳論文
這篇由牛津、賓大等12家機(jī)構(gòu)聯(lián)手提出的數(shù)據(jù)集PRISM,榮獲了「數(shù)據(jù)集與基準(zhǔn)」賽道的最佳論文。

論文地址:https://openreview.net/pdf?id=DFr5hteojx
這篇論文通過收集來自75個(gè)國家、1500多名參與者的詳細(xì)反饋,科學(xué)家們首次全面繪制了AI模型與人類交互的復(fù)雜圖景。
它就像是為AI「驗(yàn)血」:不僅僅是檢查技術(shù)指標(biāo),更是深入了解AI與不同文化、不同背景人群的交互細(xì)節(jié)。

具體來說,研究人員收集了人們與21個(gè)大模型交互的8,011次真實(shí)數(shù)據(jù)。
而且,他們還詳細(xì)記錄了參與者的社會(huì)人口學(xué)特征和個(gè)人偏好。
最關(guān)鍵的是,這項(xiàng)研究聚焦了主觀和多文化視角中,最具挑戰(zhàn)性領(lǐng)域,尤其是關(guān)注價(jià)值觀相關(guān)和有爭議問題上的主觀和多元文化視角。
通過PRISM數(shù)據(jù)集,為未來研究提供了新的視角:
- 擴(kuò)大地理和人口統(tǒng)計(jì)學(xué)的參與度
- 為英國、美國提供具有人口普查代表性的樣本
- 建立了個(gè)性化評級(jí)系統(tǒng),可追溯參與者詳細(xì)背景

總的來說,這項(xiàng)研究具有重要的社會(huì)價(jià)值,并推動(dòng)了關(guān)于RLHF中多元化和分歧的研究。
NeurIPS 2024實(shí)驗(yàn):LLM作為科學(xué)論文作者清單助手的效果評估
隨著大獎(jiǎng)出爐后,NeurIPS 2024終于公布了將大模型作為清單助手的效果評估報(bào)告。

如今,雖然存在著不準(zhǔn)確性和偏見等風(fēng)險(xiǎn),但LLM已經(jīng)開始被用于科學(xué)論文的審查工作。
而這也引發(fā)了一個(gè)緊迫的問題:「我們?nèi)绾卧跁?huì)議同行評審的應(yīng)用中負(fù)責(zé)任且有效地利用LLM?」
今年的NeurIPS會(huì)議,邁出了回答這一問題的第一步。

論文地址:https://arxiv.org/abs/2411.03417
具體來說,大會(huì)評估了一個(gè)相對明確且低風(fēng)險(xiǎn)的使用場景:根據(jù)提交標(biāo)準(zhǔn)對論文進(jìn)行核查,且結(jié)果僅顯示給論文作者。
其中,投稿人會(huì)收到一種可選擇使用的基于LLM的「清單助手」,協(xié)助檢查論文是否符合NeurIPS清單的要求。
隨后,研究人員會(huì)系統(tǒng)地評估這一LLM清單助手的益處與風(fēng)險(xiǎn),并聚焦于兩個(gè)核心問題:
1. 作者是否認(rèn)為LLM作者清單助手是對論文提交過程的一種有價(jià)值的增強(qiáng)?
2. 使用作者清單助手是否能顯著幫助作者改進(jìn)其論文提交?
最終結(jié)論如下:
「LLM清單助手可以有效地幫助作者確保科學(xué)研究的嚴(yán)謹(jǐn)性,但可能不應(yīng)作為一種完全自動(dòng)化的審查工具來取代人工審查。」

1. 清單助手有用嗎?
研究人員對作者們進(jìn)行了問卷調(diào)查,以便了解他們對使用清單助手前后的期望和感受。
調(diào)查共收到539份使用前問卷回復(fù),清單助手共處理了234份提交,同時(shí)收到了78份使用后問卷回復(fù)。
結(jié)果顯示,作者普遍認(rèn)為清單助手是對論文提交過程的一項(xiàng)有價(jià)值的改進(jìn)——
大多數(shù)接受調(diào)查的作者表示,使用LLM清單助手的體驗(yàn)是積極的。其中,超過70%的作者認(rèn)為工具有用,超過70%的作者表示會(huì)根據(jù)反饋修改論文。
值得注意的是,作者在實(shí)際使用之前對助手有效性的期望比實(shí)際使用后的評價(jià)更為積極。比較使用前后的反饋可以發(fā)現(xiàn),在「有用性」和「期待使用」方面的正面評價(jià)出現(xiàn)了具有統(tǒng)計(jì)學(xué)意義的顯著下降。

2. 清單助手的主要問題是什么?
作者使用清單助手時(shí)遇到的問題,按類別歸納如下。
主要問題包括:不準(zhǔn)確性(52名回復(fù)者中有20人提到),以及LLM對要求過于苛刻(52名回復(fù)者中有14人提到)。

3. 清單助手提供了哪些類型的反饋?
研究者使用了另一個(gè)LLM,從清單助手對每個(gè)清單問題的回復(fù)中提煉關(guān)鍵點(diǎn),將其歸類。
以下展示了作者清單助手在清單的四個(gè)問題上提供的常見反饋類別:

LLM 能夠結(jié)合論文內(nèi)容和清單要求,為作者提供具體的反饋。對于清單中的15個(gè)問題,LLM通常會(huì)針對每個(gè)問題提供4-6個(gè)不同且具體的反饋點(diǎn)。
盡管其回復(fù)中有時(shí)包含一些模板化內(nèi)容,并可能擴(kuò)展問題的范圍,但它也能夠針對許多問題提供具體且明確的反饋。
4. 作者是否真的修改了提交的內(nèi)容?
根據(jù)反饋,很多作者表示計(jì)劃對他們的提交內(nèi)容做出實(shí)質(zhì)性的修改。
在78名回復(fù)者中,有35人具體說明了他們會(huì)根據(jù)清單助手的反饋對提交內(nèi)容進(jìn)行的修改。其中包括,改進(jìn)清單答案的說明,以及在論文中添加更多關(guān)于實(shí)驗(yàn)、數(shù)據(jù)集或計(jì)算資源的細(xì)節(jié)。
在40個(gè)實(shí)例中,作者將他們的論文提交到清單驗(yàn)證工具兩次(總共提交了80篇論文)。
結(jié)果顯示,在這40對(兩次提交的)論文中,有22個(gè)實(shí)例中作者在第一次和第二次提交之間至少更改了清單中的一個(gè)答案(例如,從「NA」改為「是」),并且在39個(gè)實(shí)例中更改了至少一個(gè)清單答案的說明。
在更改了清單說明的作者中,許多作者進(jìn)行了大量修改,其中35/39在清單的15個(gè)問題中更改了超過6個(gè)說明。
雖然并不能將這些修改因果歸因于清單助手,但這些修改表明作者可能在提交之間采納了助手的反饋。
以下是在作者更改說明的問題中,從初次提交到最終提交的字?jǐn)?shù)增長情況(值為2表示答案長度增加了一倍)。
可以看到,當(dāng)作者更改清單答案時(shí),超過一半的情況下,他們將答案說明的長度增加了一倍以上。
總結(jié)來說,當(dāng)作者多次向清單助手提交時(shí),他們幾乎都會(huì)在提交之間對清單進(jìn)行修改,并顯著延長了答案的長度,這表明他們可能根據(jù)LLM的反饋添加了內(nèi)容。

5. 清單助手是否可以被操控?
清單助手的設(shè)計(jì)初衷,是幫助作者改進(jìn)論文,而不是作為審稿人驗(yàn)證作者回答準(zhǔn)確性的工具。
如果該系統(tǒng)被用作審稿流程中的自動(dòng)驗(yàn)證步驟,這可能會(huì)激勵(lì)作者「操控」系統(tǒng),從而引發(fā)以下問題:作者是否可以借助AI,在無需對論文做出實(shí)際修改的情況下,自動(dòng)提升清單回答的評價(jià)?
如果這種操控是可能的,作者可能會(huì)在沒有(太多)額外努力且不實(shí)際改進(jìn)論文的情況下,向會(huì)議提供虛假的合規(guī)印象。
為了評估系統(tǒng)是否容易受到這種操控,研究者使用另一個(gè)LLM作為攻擊智能體,迭代性地修改清單說明,試圖誤導(dǎo)清單助手。
在這一迭代過程中,攻擊智能體在每輪之后從系統(tǒng)接收反饋,并利用反饋優(yōu)化其說明。
研究者向GPT-4提供了初始的清單回答,并指示其僅根據(jù)反饋修訂說明,而不改變論文的基礎(chǔ)內(nèi)容。允許攻擊智能體進(jìn)行三次迭代(與部署助手的提交限制一致),智能體在每次迭代中選擇得分最高的清單問題回答。
為了以統(tǒng)計(jì)方式量化這種攻擊的成功率,研究者將選定的說明提交給清單助手進(jìn)行評估,獲取「評分」(當(dāng)清單助手表示清單問題「無問題」時(shí)得分為1,當(dāng)助手識(shí)別出問題時(shí)得分為0)。
以下展示了該攻擊的結(jié)果:

結(jié)論
通過在NeurIPS 2024部署了一個(gè)基于LLM的論文清單助手,證明了LLM在提升科學(xué)投稿質(zhì)量方面的潛力,特別是通過幫助作者驗(yàn)證其論文是否符合提交標(biāo)準(zhǔn)。
結(jié)論通過在NeurIPS 2024部署了一個(gè)基于LLM的論文清單助手,證明了LLM在提升科學(xué)投稿質(zhì)量方面的潛力,特別是通過幫助作者驗(yàn)證其論文是否符合提交標(biāo)準(zhǔn)。
然而,研究指出了在科學(xué)同行評審過程中部署LLM時(shí)需要解決的一些顯著局限性,尤其是準(zhǔn)確性和契合度問題。
此外,系統(tǒng)在應(yīng)對作者的操控時(shí)缺乏抵抗力,這表明盡管清單助手可以作為作者的輔助工具,但可能無法有效取代人工評審。
NeurIPS將在2025年繼續(xù)改進(jìn)基于LLM的政策評審。





























