2022年「百強(qiáng)AI論文」出爐:清華緊隨谷歌排名第二,寧波工程學(xué)院成最大黑馬
人工智能領(lǐng)域的創(chuàng)新步伐越來越快,論文數(shù)量也呈爆炸式增長,甚至達(dá)到了人力無法閱讀的程度。
在2022年發(fā)表的海量論文中,哪些機(jī)構(gòu)的影響力最大?哪些論文更值得讀?
最近外媒Zeta Alpha用經(jīng)典的引用次數(shù)作為評估指標(biāo),收集整理了在2022年最高引的100篇論文,并分析了不同國家、機(jī)構(gòu)在過去三年里發(fā)表的高引論文數(shù)量。
美國仍然領(lǐng)先,中國第二
按國家來劃分的話,美國仍然占據(jù)領(lǐng)先地位,不過在Top-100論文中所占的比例相比2020年來說大幅下降。
中國排行第二,數(shù)據(jù)相比去年略有上漲;第三位是英國,DeepMind去年產(chǎn)出占英國總數(shù)的69%,超過了前幾年的60%;新加坡和澳大利亞在AI領(lǐng)域的影響力也超出分析師的預(yù)期。
按照組織來劃分的話,可以看到谷歌始終是AI領(lǐng)域的最強(qiáng)者,緊隨其后的是 Meta、微軟、加州大學(xué)伯克利分校、DeepMind和斯坦福大學(xué),國內(nèi)排行第一的是清華大學(xué)。
作為Meta AI的帶頭人,Yann LeCun也自豪地宣布Meta在行業(yè)內(nèi)的影響力,并表示Meta AI更重視出版質(zhì)量,而不是出版數(shù)量。
至于同屬于Alphabet的谷歌和DeepMind在列表中單獨(dú)計(jì)算的問題,LeCun表示DeepMind一直堅(jiān)稱它們獨(dú)立于谷歌運(yùn)營,這很奇怪,谷歌員工無法訪問 DeepMind的代碼庫。
盡管如今人工智能研究大多由工業(yè)界引領(lǐng),單個(gè)學(xué)術(shù)機(jī)構(gòu)產(chǎn)生的影響不大,但由于長尾效應(yīng),學(xué)術(shù)界整體來說還是和工業(yè)界持平的,當(dāng)按照組織類型對數(shù)據(jù)進(jìn)行聚合時(shí),可以看到二者的影響力大體是相等的。
如果回顧過去三年,統(tǒng)計(jì)各個(gè)機(jī)構(gòu)總的研究成果數(shù)量,可以看到谷歌仍處于領(lǐng)先地位,但與其他機(jī)構(gòu)相比差距要小得多,值得一提的是,清華大學(xué)緊隨谷歌排行第二。
OpenAI和DeepMind甚至沒有進(jìn)入前20名,當(dāng)然,這些機(jī)構(gòu)發(fā)表的文章數(shù)量較少,但每篇文章的影響力都很大。
如果按照出版量進(jìn)入Top-100的比例來看,OpenAI獨(dú)樹一幟,在轉(zhuǎn)化率上遠(yuǎn)超其他機(jī)構(gòu),基本上兩篇論文中就有一篇成為「年度百大論文」。
當(dāng)然,從ChatGPT的火爆來看,OpenAI確實(shí)很擅長營銷,一定程度上促進(jìn)了引用量的提升,不可否認(rèn)的是,他們的研究成果質(zhì)量非常高。
論文收集方法
首先在Zeta Alpha平臺(tái)上收集每年被引用最多的論文,然后手動(dòng)檢查第一個(gè)發(fā)表日期(通常是arXiv預(yù)印本) 歸類到對應(yīng)的年份中。
通過挖掘Semantic Scholar上高引的人工智能論文來補(bǔ)充這個(gè)列表,其覆蓋面更廣,而且能夠按引用次數(shù)進(jìn)行排序,主要是從影響力很大的封閉來源出版商(例如《自然》、《愛思唯爾》、《施普林格》和其他雜志)那里獲得額外的論文。
然后將每篇論文在 Google Scholar 上的引用次數(shù)作為代表性指標(biāo),并根據(jù)這個(gè)數(shù)字對論文進(jìn)行排序,得出一年內(nèi)排名前100位的論文。
對于這些論文,使用GPT-3提取作者、他們的附屬機(jī)構(gòu)和國家,并手動(dòng)檢查這些結(jié)果(如果國家在出版物中沒有體現(xiàn)的話,采用該組織總部所在的國家)。
擁有多個(gè)機(jī)構(gòu)的作者的論文對每個(gè)附屬機(jī)構(gòu)各計(jì)數(shù)一次。
2022年五強(qiáng)論文
1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models
論文鏈接:https://academic.oup.com/nar/article/50/D1/D439/6430488
發(fā)表機(jī)構(gòu):歐洲分子生物學(xué)實(shí)驗(yàn)室,DeepMind
AlphaFold DB:https://alphafold.ebi.ac.uk
引用量:1331
AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫AlphaFold DB是一個(gè)可公開訪問的、廣泛的、高準(zhǔn)確度的蛋白質(zhì)結(jié)構(gòu)預(yù)測的數(shù)據(jù)庫。
在DeepMind的AlphaFold v2.0的支持下,該數(shù)據(jù)庫使已知蛋白質(zhì)序列空間的結(jié)構(gòu)覆蓋面得到了空前的擴(kuò)展。
AlphaFold DB提供了對預(yù)測的原子坐標(biāo)、每個(gè)殘基和成對的模型置信度估計(jì)以及預(yù)測的對齊誤差的程序化訪問和互動(dòng)式可視化。
AlphaFold DB的初始版本包含了超過36萬個(gè)預(yù)測結(jié)構(gòu),涵蓋了21種模式生物的蛋白質(zhì)組,未來將擴(kuò)展到UniRef90數(shù)據(jù)集的大部分(超過1億)代表性序列。
2. ColabFold: making protein folding accessible to all
論文鏈接:https://www.nature.com/articles/s41592-022-01488-1
代碼鏈接:https://github.com/sokrypton/colabfold
環(huán)境鏈接:https://colabfold.mmseqs.com
引用量:1138
ColabFold通過將MMSEQS2的快速同源搜索與AlphaFold2或Rosettafold相結(jié)合,從而加速了對蛋白質(zhì)結(jié)構(gòu)和復(fù)合物的預(yù)測。
ColabFold在模型利用率上可以實(shí)現(xiàn)40-60倍加速的搜索和優(yōu)化,能夠在僅具有一個(gè)圖形處理單元的服務(wù)器上預(yù)測近1000個(gè)結(jié)構(gòu)。
ColabFold在Google Colaboratory的基礎(chǔ)上,成為了一個(gè)蛋白質(zhì)折疊的免費(fèi)且可訪問的平臺(tái),也是一個(gè)可用的開源軟件。
3. A ConvNet for the 2020s
論文鏈接:https://arxiv.org/pdf/2201.03545.pdf
引用量:835
視覺識(shí)別的「Roaring 20s」(咆哮的20年代)始于視覺Transformer(ViTs)的引入,它迅速取代了ConvNets成為最先進(jìn)的圖像分類模型。
另一方面,一個(gè)最簡單的ViT在應(yīng)用于通用計(jì)算機(jī)視覺任務(wù)時(shí)仍然面臨著一些難題,如物體檢測和語義分割。
層次化Transformer(如Swin Transformers)重新引入了幾個(gè)ConvNet先驗(yàn),使得Transformer作為通用視覺模型骨干實(shí)際上是可行的,并在各種視覺任務(wù)中表現(xiàn)出顯著的性能。
然而,這種混合方法的有效性仍然主要?dú)w功于Transformers的內(nèi)在優(yōu)勢,而不是Convolutions的內(nèi)在歸納偏見。
在這項(xiàng)工作中,研究人員重新審視了設(shè)計(jì)空間,并測試了純ConvNet所能實(shí)現(xiàn)的極限。
逐步將一個(gè)標(biāo)準(zhǔn)的ResNet「現(xiàn)代化」成ViT的設(shè)計(jì),并在這一過程中發(fā)現(xiàn)了幾個(gè)促成性能差異的關(guān)鍵組件,探索后發(fā)現(xiàn)了一個(gè)稱為ConvNeXt的純ConvNet模型系列。
ConvNeXt完全由標(biāo)準(zhǔn)的ConvNet模塊構(gòu)成,在準(zhǔn)確性和可擴(kuò)展性方面與Transformer不相上下,在COCO檢測和ADE20K分割方面取得了87.8%的ImageNet top-1準(zhǔn)確性,并超過了Swin Transformers,同時(shí)保持了標(biāo)準(zhǔn)ConvNets的簡單性和效率。
4. Hierarchical Text-Conditional Image Generation with CLIP Latents
論文鏈接:https://arxiv.org/abs/2204.06125
引用量:718
像CLIP這樣的對比式模型(Contrastive models)已經(jīng)被證明可以學(xué)習(xí)到穩(wěn)健的圖像表征,能夠捕捉到語義和風(fēng)格。
為了利用這些表征來生成圖像,研究人員提出了一個(gè)兩階段的模型:一個(gè)給定文本標(biāo)題生成CLIP圖像embedding的先驗(yàn),以及一個(gè)以圖像embedding為條件生成圖像的解碼器。
實(shí)驗(yàn)證明可以顯式地生成圖像表征能夠提高圖像的多樣性,在逼真度和標(biāo)題的相似性方面損失最小,并且以圖像表征為條件的解碼器也能產(chǎn)生圖像的變化,保留其語義和風(fēng)格,同時(shí)改變圖像表征中不存在的非必要細(xì)節(jié)。
此外,CLIP的聯(lián)合embedding空間使language-guided下的圖像操作能夠以zero-shot的方式進(jìn)行。
對解碼器使用擴(kuò)散模型,并對先驗(yàn)的自回歸和擴(kuò)散模型進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)后者在計(jì)算上更有效率,能夠生成質(zhì)量更高的樣本。
5. PaLM: Scaling Language Modeling with Pathways
論文鏈接:https://arxiv.org/pdf/2204.02311.pdf
引用量:426
大型語言模型已被證明在各種自然語言任務(wù)中使用few-shot學(xué)習(xí)即可達(dá)到更高的性能,極大地減少了使模型適應(yīng)特定應(yīng)用所需的特定任務(wù)訓(xùn)練實(shí)例的數(shù)量。
為了進(jìn)一步了解scale對few-shot學(xué)習(xí)的影響,研究人員訓(xùn)練了一個(gè)5400億參數(shù)、密集激活的Transformer語言模型Pathways Language Model(PaLM)。
使用Pathways(一個(gè)新的ML系統(tǒng),能夠在多個(gè)TPU Pods上進(jìn)行高效的訓(xùn)練)在6144個(gè)TPU v4芯片上訓(xùn)練得到PaLM,通過在數(shù)百個(gè)語言理解和生成基準(zhǔn)上取得最先進(jìn)的few-shot學(xué)習(xí)結(jié)果證明了scaling的好處。
在其中一些任務(wù)上,PaLM 540B實(shí)現(xiàn)了突破性的性能,在一套多步驟推理任務(wù)上超過了微調(diào)的最先進(jìn)水平,并在最近發(fā)布的BIG-bench基準(zhǔn)上超過了人類的平均性能。
大量的BIG-bench任務(wù)顯示了模型規(guī)模的不連續(xù)改進(jìn),也意味著當(dāng)規(guī)模擴(kuò)大到最大的模型時(shí),性能陡然提高。
PaLM在多語言任務(wù)和源代碼生成方面也有很強(qiáng)的能力,這一點(diǎn)也在一系列基準(zhǔn)測試中得到了證明。
此外,研究人員還對偏見和毒性進(jìn)行了全面的分析,并研究了與模型規(guī)模有關(guān)的訓(xùn)練數(shù)據(jù)記憶程度,最后討論了與大型語言模型有關(guān)的倫理考慮,并討論了潛在的緩解策略。
2022年國內(nèi)五強(qiáng)論文
1. Swin Transformer V2: Scaling Up Capacity and Resolution
論文鏈接:https://arxiv.org/pdf/2111.09883.pdf
代碼鏈接:https://github.com/microsoft/Swin-Transformer
引用量:266
大規(guī)模的NLP模型已經(jīng)被證明可以顯著提高語言任務(wù)的性能,而且沒有飽和的跡象,同時(shí)還展示了像人類一樣的驚人的few-shot能力。
這篇論文旨在探索計(jì)算機(jī)視覺中的大規(guī)模模型,解決了大型視覺模型訓(xùn)練和應(yīng)用中的三個(gè)主要問題,包括訓(xùn)練的不穩(wěn)定性,預(yù)訓(xùn)練和微調(diào)之間的分辨率差距,以及對有標(biāo)簽數(shù)據(jù)的需求。
研究人員提出了三種主要技術(shù):
1)一種與余弦注意相結(jié)合的殘差-后規(guī)范方法,以提高訓(xùn)練的穩(wěn)定性;
2)一種對數(shù)間隔的連續(xù)位置偏差方法,以有效地將使用低分辨率圖像預(yù)訓(xùn)練的模型轉(zhuǎn)移到具有高分辨率輸入的下游任務(wù)中;
3)一種自監(jiān)督的預(yù)訓(xùn)練方法SimMIM,以減少對大量標(biāo)記圖像的需求。
通過這些技術(shù),成功地訓(xùn)練了一個(gè)30億參數(shù)的Swin Transformer V2模型,這是迄今為止最大的稠密視覺模型,并使其能夠用高達(dá)1,536×1,536分辨率的圖像進(jìn)行訓(xùn)練。
在4個(gè)代表性的視覺任務(wù)上創(chuàng)造了新的性能記錄,包括ImageNet-V2圖像分類、COCO物體檢測、ADE20K語義分割和Kinetics-400視頻動(dòng)作分類。
同時(shí)可以注意到該訓(xùn)練比谷歌的十億級(jí)視覺模型中的訓(xùn)練效率要高得多,所消耗的有標(biāo)簽數(shù)據(jù)和訓(xùn)練時(shí)間要少40倍。
2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection
之前的研究采用了具有降維功能的無監(jiān)督機(jī)器學(xué)習(xí)來進(jìn)行網(wǎng)絡(luò)檢測,僅限于對高維和稀疏數(shù)據(jù)進(jìn)行魯棒的異常檢測。
大多數(shù)方法通常假設(shè)每個(gè)領(lǐng)域的參數(shù)是同質(zhì)的,具有特定的高斯分布,忽視了數(shù)據(jù)偏度的魯棒性測試。
論文鏈接:?https://www.sciencedirect.com/science/article/pii/S0306457321003162?
引用量:145
這篇論文提出使用連接到高斯混合模型(GMM)的無監(jiān)督集合自編碼器來適應(yīng)多個(gè)領(lǐng)域,無需考慮每個(gè)領(lǐng)域的偏度(skewness)。
在集成自編碼器的隱藏空間中,利用了基于注意力的潛在表征和重建的最小誤差的特征,使用期望最大化(EM)算法來估計(jì)GMM中的樣本密度,當(dāng)估計(jì)的樣本密度超過訓(xùn)練階段獲得的學(xué)習(xí)閾值時(shí),該樣本被識(shí)別為與異常有關(guān)的離群點(diǎn)。
最后,對集成自編碼器和GMM進(jìn)行聯(lián)合優(yōu)化,將目標(biāo)函數(shù)的優(yōu)化轉(zhuǎn)化為拉格朗日對偶問題,在三個(gè)公共數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)驗(yàn)證了所提出的模型的性能與所選擇的異常檢測基線相比有明顯競爭力。
論文共同一作為來自寧波工程學(xué)院的安鵬教授和同濟(jì)大學(xué)的Zhiyuan Wang。
安鵬教授目前是寧波工程學(xué)院電子與信息工程學(xué)院副院長,2000年至2009年就讀于清華大學(xué)工程物理系,獲工學(xué)學(xué)士學(xué)位、工學(xué)博士學(xué)位;歐洲核子研究中心、意大利國家帕多瓦大學(xué)、德國海德堡大學(xué)訪問學(xué)者,中國自動(dòng)化學(xué)會(huì)認(rèn)知計(jì)算與系統(tǒng)專業(yè)委員會(huì)委員、中國人工智能學(xué)會(huì)認(rèn)知系統(tǒng)與信息處理專業(yè)委員會(huì)委員、中國指揮與控制學(xué)會(huì)青年工作委員會(huì)委員;主持并參與國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)、國家自然科學(xué)基金、國家星火計(jì)劃項(xiàng)目等多項(xiàng)科研項(xiàng)目。
3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs
論文鏈接:https://arxiv.org/abs/2203.06717
代碼鏈接:https://github.com/megvii-research/RepLKNet
引用量:127
文中回顧了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的大核設(shè)計(jì)。
受視覺Transformer(ViTs)最新進(jìn)展的啟發(fā),該論文證明了使用幾個(gè)大的卷積內(nèi)核代替一堆小的內(nèi)核可能是一個(gè)更強(qiáng)大的范例。
研究人員提出了五個(gè)指導(dǎo)方針,例如,應(yīng)用重新參數(shù)化的大深度卷積,來設(shè)計(jì)高效的高性能大內(nèi)核 CNN。
根據(jù)這些指導(dǎo)方針提出了RepLKNet,一個(gè)純粹的 CNN 架構(gòu),其內(nèi)核大小為31x31,與通常使用的3x3形成對比,RepLKNet 極大地縮小了 CNN 和 ViTs 之間的性能差距,例如在 ImageNet 和一些典型的下游任務(wù)上,以較低的延遲實(shí)現(xiàn)了與 Swin Transformer 相當(dāng)或更好的結(jié)果。
RepLKNet 對大數(shù)據(jù)和大模型也表現(xiàn)出很好的可擴(kuò)展性,在 ImageNet 上獲得了87.8% 的最高準(zhǔn)確率,在 ADE20K 上獲得了56.0% 的 mIoU,在具有類似模型大小的最先進(jìn)技術(shù)中是非常有競爭力的。
該研究進(jìn)一步表明,與小核 CNN 相比,大核 CNN 具有更大的有效接收場(receptive fields)和更高的形狀偏差,而不是紋理偏差。
4. TensoRF: Tensorial Radiance Fields
論文鏈接:https://arxiv.org/abs/2203.09517
引用量:110
文中提出了TensoRF,一種對輻射場(radiance fields)進(jìn)行建模和重構(gòu)的新方法。
與純粹使用MLP的NeRF不同,研究人員將場景的輻射場建模為一個(gè)4D張量,代表了一個(gè)具有每體素多通道特征(per-voxel multi-channel features)的三維體素網(wǎng)格,其中心思想是將4D場景張量分解為多個(gè)緊湊的低秩張量成分。
證明了在該框架中應(yīng)用傳統(tǒng)的CP分解,將張量分解為具有緊湊向量的rank-one components會(huì)獲得比普通的NeRF更好的性能。
為了進(jìn)一步提高性能,文中還引入了一種新的矢量-矩陣(VM)分解,放松了張量的兩種模式的低秩約束,并將張量分解為緊湊的矢量和矩陣因子。
除了更好的渲染質(zhì)量,該模型與CP和VM分解相比,直接優(yōu)化每象素特征的先前和同時(shí)進(jìn)行的工作導(dǎo)致了顯著的內(nèi)存占用。
實(shí)驗(yàn)證明,與NeRF相比,采用CP分解的TensoRF實(shí)現(xiàn)了快速重建(<30分鐘),具有更好的渲染質(zhì)量,甚至更小的模型尺寸(<4MB)。
此外,采用VM分解的TensoRF進(jìn)一步提高了渲染質(zhì)量,并超過了以前最先進(jìn)的方法,同時(shí)減少了重建時(shí)間(<10分鐘)并保留了緊湊的模型大小(<75 MB)。
5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
論文鏈接:https://arxiv.org/abs/2203.12602
代碼鏈接:https://github.com/MCG-NJU/VideoMAE
引用量:100
為了在相對較小的數(shù)據(jù)集上實(shí)現(xiàn)更高的性能,通常需要在額外的大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練視頻Transformer。
這篇論文表明視頻掩碼自動(dòng)編碼器(VideoMAE)是用于自監(jiān)督視頻預(yù)訓(xùn)練(SSVP)的數(shù)據(jù)高效學(xué)習(xí)器。
受到最近的ImageMAE的啟發(fā),研究人員提出了具有極高掩碼比例的定制視頻管(video tube),這種簡單的設(shè)計(jì)使視頻重建成為一項(xiàng)更具挑戰(zhàn)性的自監(jiān)督任務(wù),從而鼓勵(lì)在這個(gè)預(yù)訓(xùn)練過程中提取更有效的視頻表征。
在SSVP上獲得了三個(gè)重要的發(fā)現(xiàn):
(1)極高比例的掩碼率(即90%到95%)仍然能產(chǎn)生VideoMAE的有利表現(xiàn)。時(shí)間上冗余的視頻內(nèi)容使得掩蔽率比圖像更高。
(2) VideoMAE在非常小的數(shù)據(jù)集(即大約3k-4k的視頻)上取得了非常高的性能,而沒有使用任何額外的數(shù)據(jù)。
(3) VideoMAE表明,對于SSVP來說,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更重要。
預(yù)訓(xùn)練和目標(biāo)數(shù)據(jù)集之間的領(lǐng)域遷移是一個(gè)重要問題。
值得注意的是,VideoMAE與普通的ViT可以在Kinetics-400上達(dá)到87.4%,在Something-Something V2上達(dá)到75.4%,在UCF101上達(dá)到91.3%,在HMDB51上達(dá)到62.6%,而無需使用任何額外的數(shù)據(jù)。
完整百強(qiáng)論文列表