AI論文激增,出現(xiàn)引用10萬+的ResNet是好是壞?這研究有結(jié)論了
一周前,計算機(jī)視覺領(lǐng)域經(jīng)典之作、何愷明的 ResNet 論文的被引次數(shù)突破了 10 萬 +,而這距離他提交這篇論文僅過去六年。這一工作的熱度如此之高,既顯示出了 ResNet 本身的久經(jīng)考驗,也印證了 AI 領(lǐng)域,特別是計算機(jī)視覺如今的火熱程度。
然而,ResNet 高被引的背后也讓我們看到了一個問題,那就是計算機(jī)視覺領(lǐng)域每年產(chǎn)出那么多的新論文,為何研究者往往還是選擇它作為引文呢?對高被引經(jīng)典論文的趨向性究竟會給領(lǐng)域帶來進(jìn)步還是停滯呢?新發(fā)表的論文是否還有可能成為下一個經(jīng)典之作呢?
在近日發(fā)表在 SCI 期刊 PNAS 上的一篇論文《Slowed Canonical Progress in Large Fields of Science》中,來自美國西北大學(xué)和芝加哥大學(xué)的兩位研究者對上述問題進(jìn)行了解答,并深入探討了科學(xué)領(lǐng)域發(fā)表論文的數(shù)量、質(zhì)量以及被引情況之間的錯綜復(fù)雜的關(guān)聯(lián)。
論文地址:https://www.pnas.org/content/pnas/118/41/e2021636118.full.pdf
對科學(xué)進(jìn)步有種很直接的觀點(diǎn),那就是多多益善。一個領(lǐng)域發(fā)表的論文越多,科學(xué)進(jìn)步的速度就越快;研究者數(shù)量越多,覆蓋的面就越廣。即使并非每篇論文都產(chǎn)生重大的影響,但它們都成為了聚成沙堆的沙粒,增加了出現(xiàn)質(zhì)變的可能性。在這一過程中,科學(xué)景觀得到了重新配置,結(jié)構(gòu)性探究中出現(xiàn)了新的范式。
更多論文的發(fā)表也增加了「它們之中至少有一篇包含重要創(chuàng)新」的可能性。一個顛覆性的全新想法可以動搖現(xiàn)狀,將人們的注意力從以往工作中吸引過來,并獲得大量的新引用。
領(lǐng)域內(nèi)流行的政策很好地反映了這種多多益善的觀點(diǎn)。人們會根據(jù)學(xué)者的生產(chǎn)力對他們進(jìn)行評估和獎勵,一段時間內(nèi)發(fā)表更多的論文是他們獲得終身教職和職位晉升的最可靠途徑。數(shù)量仍是大學(xué)和公司展開比較的標(biāo)桿,其中發(fā)表作品、專利、科學(xué)家和經(jīng)費(fèi)的總量仍是重中之重。
質(zhì)量也主要通過數(shù)量進(jìn)行判斷。被引次數(shù)用來衡量一個領(lǐng)域內(nèi)個人、團(tuán)隊和學(xué)術(shù)期刊的重要性。在論文層面,人們往往假定最好和最優(yōu)價值的論文會吸引更多的關(guān)注,從而塑造了該領(lǐng)域的研究軌跡。
在文中,他們預(yù)測,當(dāng)每年發(fā)表論文的數(shù)量非常大時,新論文的快速流動會迫使學(xué)界關(guān)注那些被廣泛引用的論文,由此減少了對不太成熟的論文的關(guān)注,即使它們當(dāng)中有些提出了新穎、有用和具有潛在變革性的想法。大量新發(fā)表論文的出現(xiàn)并沒有引起領(lǐng)域范式的更快更迭,反而鞏固了那些高引用量的論文,阻止新工作成為被引用最多且廣為人知的領(lǐng)域經(jīng)典之作。
研究者通過實驗分析驗證了這些觀點(diǎn),表明了科研單位對數(shù)量的關(guān)注可能阻礙基礎(chǔ)性進(jìn)步。隨著每個領(lǐng)域每年所發(fā)表作品的持續(xù)增長,這種不利影響將加劇。并且,考慮到推動「發(fā)表數(shù)量至上」領(lǐng)域認(rèn)知的根深蒂固、錯綜復(fù)雜的結(jié)構(gòu),這種情況將不可避免。重構(gòu)科學(xué)生產(chǎn)力價值鏈的政策措施需要進(jìn)行調(diào)整,以使大眾重新聚焦于那些有潛力的新想法。
這篇文章主要講了啥?
本文重點(diǎn)研究了領(lǐng)域大小,即給定的一年內(nèi)某個領(lǐng)域發(fā)表論文數(shù)量的多少產(chǎn)生的影響。以往的研究發(fā)現(xiàn),很多學(xué)科的引用不平等現(xiàn)象正在加劇,至少部分受到了偏好的影響。然而,一篇論文往往無法在過去幾年保持它們的引用水平和排名。顛覆性論文能夠取代以往的工作,被引次數(shù)的自然波動也會影響論文排名。
因而,研究者預(yù)測,當(dāng)領(lǐng)域足夠大時,變革動力會出現(xiàn)變化。引用最多的論文將根深蒂固,在未來獲得不成比例的引用量。新論文無法通過偏好依附積累引用數(shù),也就不可能成為經(jīng)典。新發(fā)表的論文很少能夠?qū)σ殉尚偷膶W(xué)術(shù)桎梏產(chǎn)生影響。
他們給出了支撐以上預(yù)測的兩個機(jī)制。一方面,當(dāng)一個領(lǐng)域短時間內(nèi)發(fā)表了很多論文時,學(xué)者不得不訴諸于啟發(fā)式方法來對該領(lǐng)域進(jìn)行持續(xù)性的理解。認(rèn)知超載的評審人和讀者在讀新論文時不考慮里面的新想法,只會將它們與現(xiàn)有的范例論文聯(lián)系起來。不符合現(xiàn)有模式的新想法有極大可能不會被發(fā)表、閱讀或引用。
面對這種變革動力,論文作者不得不牢牢地將他們的工作與知名論文聯(lián)系起來。這些知名論文充當(dāng)起了「知識徽章」,界定了如何理解新工作,不鼓勵他們研究太過新穎且不易于與現(xiàn)有經(jīng)典之作聯(lián)系起來的想法。這樣一來,突破性新想法的產(chǎn)生以及被發(fā)表和廣泛閱讀的概率下降,并且每一篇新論文的發(fā)表也將不成比例地增加高被引論文的引用量。
另一方面,如果新想法的到來速度太快,它們之間的競爭可能會阻礙任何新想法在領(lǐng)域內(nèi)廣為人知和廣泛接受。至于為什么會這樣呢?研究者以某個領(lǐng)域中傳播想法的沙堆模型為例進(jìn)行解讀。
當(dāng)沙子慢慢落在沙堆上時,一次一粒,等到沙堆運(yùn)動停止時再落下一粒。隨著時間推移,沙堆達(dá)到了無標(biāo)度臨界狀態(tài),其中一粒沙子都能夠引起整個沙堆區(qū)域的崩塌。但當(dāng)沙子以極快的速度落下時,相鄰的小型崩塌會相互干擾,導(dǎo)致任何一粒沙子都無法觸發(fā)沙堆范圍內(nèi)的位移。這意味著,沙子掉落的速度越快,每個新沙粒能夠影響的區(qū)域就越小。論文也一樣,如果論文出現(xiàn)的速度太快,則任何一篇新論文都無法通過局部擴(kuò)散和偏好依附成為經(jīng)典。
這兩方面的論點(diǎn)衍生出了六個預(yù)測,其中兩個分別是最高引的論文將長期處于主導(dǎo)地位以及新發(fā)表論文的徒勞無功和它們自身顛覆性的降低。
總之,相較于一個領(lǐng)域每年發(fā)表的論文很少,當(dāng)該領(lǐng)域每年產(chǎn)出的論文很多時,則將面臨以下六種情況:
- 新論文將更有可能引用最高引的論文而不是低引用的論文;
- 每年最高引的論文列表幾乎不會出現(xiàn)變化,導(dǎo)致經(jīng)典論文始終是那些;
- 一篇新論文成為經(jīng)典之作的概率將下降;
- 進(jìn)入高引用論文列表的新論文不會通過循序累積的傳播方式實現(xiàn);
- 新發(fā)表論文中發(fā)展現(xiàn)有科研想法的比例增加,而顛覆現(xiàn)有想法的比例下降;
- 一篇新論文成為顛覆性工作的概率降低。
用到了哪些數(shù)據(jù)與方法?
研究者使用 Web of Science 數(shù)據(jù)集,分析了1960 至 2014 年間發(fā)表的論文,共計 90,637,277 篇論文和 1,821,810,360 個引用。Web of Science 將學(xué)術(shù)領(lǐng)域,或者某些情況下大的子領(lǐng)域,劃分為不同的學(xué)科。因此,研究者的分類中共有 241 個學(xué)科,并將它們作為領(lǐng)域級分析的基礎(chǔ)。其中,一篇焦點(diǎn)論文每年從同一主題新發(fā)表論文中收到的被引次數(shù)構(gòu)成了研究者主要的興趣變量。
為了計算 10 個最大的非綜合學(xué)科(non-multidisciplinary)學(xué)科的 1-decay rate(λ),對于每個學(xué)科,研究者以發(fā)表論文數(shù)量的 10 log 劃分年份,截點(diǎn)分別為 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5,并以 field-year 中被引最多的百分位劃分論文年份,截點(diǎn)分別為 1, 2, 3, …, 100。對于每個(發(fā)表論文的記錄數(shù)量)×(引用數(shù)百分位),他們將第二年一篇論文的被引次數(shù)回歸到焦點(diǎn)年份論文的被引次數(shù)。這一回歸的系數(shù)產(chǎn)生 1-λ。
此外,為了計算所有學(xué)科的 1-λ(圖下圖 2D 所示),研究者選取了第 1、2、5、10 和 25 個百分位數(shù)中被引最多的前 100 篇論文。他們通過發(fā)表論文數(shù)量的 base 10 log(截點(diǎn)分別為 1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5 和 5.5)對 subject-years 進(jìn)行分類。對于每個 bin× 選取的百分位,研究者將第二年一篇論文的被引次數(shù)回歸到焦點(diǎn)年份論文的被引次數(shù)。這一回歸的系數(shù)產(chǎn)生 1–λ。
這些預(yù)測得到證實了嗎?
研究者的所有預(yù)測都在 Web of Science 數(shù)據(jù)集的引用模式中得到了證實,具體如下圖 1 至 4 所示。隨著領(lǐng)域變得越來越多,被引次數(shù)最多的論文始終成為主導(dǎo),在引用分布上占據(jù)絕對優(yōu)勢。相比之下,新論文成為高引的可能性降低,并且無法隨時間推移而逐漸累積關(guān)注度。發(fā)表論文往往在發(fā)展現(xiàn)有想法,而不具備顛覆性,也很少能夠產(chǎn)生具有開拓性的新的研究潮流。
具體而言,被引次數(shù)最多的論文在更大的領(lǐng)域獲得了不成比例的更高的引用份額。最大領(lǐng)域引用份額的基尼系數(shù)約為 0.5,如下圖 1A 所示。高引論文不成比例的被引次數(shù)又導(dǎo)致不平等關(guān)注的加劇。
例如,當(dāng)電氣與電子工程領(lǐng)域每年發(fā)表 10,000 篇論文左右時,前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 1.5% 和 8.6%。當(dāng)該領(lǐng)域每年發(fā)表 50,000 篇論文時,前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 3.5% 和 11.9%。當(dāng)該領(lǐng)域規(guī)模更大,每年發(fā)表 100,000 篇論文時,前 0.1% 和前 1% 高被引論文占了總被引次數(shù)的 5.7% 和 16.7%。
相比之下,排名最后 50% 的被引最少論文在總被引次數(shù)中所占份額下降,每年發(fā)表 10,000 篇論文時的占比為 43.7%,每年發(fā)表論文達(dá)到 50,000 和 100,000 時,這一比例僅略高于 20%。
當(dāng)跨越時間查看領(lǐng)域數(shù)據(jù)時,我們會發(fā)現(xiàn)存在這樣的模式:當(dāng)每年發(fā)表的論文數(shù)量較多時,被引用最多的 top-50 論文之間的排名相關(guān)性增加(圖. 1B)。在隨后幾年斯皮爾曼排名相關(guān)性中,在一個領(lǐng)域中被引用最多的 top-50 列表從發(fā)表 1,000 篇論文時的 0.25 增加到 100,000 篇論文時的 0.74。
圖 1
當(dāng)領(lǐng)域范圍很廣時,被引用最多的論文的被引次數(shù)保持逐年增長,而所有其他論文的被引次數(shù)都會下降。下圖 2 為論文當(dāng)年與上一年被被引次數(shù)的預(yù)測比率。在論文發(fā)表很少的年份,被被引次數(shù)最多的論文的比率明顯低于 1,與被被引次數(shù)較少的論文的比率沒有太大區(qū)別。然而,在發(fā)表論文數(shù)量較多的年份,被被引次數(shù)最多的論文的比率接近 1,明顯高于被被引次數(shù)少的論文。
在非常大的領(lǐng)域年中,發(fā)表了大約 100,000 篇論文,平均而言,被引用最多的論文的被引次數(shù)沒有逐年下降。相比之下,排名在 top 1% 之外的論文,平均每年損失約 17% 的被引次數(shù),而處于 top 5% 及以下的論文則趨向于每年損失 25% 的被引次數(shù)。
圖 2
當(dāng)同一領(lǐng)域同時發(fā)表許多論文時,單篇論文的引用量達(dá)到 top 0.1% 的可能性會減少,這種現(xiàn)象在同一年的不同領(lǐng)域或不同年的同一領(lǐng)域都適用,如圖 3A 所示。一般來說,較大領(lǐng)域論文被引用最多,很少是通過局部擴(kuò)散等過程完成。
圖 3B 顯示了一篇文章進(jìn)入相關(guān)領(lǐng)域的平均時間(以年為單位),條件是該論文成為該領(lǐng)域中被引次數(shù)最多的論文之一。當(dāng)一個領(lǐng)域很小時,論文會隨著時間的推移緩慢上升到被被引次數(shù)最多的 top 0.1%。我們以 1980 年在小領(lǐng)域(回歸預(yù)測)發(fā)表的論文為例,假如同一領(lǐng)域發(fā)表了 1000 篇論文,想要成為被引用最多的論文,平均需要 9 年時間。相比之下,在最大領(lǐng)域經(jīng)典論文會迅速登上引用榜首,這與學(xué)者通過閱讀他人著作中引用的參考資料發(fā)現(xiàn)新著作的累積過程不一致。同樣的回歸預(yù)測,在每年發(fā)表 100,000 篇論文的大領(lǐng)域中,論文達(dá)到引用量 top 0.1% 的時間平均不到一年。
圖 3
同一年發(fā)表的大多數(shù)論文都建立在現(xiàn)有文獻(xiàn)的基礎(chǔ)上,而不是中斷(disrupt)現(xiàn)有文獻(xiàn)(圖 4A)。邏輯擬合預(yù)測顯示,當(dāng)該領(lǐng)域一年發(fā)表 1,000 篇論文時,49% 的論文具有中斷度量(disruption measure) D > 0(相反,51% D < 0)。當(dāng)發(fā)表 10,000 篇論文時,中斷度量比例下降到 27%,發(fā)表 100,000 篇論文時下降到 13%。即使當(dāng) D > 0 時,新發(fā)表論文的中斷度量在更大的領(lǐng)域中也會減弱。圖 4B 顯示了按領(lǐng)域年排列的新論文比例,這些論文在中斷度量的 top-5 百分位中排名。Lowess 估計顯示,具有 top-5 百分位中斷度量的新論文比例從該領(lǐng)域年發(fā)表的 1,000 篇論文時的 8.8% 減少到每年 10,000 篇論文時的 3.6% 和 100,000 篇論文時的 0.6%。
圖 4