Nature警告:AI「數(shù)據(jù)饑渴癥」引爆學(xué)術(shù)宕機(jī)潮!90%知識(shí)庫瀕臨崩盤
假如一個(gè)平日里寧靜的圖書館,突然涌入一大群不速之客,他們不閱覽、不沉思,只是一味地瘋狂復(fù)印每一本書的每一頁。
這喧囂吵鬧的場面,怎能不打擾那些正埋首書海、專心閱讀的人們呢?
如今,學(xué)術(shù)網(wǎng)站正遭遇類似的「數(shù)字入侵」。
就在近日,Nature發(fā)表文章詳細(xì)揭露了這些行為。

文章地址:https://www.nature.com/articles/d41586-025-01661-4
數(shù)字「蝗災(zāi)」席卷學(xué)術(shù)界
DiscoverLife是一個(gè)在線圖像庫,擁有近300萬張珍貴的物種照片,是很多生物學(xué)家的科研生命線。

然而,從今年2月開始,該網(wǎng)站每天都被數(shù)百萬次異常訪問淹沒,頁面加載緩慢,甚至徹底癱瘓。
當(dāng)你試圖打開一張稀有昆蟲的圖片時(shí),卻只能面對(duì)「服務(wù)器繁忙」的提示。
罪魁禍?zhǔn)资钦l?
不是黑客,也不是病毒,而是一群悄無聲息的AI爬蟲,正在瘋狂「啃食」數(shù)據(jù),為生成式人工智能「喂食」。
這些大量抓取數(shù)據(jù)的爬蟲,正困擾學(xué)術(shù)出版商與研究人員,尤其是運(yùn)營期刊論文、數(shù)據(jù)庫和其他資源網(wǎng)站的人。
「現(xiàn)在的情況就像是西部大荒野,」PSI公司的首席執(zhí)行官Andrew Pitts說。該公司為學(xué)術(shù)交流界提供經(jīng)過驗(yàn)證的全球IP地址庫,位于英國牛津。
「最大的問題是訪問量實(shí)在是太大了,給系統(tǒng)帶來了巨大的壓力。這不僅耗費(fèi)資金,還干擾了真正的用戶?!?/span>
那些運(yùn)營受到影響的網(wǎng)站正在想方設(shè)法阻止這些爬蟲機(jī)器人,減少他們?cè)斐傻母蓴_。
但這絕非易事。特別是對(duì)資源有限的小機(jī)構(gòu)來說。
「如果這些問題得不到解決,一些小型機(jī)構(gòu)可能會(huì)徹底消失?!沟聡箞D加特國家自然歷史博物館的動(dòng)物學(xué)家Michael Orr表示。
爬蟲程序泛濫
互聯(lián)網(wǎng)爬蟲并非新生事物。
幾十年來,谷歌等搜索引擎的爬蟲一直在掃描網(wǎng)頁,助力信息檢索。
然而,生成式AI的崛起引發(fā)了「壞爬蟲」的洪流。
今年,位于倫敦的醫(yī)學(xué)期刊出版商BMJ發(fā)現(xiàn),其網(wǎng)站上的爬蟲機(jī)器人流量已經(jīng)超過了真實(shí)用戶的流量。
BMJ的首席技術(shù)官Ian Mulvany表示,這些機(jī)器人激進(jìn)的行為導(dǎo)致服務(wù)器超載,正??蛻舻姆?wù)也因此中斷。

不只BMJ,Highwire Press(專攻學(xué)術(shù)出版的互聯(lián)網(wǎng)托管服務(wù)提供商)的服務(wù)交付總監(jiān)Jes Kainth直言:「我們觀察到壞爬蟲的流量激增,這已成為嚴(yán)重的問題。」
開放獲取知識(shí)庫聯(lián)合會(huì)(COAR)在四月份的報(bào)告中指出,在其調(diào)查的66個(gè)成員中,超過90%的成員表示曾遭遇AI爬蟲抓取內(nèi)容。
其中大約三分之二的成員因此經(jīng)歷了服務(wù)中斷。
COAR執(zhí)行主任Kathleen Shearer表示:「我們的知識(shí)庫是開放獲取的,所以某種程度上我們歡迎內(nèi)容被再利用。但有些爬蟲過于激進(jìn),正造成宕機(jī)等嚴(yán)重運(yùn)營問題?!?/span>

為何盯上學(xué)術(shù)網(wǎng)站?
數(shù)據(jù)是新石油。
這句話在AI時(shí)代被演繹得淋漓盡致。
LLM、圖像生成器這些AI工具依賴海量高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,而學(xué)術(shù)網(wǎng)站(期刊論文、數(shù)據(jù)庫、開放知識(shí)庫)成了「金礦」。
因?yàn)檫@些網(wǎng)站內(nèi)容權(quán)威、新鮮,且往往結(jié)構(gòu)化良好。
正如網(wǎng)絡(luò)服務(wù)提供商Cloudflare副總裁Will Allen所言:「如果你的內(nèi)容新穎或相關(guān)度高,對(duì)構(gòu)建AI聊天機(jī)器人的開發(fā)者來說就是無價(jià)之寶?!?/span>
這些爬蟲往往通過匿名IP地址行動(dòng),繞過付費(fèi)墻,甚至無視網(wǎng)站設(shè)置的robots.txt文件(用于規(guī)范爬蟲行為)。
Wiley出版社的高級(jí)副總裁Josh Jarrett表示,他們發(fā)現(xiàn)爬蟲試圖獲取訂閱內(nèi)容。4月,Wiley還發(fā)布聲明,強(qiáng)調(diào)未經(jīng)授權(quán)的非法爬取不可接受。
但精明的壞爬蟲非常擅長繞過付費(fèi)墻。
危機(jī)下的掙扎
面對(duì)爬蟲洪流,學(xué)術(shù)網(wǎng)站在奮力自救。
但在許多情況下,限制機(jī)器人訪問而不影響正常用戶十分的困難。
一種常見的方法是集成一個(gè)文件,告知機(jī)器人哪些行為被允許或禁止。
但壞爬蟲往往無視規(guī)則。
另一種方法是全面封禁所有爬蟲類似的行為,但這種一刀切的行為又可能誤傷合法用戶。
Mulvany解釋說,學(xué)者常通過代理服務(wù)器訪問期刊(這意味著大量請(qǐng)求可能來自同一個(gè)IP地址),這種訪問方式很像是機(jī)器人行為。
「我們得找到一個(gè)平衡點(diǎn),既要保護(hù)網(wǎng)站不被流量激增搞崩,又不能影響用戶正常訪問這些資源?!筂ulvany表示。
「這事真挺煩人的,得花不少精力來減少這些風(fēng)險(xiǎn)。」
這些網(wǎng)站也可以屏蔽掉特定的爬蟲程序,但需要首先區(qū)分善意和惡意爬蟲。
Cloudflare和PSI公司正努力識(shí)別壞爬蟲,但新型AI爬蟲層出不窮,難以完全遏制。
「我們急需國際上達(dá)成關(guān)于AI公平使用和尊重這類資源的協(xié)議?!筄rr表示。
「否則,長遠(yuǎn)來看,這些工具將找不到可用的訓(xùn)練資源?!?/span>

































