「AI數(shù)據(jù)荒」雪上加霜!MIT:網(wǎng)頁數(shù)據(jù)的公開共享正走向衰落
隨著GenAI產(chǎn)品開發(fā)和研究變得越來越廣泛,訓(xùn)練數(shù)據(jù)的抓取許可也越來越成為受關(guān)注的話題。
最近,吳恩達(dá)在網(wǎng)站The Batch上提及了一篇有關(guān)數(shù)據(jù)許可的研究,其結(jié)果似乎讓本就迫近的「AI數(shù)據(jù)荒」雪上加霜。
研究人員發(fā)現(xiàn),C4、RefineWeb、Dolma等開源數(shù)據(jù)集所爬取的各種網(wǎng)站正在快速在收緊他們的許可協(xié)議,曾經(jīng)觸手可及的開放數(shù)據(jù)越來越難以獲取。
這不僅會影響商用AI模型的訓(xùn)練,也會對學(xué)術(shù)界和非營利機(jī)構(gòu)的研究造成阻礙。
該項(xiàng)目的4位團(tuán)隊主管分別來自MIT Media Lab、Wellesley學(xué)院、AI初創(chuàng)公司Raive等機(jī)構(gòu)。
論文地址:https://www.dataprovenance.org/consent-in-crisis-paper
主持該研究的是非營利組織The Data Provenance Initiative,由來自世界各地的AI研究人員志愿加入組成。論文所涉及的數(shù)據(jù)標(biāo)注以及分析全過程已經(jīng)全部公開在GitHub上,方便未來研究參考使用。
倉庫地址:https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection
具體來說,論文主要有以下幾個方面的結(jié)論:
- 對AI數(shù)據(jù)共享空間的限制正在激增
2023.4~2024.4僅一年的時間,C4、RefineWeb、Dolma數(shù)據(jù)集中就有5%+的token總量、25%+的關(guān)鍵網(wǎng)頁在robots.txt做出了限制。
從服務(wù)條款的結(jié)果來看,C4數(shù)據(jù)集的45%已被限制。通過這種趨勢可以預(yù)測,不受限制的開放網(wǎng)絡(luò)數(shù)據(jù)將會逐年減少。
- 許可的不對稱性與不一致性
相比其他的開發(fā)者,OpenAI的爬蟲更加不受歡迎。不一致性體現(xiàn)在,robots.txt和服務(wù)條款(Terms of Service, ToS)中經(jīng)常存在矛盾之處。這表明用于傳達(dá)數(shù)據(jù)使用意圖的工具存在效率低下的問題。
- 從網(wǎng)絡(luò)爬取的公開訓(xùn)練語料中,頭尾內(nèi)容的特征存在差異
這些語料中有相當(dāng)高比例的用戶生成內(nèi)容、多模態(tài)內(nèi)容和商業(yè)變現(xiàn)內(nèi)容(俗稱帶貨廣告),敏感或露骨內(nèi)容的比例僅僅略少一些。
排名靠前的網(wǎng)站域名包括新聞、百科和社交媒體網(wǎng)站,其余的組織機(jī)構(gòu)官網(wǎng)、博客和電子商務(wù)網(wǎng)站構(gòu)成了長尾部分。
- 網(wǎng)絡(luò)數(shù)據(jù)與對話式AI的常見用例的不匹配
網(wǎng)絡(luò)上爬取的相當(dāng)一部分?jǐn)?shù)據(jù)與AI模型的訓(xùn)練用途并不一致,這對模型對齊、未來的數(shù)據(jù)收集實(shí)踐以及版權(quán)都會造成影響。
研究方法
通常來說,限制網(wǎng)頁爬蟲的措施有以下兩種:
- 機(jī)器人排除協(xié)議(Robots Exclusion Protocol, REP)
- 網(wǎng)站的服務(wù)條款(Terms of Service, ToS)
REP的誕生還要追溯到AI時代之前的1995年,這個協(xié)議要求在網(wǎng)站源文件中包含robots.txt以管理網(wǎng)絡(luò)爬蟲等機(jī)器人的活動,比如用戶代理(user agent)或具體文件的訪問權(quán)限。
谷歌開發(fā)者網(wǎng)站上的robots.txt文件示例
你可以將robots.txt的效力視為張貼在健身房、酒吧或社區(qū)中心墻上的「行為準(zhǔn)則」標(biāo)志。它本身沒有任何強(qiáng)制效力,好的機(jī)器人會遵循準(zhǔn)則,但壞的機(jī)器人可以直接無視。
論文共調(diào)查了3個數(shù)據(jù)集的網(wǎng)站來源,具體如表1所示。這些都是有廣泛影響力的開源數(shù)據(jù)集,下載量在100k~1M+不等。
每個數(shù)據(jù)來源,token總量排名前2k的網(wǎng)站域名,取并集,共整理出3.95k個網(wǎng)站域名,記為HEADAll,其中僅來源于C4數(shù)據(jù)集的記為HEADC4,可以看作是體量最大、維護(hù)最頻繁、最關(guān)鍵領(lǐng)域的AI訓(xùn)練數(shù)據(jù)來源。
隨機(jī)采樣10k個域名(RANDOM10k),其中再隨機(jī)選取2k個進(jìn)行人工標(biāo)注(RANDOM2k)。RANDOM10k僅從三個數(shù)據(jù)集的域名交集中采樣,這意味著他們更可能是質(zhì)量較高的網(wǎng)頁。
如表2所示,對RANDOM2k進(jìn)行人工標(biāo)注時涵蓋了許多方面,包括內(nèi)容的各種屬性以及訪問權(quán)限。為了進(jìn)行時間上的縱向比對,作者參考了Wayback Machine收錄的網(wǎng)頁歷史數(shù)據(jù)。
研究所用的人工標(biāo)注內(nèi)容都已公開,方便未來研究進(jìn)行復(fù)現(xiàn)。
結(jié)果概述
數(shù)據(jù)限制增加
除了收集歷史數(shù)據(jù),論文還使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)對未來趨勢進(jìn)行了預(yù)測。
從robots.txt的限制來看,從GPTBot出現(xiàn)(2023年中期)后,進(jìn)行完全限制的網(wǎng)站數(shù)量激增,但服務(wù)條款的限制數(shù)量增長較為穩(wěn)定且均衡,更多關(guān)注商業(yè)用途。
根據(jù)SARIMA模型的預(yù)測,無論是robots.txt還是ToS,這種限制數(shù)增長的趨勢都會持續(xù)下去。
下面這種圖計算了網(wǎng)站限制的特定組織或公司的agent比例,可以看到OpenAI的機(jī)器人遙遙領(lǐng)先,其次是Anthropic、谷歌以及開源數(shù)據(jù)集Common Crawl的爬蟲。
從token數(shù)量的角度,也能看到類似的趨勢。
不一致且無效的AI許可
不同組織的AI agent的在各網(wǎng)站上的許可程度存在相當(dāng)大的差異。
OpenAI、Anthropic和Common Crawl的受限占比位列前三,都達(dá)到了80%以上,而網(wǎng)站所有者對Internet Archive或谷歌搜索這類非AI領(lǐng)域的爬蟲通常都比較寬容開放。
robots.txt主要用于規(guī)范網(wǎng)頁爬蟲的行為,而網(wǎng)站的服務(wù)條款是和使用者之間的法律協(xié)議,前者較為機(jī)械化、結(jié)構(gòu)化但可執(zhí)行度高,后者能表達(dá)更豐富、細(xì)微的策略。
二者本應(yīng)相互補(bǔ)足,但在實(shí)際中,robots.txt常常無法捕捉到服務(wù)條款的意圖,甚至常常有互相矛盾的含義(圖3)。
現(xiàn)實(shí)用例與網(wǎng)頁數(shù)據(jù)的不匹配
論文將網(wǎng)頁內(nèi)容與WildChat數(shù)據(jù)集中的問題分布進(jìn)行對比,這是最近收集的ChatGPT的用戶數(shù)據(jù),包含約1M份對話。
從圖4中可以發(fā)現(xiàn),二者的差別十分顯著。網(wǎng)頁數(shù)據(jù)中占比最大的新聞和百科在用戶數(shù)據(jù)中幾乎微不足道,用戶經(jīng)常使用的虛構(gòu)寫作功能在網(wǎng)頁中也很難找到。
討論與結(jié)論
近來,很多AI公司都被指責(zé)繞過robots.txt來抓取網(wǎng)頁數(shù)據(jù)。盡管很難確認(rèn),但似乎AI系統(tǒng)很難將用于訓(xùn)練的數(shù)據(jù)和推理階段用于回答用戶提問的數(shù)據(jù)分開。
REP協(xié)議的復(fù)雜性給網(wǎng)頁創(chuàng)建者帶來了很大的壓力,因?yàn)樗麄兒茈y對所有可能的agent及其下游用例做出細(xì)致規(guī)定,這導(dǎo)致robots.txt的實(shí)際內(nèi)容很難反映真實(shí)意圖。
我們需要將用例相關(guān)的術(shù)語進(jìn)一步分類并標(biāo)準(zhǔn)化,比如,用于搜索引擎,或非商用AI,或只在AI標(biāo)明數(shù)據(jù)出處時才可使用。
總之,這種新的協(xié)議需要更靈活地反映網(wǎng)站所有者的意愿,能將有許可和不被允許的用例分開,更好地與服務(wù)條款同步。
最為重要的是,從網(wǎng)站數(shù)據(jù)使用限制的激增中,我們不難看出數(shù)據(jù)創(chuàng)建者和AI科技公司之間的緊張關(guān)系,但背后無辜躺槍的是非營利組織和學(xué)術(shù)研究人員。
The Batch在轉(zhuǎn)述這篇文章時表達(dá)了這樣的愿望:
「我們希望AI開發(fā)人員能夠使用開放網(wǎng)絡(luò)上提供的數(shù)據(jù)進(jìn)行訓(xùn)練。我們希望未來的法院判決和立法能夠確認(rèn)這一點(diǎn)。」