作者 | 言征
審校 | 千山
51CTO讀者成長(zhǎng)計(jì)劃社群招募,咨詢小助手(微信號(hào):TTalkxiaozhuli)
當(dāng)?shù)貢r(shí)間4月18日,知名社交媒體平臺(tái)Reddit宣布將開始向過度使用其數(shù)據(jù)API的公司(雖然沒有點(diǎn)名OpenAI、谷歌等)收費(fèi),此舉似乎是為了改變免費(fèi)為別人做嫁衣的局面:被用作大型語言模型的免費(fèi)訓(xùn)練庫(kù)。
1、事件回顧:停止免費(fèi)
Reddit作為有著18年歷史的新聞平臺(tái),用戶可以在上面發(fā)帖、評(píng)論、交流各種話題。
Reddit說:“過去18年來,作為擁有最大在線人與人對(duì)話語料庫(kù)之一的平臺(tái),我們有義務(wù)讓我們的社區(qū)成為這些內(nèi)容的管理者。”
為此,該公司宣布正在更新其各種開發(fā)工具和服務(wù)的使用條款,并將它們?nèi)空系揭惶组_發(fā)人員條款中,包括其數(shù)據(jù)和廣告API、嵌入條款等。據(jù)稱這些條款將管理Reddit的所有開發(fā)人員服務(wù)。Reddit解釋,這些是為了幫助開發(fā)人員通過允許訪問Reddit上托管的帖子和其他信息來為Reddit用戶構(gòu)建應(yīng)用程序和服務(wù)。
圖源:reddithelp.com
值得注意的是,在Reddit數(shù)據(jù)API條款中的第三條,明確的提出了費(fèi)用和使用限制的問題。該公司認(rèn)為,除了商用用途以外,學(xué)術(shù)界、研究人員和“社交聆聽工具”也使用它來訪問Reddit數(shù)據(jù),但有些人過度使用它。Reddit會(huì)保留訪問API收費(fèi)的權(quán)利,費(fèi)率會(huì)由Reddit獨(dú)家確定。
圖源:reddithelp.com
至于具體的收費(fèi)標(biāo)準(zhǔn),Reddit還沒有公布,但表示會(huì)分為不同的等級(jí),根據(jù)使用者的規(guī)模和需求來區(qū)分。Reddit的一位發(fā)言人聲稱,它將在6月份分享更多關(guān)于在推出付費(fèi)訪問產(chǎn)品時(shí)如何授予許可和費(fèi)用標(biāo)準(zhǔn)的信息。
2、創(chuàng)始人:現(xiàn)在是收緊政策的好時(shí)機(jī)
不可否認(rèn),Reddit作為優(yōu)質(zhì)的“大模型語料庫(kù)”,自然被白嫖的幾率非常大。
OpenAI的GPT系列,就使用了來自維基百科、圖書館、從Reddit帖子鏈接到的網(wǎng)頁等的PB級(jí)信息。
雖然沒有直接點(diǎn)名像谷歌和OpenAI這樣的公司,但Reddit首席執(zhí)行官兼聯(lián)合創(chuàng)始人史蒂夫·霍夫曼,此前在一次外媒采訪時(shí)就坦誠(chéng),Reddit“是進(jìn)行真實(shí)對(duì)話的地方”,因此“Reddit的數(shù)據(jù)語料庫(kù)非常有價(jià)值”。
“爬取Reddit,產(chǎn)生價(jià)值而不將任何價(jià)值返回給我們的用戶是我們遇到的問題,”霍夫曼認(rèn)為?!艾F(xiàn)在是我們收緊政策的好時(shí)機(jī)。我們認(rèn)為這是公平的?!?/p>
果不其然,作為新條款的一部分,Reddit表示禁止“通過任何方式訪問或使用Reddit服務(wù)和數(shù)據(jù)來訓(xùn)練大型語言、人工智能或其他算法模型”。
圖源:reddithelp.com
在Reddit的幫助頁面上,涵蓋了Reddit開發(fā)人員工具的商業(yè)用途和費(fèi)用,包括“出售對(duì)在Reddit上訓(xùn)練的模型的訪問權(quán)”只有在獲得許可的情況下才被允許,并且可能需要支付相關(guān)費(fèi)用。
圖源:reddithelp.com
Reddit沒有提供任何線索來說明什么是“附加功能、更高的使用限制和更廣泛的使用權(quán)限”,它表示這將是決定誰必須為數(shù)據(jù)API訪問付費(fèi)的因素,也沒有提供任何線索關(guān)于這些第三方需要為特權(quán)付出多少。
3、矛盾的條款爭(zhēng)議
更新的條款存在一個(gè)有趣的爭(zhēng)議:內(nèi)容歸Redditor所有,但Reddit有權(quán)向合作伙伴提供用戶的內(nèi)容。
試圖從近二十年的對(duì)話中抓取內(nèi)容的行為,不在少數(shù)。Reddit更新其條款以“進(jìn)一步 [澄清] 用戶內(nèi)容歸在Reddit上創(chuàng)建和提交內(nèi)容的redditor所有,未經(jīng)許可不得使用”,這一點(diǎn)影響很大。
然而,Reddit的用戶協(xié)議卻也包括自己使用發(fā)帖人發(fā)布的內(nèi)容的條款,包括“我們有權(quán)向與Reddit合作的其他公司、組織或個(gè)人提供您的內(nèi)容?!?如果想要訪問數(shù)據(jù)的一方獲得了Reddit的許可,那么內(nèi)容所有權(quán)是否是一個(gè)問題,就變得有點(diǎn)模糊了。
4、對(duì)于開發(fā)者的影響:速率限制
當(dāng)被問及開發(fā)者在被要求付費(fèi)之前,會(huì)考慮什么樣的使用門檻時(shí),Reddit表示,它始終對(duì)其API使用設(shè)置了速率限制。Reddit尚未透露下一步的限制計(jì)劃,但GitHub文檔最后一次更新是在2015年,表明它是每個(gè)客戶端每分鐘60個(gè)請(qǐng)求,沒有提到批量限制。
Reddit的發(fā)言人透露,該公司在執(zhí)行API使用限制或?yàn)橄拗圃黾拥母咭患?jí)的“清理空間”方面,一直不太擅長(zhǎng)。
Reddit表示,新規(guī)則不出意外的話將于6月19日生效。截至目前,數(shù)據(jù)API仍然可以免費(fèi)訪問通過Reddit開發(fā)者平臺(tái)的適當(dāng)用例。
5、拔出蘿卜帶出泥用于訓(xùn)練的數(shù)據(jù)版權(quán)糾紛
數(shù)據(jù)是新時(shí)代的石油,大模型就是將油加工成高級(jí)產(chǎn)品的煉丹爐。只不過這“石油”的歸屬和使用,卻存在太多的爭(zhēng)議空間。
首先是訓(xùn)練數(shù)據(jù)侵犯了用戶和企業(yè)的版權(quán)。
此前,在文生圖領(lǐng)域大火的Midjourney和Stability AI,因?qū)⑺鼈兊墓ぞ哂糜诰W(wǎng)絡(luò)抓取的圖像而被指控侵犯了數(shù)百萬藝術(shù)家的權(quán)利,面臨法律訴訟。
同樣,庫(kù)存圖片供應(yīng)商也對(duì)白嫖行為發(fā)起反擊。據(jù)悉Getty Images已將Stability AI單獨(dú)告上法庭,指控其未經(jīng)許可使用其網(wǎng)站上數(shù)百萬張圖片來訓(xùn)練藝術(shù)生成模型Stable Diffusion。
不打招呼,就偷用了藝術(shù)家和平臺(tái)的版權(quán)圖片,被起訴在所難免。但是這些公司認(rèn)為,他們已經(jīng)重新利用人們的圖像來創(chuàng)造新的東西并且這是對(duì)數(shù)據(jù)的合理使用。“請(qǐng)注意,我們會(huì)認(rèn)真對(duì)待這些問題。任何認(rèn)為這不是合理使用的人都不了解這項(xiàng)技術(shù)并且誤解了法律,”Stability AI的一位發(fā)言人如是說。
其次,生成式AI的輸出也有風(fēng)險(xiǎn):大模型本身傾向于使用其他來源的圖像和文本,包括版權(quán)內(nèi)容(輸入決定輸出)。一些圖像托管平臺(tái)已經(jīng)禁止使用AI生成的內(nèi)容,因?yàn)樗麄儞?dān)心會(huì)引起法律糾紛。
專家警告說,如果企業(yè)無意中將生成的AI工具所生成的受版權(quán)保護(hù)的內(nèi)容,納入他們銷售的任何產(chǎn)品中,這些企業(yè)可能會(huì)面臨風(fēng)險(xiǎn)。
不過,業(yè)內(nèi)有一個(gè)可以借鑒的方案,就是Adobe Firefly。同樣是生成式AI模型,它僅使用公司的免版稅媒體庫(kù)Adobe Stock,以及經(jīng)過版權(quán)公開授權(quán)和公共領(lǐng)域內(nèi)容,訓(xùn)練Firefly模型。
同時(shí),未來用戶將能夠使用自己的內(nèi)容訓(xùn)練和微調(diào)Firefly模型,使其輸出具有特定的風(fēng)格和設(shè)計(jì)語言。
而且,Adobe似乎在去年8月更新了其內(nèi)容分析政策,并表示不會(huì)訪問存儲(chǔ)在用戶設(shè)備本地的內(nèi)容。
6、寫在最后
樹欲靜而風(fēng)不止。盡管OpenAI創(chuàng)始人阿爾特曼近日說大模型時(shí)代迎來終結(jié),但大模型給社會(huì)帶來的影響才剛剛凸顯。此次Reddit突然要向生成式AI大模型收數(shù)據(jù)費(fèi),也將不會(huì)是個(gè)例。
不管是對(duì)話聊天,還是文生圖,保管數(shù)據(jù)的平臺(tái)都不得不卷入這場(chǎng)“生態(tài)戰(zhàn)”。版權(quán)、隱私、報(bào)酬、安全等都是這場(chǎng)戰(zhàn)斗的重要議題。