AI訓(xùn)練數(shù)據(jù)的版權(quán)保護(hù):公地的悲劇還是合作的繁榮?
GPT-4o內(nèi)置聲音模仿「寡姐」一案鬧的沸沸揚(yáng)揚(yáng),雖然以O(shè)penAI發(fā)布聲明暫停使用疑似寡姐聲音的「SKY」的語音、否認(rèn)曾侵權(quán)聲音為階段性結(jié)束。但是,一時(shí)間「即便是AI,也得保護(hù)人類版權(quán)」這一話題甚囂塵上,更刺激起了人們本來就對AI是否可控這一現(xiàn)代迷思的焦慮。
近日,普林斯頓大學(xué)、哥倫比亞大學(xué)、哈佛大學(xué)和賓夕法尼亞大學(xué)共同推出了一項(xiàng)關(guān)于生成式AI版權(quán)保護(hù)的新方案,題為《An Economic Solution to Copyright Challenges of Generative AI》。
生成式人工智能(AI)技術(shù)的快速進(jìn)展已經(jīng)深刻影響了文藝產(chǎn)業(yè),帶來了文學(xué)、視覺藝術(shù)和音樂等領(lǐng)域中由AI生成的內(nèi)容時(shí)代。這些AI模型如大型語言模型和擴(kuò)散模型能夠創(chuàng)作出能夠與人類藝術(shù)家的作品媲美乃至可能取代的高復(fù)雜性內(nèi)容。
這種能力的迅速增長引發(fā)了關(guān)于大模型訓(xùn)練數(shù)據(jù)作者權(quán)利的法律和道德界限的重要問題,特別是在版權(quán)侵犯方面的爭議。
版權(quán)保護(hù)一直以來都是各國法律中不可或缺的一部分。保護(hù)創(chuàng)作者的權(quán)益,可以更有利于調(diào)動(dòng)創(chuàng)作者的積極性,使得文化事業(yè)更加繁華。版權(quán)保護(hù)為創(chuàng)作者不止提供了精神支持,也同時(shí)提供了物質(zhì)支持 (利益分配),這也是為創(chuàng)作者進(jìn)一步提供了再創(chuàng)作的物質(zhì)基礎(chǔ)和精神動(dòng)力。
另一方面,版權(quán)保護(hù)也更利于優(yōu)秀作品的傳播,因?yàn)榘鏅?quán)保護(hù)也是在保護(hù)傳播者的正當(dāng)權(quán)益和保護(hù)公眾對于分享知識(shí)文化成果的權(quán)利。誠然,一部作品的誕生,不是為了孤芳自賞,更多的是為了以某種形式分享給大眾,為大眾所用。而且, 版權(quán)保護(hù)也可以讓創(chuàng)作者更加合理地使用他人的結(jié)果,避免引發(fā)剽竊等諸多麻煩。
因此,目前有幾家AI公司因涉嫌生產(chǎn)侵犯版權(quán)的內(nèi)容而卷入法律訴訟。比如說 《紐約時(shí)報(bào)》起訴 Chatgpt的開發(fā)者 OpenAI [1],控訴后者將數(shù)百萬篇 《紐約時(shí)報(bào)》的文章被用于訓(xùn)練智能聊天機(jī)器人(例如ChatGPT )。這些機(jī)器人現(xiàn)在作為新聞消息源與《紐約時(shí)報(bào)》展開競爭。
《紐約時(shí)報(bào)》聲稱,OpenAI和微軟大型語言模型 (LLM)能夠模仿《紐約時(shí)報(bào)》的文字風(fēng)格從而生成類似內(nèi)容,有時(shí)候甚至能原封不動(dòng)生成已有的內(nèi)容,這種現(xiàn)象影響到《紐約時(shí)報(bào)》通過訂閱和廣告獲得收入,并且有違版權(quán)許可。
起訴書中,《紐約時(shí)報(bào)》提及到一個(gè)例子 – 微軟的「以必應(yīng)瀏覽(Browse With Bing)」中的功能,能夠幾乎一字不差地重現(xiàn)《紐約時(shí)報(bào)》旗下網(wǎng)站「The Wirecutter」的內(nèi)容,但完全沒有為提供相關(guān)的鏈接進(jìn)行引用。這個(gè)例子充分體現(xiàn)了AI 非法使用版權(quán)內(nèi)容。
目前,針對OpenAI的類似訴訟案件正在不斷增加,例如近來GPT-4o內(nèi)置聲音模仿「寡姐」一案 [2]。但由于對于AI 非常使用版權(quán)內(nèi)容難以界定,訴訟案件尚在激烈討論中。
圖1:NY Times指控ChatGPT生成內(nèi)容和NY Times文章高度一致。
為了緩解訓(xùn)練數(shù)據(jù)版權(quán)所有者與AI開發(fā)者之間的緊張關(guān)系,人們已經(jīng)開始嘗試修改生成模型的訓(xùn)練或推理過程,以減少生成侵權(quán)內(nèi)容的可能性。然而這些改動(dòng)可能會(huì)因?yàn)榕懦烁哔|(zhì)量的受版權(quán)保護(hù)的訓(xùn)練數(shù)據(jù)或限制內(nèi)容生成而損害模型性能。版權(quán)法的復(fù)雜性和模糊性增加了額外的難度,使得區(qū)分侵權(quán)和非侵權(quán)成果變得模糊不清。
這種不確定性可能導(dǎo)致雙方在法庭爭議中浪費(fèi)大量資源。
本文提出一種在AI開發(fā)者和版權(quán)所有者之間建立互利的收益分享協(xié)議的方案,此提議呼應(yīng)了經(jīng)濟(jì)學(xué)中最近提倡的觀點(diǎn)。然而,模型訓(xùn)練和內(nèi)容生成的「黑箱」特性使得傳統(tǒng)的按比例直接分成方法不再適用。
因此,需要一種新的框架來公平合理地處理這些新出現(xiàn)的版權(quán)問題,確保在鼓勵(lì)創(chuàng)新的同時(shí),也保護(hù)數(shù)據(jù)提供者的合法權(quán)益。
圖2:該工作被Ethan Mollick宣傳。
Shapley版權(quán)分享框架
該文章的框架分為兩步:
- 第一步是評(píng)估模型在整個(gè)數(shù)據(jù)集的每一個(gè)可能子集上訓(xùn)練的效用。直觀上,如果在某數(shù)據(jù)子集上訓(xùn)練的模型能夠有很大的可能性生成與部署模型相似的AI生成內(nèi)容(例如藝術(shù)作品),那么該數(shù)據(jù)子集的效用就會(huì)很大。
- 第二步是根據(jù)第一步的效用使用合作博弈論工具(即Shapley值)來確定任何訓(xùn)練數(shù)據(jù)版權(quán)所有者的應(yīng)得份額。簡而言之,如果將其數(shù)據(jù)包括在模型訓(xùn)練中能夠增加效用,那么版權(quán)所有者的份額就會(huì)大。
圖3:基于Shapley值的版權(quán)分配框架。
不同數(shù)據(jù)源組合的效用
設(shè)有 n 個(gè)版權(quán)所有者,第 i個(gè)擁有訓(xùn)練數(shù)據(jù)集的版權(quán),其中i∈N?{1,2,…n}。部署的模型訓(xùn)練在整個(gè)數(shù)據(jù)集
上,并生成內(nèi)容
。考慮一個(gè)在數(shù)據(jù)子集
上訓(xùn)練的反事實(shí)模型,其中S?N表示數(shù)據(jù)所有者的一個(gè)子集。
該反事實(shí)模型生成同一內(nèi)容的概率密度函數(shù)由
表示。對于生成模型生成的內(nèi)容,一個(gè)子集的效用最容易反映在該反事實(shí)模型生成目標(biāo)內(nèi)容的概率。當(dāng)比較不同模型時(shí),可以通過生成目標(biāo)內(nèi)容的概率比例衡量它們之間的效用差距。
因此,該文章定義此模型對內(nèi)容的效用為
,這樣可以直接根據(jù)
來比較兩個(gè)數(shù)據(jù)集之間的效用。
這種效用提供了一種衡量數(shù)據(jù)源S在生成內(nèi)容方面的責(zé)任程度的方式。如果反事實(shí)模型不太可能生成與部署模型相同的內(nèi)容,其效用就小,反之亦然。
版權(quán)所有者間的版稅分配
效用v(S)可以解釋為所有S成員為訓(xùn)練生成式AI模型提供數(shù)據(jù)所應(yīng)得的總補(bǔ)償。下一步是基于所有可能的數(shù)據(jù)源組合的效用來確定每個(gè)個(gè)別版權(quán)所有者的收益。該文章提議使用Shapley值。
Shapley值是博弈論中的一個(gè)解決方案概念,它提供了一種根據(jù)每個(gè)玩家組合作為聯(lián)盟的效用分配收益的原則性方法。它是由諾貝爾獎(jiǎng)獲得者Lloyd Shapley (此后簡稱為Shapley) 提出的。
Shapley (1923-2016)是美國籍?dāng)?shù)學(xué)家和經(jīng)濟(jì)學(xué)家,并且由于對穩(wěn)定分配理論和市場設(shè)計(jì)的實(shí)踐做出突出貢獻(xiàn),而獲得了2012年的經(jīng)濟(jì)學(xué)諾貝爾獎(jiǎng) [3]。Shapley是博弈論領(lǐng)域的傳奇,并且在其博士工作和博士論文中引入了Shapley值。
美國經(jīng)濟(jì)學(xué)會(huì)稱Shapley是「博弈論和經(jīng)濟(jì)學(xué)理論的巨人」。
Shapley值的具體計(jì)算如下:
參與者i的Shapley值計(jì)算為其在所有可能聯(lián)盟中邊際貢獻(xiàn)的加權(quán)平均:
Shapley值是唯一滿足幾個(gè)重要經(jīng)濟(jì)屬性的支付規(guī)則,并在機(jī)器學(xué)習(xí)模型的數(shù)據(jù)估值中獲得了普及。利用Shapley值,該文章提出使用SRS(Shapley Royalty Share)來計(jì)算版權(quán)分配。
SRS定義如下:
這里,是版權(quán)所有者i的Shapley值。
SRS提供了一種經(jīng)濟(jì)學(xué)方法解決生成式AI環(huán)境中的版權(quán)和收益分配問題,支持公正的數(shù)據(jù)使用和創(chuàng)新激勵(lì)。
該文章用一個(gè)簡單的例子來解釋Shapley值的計(jì)算過程。在這個(gè)例子中,有三個(gè)數(shù)據(jù)所有者(A, B, C),他們共同訓(xùn)練一個(gè)模型,使用模型對某生成內(nèi)容的log-likelihood作為效用函數(shù)。假設(shè)使用不同的數(shù)據(jù)組合訓(xùn)練后的模型的log-likelihood如下:
可以根據(jù)以下量來計(jì)算A的Shapley值:
- 數(shù)據(jù)所有者A單獨(dú)貢獻(xiàn):v({A})=5
- 數(shù)據(jù)所有者A和B的貢獻(xiàn):v({A,B})-v({B})=15-7=8
- 數(shù)據(jù)所有者A和C的貢獻(xiàn):v({A,C})-v({C})=10-3=7
- 數(shù)據(jù)所有者A、B和C的貢獻(xiàn):v({A,B,C})-v({B,C})=20-12=8
根據(jù)Shapley值公式,可以得到
計(jì)算考慮
在應(yīng)用SRS框架時(shí),主要挑戰(zhàn)在于其相當(dāng)大的計(jì)算成本。對不同數(shù)據(jù)源組合的效用函數(shù)評(píng)估需要多次重新訓(xùn)練模型。在版權(quán)所有者數(shù)量較少的某些應(yīng)用中,計(jì)算挑戰(zhàn)可能并不像看起來那么嚴(yán)重。
實(shí)際上,可以預(yù)見這種基于合約的框架在整個(gè)版權(quán)數(shù)據(jù)被少數(shù)幾個(gè)版權(quán)所有者分割時(shí)效果最佳,這樣每個(gè)數(shù)據(jù)源都有足夠的數(shù)據(jù)影響訓(xùn)練結(jié)果。如果數(shù)據(jù)源的規(guī)模非常小,版權(quán)所有者的版稅份額可能微不足道,且由于訓(xùn)練AI模型的隨機(jī)性,結(jié)果可能更加噪聲化。
為了減輕這種計(jì)算負(fù)擔(dān),可以采用兩種方法:
- 第一種是使用蒙特卡洛方法來近似計(jì)算Shapley值,這種技術(shù)特別適用于版權(quán)所有者眾多的情況。
- 第二種方法是通過從另一個(gè)在較小數(shù)據(jù)子集上訓(xùn)練的模型微調(diào)來訓(xùn)練模型。因此,可以通過對整個(gè)訓(xùn)練數(shù)據(jù)只訓(xùn)練一次,來近似在不同數(shù)據(jù)子集上訓(xùn)練的模型。具體來說,對于隨機(jī)抽樣的版權(quán)所有者排列,可以首先在第一個(gè)版權(quán)所有者上訓(xùn)練,然后是第二個(gè),一直到最后一個(gè)版權(quán)所有者。這種技術(shù)可以與著名的Shapley值排列抽樣估計(jì)器一起使用。
在實(shí)踐中,商業(yè)AI模型可能每天進(jìn)行數(shù)百萬次交易。僅估計(jì)每個(gè)版權(quán)所有者應(yīng)得的聚合收益,而不是按照公式為每個(gè)AI生成的內(nèi)容計(jì)算收益,可以節(jié)省計(jì)算成本。理論上,可以僅評(píng)估所有交易中一小部分的SRS,然后按比例計(jì)算從所有交易中獲得的收入分布。
實(shí)驗(yàn)結(jié)果
該文章通過實(shí)驗(yàn)評(píng)估了所提出框架在分配AI生成內(nèi)容版稅方面的有效性,重點(diǎn)關(guān)注創(chuàng)意藝術(shù)和圖像領(lǐng)域的標(biāo)志設(shè)計(jì)。
評(píng)估使用了公開可獲取的數(shù)據(jù)集:WikiArt和FlickrLogo-27。
評(píng)估SRS的有效性
對于WikiArt數(shù)據(jù)集,該文章選取了四位著名藝術(shù)家的四個(gè)不相交的畫作子集。一個(gè)最初在更廣泛的訓(xùn)練圖像集(不包括這四位藝術(shù)家的作品)上訓(xùn)練的模型,作為基礎(chǔ)模型。通過在選定藝術(shù)家的四組畫作的各種組合上進(jìn)一步微調(diào)基礎(chǔ)模型,計(jì)算SRS。
類似地,對于FlickrLogo-27數(shù)據(jù)集,該文章選取了四個(gè)品牌的四個(gè)不相交的標(biāo)志設(shè)計(jì)子集,并使用在其他品牌標(biāo)志圖像上訓(xùn)練的基礎(chǔ)模型計(jì)算SRS。該文章的目標(biāo)是評(píng)估SRS是否能反映每個(gè)版權(quán)所有者對圖像生成的貢獻(xiàn)。
圖4:使用SRS評(píng)估每個(gè)版權(quán)所有者對圖像生成的貢獻(xiàn)。
結(jié)果表明,當(dāng)的風(fēng)格與訓(xùn)練數(shù)據(jù)源的風(fēng)格非常接近時(shí),SRS值最高。這一關(guān)系凸顯了SRS框架準(zhǔn)確歸因于AI生成圖像創(chuàng)作貢獻(xiàn)的能力。
評(píng)估SRS對于混合風(fēng)格的生成圖像的歸因能力
在WikiArt數(shù)據(jù)集上,該文章探討了針對要求從多個(gè)數(shù)據(jù)源生成內(nèi)容的提示的SRS分布。顯著地,提示要求生成模型融合多位藝術(shù)家的風(fēng)格。SRS有效地識(shí)別并獎(jiǎng)勵(lì)了融入生成藝術(shù)作品的數(shù)據(jù)源的貢獻(xiàn),展示了該框架在辨識(shí)和評(píng)價(jià)多樣化數(shù)據(jù)源輸入以生成內(nèi)容的能力。
圖5:使用SRS評(píng)估每個(gè)版權(quán)所有者對混有不同藝術(shù)家風(fēng)格的圖像生成的貢獻(xiàn)。
討論與深入研究
生成式AI的快速發(fā)展對傳統(tǒng)版權(quán)法構(gòu)成了深刻挑戰(zhàn),這不僅是因?yàn)槠鋸?qiáng)大的內(nèi)容生成能力,還因?yàn)閷I生成內(nèi)容版權(quán)的解釋復(fù)雜以及大型AI系統(tǒng)的“黑箱”本質(zhì)。該文章從經(jīng)濟(jì)學(xué)角度出發(fā),開發(fā)了一個(gè)允許在版權(quán)數(shù)據(jù)訓(xùn)練中交換收入分配的版權(quán)分享模型,促進(jìn)了AI開發(fā)者和版權(quán)所有者之間的互利合作。通過數(shù)值實(shí)驗(yàn),該文章證明了這一框架的有效性和可行性。
該文章的研究也為未來的研究開辟了道路。例如,版權(quán)所有者可能會(huì)通過合并或分割他們的數(shù)據(jù)來最大化版權(quán)分成,SRS可能會(huì)被惡意版權(quán)所有者操縱。盡管已經(jīng)探索了抗復(fù)制的解決方案,但這些主要關(guān)注于Shapley值的影響而非復(fù)制下的比率。開發(fā)一種抗操縱的機(jī)制是未來工作的一個(gè)重要方向。
另一個(gè)開放問題是處理無法或不愿意協(xié)商協(xié)議的版權(quán)所有者的版權(quán)數(shù)據(jù),特別是當(dāng)每個(gè)擁有者的數(shù)據(jù)集很小的情況。在這種情況下,該文章的方法可以與生成合法內(nèi)容的方法結(jié)合使用, 增強(qiáng)他們的模型以確定版權(quán)所有者和AI開發(fā)者之間適當(dāng)?shù)氖杖敕峙洌J(rèn)識(shí)到計(jì)算資源、算法設(shè)計(jì)和工程專長在開發(fā)高性能AI模型中的關(guān)鍵作用,是另一個(gè)研究方向。
該文章已經(jīng)通過采用合作博弈理論中的權(quán)限結(jié)構(gòu)概念來初步適應(yīng)這種情況。
從方法論角度看,未來研究的一個(gè)關(guān)鍵方面是使用Shapley值比率進(jìn)行收入分配。直接使用Shapley值的主要挑戰(zhàn)在于任何版權(quán)所有者數(shù)據(jù)聯(lián)盟的總收入未知。但當(dāng)考慮比率時(shí),Shapley值的效率屬性(確保所有Shapley值之和等于大聯(lián)盟的效用)失去了意義。
在這種情況下,半值(一種放棄效率公理的Shapley值推廣)可能提供了一個(gè)可行的替代方案。未來的工作可以旨在建立公理化的理由,以識(shí)別此背景下用于版稅分配的最合適的解決方案概念。
從實(shí)用性的角度講,Shapley值最大的不足之處在于計(jì)算開銷。盡管Monte Carlo方法可以加速計(jì)算過程,但仍需要大量的模型重復(fù)訓(xùn)練。這種計(jì)算需求在處理大型數(shù)據(jù)集和復(fù)雜模型時(shí)變得尤其突出,可能導(dǎo)致計(jì)算資源的極大消耗和時(shí)間的延長。
未來的工作可以著重于解決這一問題,通過開發(fā)更高效的算法或啟用新的方法來減少計(jì)算開銷,從而使Shapley值在實(shí)際應(yīng)用中更加可行和高效。
作者介紹:
1. Jiachen Wang (王嘉宸):現(xiàn)為普林斯頓大學(xué)電子工程系博士生,主攻人工智能數(shù)據(jù)估值(data valuation)等方向。
2. Zhun Deng (鄧準(zhǔn)):現(xiàn)為哥倫比亞大學(xué)計(jì)算機(jī)系博后,博后導(dǎo)師為 Richard Zemel。此前為哈佛大學(xué)計(jì)算機(jī)系博士生,師從Cynthia Dwork,主攻機(jī)器學(xué)習(xí)可靠性和社會(huì)責(zé)任性等方向。
3. Hiroaki Chiba-Okabe:現(xiàn)為賓夕法尼亞大學(xué)應(yīng)用數(shù)學(xué)和計(jì)算科學(xué)博士生,主攻方向是人工智能引發(fā)的道德問題和社會(huì)問題。
4. Boaz Barak: 哈佛大學(xué)正教授,主攻方向理論計(jì)算機(jī)和機(jī)器學(xué)習(xí)方向。同時(shí)在OpenAI 任職。
5. Wijie Su (蘇煒杰):現(xiàn)為賓夕法尼亞大學(xué)沃頓商學(xué)院、計(jì)算機(jī)系和數(shù)學(xué)系副教授,研究方向包括人工智能的理論基礎(chǔ)等方向。