偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="c8us5"></blockquote>

<cite id="c8us5"></cite>

<em id="c8us5"></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI訓(xùn)練數(shù)據(jù)的版權(quán)保護(hù)：公地的悲劇還是合作的繁榮?

作者：機(jī)器之心 2024-06-04 13:08:26

人工智能新聞

就算是 OpenAI 在輿論場也無法逃過版權(quán)保護(hù)的呼聲。近日，普林斯頓大學(xué)、哥倫比亞大學(xué)、哈佛大學(xué)和賓夕法尼亞大學(xué)共同推出了一項(xiàng)關(guān)于生成式AI版權(quán)保護(hù)的新方案，題為《An Economic Solution to Copyright Challenges of Generative AI》。

GPT-4o內(nèi)置聲音模仿「寡姐」一案鬧的沸沸揚(yáng)揚(yáng)，雖然以O(shè)penAI發(fā)布聲明暫停使用疑似寡姐聲音的「SKY」的語音、否認(rèn)曾侵權(quán)聲音為階段性結(jié)束。但是，一時(shí)間「即便是AI，也得保護(hù)人類版權(quán)」這一話題甚囂塵上，更刺激起了人們本來就對AI是否可控這一現(xiàn)代迷思的焦慮。

近日，普林斯頓大學(xué)、哥倫比亞大學(xué)、哈佛大學(xué)和賓夕法尼亞大學(xué)共同推出了一項(xiàng)關(guān)于生成式AI版權(quán)保護(hù)的新方案，題為《An Economic Solution to Copyright Challenges of Generative AI》。

論文鏈接：https://arxiv.org/abs/2404.13964

生成式人工智能（AI）技術(shù)的快速進(jìn)展已經(jīng)深刻影響了文藝產(chǎn)業(yè)，帶來了文學(xué)、視覺藝術(shù)和音樂等領(lǐng)域中由AI生成的內(nèi)容時(shí)代。這些AI模型如大型語言模型和擴(kuò)散模型能夠創(chuàng)作出能夠與人類藝術(shù)家的作品媲美乃至可能取代的高復(fù)雜性內(nèi)容。

這種能力的迅速增長引發(fā)了關(guān)于大模型訓(xùn)練數(shù)據(jù)作者權(quán)利的法律和道德界限的重要問題，特別是在版權(quán)侵犯方面的爭議。

版權(quán)保護(hù)一直以來都是各國法律中不可或缺的一部分。保護(hù)創(chuàng)作者的權(quán)益，可以更有利于調(diào)動(dòng)創(chuàng)作者的積極性，使得文化事業(yè)更加繁華。版權(quán)保護(hù)為創(chuàng)作者不止提供了精神支持，也同時(shí)提供了物質(zhì)支持（利益分配），這也是為創(chuàng)作者進(jìn)一步提供了再創(chuàng)作的物質(zhì)基礎(chǔ)和精神動(dòng)力。

另一方面，版權(quán)保護(hù)也更利于優(yōu)秀作品的傳播，因?yàn)榘鏅?quán)保護(hù)也是在保護(hù)傳播者的正當(dāng)權(quán)益和保護(hù)公眾對于分享知識(shí)文化成果的權(quán)利。誠然，一部作品的誕生，不是為了孤芳自賞，更多的是為了以某種形式分享給大眾，為大眾所用。而且, 版權(quán)保護(hù)也可以讓創(chuàng)作者更加合理地使用他人的結(jié)果，避免引發(fā)剽竊等諸多麻煩。

因此，目前有幾家AI公司因涉嫌生產(chǎn)侵犯版權(quán)的內(nèi)容而卷入法律訴訟。比如說《紐約時(shí)報(bào)》起訴 Chatgpt的開發(fā)者 OpenAI [1]，控訴后者將數(shù)百萬篇《紐約時(shí)報(bào)》的文章被用于訓(xùn)練智能聊天機(jī)器人（例如ChatGPT ）。這些機(jī)器人現(xiàn)在作為新聞消息源與《紐約時(shí)報(bào)》展開競爭。

《紐約時(shí)報(bào)》聲稱，OpenAI和微軟大型語言模型 (LLM)能夠模仿《紐約時(shí)報(bào)》的文字風(fēng)格從而生成類似內(nèi)容，有時(shí)候甚至能原封不動(dòng)生成已有的內(nèi)容，這種現(xiàn)象影響到《紐約時(shí)報(bào)》通過訂閱和廣告獲得收入，并且有違版權(quán)許可。

起訴書中，《紐約時(shí)報(bào)》提及到一個(gè)例子 – 微軟的「以必應(yīng)瀏覽（Browse With Bing）」中的功能，能夠幾乎一字不差地重現(xiàn)《紐約時(shí)報(bào)》旗下網(wǎng)站「The Wirecutter」的內(nèi)容，但完全沒有為提供相關(guān)的鏈接進(jìn)行引用。這個(gè)例子充分體現(xiàn)了AI 非法使用版權(quán)內(nèi)容。

目前，針對OpenAI的類似訴訟案件正在不斷增加，例如近來GPT-4o內(nèi)置聲音模仿「寡姐」一案 [2]。但由于對于AI 非常使用版權(quán)內(nèi)容難以界定，訴訟案件尚在激烈討論中。

圖1：NY Times指控ChatGPT生成內(nèi)容和NY Times文章高度一致。

為了緩解訓(xùn)練數(shù)據(jù)版權(quán)所有者與AI開發(fā)者之間的緊張關(guān)系，人們已經(jīng)開始嘗試修改生成模型的訓(xùn)練或推理過程，以減少生成侵權(quán)內(nèi)容的可能性。然而這些改動(dòng)可能會(huì)因?yàn)榕懦烁哔|(zhì)量的受版權(quán)保護(hù)的訓(xùn)練數(shù)據(jù)或限制內(nèi)容生成而損害模型性能。版權(quán)法的復(fù)雜性和模糊性增加了額外的難度，使得區(qū)分侵權(quán)和非侵權(quán)成果變得模糊不清。

這種不確定性可能導(dǎo)致雙方在法庭爭議中浪費(fèi)大量資源。

本文提出一種在AI開發(fā)者和版權(quán)所有者之間建立互利的收益分享協(xié)議的方案，此提議呼應(yīng)了經(jīng)濟(jì)學(xué)中最近提倡的觀點(diǎn)。然而，模型訓(xùn)練和內(nèi)容生成的「黑箱」特性使得傳統(tǒng)的按比例直接分成方法不再適用。

因此，需要一種新的框架來公平合理地處理這些新出現(xiàn)的版權(quán)問題，確保在鼓勵(lì)創(chuàng)新的同時(shí)，也保護(hù)數(shù)據(jù)提供者的合法權(quán)益。

圖2：該工作被Ethan Mollick宣傳。

Shapley版權(quán)分享框架

該文章的框架分為兩步：

第一步是評(píng)估模型在整個(gè)數(shù)據(jù)集的每一個(gè)可能子集上訓(xùn)練的效用。直觀上，如果在某數(shù)據(jù)子集上訓(xùn)練的模型能夠有很大的可能性生成與部署模型相似的AI生成內(nèi)容（例如藝術(shù)作品），那么該數(shù)據(jù)子集的效用就會(huì)很大。
第二步是根據(jù)第一步的效用使用合作博弈論工具（即Shapley值）來確定任何訓(xùn)練數(shù)據(jù)版權(quán)所有者的應(yīng)得份額。簡而言之，如果將其數(shù)據(jù)包括在模型訓(xùn)練中能夠增加效用，那么版權(quán)所有者的份額就會(huì)大。

圖3：基于Shapley值的版權(quán)分配框架。

不同數(shù)據(jù)源組合的效用

設(shè)有 n 個(gè)版權(quán)所有者，第 i個(gè)擁有訓(xùn)練數(shù)據(jù)集的版權(quán)，其中i∈N?{1,2,…n}。部署的模型訓(xùn)練在整個(gè)數(shù)據(jù)集上，并生成內(nèi)容。考慮一個(gè)在數(shù)據(jù)子集上訓(xùn)練的反事實(shí)模型，其中S?N表示數(shù)據(jù)所有者的一個(gè)子集。

該反事實(shí)模型生成同一內(nèi)容的概率密度函數(shù)由表示。對于生成模型生成的內(nèi)容，一個(gè)子集的效用最容易反映在該反事實(shí)模型生成目標(biāo)內(nèi)容的概率。當(dāng)比較不同模型時(shí)，可以通過生成目標(biāo)內(nèi)容的概率比例衡量它們之間的效用差距。

因此，該文章定義此模型對內(nèi)容的效用為，這樣可以直接根據(jù)來比較兩個(gè)數(shù)據(jù)集之間的效用。

這種效用提供了一種衡量數(shù)據(jù)源S在生成內(nèi)容方面的責(zé)任程度的方式。如果反事實(shí)模型不太可能生成與部署模型相同的內(nèi)容，其效用就小，反之亦然。

版權(quán)所有者間的版稅分配

效用v(S)可以解釋為所有S成員為訓(xùn)練生成式AI模型提供數(shù)據(jù)所應(yīng)得的總補(bǔ)償。下一步是基于所有可能的數(shù)據(jù)源組合的效用來確定每個(gè)個(gè)別版權(quán)所有者的收益。該文章提議使用Shapley值。

Shapley值是博弈論中的一個(gè)解決方案概念，它提供了一種根據(jù)每個(gè)玩家組合作為聯(lián)盟的效用分配收益的原則性方法。它是由諾貝爾獎(jiǎng)獲得者Lloyd Shapley (此后簡稱為Shapley) 提出的。

Shapley （1923-2016）是美國籍?dāng)?shù)學(xué)家和經(jīng)濟(jì)學(xué)家，并且由于對穩(wěn)定分配理論和市場設(shè)計(jì)的實(shí)踐做出突出貢獻(xiàn)，而獲得了2012年的經(jīng)濟(jì)學(xué)諾貝爾獎(jiǎng) [3]。Shapley是博弈論領(lǐng)域的傳奇，并且在其博士工作和博士論文中引入了Shapley值。

美國經(jīng)濟(jì)學(xué)會(huì)稱Shapley是「博弈論和經(jīng)濟(jì)學(xué)理論的巨人」。

Shapley值的具體計(jì)算如下：

參與者i的Shapley值計(jì)算為其在所有可能聯(lián)盟中邊際貢獻(xiàn)的加權(quán)平均：

Shapley值是唯一滿足幾個(gè)重要經(jīng)濟(jì)屬性的支付規(guī)則，并在機(jī)器學(xué)習(xí)模型的數(shù)據(jù)估值中獲得了普及。利用Shapley值，該文章提出使用SRS（Shapley Royalty Share）來計(jì)算版權(quán)分配。

SRS定義如下：

這里，是版權(quán)所有者i的Shapley值。

SRS提供了一種經(jīng)濟(jì)學(xué)方法解決生成式AI環(huán)境中的版權(quán)和收益分配問題，支持公正的數(shù)據(jù)使用和創(chuàng)新激勵(lì)。

該文章用一個(gè)簡單的例子來解釋Shapley值的計(jì)算過程。在這個(gè)例子中，有三個(gè)數(shù)據(jù)所有者（A, B, C），他們共同訓(xùn)練一個(gè)模型，使用模型對某生成內(nèi)容的log-likelihood作為效用函數(shù)。假設(shè)使用不同的數(shù)據(jù)組合訓(xùn)練后的模型的log-likelihood如下：

可以根據(jù)以下量來計(jì)算A的Shapley值：

數(shù)據(jù)所有者A單獨(dú)貢獻(xiàn)：v({A})=5
數(shù)據(jù)所有者A和B的貢獻(xiàn)：v({A,B})-v({B})=15-7=8
數(shù)據(jù)所有者A和C的貢獻(xiàn)：v({A,C})-v({C})=10-3=7
數(shù)據(jù)所有者A、B和C的貢獻(xiàn)：v({A,B,C})-v({B,C})=20-12=8

根據(jù)Shapley值公式，可以得到

計(jì)算考慮

在應(yīng)用SRS框架時(shí)，主要挑戰(zhàn)在于其相當(dāng)大的計(jì)算成本。對不同數(shù)據(jù)源組合的效用函數(shù)評(píng)估需要多次重新訓(xùn)練模型。在版權(quán)所有者數(shù)量較少的某些應(yīng)用中，計(jì)算挑戰(zhàn)可能并不像看起來那么嚴(yán)重。

實(shí)際上，可以預(yù)見這種基于合約的框架在整個(gè)版權(quán)數(shù)據(jù)被少數(shù)幾個(gè)版權(quán)所有者分割時(shí)效果最佳，這樣每個(gè)數(shù)據(jù)源都有足夠的數(shù)據(jù)影響訓(xùn)練結(jié)果。如果數(shù)據(jù)源的規(guī)模非常小，版權(quán)所有者的版稅份額可能微不足道，且由于訓(xùn)練AI模型的隨機(jī)性，結(jié)果可能更加噪聲化。

為了減輕這種計(jì)算負(fù)擔(dān)，可以采用兩種方法：

第一種是使用蒙特卡洛方法來近似計(jì)算Shapley值，這種技術(shù)特別適用于版權(quán)所有者眾多的情況。
第二種方法是通過從另一個(gè)在較小數(shù)據(jù)子集上訓(xùn)練的模型微調(diào)來訓(xùn)練模型。因此，可以通過對整個(gè)訓(xùn)練數(shù)據(jù)只訓(xùn)練一次，來近似在不同數(shù)據(jù)子集上訓(xùn)練的模型。具體來說，對于隨機(jī)抽樣的版權(quán)所有者排列，可以首先在第一個(gè)版權(quán)所有者上訓(xùn)練，然后是第二個(gè)，一直到最后一個(gè)版權(quán)所有者。這種技術(shù)可以與著名的Shapley值排列抽樣估計(jì)器一起使用。

在實(shí)踐中，商業(yè)AI模型可能每天進(jìn)行數(shù)百萬次交易。僅估計(jì)每個(gè)版權(quán)所有者應(yīng)得的聚合收益，而不是按照公式為每個(gè)AI生成的內(nèi)容計(jì)算收益，可以節(jié)省計(jì)算成本。理論上，可以僅評(píng)估所有交易中一小部分的SRS，然后按比例計(jì)算從所有交易中獲得的收入分布。

實(shí)驗(yàn)結(jié)果

該文章通過實(shí)驗(yàn)評(píng)估了所提出框架在分配AI生成內(nèi)容版稅方面的有效性，重點(diǎn)關(guān)注創(chuàng)意藝術(shù)和圖像領(lǐng)域的標(biāo)志設(shè)計(jì)。

評(píng)估使用了公開可獲取的數(shù)據(jù)集：WikiArt和FlickrLogo-27。

評(píng)估SRS的有效性

對于WikiArt數(shù)據(jù)集，該文章選取了四位著名藝術(shù)家的四個(gè)不相交的畫作子集。一個(gè)最初在更廣泛的訓(xùn)練圖像集（不包括這四位藝術(shù)家的作品）上訓(xùn)練的模型，作為基礎(chǔ)模型。通過在選定藝術(shù)家的四組畫作的各種組合上進(jìn)一步微調(diào)基礎(chǔ)模型，計(jì)算SRS。

類似地，對于FlickrLogo-27數(shù)據(jù)集，該文章選取了四個(gè)品牌的四個(gè)不相交的標(biāo)志設(shè)計(jì)子集，并使用在其他品牌標(biāo)志圖像上訓(xùn)練的基礎(chǔ)模型計(jì)算SRS。該文章的目標(biāo)是評(píng)估SRS是否能反映每個(gè)版權(quán)所有者對圖像生成的貢獻(xiàn)。

圖4：使用SRS評(píng)估每個(gè)版權(quán)所有者對圖像生成的貢獻(xiàn)。

結(jié)果表明，當(dāng)的風(fēng)格與訓(xùn)練數(shù)據(jù)源的風(fēng)格非常接近時(shí)，SRS值最高。這一關(guān)系凸顯了SRS框架準(zhǔn)確歸因于AI生成圖像創(chuàng)作貢獻(xiàn)的能力。

評(píng)估SRS對于混合風(fēng)格的生成圖像的歸因能力

在WikiArt數(shù)據(jù)集上，該文章探討了針對要求從多個(gè)數(shù)據(jù)源生成內(nèi)容的提示的SRS分布。顯著地，提示要求生成模型融合多位藝術(shù)家的風(fēng)格。SRS有效地識(shí)別并獎(jiǎng)勵(lì)了融入生成藝術(shù)作品的數(shù)據(jù)源的貢獻(xiàn)，展示了該框架在辨識(shí)和評(píng)價(jià)多樣化數(shù)據(jù)源輸入以生成內(nèi)容的能力。

圖5：使用SRS評(píng)估每個(gè)版權(quán)所有者對混有不同藝術(shù)家風(fēng)格的圖像生成的貢獻(xiàn)。

討論與深入研究

生成式AI的快速發(fā)展對傳統(tǒng)版權(quán)法構(gòu)成了深刻挑戰(zhàn)，這不僅是因?yàn)槠鋸?qiáng)大的內(nèi)容生成能力，還因?yàn)閷I生成內(nèi)容版權(quán)的解釋復(fù)雜以及大型AI系統(tǒng)的“黑箱”本質(zhì)。該文章從經(jīng)濟(jì)學(xué)角度出發(fā)，開發(fā)了一個(gè)允許在版權(quán)數(shù)據(jù)訓(xùn)練中交換收入分配的版權(quán)分享模型，促進(jìn)了AI開發(fā)者和版權(quán)所有者之間的互利合作。通過數(shù)值實(shí)驗(yàn)，該文章證明了這一框架的有效性和可行性。

該文章的研究也為未來的研究開辟了道路。例如，版權(quán)所有者可能會(huì)通過合并或分割他們的數(shù)據(jù)來最大化版權(quán)分成，SRS可能會(huì)被惡意版權(quán)所有者操縱。盡管已經(jīng)探索了抗復(fù)制的解決方案，但這些主要關(guān)注于Shapley值的影響而非復(fù)制下的比率。開發(fā)一種抗操縱的機(jī)制是未來工作的一個(gè)重要方向。

另一個(gè)開放問題是處理無法或不愿意協(xié)商協(xié)議的版權(quán)所有者的版權(quán)數(shù)據(jù)，特別是當(dāng)每個(gè)擁有者的數(shù)據(jù)集很小的情況。在這種情況下，該文章的方法可以與生成合法內(nèi)容的方法結(jié)合使用, 增強(qiáng)他們的模型以確定版權(quán)所有者和AI開發(fā)者之間適當(dāng)?shù)氖杖敕峙洌J(rèn)識(shí)到計(jì)算資源、算法設(shè)計(jì)和工程專長在開發(fā)高性能AI模型中的關(guān)鍵作用，是另一個(gè)研究方向。

該文章已經(jīng)通過采用合作博弈理論中的權(quán)限結(jié)構(gòu)概念來初步適應(yīng)這種情況。

從方法論角度看，未來研究的一個(gè)關(guān)鍵方面是使用Shapley值比率進(jìn)行收入分配。直接使用Shapley值的主要挑戰(zhàn)在于任何版權(quán)所有者數(shù)據(jù)聯(lián)盟的總收入未知。但當(dāng)考慮比率時(shí)，Shapley值的效率屬性（確保所有Shapley值之和等于大聯(lián)盟的效用）失去了意義。

在這種情況下，半值（一種放棄效率公理的Shapley值推廣）可能提供了一個(gè)可行的替代方案。未來的工作可以旨在建立公理化的理由，以識(shí)別此背景下用于版稅分配的最合適的解決方案概念。

從實(shí)用性的角度講，Shapley值最大的不足之處在于計(jì)算開銷。盡管Monte Carlo方法可以加速計(jì)算過程，但仍需要大量的模型重復(fù)訓(xùn)練。這種計(jì)算需求在處理大型數(shù)據(jù)集和復(fù)雜模型時(shí)變得尤其突出，可能導(dǎo)致計(jì)算資源的極大消耗和時(shí)間的延長。

未來的工作可以著重于解決這一問題，通過開發(fā)更高效的算法或啟用新的方法來減少計(jì)算開銷，從而使Shapley值在實(shí)際應(yīng)用中更加可行和高效。

作者介紹：

1. Jiachen Wang （王嘉宸）：現(xiàn)為普林斯頓大學(xué)電子工程系博士生，主攻人工智能數(shù)據(jù)估值（data valuation）等方向。

2. Zhun Deng (鄧準(zhǔn))：現(xiàn)為哥倫比亞大學(xué)計(jì)算機(jī)系博后，博后導(dǎo)師為 Richard Zemel。此前為哈佛大學(xué)計(jì)算機(jī)系博士生，師從Cynthia Dwork，主攻機(jī)器學(xué)習(xí)可靠性和社會(huì)責(zé)任性等方向。

3. Hiroaki Chiba-Okabe：現(xiàn)為賓夕法尼亞大學(xué)應(yīng)用數(shù)學(xué)和計(jì)算科學(xué)博士生，主攻方向是人工智能引發(fā)的道德問題和社會(huì)問題。

4. Boaz Barak: 哈佛大學(xué)正教授，主攻方向理論計(jì)算機(jī)和機(jī)器學(xué)習(xí)方向。同時(shí)在OpenAI 任職。

5. Wijie Su (蘇煒杰)：現(xiàn)為賓夕法尼亞大學(xué)沃頓商學(xué)院、計(jì)算機(jī)系和數(shù)學(xué)系副教授，研究方向包括人工智能的理論基礎(chǔ)等方向。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="nputw"><table id="nputw"></table></u>

<samp id="nputw"></samp><var id="nputw"><strong id="nputw"></strong></var>