偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

游走在法律邊緣的「圖像生成技術(shù)」:這篇論文教你避免成「被告」

人工智能 新聞
繁榮的AIGC下,如何讓內(nèi)容更負(fù)責(zé),還有很長(zhǎng)的路要走。

近年來(lái),AI生成內(nèi)容(AIGC)備受矚目,其內(nèi)容涵蓋圖像、文本、音頻、視頻等,不過(guò)AIGC儼然已成為一把雙刃劍,因其不負(fù)責(zé)任的使用而備受爭(zhēng)議。

圖像生成技術(shù)一旦用不好,就可能成「被告」。

最近來(lái)自Sony AI和智源的研究人員從多個(gè)方面探討了AIGC當(dāng)下的問(wèn)題,以及如何讓AI生成的內(nèi)容更負(fù)責(zé)。

圖片

論文鏈接:https://arxiv.org/pdf/2303.01325.pdf

本文關(guān)注可能阻礙AIGC健康發(fā)展的三個(gè)主要問(wèn)題,包括:(1)隱私;(2)偏見、毒性、錯(cuò)誤信息;(3)知識(shí)產(chǎn)權(quán)(IP)的風(fēng)險(xiǎn)。

圖片

通過(guò)記錄已知和潛在的風(fēng)險(xiǎn),以及任何可能的AIGC濫用場(chǎng)景,本文旨在引起人們對(duì)AIGC潛在風(fēng)險(xiǎn)和濫用的關(guān)注,并提供解決這些風(fēng)險(xiǎn)的方向,以促進(jìn)AIGC朝著更符合道德和安全的方向發(fā)展,從而造福社會(huì)。

隱私

眾所周知,大型基礎(chǔ)模型存在一系列隱私泄露的問(wèn)題。

先前的研究表明,入侵者可以從經(jīng)過(guò)訓(xùn)練的GPT-2模型中生成序列,并從訓(xùn)練集中識(shí)別出那些被記憶的序列,[Kandpal et al., 2022] 將這些隱私入侵的成功歸因于訓(xùn)練集中存在的重復(fù)數(shù)據(jù),研究已經(jīng)證明,出現(xiàn)多次的序列比只出現(xiàn)一次的序列更有可能被生成。

由于 AIGC 模型是在大規(guī)模網(wǎng)絡(luò)抓取的數(shù)據(jù)上進(jìn)行訓(xùn)練,因此過(guò)度擬合和隱私泄露問(wèn)題變得尤為重要。

例如,Stable Diffusion 模型記憶了訓(xùn)練數(shù)據(jù)中的重復(fù)圖像 [Rombach et al., 2022c]。[Somepalli et al., 2022] 證明了 Stable Diffusion 模型公然從其訓(xùn)練數(shù)據(jù)中復(fù)制圖像,并生成訓(xùn)練數(shù)據(jù)集中前景和背景對(duì)象的簡(jiǎn)單組合。

圖片

此外,該模型還會(huì)顯示出重建記憶的能力,從而生成語(yǔ)義上與原始對(duì)象相同但像素形式不同的對(duì)象。此類圖像的存在引起了對(duì)數(shù)據(jù)記憶和所有權(quán)的擔(dān)憂。

同樣,最近的研究顯示,Google的Imagen系統(tǒng)也存在泄露真人照片和受版權(quán)保護(hù)圖像的問(wèn)題。在Matthew Butterick最近的訴訟中 [Butterick, 2023],他指出由于系統(tǒng)中所有的視覺信息都來(lái)自于受版權(quán)保護(hù)的訓(xùn)練圖像,因此生成的圖像無(wú)論外觀如何,都必然是來(lái)自于這些訓(xùn)練圖像的作品。

類似地,DALL·E 2也遇到了類似的問(wèn)題:它有時(shí)會(huì)從其訓(xùn)練數(shù)據(jù)中復(fù)制圖像,而不是創(chuàng)建新的圖像。

OpenAI發(fā)現(xiàn)這種現(xiàn)象的發(fā)生是因?yàn)閳D像在數(shù)據(jù)集中被多次復(fù)制,類似地,ChatGPT自己也承認(rèn)了其存在隱私泄露的風(fēng)險(xiǎn)。

圖片

為了緩解大型模型的隱私泄露問(wèn)題,許多公司和研究人員都在隱私防御方面進(jìn)行了大量努力。在產(chǎn)業(yè)層面,Stability AI已經(jīng)認(rèn)識(shí)到Stable Diffusion存在的局限性。

為此,他們提供了一個(gè)網(wǎng)站(https://rom1504.github.io/clip-retrieval/)來(lái)識(shí)別被Stable Diffusion記憶的圖像。

此外,藝術(shù)公司Spawning AI創(chuàng)建了一個(gè)名為「Have I Been Trained」的網(wǎng)站(https://haveibeentrained.com),以幫助用戶確定他們的照片或作品是否被用于人工智能訓(xùn)練。

圖片

OpenAI試圖通過(guò)減少數(shù)據(jù)重復(fù)來(lái)解決隱私問(wèn)題。

此外,微軟和亞馬遜等公司已經(jīng)禁止員工與ChatGPT共享敏感數(shù)據(jù),以防止員工泄露機(jī)密,因?yàn)檫@些信息可用于未來(lái)版本的ChatGPT的訓(xùn)練。

在學(xué)術(shù)層面,Somepalli等人研究了圖像檢索框架來(lái)識(shí)別內(nèi)容重復(fù),Dockhorn等人也提出了差分隱私擴(kuò)散模型來(lái)保證生成模型的隱私。

偏見、毒性、錯(cuò)誤信息

AIGC 模型的訓(xùn)練數(shù)據(jù)來(lái)自真實(shí)世界,然而這些數(shù)據(jù)可能無(wú)意中強(qiáng)化有害的刻板印象,排斥或邊緣化某些群體,并包含有毒的數(shù)據(jù)源,這可能會(huì)煽動(dòng)仇恨或暴力并冒犯?jìng)€(gè)人 [Weidinger et al., 2021]。

在這些有問(wèn)題的數(shù)據(jù)集上進(jìn)行訓(xùn)練或微調(diào)的模型可能會(huì)繼承有害的刻板印象、社會(huì)偏見和毒性,甚至產(chǎn)生錯(cuò)誤信息,從而導(dǎo)致不公平的歧視和對(duì)某些社會(huì)群體的傷害。

例如,Stable Diffusion v1 模型主要在 LAION-2B 數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集僅包含帶有英文描述的圖像。因此,該模型偏向于白人和西方文化,其他語(yǔ)言的提示可能無(wú)法充分體現(xiàn)。

雖然 Stable Diffusion 模型的后續(xù)版本在 LAION 數(shù)據(jù)集的過(guò)濾版本上進(jìn)行了微調(diào),但偏見問(wèn)題仍然存在。同樣,DALLA·E, DALLA·E 2和 Imagen也表現(xiàn)出社會(huì)偏見和對(duì)少數(shù)群體的負(fù)面刻板印象。

此外,即使在生成非人類圖像時(shí),Imagen 也被證明存在社會(huì)和文化偏見。由于這些問(wèn)題,谷歌決定不向公眾提供Imagen。

為了說(shuō)明 AIGC 模型固有的偏見,我們對(duì) Stable Diffusion v2.1 進(jìn)行了測(cè)試,使用「草原上奔跑的三名工程師」這個(gè)提示生成的圖片全部為男性,并且都不屬于被忽視的少數(shù)民族,這說(shuō)明生成的圖片缺乏多樣性。

圖片

此外,AIGC模型還可能會(huì)產(chǎn)生錯(cuò)誤的信息。例如,GPT及其衍生產(chǎn)品生成的內(nèi)容可能看似準(zhǔn)確且權(quán)威,但可能包含完全錯(cuò)誤的信息。

因此,它可能在一些領(lǐng)域(比如學(xué)校、律法、醫(yī)療、天氣預(yù)報(bào))中提供誤導(dǎo)的信息。例如,在醫(yī)療領(lǐng)域,ChatGPT提供的有關(guān)醫(yī)療劑量的答案可能不準(zhǔn)確或不完整,這可能會(huì)危及生命。在交通領(lǐng)域,如果司機(jī)都遵守ChatGPT給出的錯(cuò)誤的交通規(guī)則,可能會(huì)導(dǎo)致事故甚至死亡。

針對(duì)存在問(wèn)題的數(shù)據(jù)和模型,人們已經(jīng)做出了許多防御措施。

OpenAI通過(guò)精細(xì)過(guò)濾原始訓(xùn)練數(shù)據(jù)集,并刪除了DALLA·E 2訓(xùn)練數(shù)據(jù)中的任何暴力或色情內(nèi)容,然而,過(guò)濾可能會(huì)在訓(xùn)練數(shù)據(jù)中引入偏見,然后這些偏見會(huì)傳播到下游模型。

為了解決這個(gè)問(wèn)題,OpenAI開發(fā)了預(yù)訓(xùn)練技術(shù)來(lái)減輕由過(guò)濾器引起的偏見。此外,為確保AIGC模型能夠及時(shí)反映社會(huì)現(xiàn)狀,研究人員必須定期更新模型使用的數(shù)據(jù)集,將有助于防止信息滯后而帶來(lái)的負(fù)面影響。

值得注意的是,盡管源數(shù)據(jù)中的偏見和刻板印象可以減少,但它們?nèi)匀豢赡茉贏IGC模型的訓(xùn)練和開發(fā)過(guò)程中傳播甚至加劇。因此,在模型訓(xùn)練和開發(fā)的整個(gè)生命周期中,評(píng)估偏見、毒性和錯(cuò)誤信息的存在至關(guān)重要,而不僅僅停留在數(shù)據(jù)源級(jí)別。

知識(shí)產(chǎn)權(quán) (IP)

隨著AIGC的迅速發(fā)展和廣泛應(yīng)用,AIGC的版權(quán)問(wèn)題變得尤為重要。

2022年11月,Matthew Butterick對(duì)微軟子公司GitHub提起了一起集體訴訟,指控其產(chǎn)品代碼生成服務(wù)Copilot侵犯了版權(quán)法。對(duì)于文本到圖像模型,一些生成模型被指控侵犯了藝術(shù)家的作品原創(chuàng)權(quán)。

[Somepalli et al., 2022]表明,Stable Diffusion生成的圖片可能是從訓(xùn)練數(shù)據(jù)中復(fù)制而來(lái)。雖然Stable Diffusion否認(rèn)對(duì)生成圖像擁有任何所有權(quán),并允許用戶在圖像內(nèi)容合法且無(wú)害的情況下自由使用它們,但這種自由仍然引發(fā)了有關(guān)版權(quán)的激烈爭(zhēng)議。

像Stable Diffusion這樣的生成模型是在未經(jīng)知識(shí)產(chǎn)權(quán)持有人授權(quán)的情況下,對(duì)來(lái)自互聯(lián)網(wǎng)的大規(guī)模圖像進(jìn)行訓(xùn)練的,因此,一些人認(rèn)為這侵犯了他們的權(quán)益。

為了解決知識(shí)產(chǎn)權(quán)問(wèn)題,許多AIGC公司已經(jīng)采取了行動(dòng)。

例如,Midjourney已經(jīng)在其服務(wù)條款中加入了DMCA刪除政策,允許藝術(shù)家在懷疑侵犯版權(quán)時(shí)請(qǐng)求將他們的作品從數(shù)據(jù)集中刪除。

同樣,Stability AI計(jì)劃為藝術(shù)家提供一種選項(xiàng),即將自己的作品從Stable Diffusion未來(lái)版本的訓(xùn)練集中排除。此外,文本水印 [He et al., 2022a; He et al., 2022b] 也可以用于識(shí)別這些 AIGC 工具是否未經(jīng)許可使用其他來(lái)源的樣本。

例如,Stable Diffusion 生成了帶有 Getty Images 水印的圖像 [Vincent, 2023]。

OpenAI 正在開發(fā)水印技術(shù)去識(shí)別由 GPT 模型生成的文本,教育工作者可以使用該工具來(lái)檢測(cè)作業(yè)是否存在剽竊行為。谷歌也已經(jīng)為其發(fā)布的圖像應(yīng)用了 Parti 水印。除了水印之外,OpenAI 最近還發(fā)布了一個(gè)分類器,用于區(qū)分人工智能生成的文本和人類編寫的文本。

結(jié)語(yǔ)

盡管 AIGC 目前仍處于起步階段,但其正在迅速擴(kuò)張,并將在可預(yù)見的未來(lái)保持活躍。

為了讓用戶和公司充分了解這些風(fēng)險(xiǎn)并采取適當(dāng)?shù)拇胧﹣?lái)緩解這些威脅,我們?cè)诒疚闹锌偨Y(jié)了 AIGC 模型中當(dāng)前和潛在的風(fēng)險(xiǎn)。

如果不能全面了解這些潛在風(fēng)險(xiǎn)并采取適當(dāng)?shù)娘L(fēng)險(xiǎn)防御措施和安全保障,AIGC 的發(fā)展可能面臨重大挑戰(zhàn)和監(jiān)管障礙。因此,我們需要更廣泛的社區(qū)參與為負(fù)責(zé)任的 AIGC 做出貢獻(xiàn)。

最后的最后,感謝SonyAI和BAAI!

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2011-07-18 11:24:18

2021-03-19 10:43:52

谷歌工會(huì)

2009-05-20 15:09:21

2022-03-23 14:44:42

存內(nèi)計(jì)算芯片計(jì)算機(jī)

2013-07-12 11:04:21

技術(shù)管理

2013-07-12 11:08:17

技術(shù)成長(zhǎng)管理

2011-03-11 13:47:17

移動(dòng)開發(fā)者

2024-11-20 16:12:31

Python圖像處理計(jì)算機(jī)視覺

2018-08-23 15:08:41

2020-03-27 15:44:19

人臉識(shí)別技術(shù)網(wǎng)絡(luò)

2023-12-18 08:57:22

GAN網(wǎng)絡(luò)

2012-06-27 10:29:20

imo即時(shí)通訊

2009-06-23 08:34:45

谷歌暴力視頻

2019-07-06 10:18:07

人工智能

2020-09-15 10:45:06

PythonPyQt5Matplotlib

2021-05-13 10:02:45

生物識(shí)別技術(shù)加密身份認(rèn)證

2021-02-03 17:11:06

人臉識(shí)別信息安全技術(shù)

2022-02-20 09:56:28

TCPIP網(wǎng)絡(luò)協(xié)議

2023-12-27 07:40:43

HTTP服務(wù)器負(fù)載均衡

2023-07-31 21:56:54

哨兵系統(tǒng)redis
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)