偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

還不如GAN!谷歌、DeepMind等發(fā)文:擴(kuò)散模型直接從訓(xùn)練集里「抄」

人工智能 新聞
圖像生成質(zhì)量」和「隱私保護(hù)」,二者不可得兼。

去年,圖像生成模型大火,在一場大眾藝術(shù)狂歡后,接踵而來的還有版權(quán)問題。

類似DALL-E 2, Imagen和Stable Diffusion等深度學(xué)習(xí)模型的訓(xùn)練都是在上億的數(shù)據(jù)上進(jìn)行訓(xùn)練的,根本無法擺脫訓(xùn)練集的影響,但是否某些生成的圖像就完全來自于訓(xùn)練集?如果生成圖像與原圖十分類似的話,其版權(quán)又歸誰所有?

最近來自谷歌、Deepmind、蘇黎世聯(lián)邦理工學(xué)院等多所知名大學(xué)和企業(yè)的研究人員們聯(lián)合發(fā)表了一篇論文,他們發(fā)現(xiàn)擴(kuò)散模型確實可以記住訓(xùn)練集中的樣本,并在生成過程中進(jìn)行復(fù)現(xiàn)。

圖片

論文鏈接:?https://arxiv.org/abs/2301.13188?

在這項工作中,研究人員展示了擴(kuò)散模型如何在其訓(xùn)練數(shù)據(jù)中記憶單個圖像,并在生成時將其重新復(fù)現(xiàn)出來。

圖片

文中提出一個生成和過濾(generate-and-filter)的pipeline,從最先進(jìn)的模型中提取了一千多個訓(xùn)練實例,覆蓋范圍包含人物的照片、商標(biāo)的公司標(biāo)志等等。并且還在不同的環(huán)境中訓(xùn)練了數(shù)百個擴(kuò)散模型,以分析不同的建模和數(shù)據(jù)決定如何影響隱私。

總的來說,實驗結(jié)果顯示,擴(kuò)散模型對訓(xùn)練集的隱私保護(hù)比之前的生成模型(如GANs)要差得多。

記了,但記得不多

去噪擴(kuò)散模型(denoising diffusion model)是近期興起的新型生成式神經(jīng)網(wǎng)絡(luò),通過迭代去噪的過程從訓(xùn)練分布中生成圖像,比之前常用的GAN或VAE模型生成效果更好,并且更容易擴(kuò)展模型和控制圖像生成,所以也迅速成為了各種高分辨率圖像生成的主流方法。

尤其是OpenAI發(fā)布DALL-E 2之后,擴(kuò)散模型迅速火爆了整個AI生成領(lǐng)域。

生成式擴(kuò)散模型的吸引力源于其合成表面上與訓(xùn)練集中的任何東西都不同的新圖像的能力,事實上,過去的大規(guī)模訓(xùn)練工作「沒有發(fā)現(xiàn)過擬合的問題」,而隱私敏感領(lǐng)域(privacy sensitive domain)的研究人員甚至提出,擴(kuò)散模型可以通過合成圖像來「保護(hù)真實圖像的隱私」

不過這些工作都依賴于一個假設(shè):即擴(kuò)散模型不會記憶并再次生成訓(xùn)練數(shù)據(jù),否則就會違反隱私保證,并引起諸多關(guān)于模型泛化和數(shù)字偽造(digital forgery)的問題。

圖片

但事實果真如此嗎?

要想判斷生成的圖像是否來自于訓(xùn)練集,首先需要定義什么是「記憶」(memorization)。

之前的相關(guān)工作主要集中在文本語言模型上,如果模型能夠逐字從訓(xùn)練集中恢復(fù)一個逐字記錄的序列,那么這個序列就被稱為「提取」和「記憶」了;但因為這項工作是基于高分辨率的圖像,所以逐字逐句匹配的記憶定義并不適合。

下面是研究人員定義的一個基于圖像相似性度量的記憶。

如果一個生成的圖像x,并且與訓(xùn)練集中多個樣本之間的距離(distance)小于給定閾值,那么該樣本就被視為從訓(xùn)練集中得到的,即Eidetic Memorization.

然后,文中設(shè)計了一個兩階段的數(shù)據(jù)抽取攻擊(data extraction attack)方法:

1. 生成大量圖像

第一步雖然很簡單,但計算成本很高:使用選定的prompt作為輸入,以黑盒的方式生成圖像。

研究人員為每個文本提示生成500張候選圖像以增加發(fā)現(xiàn)記憶的幾率。

2. 進(jìn)行Membership Inference

把那些疑似是根據(jù)訓(xùn)練集記憶生成的圖像標(biāo)記出來。

研究人員設(shè)計的成員推理攻擊策略基于以下思路:對于兩個不同的隨機(jī)初始種子,擴(kuò)散模型生成的兩張圖像相似概率會很大,并且有可能在距離度量下被認(rèn)為是根據(jù)記憶生成的。

抽取結(jié)果

為了評估攻擊效果,研究人員從訓(xùn)練數(shù)據(jù)集中選擇了35萬個重復(fù)率最高的例子,并為每個提示生成500張候選圖像(總共生成了1.75億張圖像)。

首先對所有這些生成的圖像進(jìn)行排序,通過在團(tuán)(clique)中的圖像之間的平均距離來識別那些可能通過記憶訓(xùn)練數(shù)據(jù)生成的圖像。

然后把這些生成的圖像與訓(xùn)練圖像進(jìn)行比較,將每張圖像標(biāo)注為「extracted」和「not extracted」,最終發(fā)現(xiàn)了94張疑似從訓(xùn)練集中抽取的圖像。

通過視覺分析,將排名top 1000的圖片手動標(biāo)注為「memorized」或「not memorized」,其中發(fā)現(xiàn)還有13張圖片是通過復(fù)制訓(xùn)練樣本生成的。

圖片

從P-R曲線上來看,這種攻擊方式是非常精確的:在1.75億張生成的圖像中,可以識別出50張被記住的圖像,而假陽性率為0;并且所有根據(jù)記憶生成的圖像都可以被提取出來,精確度高于50%

為了更好地理解記憶是如何以及為什么會發(fā)生的,研究人員還在CIFAR10上訓(xùn)練了數(shù)百個較小擴(kuò)散模型,以分析模型精度、超參數(shù)、增強(qiáng)和重復(fù)數(shù)據(jù)刪除對隱私的影響。

圖片

Diffusion vs GAN

與擴(kuò)散模型不同的是,GANs并沒有明確被訓(xùn)練來記憶和重建其訓(xùn)練數(shù)據(jù)集。

GANs由兩個相互競爭的神經(jīng)網(wǎng)絡(luò)組成:一個生成器和一個判別器。生成器同樣接收隨機(jī)噪聲作為輸入,但與擴(kuò)散模型不同的是,它必須在一次前向傳遞中把這種噪聲轉(zhuǎn)換成有效圖像。

訓(xùn)練GAN的過程中,判別器需要預(yù)測圖像是否來自于生成器,而生成器需要提升自己以欺騙判別器。

因此,二者的不同之處在于,GAN的生成器只使用關(guān)于訓(xùn)練數(shù)據(jù)的間接信息進(jìn)行訓(xùn)練(即使用來自判別器的梯度),并沒有直接接收訓(xùn)練數(shù)據(jù)作為輸入。

圖片

不同的預(yù)訓(xùn)練生成模型中抽取的100萬個無條件生成的訓(xùn)練圖像,然后按FID排序的GAN模型(越低越好)放在上面,把擴(kuò)散模型放在下面。

結(jié)果顯示,擴(kuò)散模型比GAN模型記憶得更多,并且更好的生成模型(較低的FID)往往能記住更多的數(shù)據(jù),也就是說,擴(kuò)散模型是最不隱私的圖像模型形式,其泄露的訓(xùn)練數(shù)據(jù)是GANs的兩倍以上。

圖片

并且從上面的結(jié)果中還可以發(fā)現(xiàn),現(xiàn)有的隱私增強(qiáng)技術(shù)并不能提供一個可接受的隱私-性能權(quán)衡,想提高生成質(zhì)量,就需要記住更多訓(xùn)練集中的數(shù)據(jù)。

圖片

總的來說,這篇論文強(qiáng)調(diào)了日益強(qiáng)大的生成模型和數(shù)據(jù)隱私之間的矛盾,并提出了關(guān)于擴(kuò)散模型如何工作以及如何負(fù)責(zé)任地部署它們的問題。

版權(quán)問題

從技術(shù)上來講,重建(reconstruction)正是擴(kuò)散模型的優(yōu)勢;但從版權(quán)上來說,重建就是軟肋。

由于擴(kuò)散模型生成的圖像與訓(xùn)練數(shù)據(jù)之間的過于相似,藝術(shù)家們對自己的版權(quán)問題進(jìn)行了各種爭論。

比如禁止AI使用自己的作品進(jìn)行訓(xùn)練,發(fā)布的作品添加大量水印等等;并且Stable Diffusion也已經(jīng)宣布,它計劃下一步只使用包含已授權(quán)內(nèi)容的訓(xùn)練數(shù)據(jù)集,并提供了一個藝術(shù)家退出機(jī)制。

在NLP領(lǐng)域同樣面臨這個問題,有網(wǎng)友表示自1993年以來已經(jīng)發(fā)布了數(shù)百萬字的文本,而包括ChatGPT-3等所有AI都是在「被偷走的內(nèi)容」上訓(xùn)練的,使用基于AI的生成模型都是不道德的。

圖片

雖說天下文章一大抄,但對普通人來說,抄襲只是一種可有可無的捷徑;而對創(chuàng)造者來說,被抄襲的內(nèi)容卻是他們的心血。

在未來,擴(kuò)散模型還會有優(yōu)勢嗎?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2024-12-13 12:07:15

2025-01-13 00:00:00

AI模型訓(xùn)練

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2023-02-01 13:39:46

2023-10-27 13:04:46

AI模型

2020-03-30 16:00:46

開源技術(shù) 趨勢

2024-06-03 06:49:53

2024-07-29 12:47:32

2025-07-09 09:25:10

2025-03-13 10:28:07

2021-07-13 17:59:13

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-08-22 15:47:48

谷歌模型

2023-03-24 13:16:38

AIChatGPT

2025-01-13 08:20:00

AI模型訓(xùn)練

2023-12-17 19:38:37

谷歌AI 模型人工智能

2023-02-27 09:48:30

谷歌模型

2023-08-25 13:21:56

論文模型

2025-02-24 13:35:00

2023-11-17 08:46:26

點贊
收藏

51CTO技術(shù)棧公眾號