偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人工智能,“拋棄”真實(shí)數(shù)據(jù)集?

人工智能 機(jī)器學(xué)習(xí) 新聞
近日,一項(xiàng)來自麻省理工學(xué)院(MIT)科研團(tuán)隊(duì)的研究顯示,一種使用合成數(shù)據(jù)訓(xùn)練的圖像分類機(jī)器學(xué)習(xí)模型,可以與使用真實(shí)數(shù)據(jù)來訓(xùn)練的模型相媲美,甚至性能更好。

當(dāng)前,人工智能技術(shù)已經(jīng)應(yīng)用在我們?nèi)粘I钪械姆椒矫婷?,比如人臉識(shí)別、語音識(shí)別、虛擬數(shù)字人等。

但普遍存在的一個(gè)問題是,科研人員要想通過訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型來執(zhí)行某一特定任務(wù)(比如圖像分類),往往需要使用大量的訓(xùn)練數(shù)據(jù),而這些數(shù)據(jù)(集)卻并不總是很容易獲得。

比如,如果研究人員正在訓(xùn)練一輛自動(dòng)駕駛汽車的計(jì)算機(jī)視覺模型,但真實(shí)數(shù)據(jù)可能不會(huì)包含一個(gè)人和他的一條狗在高速公路上奔跑的樣本,一旦遇到這種情況,模型就不知道該如何做,可能會(huì)產(chǎn)生不必要的后果。

而且,使用已有數(shù)據(jù)生成數(shù)據(jù)集,也會(huì)花費(fèi)數(shù)百萬美元。

另外,即使是最好的數(shù)據(jù)集,也常常包含對(duì)模型性能產(chǎn)生負(fù)面影響的偏見。

那么,既然獲得、使用一個(gè)數(shù)據(jù)集代價(jià)這么昂貴,能不能在保證模型性能的前提下,使用人為合成的數(shù)據(jù)來訓(xùn)練呢?

近日,一項(xiàng)來自麻省理工學(xué)院(MIT)科研團(tuán)隊(duì)的研究顯示,一種使用合成數(shù)據(jù)訓(xùn)練的圖像分類機(jī)器學(xué)習(xí)模型,可以與使用真實(shí)數(shù)據(jù)來訓(xùn)練的模型相媲美,甚至性能更好。

相關(guān)研究論文以“ Generative models as a data source for multiview representation learning ”為題,以會(huì)議論文的形式發(fā)表在 ICLR 2022 上。

不輸于真實(shí)數(shù)據(jù)

這種特殊的機(jī)器學(xué)習(xí)模型被稱為生成模型(generative model),相比于數(shù)據(jù)集,存儲(chǔ)或共享所需的內(nèi)存要少得多,不僅可以避免一些關(guān)于隱私和使用權(quán)的問題,也不存在傳統(tǒng)數(shù)據(jù)集中存在的一些偏見和種族或性別問題。

據(jù)論文描述,在訓(xùn)練過程中,生成模型首先會(huì)獲取數(shù)百萬張包含特定對(duì)象(比如汽車或貓咪)的圖像,然后學(xué)習(xí)汽車或貓咪的外觀,最后生成類似的對(duì)象。

簡單來說就是,研究人員使用一個(gè)預(yù)先訓(xùn)練的生成模型,參照模型訓(xùn)練數(shù)據(jù)集上的圖像,輸出大量獨(dú)特的、真實(shí)的圖像流。

(來源: Pixabay)

研究人員表示,一旦生成模型在真實(shí)數(shù)據(jù)上進(jìn)行訓(xùn)練,就可以生成幾乎與真實(shí)數(shù)據(jù)無法區(qū)分的合成數(shù)據(jù)。

另外,生成模型還可以基于訓(xùn)練數(shù)據(jù)做進(jìn)一步拓展。

如果生成模型是基于汽車圖像進(jìn)行訓(xùn)練的,它就可以“想象”出汽車在不同情況下是什么樣的,然后輸出具有不同顏色、大小和狀態(tài)的汽車圖像。

生成模型具備很多優(yōu)點(diǎn),其中之一便是,它在理論上可以創(chuàng)建無限數(shù)量的樣本。

基于此,研究人員試圖搞清楚樣本數(shù)量如何影響模型性能。結(jié)果顯示,在某些情況下,大量的獨(dú)特樣本確實(shí)會(huì)帶來額外的改進(jìn)。

而且,在他們看來,生成模式最酷的一點(diǎn)在于,我們可以在在線資料庫中找到并使用它們,而且不需要干預(yù)模型就可以獲得良好的表現(xiàn)。

但生成模型也有一些缺點(diǎn)。例如,在某些情況下,生成模型可能會(huì)揭示源數(shù)據(jù),從而帶來隱私風(fēng)險(xiǎn),如果沒有進(jìn)行適當(dāng)?shù)膶徲?jì),可能會(huì)放大它們所訓(xùn)練數(shù)據(jù)集中的偏差。

生成式 AI 大勢所趨?

有效數(shù)據(jù)的稀缺性,以及采樣偏差,已經(jīng)成為機(jī)器學(xué)習(xí)發(fā)展的關(guān)鍵瓶頸。

近年來,為解決這一問題,生成式 AI(Generative AI)成為了人工智能領(lǐng)域的熱議話題之一,被業(yè)內(nèi)給予了足夠高的期待。

去年底,Gartner 發(fā)布了 2022 年重要戰(zhàn)略技術(shù)趨勢,將生成式 AI 稱為是“最引人注目和最強(qiáng)大的人工智能技術(shù)之一”。

據(jù) Gartner 預(yù)測,預(yù)計(jì)到 2025 年,生成式 AI 將占所有生成數(shù)據(jù)的 10%,而目前這一比例還不到 1%。

圖|Gartner 2022 年重要戰(zhàn)略技術(shù)趨勢(來源: Gartner 官網(wǎng))

2020 年,生成式 AI 作為一個(gè)新增技術(shù)熱點(diǎn),在 Gartner 發(fā)布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence,2021”報(bào)告中,生成式 AI 作為 2-5 年即可成熟的技術(shù)出現(xiàn)。

(來源: Gartner Hype Cycle for Artificial Intelligence, 2021)

生成式 AI 的突破在于,它可以從現(xiàn)有數(shù)據(jù)(圖像、文本等)中學(xué)習(xí),并生成全新、相似的原始數(shù)據(jù)。也就是說,它不僅可以做出判斷,還能夠進(jìn)行創(chuàng)造,可以用于自動(dòng)編程、藥物開發(fā)、視覺藝術(shù)、社交、商業(yè)服務(wù)等。

但是,生成式 AI 也會(huì)被濫用于詐騙、欺詐、政治造謠、偽造身份等,比如經(jīng)常產(chǎn)生各種負(fù)面新聞的 Deepfake。

那么問題來了,如果我們有足夠好的生成模型,還需要真實(shí)的數(shù)據(jù)集嗎?

責(zé)任編輯:張燕妮 來源: 學(xué)術(shù)頭條
相關(guān)推薦

2024-01-26 10:47:55

2021-11-05 09:56:36

人工智能AI指數(shù)

2022-04-28 23:27:08

人工智能機(jī)器學(xué)習(xí)工具

2019-10-31 14:10:35

大數(shù)據(jù)人工智能工具

2022-04-17 23:13:02

人工智能元宇宙數(shù)據(jù)

2020-05-25 19:17:29

人工智能AI

2025-04-09 08:23:49

2022-10-19 07:04:12

?人工智能云服務(wù)Alaas

2022-06-20 11:05:58

通用人工智能機(jī)器人

2018-07-17 09:04:54

人工智能物聯(lián)網(wǎng)通信

2023-12-05 14:46:58

人工智能

2023-10-17 10:20:23

2017-02-15 16:24:03

2018-08-17 15:17:56

人工智能層次極端

2018-03-28 09:40:00

CITE人工智能館

2022-01-19 00:08:26

人工智能AlphaGO計(jì)算機(jī)

2015-10-10 09:34:52

人工智能機(jī)器學(xué)習(xí)

2024-04-24 14:11:07

2022-11-06 16:07:56

人工智能數(shù)據(jù)驗(yàn)證工具

2018-03-23 09:14:46

人工智能云計(jì)算機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)