偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

新聞 機(jī)器學(xué)習(xí)
近日,麻省理工學(xué)院和 IBM 研究人員組成的團(tuán)隊,共同創(chuàng)建了一個與之不同的圖像識別數(shù)據(jù)集 ObjectNet,難倒了世界上最好的計算機(jī)視覺模型。

在人工智能領(lǐng)域中的圖像分類問題上,最常用來訓(xùn)練和測試的數(shù)據(jù)集是 ImageNet,它也是全球超大的“CV 習(xí)題庫”。近日,麻省理工學(xué)院和 IBM 研究人員組成的團(tuán)隊,共同創(chuàng)建了一個與之不同的圖像識別數(shù)據(jù)集 ObjectNet,難倒了世界上最好的計算機(jī)視覺模型。

需要提示的是,這里的最好或最強(qiáng)指的不是某一個模型,而是一類高性能的視覺模型。

在 ImageNet 測試中實現(xiàn)準(zhǔn)確率高達(dá) 97% 的計算機(jī)視覺模型,在 ObjectNet 數(shù)據(jù)集上檢測的準(zhǔn)確率下降到了 50%-55%。測試結(jié)果如此“慘烈”,主要原因在于,目前幾乎所有的視覺模型,在類似于物體旋轉(zhuǎn)、背景變換、視角切換等復(fù)雜情境下,識別過程都缺乏穩(wěn)定性。

麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室 (CSAIL) 和大腦、心智與機(jī)器中心 (CBMM) 的研究科學(xué)家 Andrei Barbu,是該研究的通訊作者,也是該項目的主持人之一。他在接受 DeepTech 專訪時表示,“我們需要一個數(shù)據(jù)集能夠具有典型意義地表示你在現(xiàn)實生活中看到的東西,沒有這個東西,誰還有信心做計算機(jī)視覺?我們怎么能說計算機(jī)視覺已經(jīng)為黃金時代和關(guān)乎安全的關(guān)鍵應(yīng)用做好了準(zhǔn)備?”

Andrei Barbu 還表示,ObjectNet 可以向全球研究者分享,“只要聯(lián)系我們,我們將發(fā)送給你。”(網(wǎng)站:https://objectnet.dev/)

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

圖 | ImageNet(來源:ImageNet)

人工智能使用由神經(jīng)元層組成的神經(jīng)網(wǎng)絡(luò)在大量的原始數(shù)據(jù)中尋找規(guī)律。比如,在看過成百上千張椅子的照片之后,它學(xué)會了椅子的形狀。

斯坦福大學(xué)每年都會舉行一個比賽,邀請谷歌、微軟、百度等 IT 企業(yè)使用 ImageNet 測試他們的系統(tǒng)運行情況。每年一度的比賽也牽動著各大巨頭公司的心弦。

ImageNet 由世界上頂尖的計算機(jī)視覺專家李飛飛參與建立,她在一次演講中提到,要讓冰冷的機(jī)器讀懂照片背后的故事,就需要讓機(jī)器像嬰兒一樣看過足夠多的“訓(xùn)練圖像”。

ImageNet 從 Flickr 和其他社交媒體網(wǎng)站上下載了接近 10 億張圖片,2009 年,ImageNet 項目誕生了,含有近 1500 萬張照片的數(shù)據(jù)庫, 涵蓋了 22000 種物品。

計算機(jī)視覺模型已經(jīng)學(xué)會了精確地識別照片中的物體,以至于有些模型在某些數(shù)據(jù)集上表現(xiàn)得比人類還要好。

[[285468]]

圖 | ImageNet 創(chuàng)建者之一李飛飛(來源:Wikipedia)

但是,當(dāng)這些模型真正進(jìn)入到生活中時,它們的性能會顯著下降,這就給自動駕駛汽車和其他使用計算機(jī)視覺的關(guān)鍵系統(tǒng)帶來了安全隱患。

因為即使有成百上千張照片,也無法完全顯示物體在現(xiàn)實生活中可能擺出的方向和位置。椅子可以是倒在地上的,T 恤可能被掛在樹枝上,云可以倒映在車身上…… 這時候識別模型就會產(chǎn)生疑惑。

AI 公司 Vicarious 的聯(lián)合創(chuàng)始人 Dileep George 曾表示:“這表明我們在 ImageNet 上花費了大量資源來進(jìn)行過擬合。”過度擬合是指過于緊密或精確地匹配特定數(shù)據(jù)集的結(jié)果,以致于無法擬合其他數(shù)據(jù)或預(yù)測未來的觀察結(jié)果。

與 ImageNet 隨意收集的照片不同,ObjectNet 上面提供的照片是有特殊背景和角度的,研究人員讓自由職業(yè)者為數(shù)百個隨機(jī)擺放的家具物品拍照,告訴他們從什么角度拍攝以及是擺在廚房、浴室還是客廳。

因此,數(shù)據(jù)集中的物品的拍攝角度非常清奇,側(cè)翻在床上的椅子、浴室中倒扣的茶壺、 掛在客廳椅背上的 T 恤……

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

圖 | ImageNet(左欄)經(jīng)常顯示典型背景上的對象,很少有旋轉(zhuǎn),也很少有其他視角。典型的 ObjectNet 對象是從多個視點在不同的背景上進(jìn)行映像的。前三列顯示了椅子的三個屬性:旋轉(zhuǎn)、背景和視角。可以看到由于這些操作而引入到數(shù)據(jù)集的大量變化。由于不一致的長寬比,此圖只略微裁剪了 ObjectNet 圖像。大多數(shù)檢測器對 ObjectNet 中包含的大多數(shù)圖像都識別失敗了(來源:論文)

麻省理工學(xué)院 CSAIL 和 CBMM 的研究科學(xué)家 Boris Katz 說:“我們創(chuàng)建這個數(shù)據(jù)集是為了告訴人們,物體識別問題仍然是個難題。”“我們需要更好、更智能的算法。”

Katz 和他的同事將在正在召開的 NeurIPS 會議上展示他們的成果,NeurIPS 是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的國際頂級會議。

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

圖 | ObjectNet 研究團(tuán)隊。這項研究由美國國家科學(xué)基金會,麻省理工學(xué)院大腦、心智和機(jī)器中心,麻省理工學(xué)院 - IBM 沃森人工智能實驗室,豐田研究所和 SystemsThatLearn@CSAIL 倡議資助(來源:ObjectNet)

另外,ObjectNet 與傳統(tǒng)圖像數(shù)據(jù)集還有一個重要的區(qū)別:它不包含任何訓(xùn)練圖像。也就是說,練習(xí)題和考試題重合的幾率變小了,機(jī)器很難“作弊”。大多數(shù)數(shù)據(jù)集都分為訓(xùn)練集和測試集,但是訓(xùn)練集通常與測試集有細(xì)微的相似之處,實際上是讓模型在測試中占了先機(jī)。

乍一看,ImageNet 有 1500 萬張圖片,似乎非常龐大。但是當(dāng)去除掉訓(xùn)練集部分時,它的大小與 ObjectNet 相當(dāng),差不多有 5 萬張照片。

“如果我們想知道算法在現(xiàn)實世界中的表現(xiàn)如何,我們應(yīng)該在沒有偏見的圖像上測試它們,這些圖像應(yīng)該是它們從未見過的,”Andrei Barbu 說。

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

圖 | 亞馬遜的“土耳其機(jī)器人”Amazon Mechanical Turk(MTurk)是一種眾包網(wǎng)絡(luò)集市,能使計算機(jī)程序員調(diào)用人類智能來執(zhí)行目前計算機(jī)尚不足以勝任的任務(wù)。ImageNet 和 ObjectNet 都通過這些平臺來標(biāo)記圖片(來源:Amazon Mechanical Turk)

研究人員說,結(jié)果表明,機(jī)器仍然很難理解物體是三維的,物體也可以旋轉(zhuǎn)和移動到新的環(huán)境中。“這些概念并沒有被構(gòu)建到現(xiàn)代對象探測器的架構(gòu)中,”研究的合著者、IBM 的研究員 Dan Gutfreund 說。

模型在 ObjectNet 上的測試結(jié)果如此“慘烈”,并不是因為數(shù)據(jù)量不夠,而是模型對類似于旋轉(zhuǎn)、背景變換、視角切換等等的認(rèn)知缺乏穩(wěn)定性。研究人員是如何得出這個結(jié)論的呢?他們讓模型先用 ObjectNet 的一半數(shù)據(jù)進(jìn)行訓(xùn)練,然后再用另一半數(shù)據(jù)進(jìn)行測試。在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,通常可以提高性能,但是這次,模型只得到了輕微的改進(jìn),這表明模型沒有完全理解對象在現(xiàn)實世界中是如何存在的。

所以,研究人員認(rèn)為,即使設(shè)計一個更大版本的、包含更多視角和方向的 ObjectNet,也不一定能教會人工智能理解物體的存在。ObjectNet 的目標(biāo)是激勵研究人員提出下一波革命性的技術(shù),就像最初推出的 ImageNet 挑戰(zhàn)一樣。他們下一步會繼續(xù)探究為何人類在圖像識別任務(wù)上具有良好的泛化能力和魯棒性,并希望這一數(shù)據(jù)集能夠成為檢驗圖像識別模型泛化能力的評估方法。

“人們向這些物體檢測器輸入了大量數(shù)據(jù),但回報卻在遞減,”Katz 說。“你不可能把一個物體的每一個角度和每一個可能存在的環(huán)境都拍出來。我們希望這個新的數(shù)據(jù)集能夠在現(xiàn)實世界中催生出一個不會出現(xiàn)意外失敗的、強(qiáng)大的計算機(jī)視覺系統(tǒng)。”

麻省理工、IBM合推新型數(shù)據(jù)集,“為計算機(jī)視覺黃金時代做準(zhǔn)備”

圖 | Andrei Barbu 是麻省理工學(xué)院研究科學(xué)家,主要研究語言、視覺和機(jī)器人技術(shù),同時還涉獵神經(jīng)科學(xué)。(來源:MIT)

DeepTech 對該研究合作者、CSAIL 和 CBMM 的研究科學(xué)家 Andrei Barbu 進(jìn)行了專訪(以下為不改變原意的采訪實錄):

DeepTech:這個構(gòu)思是在什么時候產(chǎn)生的,目的是什么?現(xiàn)在可以下載使用了嗎?

Andrei Barbu:ObjectNet 是在大約 4 年前提出的。因為即使許多數(shù)據(jù)集 (如 ImageNet) 的準(zhǔn)確率高達(dá) 95% 以上,但是在現(xiàn)實世界中的性能可能比你預(yù)期的要差得多。

我們的想法是將其他學(xué)科的優(yōu)秀實驗設(shè)計直接引入機(jī)器學(xué)習(xí),比如物理學(xué)和心理學(xué)。我們需要一個數(shù)據(jù)集能夠具有典型意義地表示你在現(xiàn)實生活中看到的東西,沒有這個東西,誰還有信心做計算機(jī)視覺?我們怎么能說計算機(jī)視覺已經(jīng)為黃金時代和關(guān)乎安全的關(guān)鍵應(yīng)用做好了準(zhǔn)備?

ObjectNet 已經(jīng)可以使用了,只要聯(lián)系我們,我們將發(fā)送給你。

DeepTech:收集實際數(shù)據(jù)用了多長時間?數(shù)據(jù)的有效性如何?

Andrei Barbu:我們花了大約 3 年的時間來弄清楚怎么做,花了大約 1 年的時間來收集數(shù)據(jù)?,F(xiàn)在我們可以更快地收集另一個版本,時間跨度為幾個月。

我們在土耳其機(jī)器人上收集大約 10 萬張圖片,其中大約一半我們保存了下來。許多照片都是在美國以外的地方拍攝的,因此,有些物體可能看起來很陌生。成熟的橙子是綠色的,香蕉有不同的大小,衣服有不同的形狀和質(zhì)地。

DeepTech:成本是多少?在收集數(shù)據(jù)時遇到了什么問題?

Andrei Barbu:在學(xué)術(shù)界,成本是復(fù)雜的。人力成本高于在土耳其機(jī)器人上的成本,單在土耳其機(jī)器人上的成本就很可觀。

收集這些數(shù)據(jù)遇到很多問題。這個過程很復(fù)雜,因為它需要在不同的手機(jī)上運行;指令很復(fù)雜,我們花了一段時間才真正理解如何以一種穩(wěn)定的方式解釋這個任務(wù);數(shù)據(jù)驗證也很復(fù)雜,小問題幾乎層出不窮。我們需要很多實驗來學(xué)習(xí)如何有效地做到這一點。

DeepTech:ObjectNet 與 Imagenet 的區(qū)別和聯(lián)系是什么?

Andrei Barbu:與 ImageNet 的不同之處在于:1、我們收集圖像的方式可以控制偏差。我們告訴人們?nèi)绾涡D(zhuǎn)物體,在什么背景中放置物體,以及在哪個角度拍照。在大多數(shù)的數(shù)據(jù)集中,圖像背景的信息會導(dǎo)致機(jī)器不自覺的“欺騙”,它們會憑借對于廚房背景的了解來預(yù)測某個東西可能是平底鍋。

2、這些照片不是從社交媒體上收集的,所以它們不是那種好看的照片,人們也不想分享。我們還確保收集來自印度、美國以及不同社會經(jīng)濟(jì)階層的圖像。我們還有損壞或破碎物體的圖像。

3、沒有訓(xùn)練集。

這在 10 年前并不是什么大問題,但我們的方法在發(fā)現(xiàn)模式方面是如此強(qiáng)大,以至于沒有人能夠識別,所以我們需要這些變化來避免簡單地調(diào)整我們的模型,以適應(yīng)來自相同數(shù)據(jù)集的訓(xùn)練和測試集之間的偏見。

DeepTech:沒有訓(xùn)練集會帶來什么影響?

Andrei Barbu:由于沒有訓(xùn)練集,所有的方法都需要泛化。他們需要在一個數(shù)據(jù)集上進(jìn)行培訓(xùn),并在 ObjectNet 上進(jìn)行測試。這意味著他們利用偏差的可能性要小得多,而他們成為強(qiáng)大的目標(biāo)探測器的可能性要大得多。我們想說服每個人,至少在機(jī)器學(xué)習(xí)的既定領(lǐng)域,收集訓(xùn)練集的小組應(yīng)該與收集測試集的小組分開。

由于我們已經(jīng)成為一個數(shù)據(jù)驅(qū)動的研究領(lǐng)域,我們需要改變收集數(shù)據(jù)的方法,以推動科學(xué)的發(fā)展。

DeepTech:3D 對象太復(fù)雜了,我認(rèn)為它很難表示。比如如何去表示旋轉(zhuǎn)的椅子?

Andrei Barbu:我不認(rèn)為 3D 很復(fù)雜。

顯然你和我對物體的三維形狀有一定的認(rèn)識,因為我們可以從新的角度想象物體。

我認(rèn)為這也是計算機(jī)視覺的未來,ObjectNet 的設(shè)計就是在對這個存疑。它不關(guān)心你構(gòu)建模型的基準(zhǔn),真正重要的是,它為你提供了一個更可靠的工具,用來檢測你的模型是不是足夠強(qiáng)。

DeepTech:你們接下來的研究計劃是什么?

Andrei Barbu:我們正在使用 ObjectNet 來理解人類的視覺。對人類在大規(guī)模物體識別方面的研究還不多,還有很多空白需要填補(bǔ)。我們將向成千上萬的在土耳其機(jī)器人上有短暫演示的人展示 ObjectNet,讓人們了解人類處理圖片的各個階段。

這也將有助于回答一些我們現(xiàn)在還不太了解的關(guān)于人類視覺和物體探測器之間關(guān)系的基本問題,比如,物體探測器的行為是否就像人類只能很快地看到一個物體?我們的初步結(jié)果表明,情況并非如此,這些差異可以用來建造更好的探測器。

我們還在開發(fā)下一個版本的 ObjectNet,我認(rèn)為它對于檢測器來說會更加困難:帶有部分遮擋的 ObjectNet。對象將被其他對象部分覆蓋。我們和其他許多研究小組有理由懷疑探測器對有遮擋的物體的識別還不夠穩(wěn)定,但是還需要一個嚴(yán)肅的基準(zhǔn)來刺激下一波的進(jìn)展。

 

責(zé)任編輯:張燕妮 來源: DeepTech深科技
相關(guān)推薦

2022-02-16 16:28:10

張量語言計算機(jī)算法ATL

2010-02-07 09:55:14

2009-05-19 09:23:59

麻省理工系統(tǒng)升級重啟

2019-09-15 18:14:55

計算機(jī)互聯(lián)網(wǎng) 技術(shù)

2016-12-23 11:31:52

麻省理工學(xué)院深度學(xué)習(xí)計算機(jī)預(yù)測未來

2020-10-08 14:44:00

編程IT技術(shù)

2021-09-18 11:58:52

企業(yè)上云埃森哲云計算

2013-04-15 10:03:06

大數(shù)據(jù)美國電視

2013-07-09 09:45:28

2021-04-27 17:37:35

架構(gòu)運維技術(shù)

2020-09-13 08:36:28

編程開源開發(fā)

2011-12-26 09:42:13

開發(fā)者黃金時代

2011-12-07 10:18:11

2017-10-20 15:05:28

物聯(lián)網(wǎng)產(chǎn)業(yè)鏈互聯(lián)網(wǎng)

2015-11-04 10:25:14

WiFi黑科技感知

2013-07-01 10:25:45

2022-06-02 07:34:09

機(jī)器學(xué)習(xí)CNN深度學(xué)習(xí)

2022-03-29 06:29:28

健康IoT傳感技術(shù)物聯(lián)網(wǎng)

2014-02-21 13:13:13

公有云私有云

2019-11-18 21:57:32

AI人工智能寒冬
點贊
收藏

51CTO技術(shù)棧公眾號