偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="iu0j5"><form id="iu0j5"><del id="iu0j5"></del></form></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

作者：佚名 2019-12-13 08:57:16

新聞機(jī)器學(xué)習(xí)

近日，麻省理工學(xué)院和 IBM 研究人員組成的團(tuán)隊(duì)，共同創(chuàng)建了一個(gè)與之不同的圖像識(shí)別數(shù)據(jù)集 ObjectNet，難倒了世界上最好的計(jì)算機(jī)視覺模型。

在人工智能領(lǐng)域中的圖像分類問題上，最常用來(lái)訓(xùn)練和測(cè)試的數(shù)據(jù)集是 ImageNet，它也是全球超大的“CV 習(xí)題庫(kù)”。近日，麻省理工學(xué)院和 IBM 研究人員組成的團(tuán)隊(duì)，共同創(chuàng)建了一個(gè)與之不同的圖像識(shí)別數(shù)據(jù)集 ObjectNet，難倒了世界上最好的計(jì)算機(jī)視覺模型。

需要提示的是，這里的最好或最強(qiáng)指的不是某一個(gè)模型，而是一類高性能的視覺模型。

在 ImageNet 測(cè)試中實(shí)現(xiàn)準(zhǔn)確率高達(dá) 97% 的計(jì)算機(jī)視覺模型，在 ObjectNet 數(shù)據(jù)集上檢測(cè)的準(zhǔn)確率下降到了 50%-55%。測(cè)試結(jié)果如此“慘烈”，主要原因在于，目前幾乎所有的視覺模型，在類似于物體旋轉(zhuǎn)、背景變換、視角切換等復(fù)雜情境下，識(shí)別過程都缺乏穩(wěn)定性。

麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室 (CSAIL) 和大腦、心智與機(jī)器中心 (CBMM) 的研究科學(xué)家 Andrei Barbu，是該研究的通訊作者，也是該項(xiàng)目的主持人之一。他在接受 DeepTech 專訪時(shí)表示，“我們需要一個(gè)數(shù)據(jù)集能夠具有典型意義地表示你在現(xiàn)實(shí)生活中看到的東西，沒有這個(gè)東西，誰(shuí)還有信心做計(jì)算機(jī)視覺？我們?cè)趺茨苷f計(jì)算機(jī)視覺已經(jīng)為黃金時(shí)代和關(guān)乎安全的關(guān)鍵應(yīng)用做好了準(zhǔn)備?”

Andrei Barbu 還表示，ObjectNet 可以向全球研究者分享，“只要聯(lián)系我們，我們將發(fā)送給你。”（網(wǎng)站：https://objectnet.dev/）

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

圖 | ImageNet（來(lái)源：ImageNet）

人工智能使用由神經(jīng)元層組成的神經(jīng)網(wǎng)絡(luò)在大量的原始數(shù)據(jù)中尋找規(guī)律。比如，在看過成百上千張椅子的照片之后，它學(xué)會(huì)了椅子的形狀。

斯坦福大學(xué)每年都會(huì)舉行一個(gè)比賽，邀請(qǐng)谷歌、微軟、百度等 IT 企業(yè)使用 ImageNet 測(cè)試他們的系統(tǒng)運(yùn)行情況。每年一度的比賽也牽動(dòng)著各大巨頭公司的心弦。

ImageNet 由世界上頂尖的計(jì)算機(jī)視覺專家李飛飛參與建立，她在一次演講中提到，要讓冰冷的機(jī)器讀懂照片背后的故事，就需要讓機(jī)器像嬰兒一樣看過足夠多的“訓(xùn)練圖像”。

ImageNet 從 Flickr 和其他社交媒體網(wǎng)站上下載了接近 10 億張圖片，2009 年，ImageNet 項(xiàng)目誕生了，含有近 1500 萬(wàn)張照片的數(shù)據(jù)庫(kù)，涵蓋了 22000 種物品。

計(jì)算機(jī)視覺模型已經(jīng)學(xué)會(huì)了精確地識(shí)別照片中的物體，以至于有些模型在某些數(shù)據(jù)集上表現(xiàn)得比人類還要好。

[[285468]]

圖 | ImageNet 創(chuàng)建者之一李飛飛（來(lái)源：Wikipedia）

但是，當(dāng)這些模型真正進(jìn)入到生活中時(shí)，它們的性能會(huì)顯著下降，這就給自動(dòng)駕駛汽車和其他使用計(jì)算機(jī)視覺的關(guān)鍵系統(tǒng)帶來(lái)了安全隱患。

因?yàn)榧词褂谐砂偕锨堈掌?，也無(wú)法完全顯示物體在現(xiàn)實(shí)生活中可能擺出的方向和位置。椅子可以是倒在地上的，T 恤可能被掛在樹枝上，云可以倒映在車身上…… 這時(shí)候識(shí)別模型就會(huì)產(chǎn)生疑惑。

AI 公司 Vicarious 的聯(lián)合創(chuàng)始人 Dileep George 曾表示：“這表明我們?cè)?ImageNet 上花費(fèi)了大量資源來(lái)進(jìn)行過擬合。”過度擬合是指過于緊密或精確地匹配特定數(shù)據(jù)集的結(jié)果，以致于無(wú)法擬合其他數(shù)據(jù)或預(yù)測(cè)未來(lái)的觀察結(jié)果。

與 ImageNet 隨意收集的照片不同，ObjectNet 上面提供的照片是有特殊背景和角度的，研究人員讓自由職業(yè)者為數(shù)百個(gè)隨機(jī)擺放的家具物品拍照，告訴他們從什么角度拍攝以及是擺在廚房、浴室還是客廳。

因此，數(shù)據(jù)集中的物品的拍攝角度非常清奇，側(cè)翻在床上的椅子、浴室中倒扣的茶壺、掛在客廳椅背上的 T 恤……

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

圖 | ImageNet(左欄)經(jīng)常顯示典型背景上的對(duì)象，很少有旋轉(zhuǎn)，也很少有其他視角。典型的 ObjectNet 對(duì)象是從多個(gè)視點(diǎn)在不同的背景上進(jìn)行映像的。前三列顯示了椅子的三個(gè)屬性：旋轉(zhuǎn)、背景和視角?？梢钥吹接捎谶@些操作而引入到數(shù)據(jù)集的大量變化。由于不一致的長(zhǎng)寬比，此圖只略微裁剪了 ObjectNet 圖像。大多數(shù)檢測(cè)器對(duì) ObjectNet 中包含的大多數(shù)圖像都識(shí)別失敗了（來(lái)源：論文）

麻省理工學(xué)院 CSAIL 和 CBMM 的研究科學(xué)家 Boris Katz 說：“我們創(chuàng)建這個(gè)數(shù)據(jù)集是為了告訴人們，物體識(shí)別問題仍然是個(gè)難題。”“我們需要更好、更智能的算法。”

Katz 和他的同事將在正在召開的 NeurIPS 會(huì)議上展示他們的成果，NeurIPS 是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的國(guó)際頂級(jí)會(huì)議。

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

圖 | ObjectNet 研究團(tuán)隊(duì)。這項(xiàng)研究由美國(guó)國(guó)家科學(xué)基金會(huì)，麻省理工學(xué)院大腦、心智和機(jī)器中心，麻省理工學(xué)院 - IBM 沃森人工智能實(shí)驗(yàn)室，豐田研究所和 SystemsThatLearn@CSAIL 倡議資助（來(lái)源：ObjectNet）

另外，ObjectNet 與傳統(tǒng)圖像數(shù)據(jù)集還有一個(gè)重要的區(qū)別：它不包含任何訓(xùn)練圖像。也就是說，練習(xí)題和考試題重合的幾率變小了，機(jī)器很難“作弊”。大多數(shù)數(shù)據(jù)集都分為訓(xùn)練集和測(cè)試集，但是訓(xùn)練集通常與測(cè)試集有細(xì)微的相似之處，實(shí)際上是讓模型在測(cè)試中占了先機(jī)。

乍一看，ImageNet 有 1500 萬(wàn)張圖片，似乎非常龐大。但是當(dāng)去除掉訓(xùn)練集部分時(shí)，它的大小與 ObjectNet 相當(dāng)，差不多有 5 萬(wàn)張照片。

“如果我們想知道算法在現(xiàn)實(shí)世界中的表現(xiàn)如何，我們應(yīng)該在沒有偏見的圖像上測(cè)試它們，這些圖像應(yīng)該是它們從未見過的，”Andrei Barbu 說。

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

圖 | 亞馬遜的“土耳其機(jī)器人”Amazon Mechanical Turk（MTurk）是一種眾包網(wǎng)絡(luò)集市，能使計(jì)算機(jī)程序員調(diào)用人類智能來(lái)執(zhí)行目前計(jì)算機(jī)尚不足以勝任的任務(wù)。ImageNet 和 ObjectNet 都通過這些平臺(tái)來(lái)標(biāo)記圖片（來(lái)源：Amazon Mechanical Turk）

研究人員說，結(jié)果表明，機(jī)器仍然很難理解物體是三維的，物體也可以旋轉(zhuǎn)和移動(dòng)到新的環(huán)境中。“這些概念并沒有被構(gòu)建到現(xiàn)代對(duì)象探測(cè)器的架構(gòu)中，”研究的合著者、IBM 的研究員 Dan Gutfreund 說。

模型在 ObjectNet 上的測(cè)試結(jié)果如此“慘烈”，并不是因?yàn)閿?shù)據(jù)量不夠，而是模型對(duì)類似于旋轉(zhuǎn)、背景變換、視角切換等等的認(rèn)知缺乏穩(wěn)定性。研究人員是如何得出這個(gè)結(jié)論的呢？他們讓模型先用 ObjectNet 的一半數(shù)據(jù)進(jìn)行訓(xùn)練，然后再用另一半數(shù)據(jù)進(jìn)行測(cè)試。在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試，通?？梢蕴岣咝阅?，但是這次，模型只得到了輕微的改進(jìn)，這表明模型沒有完全理解對(duì)象在現(xiàn)實(shí)世界中是如何存在的。

所以，研究人員認(rèn)為，即使設(shè)計(jì)一個(gè)更大版本的、包含更多視角和方向的 ObjectNet，也不一定能教會(huì)人工智能理解物體的存在。ObjectNet 的目標(biāo)是激勵(lì)研究人員提出下一波革命性的技術(shù)，就像最初推出的 ImageNet 挑戰(zhàn)一樣。他們下一步會(huì)繼續(xù)探究為何人類在圖像識(shí)別任務(wù)上具有良好的泛化能力和魯棒性，并希望這一數(shù)據(jù)集能夠成為檢驗(yàn)圖像識(shí)別模型泛化能力的評(píng)估方法。

“人們向這些物體檢測(cè)器輸入了大量數(shù)據(jù)，但回報(bào)卻在遞減，”Katz 說。“你不可能把一個(gè)物體的每一個(gè)角度和每一個(gè)可能存在的環(huán)境都拍出來(lái)。我們希望這個(gè)新的數(shù)據(jù)集能夠在現(xiàn)實(shí)世界中催生出一個(gè)不會(huì)出現(xiàn)意外失敗的、強(qiáng)大的計(jì)算機(jī)視覺系統(tǒng)。”

麻省理工、IBM合推新型數(shù)據(jù)集，“為計(jì)算機(jī)視覺黃金時(shí)代做準(zhǔn)備”

圖 | Andrei Barbu 是麻省理工學(xué)院研究科學(xué)家，主要研究語(yǔ)言、視覺和機(jī)器人技術(shù)，同時(shí)還涉獵神經(jīng)科學(xué)。（來(lái)源：MIT）

DeepTech 對(duì)該研究合作者、CSAIL 和 CBMM 的研究科學(xué)家 Andrei Barbu 進(jìn)行了專訪（以下為不改變?cè)獾牟稍L實(shí)錄）：

DeepTech：這個(gè)構(gòu)思是在什么時(shí)候產(chǎn)生的，目的是什么？現(xiàn)在可以下載使用了嗎？

Andrei Barbu：ObjectNet 是在大約 4 年前提出的。因?yàn)榧词乖S多數(shù)據(jù)集 (如 ImageNet) 的準(zhǔn)確率高達(dá) 95% 以上，但是在現(xiàn)實(shí)世界中的性能可能比你預(yù)期的要差得多。

我們的想法是將其他學(xué)科的優(yōu)秀實(shí)驗(yàn)設(shè)計(jì)直接引入機(jī)器學(xué)習(xí)，比如物理學(xué)和心理學(xué)。我們需要一個(gè)數(shù)據(jù)集能夠具有典型意義地表示你在現(xiàn)實(shí)生活中看到的東西，沒有這個(gè)東西，誰(shuí)還有信心做計(jì)算機(jī)視覺？我們?cè)趺茨苷f計(jì)算機(jī)視覺已經(jīng)為黃金時(shí)代和關(guān)乎安全的關(guān)鍵應(yīng)用做好了準(zhǔn)備?

ObjectNet 已經(jīng)可以使用了，只要聯(lián)系我們，我們將發(fā)送給你。

DeepTech：收集實(shí)際數(shù)據(jù)用了多長(zhǎng)時(shí)間？數(shù)據(jù)的有效性如何？

Andrei Barbu：我們花了大約 3 年的時(shí)間來(lái)弄清楚怎么做，花了大約 1 年的時(shí)間來(lái)收集數(shù)據(jù)?，F(xiàn)在我們可以更快地收集另一個(gè)版本，時(shí)間跨度為幾個(gè)月。

我們?cè)谕炼錂C(jī)器人上收集大約 10 萬(wàn)張圖片，其中大約一半我們保存了下來(lái)。許多照片都是在美國(guó)以外的地方拍攝的，因此，有些物體可能看起來(lái)很陌生。成熟的橙子是綠色的，香蕉有不同的大小，衣服有不同的形狀和質(zhì)地。

DeepTech：成本是多少？在收集數(shù)據(jù)時(shí)遇到了什么問題?

Andrei Barbu：在學(xué)術(shù)界，成本是復(fù)雜的。人力成本高于在土耳其機(jī)器人上的成本，單在土耳其機(jī)器人上的成本就很可觀。

收集這些數(shù)據(jù)遇到很多問題。這個(gè)過程很復(fù)雜，因?yàn)樗枰诓煌氖謾C(jī)上運(yùn)行；指令很復(fù)雜，我們花了一段時(shí)間才真正理解如何以一種穩(wěn)定的方式解釋這個(gè)任務(wù)；數(shù)據(jù)驗(yàn)證也很復(fù)雜，小問題幾乎層出不窮。我們需要很多實(shí)驗(yàn)來(lái)學(xué)習(xí)如何有效地做到這一點(diǎn)。

DeepTech：ObjectNet 與 Imagenet 的區(qū)別和聯(lián)系是什么?

Andrei Barbu：與 ImageNet 的不同之處在于：1、我們收集圖像的方式可以控制偏差。我們告訴人們?nèi)绾涡D(zhuǎn)物體，在什么背景中放置物體，以及在哪個(gè)角度拍照。在大多數(shù)的數(shù)據(jù)集中，圖像背景的信息會(huì)導(dǎo)致機(jī)器不自覺的“欺騙”，它們會(huì)憑借對(duì)于廚房背景的了解來(lái)預(yù)測(cè)某個(gè)東西可能是平底鍋。

2、這些照片不是從社交媒體上收集的，所以它們不是那種好看的照片，人們也不想分享。我們還確保收集來(lái)自印度、美國(guó)以及不同社會(huì)經(jīng)濟(jì)階層的圖像。我們還有損壞或破碎物體的圖像。

3、沒有訓(xùn)練集。

這在 10 年前并不是什么大問題，但我們的方法在發(fā)現(xiàn)模式方面是如此強(qiáng)大，以至于沒有人能夠識(shí)別，所以我們需要這些變化來(lái)避免簡(jiǎn)單地調(diào)整我們的模型，以適應(yīng)來(lái)自相同數(shù)據(jù)集的訓(xùn)練和測(cè)試集之間的偏見。

DeepTech：沒有訓(xùn)練集會(huì)帶來(lái)什么影響?

Andrei Barbu：由于沒有訓(xùn)練集，所有的方法都需要泛化。他們需要在一個(gè)數(shù)據(jù)集上進(jìn)行培訓(xùn)，并在 ObjectNet 上進(jìn)行測(cè)試。這意味著他們利用偏差的可能性要小得多，而他們成為強(qiáng)大的目標(biāo)探測(cè)器的可能性要大得多。我們想說服每個(gè)人，至少在機(jī)器學(xué)習(xí)的既定領(lǐng)域，收集訓(xùn)練集的小組應(yīng)該與收集測(cè)試集的小組分開。

由于我們已經(jīng)成為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的研究領(lǐng)域，我們需要改變收集數(shù)據(jù)的方法，以推動(dòng)科學(xué)的發(fā)展。

DeepTech：3D 對(duì)象太復(fù)雜了，我認(rèn)為它很難表示。比如如何去表示旋轉(zhuǎn)的椅子?

Andrei Barbu：我不認(rèn)為 3D 很復(fù)雜。

顯然你和我對(duì)物體的三維形狀有一定的認(rèn)識(shí)，因?yàn)槲覀兛梢詮男碌慕嵌认胂笪矬w。

我認(rèn)為這也是計(jì)算機(jī)視覺的未來(lái)，ObjectNet 的設(shè)計(jì)就是在對(duì)這個(gè)存疑。它不關(guān)心你構(gòu)建模型的基準(zhǔn)，真正重要的是，它為你提供了一個(gè)更可靠的工具，用來(lái)檢測(cè)你的模型是不是足夠強(qiáng)。

DeepTech：你們接下來(lái)的研究計(jì)劃是什么?

Andrei Barbu：我們正在使用 ObjectNet 來(lái)理解人類的視覺。對(duì)人類在大規(guī)模物體識(shí)別方面的研究還不多，還有很多空白需要填補(bǔ)。我們將向成千上萬(wàn)的在土耳其機(jī)器人上有短暫演示的人展示 ObjectNet，讓人們了解人類處理圖片的各個(gè)階段。

這也將有助于回答一些我們現(xiàn)在還不太了解的關(guān)于人類視覺和物體探測(cè)器之間關(guān)系的基本問題，比如，物體探測(cè)器的行為是否就像人類只能很快地看到一個(gè)物體？我們的初步結(jié)果表明，情況并非如此，這些差異可以用來(lái)建造更好的探測(cè)器。

我們還在開發(fā)下一個(gè)版本的 ObjectNet，我認(rèn)為它對(duì)于檢測(cè)器來(lái)說會(huì)更加困難：帶有部分遮擋的 ObjectNet。對(duì)象將被其他對(duì)象部分覆蓋。我們和其他許多研究小組有理由懷疑探測(cè)器對(duì)有遮擋的物體的識(shí)別還不夠穩(wěn)定，但是還需要一個(gè)嚴(yán)肅的基準(zhǔn)來(lái)刺激下一波的進(jìn)展。

責(zé)任編輯：張燕妮來(lái)源： DeepTech深科技

數(shù)據(jù)計(jì)算機(jī)架構(gòu)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)