偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="9lic1"><b id="9lic1"></b></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Yann LeCun：ViT慢且效率低，實(shí)時(shí)圖像處理還得看卷積

作者：機(jī)器之心 2024-06-03 07:55:00

人工智能新聞

近日，一直在社交媒體上活躍的圖靈獎(jiǎng)得主、Meta 首席科學(xué)家 Yann LeCun 也加入了 ViT 與 CNN 之爭(zhēng)的討論。

在 Transformer 大一統(tǒng)的時(shí)代，計(jì)算機(jī)視覺的 CNN 方向還有研究的必要嗎？

今年年初，OpenAI 視頻大模型 Sora 帶火了 Vision Transformer（ViT）架構(gòu)。此后，關(guān)于 ViT 與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）誰更厲害的爭(zhēng)論就沒有斷過。

近日，一直在社交媒體上活躍的圖靈獎(jiǎng)得主、Meta 首席科學(xué)家 Yann LeCun 也加入了 ViT 與 CNN 之爭(zhēng)的討論。

這件事的起因是 Comma.ai 的 CTO Harald Sch?fer 在展示自家最新研究。他（像最近很多 AI 學(xué)者一樣）cue 了 Yann LeCun 表示，雖然圖靈獎(jiǎng)大佬認(rèn)為純 ViT 并不實(shí)用，但我們最近把自己的壓縮器改成了純 ViT，沒有卷積，需要更長時(shí)間的訓(xùn)練，但是效果非常不錯(cuò)。

比如左圖，被壓縮到了只有 224 字節(jié)，右邊是原始圖像。

只有 14×128，這對(duì)自動(dòng)駕駛用的世界模型來說作用很大，意味著可以輸入大量數(shù)據(jù)用于訓(xùn)練。在虛擬環(huán)境中訓(xùn)練相比真實(shí)環(huán)境成本更低，在這里 Agent 需要根據(jù)策略進(jìn)行訓(xùn)練才能正常工作。雖然訓(xùn)練更高的分辨率效果會(huì)更好，但模擬器就會(huì)變得速度很慢，因此目前壓縮是必須的。

他的展示引發(fā)了 AI 圈的討論，1X 人工智能副總裁 Eric Jang 回復(fù)道，是驚人的結(jié)果。

Harald 繼續(xù)夸贊 ViT：這是非常美麗的架構(gòu)。

此處有人就開始拱火了：大師如 LeCun，有時(shí)也無法趕上創(chuàng)新的步伐。

不過，Yann LeCun 很快回復(fù)辯駁稱，他并不是說 ViT 不實(shí)用，現(xiàn)在大家都在使用它。他想表達(dá)的是，ViT 太慢、效率太低，導(dǎo)致不適合實(shí)時(shí)處理高分辨率圖像和視頻任務(wù)。

Yann LeCun 還 Cue 了紐約大學(xué)助理教授謝賽寧，后者參與的工作 ConvNext 證明了如果方法得當(dāng)，CNN 也能和 ViT 一樣好。

他接下來表示，在堅(jiān)持自注意力循環(huán)之前，你至少需要幾個(gè)具有池化和步幅的卷積層。

如果自注意力等同于排列（permutation），則完全對(duì)低級(jí)別圖像或視頻處理沒有意義，在前端使用單個(gè)步幅進(jìn)行修補(bǔ)（patchify）也沒有意義。此外由于圖像或視頻中的相關(guān)性高度集中在局部，因而全局注意力也沒有意義且不可擴(kuò)展。

在更高級(jí)別上，一旦特征表征了對(duì)象，那么使用自注意力循環(huán)就有意義了：重要的是對(duì)象之間的關(guān)系和交互，而非它們的位置。這種混合架構(gòu)是由 Meta 研究科學(xué)家 Nicolas Carion 及合著者完成的 DETR 系統(tǒng)開創(chuàng)的。

自 DETR 工作出現(xiàn)以后，Yann LeCun 表示自己最喜歡的架構(gòu)是低級(jí)別的卷積 / 步幅 / 池化，以及高級(jí)別的自注意力循環(huán)。

Yann LeCun 在第二個(gè)帖子里總結(jié)到：在低級(jí)別使用帶有步幅或池化的卷積，在高級(jí)別使用自注意力循環(huán)，并使用特征向量來表征對(duì)象。

他還打賭到，特斯拉全自動(dòng)駕駛（FSD）在低級(jí)別使用卷積（或者更復(fù)雜的局部運(yùn)算符），并在更高級(jí)別結(jié)合更多全局循環(huán)（可能使用自注意力）。因此，低級(jí)別 patch 嵌入上使用 Transformer 完全一種浪費(fèi)。

我猜死對(duì)頭馬斯克還是用的卷積路線。

謝賽寧也發(fā)表了自己的看法，他認(rèn)為 ViT 非常適合 224x224 的低分辨率圖像，但如果圖像分辨率達(dá)到了 100 萬 x100 萬，該怎么辦呢？這時(shí)要么使用卷積，要么使用共享權(quán)重對(duì) ViT 進(jìn)行修補(bǔ)和處理，這在本質(zhì)上還是卷積。

因此，謝賽寧表示，有那么一刻自己意識(shí)到卷積網(wǎng)絡(luò)不是一種架構(gòu)，而是一種思維方式。

這一觀點(diǎn)得到了 Yann LeCun 的認(rèn)可。

谷歌 DeepMind 研究者 Lucas Beyer 也表示，得益于常規(guī)卷積網(wǎng)絡(luò)的零填充，自己很確定「卷積 ViT」（而不是 ViT + 卷積）會(huì)工作得很好。

可以預(yù)見，這場(chǎng) ViT 與 CNN 之間的爭(zhēng)論還將繼續(xù)下去，直到未來另一種更強(qiáng)大架構(gòu)的出現(xiàn)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

計(jì)算機(jī)視覺 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ruby id="0y0kx"></ruby>