一切皆有可能:計算機視覺CV和 NLP 領(lǐng)域日益融合
2020年10 月份,深度學(xué)習(xí)領(lǐng)域頂級會議 ICLR 2021 論文投稿結(jié)束。
這次盛會,又有大牛在深度學(xué)習(xí)領(lǐng)域有了新突破。這次技術(shù)的變革會帶來哪些影響呢?且聽東方林語娓娓道來。
人工智能應(yīng)用在CV計算機視覺領(lǐng)域中,CNN卷積神經(jīng)網(wǎng)絡(luò)一直占據(jù)相當(dāng)主流的地位。
而Transformer 架構(gòu),在NLP自然語言處理任務(wù)中,得到了廣泛應(yīng)用。
兩個領(lǐng)域,每項技術(shù)各有所長,彼此之間井水不犯河水。
但是,近年來不斷有專家學(xué)者嘗試將 NLP 領(lǐng)域的 Transformer 進(jìn)行跨界研究,經(jīng)過一段時間的試驗,在一些圖像場景還實現(xiàn)了相當(dāng)不錯的結(jié)果。

本次ICLR 2021 就有一篇論文,嘗試將標(biāo)準(zhǔn) Transformer 架構(gòu)直接應(yīng)用于計算機視覺領(lǐng)域,提出了一個新的 Vision Transformer 模型,并在多個圖像識別基準(zhǔn)上實現(xiàn)了接近甚至優(yōu)于當(dāng)前 SOTA 方法的性能。
SOTA也就是state-of-the-art,若某篇論文能夠稱為SOTA,就表明其提出的算法(模型)的性能在當(dāng)前是最優(yōu)的。
該研究表明,對 CNN 的依賴不是必需的,當(dāng)直接應(yīng)用于圖像塊序列時,transformer 也能很好地執(zhí)行圖像分類任務(wù)。
特斯拉 AI 負(fù)責(zé)人 Andrej Karpathy 專門轉(zhuǎn)發(fā)了該論文,并表示:
樂見計算機視覺和 NLP 領(lǐng)域日益融合。

技術(shù)進(jìn)步,一切皆有可能。
如果能夠?qū)LP VS CV模型的跨界學(xué)習(xí)進(jìn)行到底,圖像視覺領(lǐng)域的Transformer能把原來的龍頭老大CNN拉下馬嗎?
這就是一個非常有意思的命題了。
ICLR 2021 有什么值得關(guān)注的投稿嗎?在知乎上,有網(wǎng)友這樣表示:
我們正站在模型大變革的前夜,神經(jīng)網(wǎng)絡(luò)的潛力還遠(yuǎn)遠(yuǎn)沒到盡頭。一種嶄新的強大的,足以顛覆整個 CV 和 AI 界的新模型才露出冰山一角,即將全面來襲。

人工智能是一項綜合性學(xué)科,需要將基礎(chǔ)科學(xué)、業(yè)務(wù)場景、數(shù)據(jù)質(zhì)量、工程實踐等緊密結(jié)合的技術(shù)領(lǐng)域,近年來已經(jīng)融合了更多的其他方向。
人工智能的各個分支,技術(shù)上可以互相融合與替代。也可以帶給我們更多的啟示:
作為人類的我們,其實,如果跳出自己的舒適區(qū),也可以跨界學(xué)習(xí)、跨界融合,以更好的適應(yīng)這個多變的社會。
在數(shù)字化逐漸一統(tǒng)天下的現(xiàn)在,AI技術(shù)融合,與人類的跨界融合, 將為社會進(jìn)步產(chǎn)生更強大的推動作用。
你認(rèn)為呢?
關(guān)注東方林語,一起了解更多AI知識。