偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

細(xì)數(shù)NLP與CV的融合創(chuàng)新:盤點(diǎn)多模態(tài)深度學(xué)習(xí)這幾年

人工智能 新聞
本文概述了最先進(jìn)的多模態(tài)深度學(xué)習(xí)研究中使用的各類方法。

近年來,NLP 和 CV 領(lǐng)域在方法上突破不斷。不只是單模態(tài)模型有所進(jìn)展,而大規(guī)模多模態(tài)方法也已經(jīng)成為非常熱門的研究領(lǐng)域。

圖片

  • 論文地址:https://arxiv.org/pdf/2301.04856v1.pdf
  • 項(xiàng)目地址:https://github.com/slds-lmu/seminar_multimodal_dl

在最近的一篇論文中,研究者M(jìn)atthias A?enmacher回顧梳理了深度學(xué)習(xí)這兩個子領(lǐng)域當(dāng)前最先進(jìn)的研究方法,并嘗試進(jìn)行全面的概述。此外,還討論了將一種模態(tài)轉(zhuǎn)換為另一種模態(tài)的建模框架(第 3.1 章和第 3.2 章),以及利用一種模態(tài)增強(qiáng)另一種模態(tài)的表征學(xué)習(xí)模型(第 3.3 章和第 3.4 章)。研究者引入了側(cè)重同時處理兩種模態(tài)的架構(gòu)(第 3.5 章)作為第二部分的尾聲。最后,論文還涵蓋了其他模態(tài)(第 4.1 章和第 4.2 章)以及通用多模態(tài)模型(第 4.3 章),這些模型能夠在一個統(tǒng)一架構(gòu)中處理不同模態(tài)上的不同任務(wù)。一個有趣的應(yīng)用(「生成藝術(shù)」,第 4.4 章)最終成為這篇綜述的錦上添花之筆。

論文章節(jié)目錄如下:

圖片

多模態(tài)深度學(xué)習(xí)簡介

人類有五種基本感官:聽覺、觸覺、嗅覺、味覺和視覺。借由這五種模式,我們得以感知和理解周圍的世界?!付嗄B(tài)」則意味著同時利用多種信息渠道的結(jié)合來理解周圍環(huán)境。例如,當(dāng)蹣跚學(xué)步的孩子學(xué)習(xí)「貓」這個詞時,他們會用不同的方式大聲說出這個詞,指著貓,發(fā)出類似「喵喵」的聲音。AI 研究人員以人類學(xué)習(xí)過程為范式,結(jié)合不同模態(tài)來訓(xùn)練深度學(xué)習(xí)模型。

從表面上看,深度學(xué)習(xí)算法通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)以優(yōu)化損失函數(shù)來優(yōu)化定義的目標(biāo)函數(shù)。優(yōu)化,即將損失最小化,通過稱為梯度下降的數(shù)值優(yōu)化程序完成。因此,深度學(xué)習(xí)模型只能處理數(shù)字輸入,也只能產(chǎn)生數(shù)字輸出。然而,在多模態(tài)任務(wù)中,我們經(jīng)常遇到圖片或文本等非結(jié)構(gòu)化數(shù)據(jù)。所以,關(guān)于多模態(tài)任務(wù)的首要問題是如何用數(shù)字表征輸入;其次則是如何恰當(dāng)?shù)亟M合不同模態(tài)。

例如,訓(xùn)練深度學(xué)習(xí)模型來生成一張貓的圖片可能就是一個典型的任務(wù)。首先,計(jì)算機(jī)需要理解文本輸入「貓」,然后以某種方式將這些信息轉(zhuǎn)換成特定圖像。因此,確定輸入文本中單詞間的上下文關(guān)系和輸出圖像中像素點(diǎn)間的空間關(guān)系很有必要。對幼兒來說可能很容易這件事,對于計(jì)算機(jī)卻可能是巨大挑戰(zhàn)。二者都必須對「貓」這個詞有一定理解,包括這個動物的內(nèi)涵和外觀。

當(dāng)前深度學(xué)習(xí)領(lǐng)域一種常見方法是生成嵌入,用數(shù)字形式將貓表征為某個潛在空間中的向量。為了實(shí)現(xiàn)這一點(diǎn),近年來已經(jīng)開發(fā)出各種方法和算法架構(gòu)。本文概述了最先進(jìn)(SOTA)多模態(tài)深度學(xué)習(xí)中使用的各類方法,以克服非結(jié)構(gòu)化數(shù)據(jù)和不同模態(tài)輸入組合帶來的挑戰(zhàn)。

章節(jié)介紹?

因?yàn)槎嗄B(tài)模型通常以文本和圖像作為輸入或輸出,所以第2章著重介紹了自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)方法。NLP 領(lǐng)域的方法主要在于文本數(shù)據(jù)處理,而 CV 多進(jìn)行圖像處理。

關(guān)于 NLP(第 2.1 小節(jié))的一個非常重要的概念叫做詞嵌入,幾乎是現(xiàn)在所有多模態(tài)深度學(xué)習(xí)架構(gòu)的重要組成部分。這一概念也為基于Transformer的模型奠定了基礎(chǔ),比如 BERT ,該模型在幾個 NLP 任務(wù)中都取得了重大進(jìn)展。特別是Transformer的自注意力機(jī)制徹底改變了 NLP 模型,這也是為什么大多數(shù) NLP 模型將Transformer作為核心。

在計(jì)算機(jī)視覺(第 2.2 小節(jié))中,作者介紹里不同的網(wǎng)絡(luò)架構(gòu),即 ResNet、EfficientNet、SimCLR和BYOL。在這兩個領(lǐng)域,比較不同方法及其在富有挑戰(zhàn)性的基準(zhǔn)上表現(xiàn)如何是非常有意義的。因此,第 2 章末 2.3 小節(jié)對 CV 和 NLP 的不同數(shù)據(jù)集、預(yù)訓(xùn)練任務(wù)和基準(zhǔn)進(jìn)行了全面概括。

第3章側(cè)重于不同的多模態(tài)架構(gòu),涵蓋文本和圖像的多種組合方式,提出的模型相組合并推進(jìn)了 NLP 和 CV 不同方法的研究。首先介紹了 Img2Text 任務(wù)(第 3.1 小節(jié))、用于目標(biāo)識別的 Microsoft COCO 數(shù)據(jù)集和用于圖像捕獲的Meshed-Memory Transformer。

另外,研究人員開發(fā)了基于短文本 prompt 生成圖片的方法(第 3.2 小節(jié))。完成這項(xiàng)任務(wù)的第一個模型是生成對抗網(wǎng)絡(luò)(GAN)和變分自編碼器(VAE)。近年來,這些方法不斷改進(jìn),今天的 SOTA Transformer架構(gòu)和文本引導(dǎo)的擴(kuò)散模型如 DALL-E和 GLIDE都取得了顯著成果。另一個有趣的問題是,如何利用圖像來支持語言模型(第 3.3 小節(jié))??赏ㄟ^順序嵌入、更高級的實(shí)際嵌入或直接在Transformer內(nèi)部實(shí)現(xiàn)。

也可以看一下支持文本的 CV 模型,如 CLIP、ALIGN和 Florence(第 3.4 小節(jié))?;A(chǔ)模型的使用意味著模型重用(例如 DALL-E 2 中的 CLIP),以及文本與圖像連接的對比損失。此外,zero-shot 使得通過微調(diào)就可毫不費(fèi)力對新的和不可見的數(shù)據(jù)進(jìn)行分類。特別是用于圖像分類和生成的開源架構(gòu) CLIP去年頗受關(guān)注。第3章末介紹了同時處理文本和圖像的一些其他架構(gòu)(第 3.5 小節(jié))。

例如,Data2Sec 用相同的學(xué)習(xí)方法處理語音、視覺和語言,并嘗試以此找到一種通用方法,能在一個架構(gòu)中處理不同模態(tài)。此外,VilBert擴(kuò)展了流行的 BERT 架構(gòu),通過實(shí)現(xiàn)共同注意力來處理圖像和文本輸入。這種方法也用于谷歌的 Deepmind Flamingo。此外,F(xiàn)lamingo 的目標(biāo)是通過少樣本學(xué)習(xí)和凍結(jié)預(yù)訓(xùn)練的視覺和語言模型,用單個視覺語言模型處理多個任務(wù)。

最后一章(第 4 章)介紹了能夠處理文本和圖像以外模態(tài)的方法,例如視頻、語音或表格數(shù)據(jù)??傮w目標(biāo)是探索通用的多模態(tài)架構(gòu),并非為模態(tài)而模態(tài),而是為從容應(yīng)對挑戰(zhàn)。因此還需處理多模態(tài)融合和對齊的問題,決定要使用聯(lián)合表征還是協(xié)調(diào)表征(第 4.1 小節(jié))。此外,還將更詳細(xì)地介紹如何精準(zhǔn)組合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)(第 4.2 小節(jié))。

作者還提出了近年來形成的不同融合策略,本文通過生存分析和經(jīng)濟(jì)學(xué)中的兩個用例加以說明。除此之外,另一個有趣的研究問題是,如何在一個所謂的多用途模型(第 4.3 小節(jié))中處理不同任務(wù),就像谷歌研究人員在其「Pathway」模型中創(chuàng)建的那樣。最后,文章會展示多模態(tài)深度學(xué)習(xí)在藝術(shù)場景中的一個典型應(yīng)用,使用 DALL-E等圖像生成模型來創(chuàng)建生成藝術(shù)領(lǐng)域的藝術(shù)作品(第 4.4 小節(jié))。

了解更多內(nèi)容,請參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-09-29 17:00:33

人工智能

2014-03-07 11:16:12

2017-08-16 10:57:52

深度學(xué)習(xí)TensorFlowNLP

2025-02-24 10:07:10

2024-04-08 00:12:19

2021-09-10 16:50:35

對比學(xué)習(xí)深度學(xué)習(xí)人工智能

2021-02-25 15:39:26

Python編程語言PYPL

2018-08-08 16:08:45

深度學(xué)習(xí)機(jī)器學(xué)習(xí)NLP

2013-04-07 17:57:16

SDN網(wǎng)絡(luò)架構(gòu)

2021-08-12 12:14:38

APICloud用友

2021-12-13 10:31:54

網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)威脅

2021-09-16 16:29:29

數(shù)字化

2022-04-25 15:13:03

自動駕駛傳感器

2022-02-25 10:56:08

自動駕駛傳感器技術(shù)

2025-04-30 07:01:29

2021-01-07 07:09:13

深度學(xué)習(xí)人工智能AI

2017-11-02 14:24:08

深度學(xué)習(xí)模型金融領(lǐng)域

2012-07-26 13:48:32

2020-10-23 07:32:28

計(jì)算機(jī)視覺CV
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號