偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="9nlos"></style>

<rt id="9nlos"></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

參數(shù)減半、與CLIP一樣好，視覺Transformer從像素入手實(shí)現(xiàn)圖像文本統(tǒng)一

作者：機(jī)器之心 2023-01-03 13:06:38

人工智能新聞

CLIPPO 是一種統(tǒng)一的模型，用單個編碼器和對比損失來執(zhí)行圖像、文本和多模態(tài)任務(wù)，優(yōu)于傳統(tǒng)的 NLP 基線和之前基于像素的掩碼語言模型。

近年來，基于 Transformer 的大規(guī)模多模態(tài)訓(xùn)練促成了不同領(lǐng)域最新技術(shù)的改進(jìn)，包括視覺、語言和音頻。特別是在計(jì)算機(jī)視覺和圖像語言理解方面，單個預(yù)訓(xùn)練大模型可以優(yōu)于特定任務(wù)的專家模型。

然而，大型多模態(tài)模型通常使用模態(tài)或特定于數(shù)據(jù)集的編碼器和解碼器，并相應(yīng)地導(dǎo)致涉及的協(xié)議。例如，此類模型通常涉及在各自的數(shù)據(jù)集上對模型的不同部分進(jìn)行不同階段的訓(xùn)練，并進(jìn)行特定于數(shù)據(jù)集的預(yù)處理，或以特定于任務(wù)的方式遷移不同部分。這種模式和特定于任務(wù)的組件可能會導(dǎo)致額外的工程復(fù)雜性，并在引入新的預(yù)訓(xùn)練損失或下游任務(wù)時面臨挑戰(zhàn)。

因此，開發(fā)一個可以處理任何模態(tài)或模態(tài)組合的單一端到端模型，將是多模態(tài)學(xué)習(xí)的重要一步。本文中，來自谷歌研究院（谷歌大腦團(tuán)隊(duì)）、蘇黎世的研究者將主要關(guān)注圖像和文本。

論文地址：https://arxiv.org/pdf/2212.08045.pdf

許多關(guān)鍵統(tǒng)一加速了多模式學(xué)習(xí)的進(jìn)程。首先經(jīng)證實(shí)，Transformer 架構(gòu)可以作為通用主干，并且在文本、視覺、音頻和其他領(lǐng)域上表現(xiàn)良好。其次，許多論文探索了將不同的模態(tài)映射到單個共享嵌入空間以簡化輸入 / 輸出接口，或開發(fā)一個用于多個任務(wù)的單一接口。第三，模態(tài)的替代表示允許在一個領(lǐng)域中利用另一個領(lǐng)域設(shè)計(jì)的神經(jīng)架構(gòu)或訓(xùn)練程序。例如，[54] 和 [26,48] 分別表示文本和音頻，通過將這些形式呈現(xiàn)為圖像（在音頻的情況下為頻譜圖）進(jìn)行處理。

本文將對使用純基于像素的模型進(jìn)行文本和圖像的多模態(tài)學(xué)習(xí)進(jìn)行探索。該模型是一個單獨(dú)的視覺 Transformer，它處理視覺輸入或文本，或兩者一起，所有都呈現(xiàn)為 RGB 圖像。所有模態(tài)都使用相同的模型參數(shù)，包括低級特征處理；也就是說，不存在特定于模態(tài)的初始卷積、tokenization 算法或輸入嵌入表。該模型僅用一個任務(wù)訓(xùn)練：對比學(xué)習(xí)，正如 CLIP 和 ALIGN 所推廣的那樣。因此模型被稱作 CLIP-Pixels Only（CLIPPO）。

在 CLIP 設(shè)計(jì)用于圖像分類和文本 / 圖像檢索的主要任務(wù)上，盡管沒有特定的 tower 模態(tài)，CLIPPO 的表現(xiàn)也與 CLIP 相似（相似度在 1-2% 之內(nèi)）。令人驚訝的是，CLIPPO 不需要任何從左到右的語言建模、掩碼語言建?；蝻@式的詞級損失，就可以執(zhí)行復(fù)雜的語言理解任務(wù)。特別是在 GLUE 基準(zhǔn)測試上，CLIPPO 優(yōu)于經(jīng)典的 NLP 基線，如 ELMO+BiLSTM+attention，此外，CLIPPO 還優(yōu)于基于像素的掩碼語言模型，并接近 BERT 的分?jǐn)?shù)。

有趣的是，當(dāng)簡單地將圖像和文本一起渲染時，CLIPPO 也可以在 VQA 上獲得良好的性能，盡管從未在此類數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。與常規(guī)語言模型相比，基于像素的模型的一個直接優(yōu)勢是不需要預(yù)先確定詞匯。因此，與使用經(jīng)典 tokenizer 的等效模型相比，多語言檢索的性能有所提高。最后，該研究還發(fā)現(xiàn)，在某些情況下訓(xùn)練 CLIPPO 時，之前觀察到的模態(tài)差距有所減少。

方法概覽

CLIP 已經(jīng)成為一種強(qiáng)大的、可擴(kuò)展的范式，用于在數(shù)據(jù)集上訓(xùn)練多用途視覺模型。具體來說，這種方法依賴于圖像 /alt-text 對，這些可以從網(wǎng)絡(luò)上大規(guī)模自動收集。因此，文本描述通常是有噪音的，并且可能由單個關(guān)鍵字、關(guān)鍵字集或潛在的冗長描述組成。利用這些數(shù)據(jù)，聯(lián)合訓(xùn)練兩個編碼器，即嵌入 alt-text 的文本編碼器和將相應(yīng)圖像嵌入共享潛在空間的圖像編碼器。這兩個編碼器使用對比損失進(jìn)行訓(xùn)練，鼓勵相應(yīng)圖像和 alt-text 的嵌入相似，同時與所有其他圖像和 alt-text 的嵌入不同。

一旦經(jīng)過訓(xùn)練，這樣的編碼器對可以以多種方式使用：它可以通過文本描述對固定的視覺概念集進(jìn)行分類（零樣本分類）; 嵌入可用于檢索給定文本描述的圖像，反之亦然；或者，視覺編碼器可以通過對標(biāo)記的數(shù)據(jù)集進(jìn)行微調(diào)或通過在凍結(jié)的圖像編碼器表示上訓(xùn)練頭部，以有監(jiān)督的方式傳輸?shù)较掠稳蝿?wù)。原則上，文本編碼器可以作為一個獨(dú)立的文本嵌入使用，不過據(jù)悉，還沒有人針對這種應(yīng)用展開深入探討，一些研究引用了低質(zhì)量的 alt-text 導(dǎo)致文本編碼器的語言建模性能較弱。

以前的工作表明，圖像和文本編碼器可以用一個共享 transformer 模型（也稱為單塔模型，或 1T-CLIP）實(shí)現(xiàn)，其中圖像使用 patch embedding 嵌入，tokenized 文本使用單獨(dú)的 word embedding 嵌入。除了模態(tài)特定的嵌入外，兩種模態(tài)的所有模型參數(shù)都是共享的。雖然這種類型的共享通常會導(dǎo)致圖像 / 圖像 - 語言任務(wù)的性能下降，但它也使模型參數(shù)的數(shù)量減少了一半。

CLIPPO 將這一想法更進(jìn)一步：文本輸入呈現(xiàn)在空白圖像上，隨后完全作為圖像處理，包括初始的 patch embedding（參見圖 1）。通過與之前的工作進(jìn)行對比訓(xùn)練，生成了一個單一的視覺 transformer 模型，它可以通過單一的視覺接口來理解圖像和文本，并提供了一個可以用于解決圖像、圖像 - 語言和純語言理解任務(wù)的單一表示。

除了多模態(tài)多功能性，CLIPPO 還減輕了文本處理的常見困難，即開發(fā)適當(dāng)?shù)?tokenizer 和詞匯表。這在大量多語言設(shè)置的上下文中特別有趣，其中文本編碼器必須處理數(shù)十種語言。

可以發(fā)現(xiàn)，在圖像 /alt-text 對上訓(xùn)練的 CLIPPO 在公共圖像和圖像語言基準(zhǔn)上的表現(xiàn)與 1T-CLIP 相當(dāng)，并且在 GLUE 基準(zhǔn)上與強(qiáng)大的基線語言模型競爭。然而，由于 alt-texts 的質(zhì)量較低，通常不是語法句子，僅從 alt-texts 學(xué)習(xí)語言理解從根本上是有限的。因此，可以在圖像 /alt-texts 對比預(yù)訓(xùn)練中加入基于語言的對比訓(xùn)練。具體而言，需要考慮到從文本語料庫中采樣的連續(xù)句對，不同語言的翻譯句對，后翻譯句對，以及有單詞缺失的句子對。

實(shí)驗(yàn)結(jié)果

視覺和視覺-語言理解

圖像分類與檢索。表 1 顯示了 CLIPPO 的性能，可以看到，與 CLIP? 相比，CLIPPO 和 1T-CLIP 產(chǎn)生了 2-3 個百分點(diǎn)的絕對下降。

VQA。圖 2 中報(bào)告了模型和基線的 VQAv2 評分?？梢钥吹剑珻LIPPO 優(yōu)于 CLIP? 、1T-CLIP，以及 ViT-B/16，獲得了 66.3 的分?jǐn)?shù)。

多語言視覺 - 語言理解

圖 3 表明，CLIPPO 實(shí)現(xiàn)了與這些基線相當(dāng)?shù)臋z索性能。在 mT5 的情況下，使用額外的數(shù)據(jù)可以提高性能；在多語言上下文中利用這些額外的參數(shù)和數(shù)據(jù)將是 CLIPPO 未來一個有趣的方向。

語言理解

表 2 顯示了 CLIPPO 和基線的 GLUE 基準(zhǔn)測試結(jié)果?？梢杂^察到，在 WebLI 上訓(xùn)練的 CLIPPO 與 BiLSTM+Attn+ELMo 基線（其具有在大型語言語料庫上訓(xùn)練的深度詞嵌入）相比具有競爭力。此外，我們還可以看到，CLIPPO 和 1T-CLIP 優(yōu)于使用標(biāo)準(zhǔn)對比語言視覺預(yù)訓(xùn)練訓(xùn)練的語言編碼器。

更多研究細(xì)節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="pzk5v"></blockquote>}

<sub id="pzk5v"></sub>