偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="ldpdv"><fieldset id="ldpdv"></fieldset></dfn>

<bdo id="ldpdv"><legend id="ldpdv"></legend></bdo>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

通用視覺(jué)推理顯現(xiàn)，UC伯克利煉出單一純CV大模型，三位資深學(xué)者參與

作者：機(jī)器之心 2023-12-04 18:56:03

人工智能新聞

僅靠視覺(jué)（像素）模型能走多遠(yuǎn)？UC 伯克利、約翰霍普金斯大學(xué)的新論文探討了這一問(wèn)題，并展示了大型視覺(jué)模型（LVM）在多種 CV 任務(wù)上的應(yīng)用潛力。

最近一段時(shí)間以來(lái)，GPT 和 LLaMA 等大型語(yǔ)言模型 (LLM) 已經(jīng)風(fēng)靡全球。

另一個(gè)關(guān)注度同樣很高的問(wèn)題是，如果想要構(gòu)建大型視覺(jué)模型 (LVM) ，我們需要的是什么？

LLaVA 等視覺(jué)語(yǔ)言模型所提供的思路很有趣，也值得探索，但根據(jù)動(dòng)物界的規(guī)律，我們已經(jīng)知道視覺(jué)能力和語(yǔ)言能力二者并不相關(guān)。比如許多實(shí)驗(yàn)都表明，非人類靈長(zhǎng)類動(dòng)物的視覺(jué)世界與人類的視覺(jué)世界非常相似，盡管它們和人類的語(yǔ)言體系「兩模兩樣」。

在最近一篇論文中，UC 伯克利和約翰霍普金斯大學(xué)的研究者探討了另一個(gè)問(wèn)題的答案 —— 我們僅靠像素本身能走多遠(yuǎn)？

論文地址：https://arxiv.org/abs/2312.00785
項(xiàng)目主頁(yè)：https://yutongbai.com/lvm.html

研究者試圖在 LVM 中效仿的 LLM 的關(guān)鍵特征：1）根據(jù)數(shù)據(jù)的規(guī)模增長(zhǎng)進(jìn)行擴(kuò)展，2）通過(guò)提示（上下文學(xué)習(xí)）靈活地指定任務(wù)。

他們指定了三個(gè)主要組件，即數(shù)據(jù)、架構(gòu)和損失函數(shù)。

在數(shù)據(jù)上，研究者想要利用視覺(jué)數(shù)據(jù)中顯著的多樣性。首先只是未標(biāo)注的原始圖像和視頻，然后利用過(guò)去幾十年產(chǎn)生的各種標(biāo)注視覺(jué)數(shù)據(jù)源（包括語(yǔ)義分割、深度重建、關(guān)鍵點(diǎn)、多視圖 3D 對(duì)象等）。他們定義了一種通用格式 —— 「視覺(jué)句子」（visual sentence），用它來(lái)表征這些不同的注釋，而不需要任何像素以外的元知識(shí)。訓(xùn)練集的總大小為 16.4 億圖像 / 幀。

在架構(gòu)上，研究者使用大型 transformer 架構(gòu)（30 億參數(shù)），在表示為 token 序列的視覺(jué)數(shù)據(jù)上進(jìn)行訓(xùn)練，并使用學(xué)得的 tokenizer 將每個(gè)圖像映射到 256 個(gè)矢量量化的 token 串。

在損失函數(shù)上，研究者從自然語(yǔ)言社區(qū)汲取靈感，即掩碼 token 建模已經(jīng)「讓位給了」序列自回歸預(yù)測(cè)方法。一旦圖像、視頻、標(biāo)注圖像都可以表示為序列，則訓(xùn)練的模型可以在預(yù)測(cè)下一個(gè) token 時(shí)最小化交叉熵?fù)p失。

通過(guò)這一極其簡(jiǎn)單的設(shè)計(jì)，研究者展示了如下一些值得注意的行為：

隨著模型尺寸和數(shù)據(jù)大小的增加，模型會(huì)出現(xiàn)適當(dāng)?shù)臄U(kuò)展行為；
現(xiàn)在很多不同的視覺(jué)任務(wù)可以通過(guò)在測(cè)試時(shí)設(shè)計(jì)合適的 prompt 來(lái)解決。雖然不像定制化、專門訓(xùn)練的模型那樣獲得高性能的結(jié)果，但單一視覺(jué)模型能夠解決如此多的任務(wù)這一事實(shí)非常令人鼓舞；
大量無(wú)監(jiān)督數(shù)據(jù)對(duì)不同標(biāo)準(zhǔn)視覺(jué)任務(wù)的性能有著顯著的助益；
在處理分布外數(shù)據(jù)和執(zhí)行新的任務(wù)時(shí)，出現(xiàn)了通用視覺(jué)推理能力存在的跡象，但仍需進(jìn)一步研究。

論文共同一作、約翰霍普金斯大學(xué) CS 四年級(jí)博士生、伯克利訪問(wèn)博士生 Yutong Bai 發(fā)推宣傳了她們的工作。

圖源：https://twitter.com/YutongBAI1002/status/1731512110247473608

在論文作者中，后三位都是 UC 伯克利在 CV 領(lǐng)域的資深學(xué)者。Trevor Darrell 教授是伯克利人工智能研究實(shí)驗(yàn)室 BAIR 創(chuàng)始聯(lián)合主任、Jitendra Malik 教授獲得過(guò) 2019 年 IEEE 計(jì)算機(jī)先驅(qū)獎(jiǎng)、 Alexei A. Efros 教授尤以最近鄰研究而聞名。

從左到右依次為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法介紹

本文采用兩階段方法：1）訓(xùn)練一個(gè)大型視覺(jué) tokenizer（對(duì)單個(gè)圖像進(jìn)行操作），可以將每個(gè)圖像轉(zhuǎn)換為一系列視覺(jué) token；2）在視覺(jué)句子上訓(xùn)練自回歸 transformer 模型，每個(gè)句子都表示為一系列 token。方法如圖 2 所示：

圖像 Token 化

為了將 Transformer 模型應(yīng)用于圖像，典型的操作包括：將圖像劃分為 patch，并將其視為序列；或者使用預(yù)訓(xùn)練的圖像 tokenizer，例如 VQVAE 或 VQGAN，將圖像特征聚集到離散 token 網(wǎng)格中。本文采用后一種方法，即用 VQGAN 模型生成語(yǔ)義 token。

LVM 框架包括編碼和解碼機(jī)制，還具有量化層，其中編碼器和解碼器是用卷積層構(gòu)建的。編碼器配備了多個(gè)下采樣模塊來(lái)收縮輸入的空間維度，而解碼器配備了一系列等效的上采樣模塊以將圖像恢復(fù)到其初始大小。對(duì)于給定的圖像，VQGAN tokenizer 會(huì)生成 256 個(gè)離散 token。

實(shí)現(xiàn)細(xì)節(jié)。本文采用 Chang 等人提出的 VQGAN 架構(gòu)，并遵循 Chang 等人使用的設(shè)置，在此設(shè)置下，下采樣因子 f=16，碼本大小 8192。這意味著對(duì)于大小為 256 × 256 的圖像，VQGAN tokenizer 會(huì)生成 16 × 16 = 256 個(gè) token，其中每個(gè) token 可以采用 8192 個(gè)不同的值。此外，本文在 LAION 5B 數(shù)據(jù)集的 1.5B 子集上訓(xùn)練 tokenizer。

視覺(jué)句子序列建模

使用 VQGAN 將圖像轉(zhuǎn)換為離散 token 后，本文通過(guò)將多個(gè)圖像中的離散 token 連接成一維序列，并將視覺(jué)句子視為統(tǒng)一序列。重要的是，所有視覺(jué)句子都沒(méi)有進(jìn)行特殊處理 —— 即不使用任何特殊的 token 來(lái)指示特定的任務(wù)或格式。

視覺(jué)句子允許將不同的視覺(jué)數(shù)據(jù)格式化成統(tǒng)一的圖像序列結(jié)構(gòu)。

實(shí)現(xiàn)細(xì)節(jié)。在將視覺(jué)句子中的每個(gè)圖像 token 化為 256 個(gè) token 后，本文將它們連接起來(lái)形成一個(gè) 1D token 序列。在視覺(jué) token 序列上，本文的 Transformer 模型實(shí)際上與自回歸語(yǔ)言模型相同，因此他們采用 LLaMA 的 Transformer 架構(gòu)。

本文使用的上下文長(zhǎng)度為 4096 個(gè) token，與語(yǔ)言模型類似，本文在每個(gè)視覺(jué)句子的開頭添加一個(gè) [BOS]（begin of sentence）token，在末尾添加一個(gè) [EOS]（end of sentence）token，并在訓(xùn)練期間使用序列拼接提高效率。

本文在整個(gè) UVDv1 數(shù)據(jù)集（4200 億個(gè) token）上訓(xùn)練模型，總共訓(xùn)練了 4 個(gè)具有不同參數(shù)數(shù)量的模型：3 億、6 億、10 億和 30 億。

實(shí)驗(yàn)結(jié)果

該研究進(jìn)行實(shí)驗(yàn)評(píng)估了模型的擴(kuò)展能力，以及理解和回答各種任務(wù)的能力。

擴(kuò)展

如下圖 3 所示，該研究首先檢查了不同大小的 LVM 的訓(xùn)練損失。

如下圖 4 所示，較大的模型在所有任務(wù)中復(fù)雜度都是較低的，這表明模型的整體性能可以遷移到一系列下游任務(wù)上。

如下圖 5 所示，每個(gè)數(shù)據(jù)組件對(duì)下游任務(wù)都有重要作用。LVM 不僅會(huì)受益于更大的數(shù)據(jù)，而且還隨著數(shù)據(jù)集的多樣性而改進(jìn)。

序列 prompt

為了測(cè)試 LVM 對(duì)各種 prompt 的理解能力，該研究首先在序列推理任務(wù)上對(duì) LVM 進(jìn)行評(píng)估實(shí)驗(yàn)。其中，prompt 非常簡(jiǎn)單：向模型提供 7 張圖像的序列，要求它預(yù)測(cè)下一張圖像，實(shí)驗(yàn)結(jié)果如下圖 6 所示：

該研究還將給定類別的項(xiàng)目列表視為一個(gè)序列，讓 LVM 預(yù)測(cè)同一類的圖像，實(shí)驗(yàn)結(jié)果如下圖 15 所示：

那么，需要多少上下文（context）才能準(zhǔn)確預(yù)測(cè)后續(xù)幀？

該研究在給出不同長(zhǎng)度（1 到 15 幀）的上下文 prompt 情況下，評(píng)估了模型的幀生成困惑度，結(jié)果如下圖 7 所示，困惑度從 1 幀到 11 幀有明顯改善，之后趨于穩(wěn)定（62.1 → 48.4）。

Analogy Prompt

該研究還評(píng)估了更復(fù)雜的 prompt 結(jié)構(gòu) ——Analogy Prompt，來(lái)測(cè)試 LVM 的高級(jí)解釋能力。

下圖 8 顯示了對(duì)許多任務(wù)進(jìn)行 Analogy Prompt 的定性結(jié)果：

與視覺(jué) Prompting 的比較如下所示，序列 LVM 在幾乎所有任務(wù)上都優(yōu)于以前的方法。

合成任務(wù)。圖 9 展示了使用單個(gè) prompt 組合多個(gè)任務(wù)的結(jié)果。

其他 prompt

研究者試圖通過(guò)向模型提供它以往未見(jiàn)過(guò)的各種 prompt，來(lái)觀察模型的擴(kuò)展能力到底怎樣。下圖 10 展示了一些運(yùn)行良好的此類 prompt。

下圖 11 展示了一些用文字難以描述的 prompt，這些任務(wù)上 LVM 最終可能會(huì)勝過(guò) LLM。

圖 13 顯示了在非語(yǔ)言人類 IQ 測(cè)試中發(fā)現(xiàn)的典型視覺(jué)推理問(wèn)題的初步定性結(jié)果。

閱讀原文，了解更多細(xì)節(jié)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="vn4g8"></tt>