偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

通用視覺推理顯現(xiàn),UC伯克利煉出單一純CV大模型,三位資深學者參與

人工智能 新聞
僅靠視覺(像素)模型能走多遠?UC 伯克利、約翰霍普金斯大學的新論文探討了這一問題,并展示了大型視覺模型(LVM)在多種 CV 任務(wù)上的應(yīng)用潛力。

最近一段時間以來,GPT 和 LLaMA 等大型語言模型 (LLM) 已經(jīng)風靡全球。 

另一個關(guān)注度同樣很高的問題是,如果想要構(gòu)建大型視覺模型 (LVM) ,我們需要的是什么? 

LLaVA 等視覺語言模型所提供的思路很有趣,也值得探索,但根據(jù)動物界的規(guī)律,我們已經(jīng)知道視覺能力和語言能力二者并不相關(guān)。比如許多實驗都表明,非人類靈長類動物的視覺世界與人類的視覺世界非常相似,盡管它們和人類的語言體系「兩模兩樣」。

在最近一篇論文中,UC 伯克利和約翰霍普金斯大學的研究者探討了另一個問題的答案 —— 我們僅靠像素本身能走多遠?


  • 論文地址:https://arxiv.org/abs/2312.00785
  • 項目主頁:https://yutongbai.com/lvm.html

研究者試圖在 LVM 中效仿的 LLM 的關(guān)鍵特征:1)根據(jù)數(shù)據(jù)的規(guī)模增長進行擴展,2)通過提示(上下文學習)靈活地指定任務(wù)。 

他們指定了三個主要組件,即數(shù)據(jù)、架構(gòu)和損失函數(shù)。

在數(shù)據(jù)上,研究者想要利用視覺數(shù)據(jù)中顯著的多樣性。首先只是未標注的原始圖像和視頻,然后利用過去幾十年產(chǎn)生的各種標注視覺數(shù)據(jù)源(包括語義分割、深度重建、關(guān)鍵點、多視圖 3D 對象等)。他們定義了一種通用格式 —— 「視覺句子」(visual sentence),用它來表征這些不同的注釋,而不需要任何像素以外的元知識。訓練集的總大小為 16.4 億圖像 / 幀。

在架構(gòu)上,研究者使用大型 transformer 架構(gòu)(30 億參數(shù)),在表示為 token 序列的視覺數(shù)據(jù)上進行訓練,并使用學得的 tokenizer 將每個圖像映射到 256 個矢量量化的 token 串。

在損失函數(shù)上,研究者從自然語言社區(qū)汲取靈感,即掩碼 token 建模已經(jīng)「讓位給了」序列自回歸預(yù)測方法。一旦圖像、視頻、標注圖像都可以表示為序列,則訓練的模型可以在預(yù)測下一個 token 時最小化交叉熵損失。

通過這一極其簡單的設(shè)計,研究者展示了如下一些值得注意的行為:

  • 隨著模型尺寸和數(shù)據(jù)大小的增加,模型會出現(xiàn)適當?shù)臄U展行為;
  • 現(xiàn)在很多不同的視覺任務(wù)可以通過在測試時設(shè)計合適的 prompt 來解決。雖然不像定制化、專門訓練的模型那樣獲得高性能的結(jié)果, 但單一視覺模型能夠解決如此多的任務(wù)這一事實非常令人鼓舞;
  • 大量無監(jiān)督數(shù)據(jù)對不同標準視覺任務(wù)的性能有著顯著的助益;
  • 在處理分布外數(shù)據(jù)和執(zhí)行新的任務(wù)時,出現(xiàn)了通用視覺推理能力存在的跡象,但仍需進一步研究。

論文共同一作、約翰霍普金斯大學 CS 四年級博士生、伯克利訪問博士生 Yutong Bai 發(fā)推宣傳了她們的工作。

圖片

圖源:https://twitter.com/YutongBAI1002/status/1731512110247473608

在論文作者中,后三位都是 UC 伯克利在 CV 領(lǐng)域的資深學者。Trevor Darrell 教授是伯克利人工智能研究實驗室 BAIR 創(chuàng)始聯(lián)合主任、Jitendra Malik 教授獲得過 2019 年 IEEE 計算機先驅(qū)獎、 Alexei A. Efros 教授尤以最近鄰研究而聞名。

圖片

從左到右依次為 Trevor Darrell、Jitendra Malik、Alexei A. Efros。

方法介紹

本文采用兩階段方法:1)訓練一個大型視覺 tokenizer(對單個圖像進行操作),可以將每個圖像轉(zhuǎn)換為一系列視覺 token;2)在視覺句子上訓練自回歸 transformer 模型,每個句子都表示為一系列 token。方法如圖 2 所示:

圖像 Token 化

為了將 Transformer 模型應(yīng)用于圖像,典型的操作包括:將圖像劃分為 patch,并將其視為序列;或者使用預(yù)訓練的圖像 tokenizer,例如 VQVAE 或 VQGAN,將圖像特征聚集到離散 token 網(wǎng)格中。本文采用后一種方法,即用 VQGAN 模型生成語義 token。

LVM 框架包括編碼和解碼機制,還具有量化層,其中編碼器和解碼器是用卷積層構(gòu)建的。編碼器配備了多個下采樣模塊來收縮輸入的空間維度,而解碼器配備了一系列等效的上采樣模塊以將圖像恢復(fù)到其初始大小。對于給定的圖像,VQGAN tokenizer 會生成 256 個離散 token。

實現(xiàn)細節(jié)。本文采用 Chang 等人提出的 VQGAN 架構(gòu),并遵循 Chang 等人使用的設(shè)置,在此設(shè)置下,下采樣因子 f=16,碼本大小 8192。這意味著對于大小為 256 × 256 的圖像,VQGAN tokenizer 會生成 16 × 16 = 256 個 token,其中每個 token 可以采用 8192 個不同的值。此外,本文在 LAION 5B 數(shù)據(jù)集的 1.5B 子集上訓練 tokenizer。

視覺句子序列建模

使用 VQGAN 將圖像轉(zhuǎn)換為離散 token 后,本文通過將多個圖像中的離散 token 連接成一維序列,并將視覺句子視為統(tǒng)一序列。重要的是,所有視覺句子都沒有進行特殊處理 —— 即不使用任何特殊的 token 來指示特定的任務(wù)或格式。 

視覺句子允許將不同的視覺數(shù)據(jù)格式化成統(tǒng)一的圖像序列結(jié)構(gòu)。

實現(xiàn)細節(jié)。在將視覺句子中的每個圖像 token 化為 256 個 token 后,本文將它們連接起來形成一個 1D token 序列。在視覺 token 序列上,本文的 Transformer 模型實際上與自回歸語言模型相同,因此他們采用 LLaMA 的 Transformer 架構(gòu)。

本文使用的上下文長度為 4096 個 token,與語言模型類似,本文在每個視覺句子的開頭添加一個 [BOS](begin of sentence)token,在末尾添加一個 [EOS](end of sentence)token,并在訓練期間使用序列拼接提高效率。

本文在整個 UVDv1 數(shù)據(jù)集(4200 億個 token)上訓練模型,總共訓練了 4 個具有不同參數(shù)數(shù)量的模型:3 億、6 億、10 億和 30 億。 

實驗結(jié)果

該研究進行實驗評估了模型的擴展能力,以及理解和回答各種任務(wù)的能力。

擴展

如下圖 3 所示,該研究首先檢查了不同大小的 LVM 的訓練損失。

如下圖 4 所示,較大的模型在所有任務(wù)中復(fù)雜度都是較低的,這表明模型的整體性能可以遷移到一系列下游任務(wù)上。

如下圖 5 所示,每個數(shù)據(jù)組件對下游任務(wù)都有重要作用。LVM 不僅會受益于更大的數(shù)據(jù),而且還隨著數(shù)據(jù)集的多樣性而改進。

序列 prompt

為了測試 LVM 對各種 prompt 的理解能力,該研究首先在序列推理任務(wù)上對 LVM 進行評估實驗。其中,prompt 非常簡單:向模型提供 7 張圖像的序列,要求它預(yù)測下一張圖像,實驗結(jié)果如下圖 6 所示:

該研究還將給定類別的項目列表視為一個序列,讓 LVM 預(yù)測同一類的圖像,實驗結(jié)果如下圖 15 所示:

那么,需要多少上下文(context)才能準確預(yù)測后續(xù)幀?

該研究在給出不同長度(1 到 15 幀)的上下文 prompt 情況下,評估了模型的幀生成困惑度,結(jié)果如下圖 7 所示,困惑度從 1 幀到 11 幀有明顯改善,之后趨于穩(wěn)定(62.1 → 48.4)。

Analogy Prompt

該研究還評估了更復(fù)雜的 prompt 結(jié)構(gòu) ——Analogy Prompt,來測試 LVM 的高級解釋能力。

下圖 8 顯示了對許多任務(wù)進行 Analogy Prompt 的定性結(jié)果:

與視覺 Prompting 的比較如下所示, 序列 LVM 在幾乎所有任務(wù)上都優(yōu)于以前的方法。

合成任務(wù)。圖 9 展示了使用單個 prompt 組合多個任務(wù)的結(jié)果。

其他 prompt

研究者試圖通過向模型提供它以往未見過的各種 prompt,來觀察模型的擴展能力到底怎樣。下圖 10 展示了一些運行良好的此類 prompt。

下圖 11 展示了一些用文字難以描述的 prompt,這些任務(wù)上 LVM 最終可能會勝過 LLM。

圖片

圖 13 顯示了在非語言人類 IQ 測試中發(fā)現(xiàn)的典型視覺推理問題的初步定性結(jié)果。

閱讀原文,了解更多細節(jié)。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-12-04 13:52:00

模型數(shù)據(jù)

2025-04-18 08:42:52

模型推理AI

2023-05-04 14:55:02

模型AI

2025-04-30 09:09:00

2024-10-29 09:57:13

2024-03-04 08:15:00

2023-04-07 09:28:31

模型訓練

2024-11-26 13:40:00

2023-06-21 13:20:14

系統(tǒng)模型

2023-08-05 13:45:46

模型AI

2025-01-22 15:21:00

2025-06-03 08:38:00

2024-12-02 08:20:00

2023-05-26 17:20:29

模型工具

2023-06-04 13:29:24

OpenAI員工UC

2024-05-30 14:23:00

2025-02-14 09:20:00

模型數(shù)據(jù)訓練

2023-11-14 07:47:42

IGN擴散模型

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2023-04-04 13:17:00

GPUCMU開源
點贊
收藏

51CTO技術(shù)棧公眾號