偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅縮小視覺Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬Token!清華大學(xué),香港大學(xué),上海AI Lab新突破

人工智能 新聞
V2PE 的提出,為視覺 - 語言模型在長上下文場景下的表現(xiàn)提供了新的思路。

本文共同一作為葛俊岐 (清華大學(xué)本科生),陳子熠 (清華大學(xué)本科生),林錦濤 (香港大學(xué)博士生),祝金國 (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,代表作有 Deformable DETR、DCN v2 等。

隨著語言大模型的成功,視覺 - 語言多模態(tài)大模型 (Vision-Language Multimodal Models, 簡寫為 VLMs) 發(fā)展迅速,但在長上下文場景下表現(xiàn)卻不盡如人意,這一問題嚴(yán)重制約了多模態(tài)模型在實(shí)際應(yīng)用中的潛力。

為解決這一問題,清華大學(xué),香港大學(xué)和上海 AI Lab 聯(lián)合提出了一種新的用于多模態(tài)大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態(tài)大模型在長上下文場景下的新突破。

圖片

  • 論文地址:https://arxiv.org/abs/2412.09616
  • 項(xiàng)目主頁:https://zzdhybthu.github.io/V2PE.github.io/
  • 開源代碼:https://github.com/OpenGVLab/V2PE

位置編碼是多模態(tài)大模型中的關(guān)鍵技術(shù),用于讓模型理解輸入序列的相對位置關(guān)系。它使得 VLMs 能夠理解詞語在句子中的位置,并識(shí)別圖像塊在原圖中的二維位置。然而,現(xiàn)有的多模態(tài)模型通常在圖像 token 上沿用文本模型的位置編碼方式,這并非最優(yōu)方案。

V2PE 提出了一種為視覺 token 分配可變位置增量的新方法,有效解決了傳統(tǒng)位置編碼在處理超長上下文任務(wù)時(shí)的性能瓶頸問題。通過避免位置編碼超出模型訓(xùn)練上下文窗口的限制,V2PE 顯著提升了模型在 32K 至 1M 長度超長上下文任務(wù)中的表現(xiàn)。相比傳統(tǒng)位置編碼的模型,采用 V2PE 的模型在這些任務(wù)中實(shí)現(xiàn)了突破性改進(jìn),甚至超越了最先進(jìn)的閉源大模型。

圖片

V2PE 工作有以下貢獻(xiàn):

  • 構(gòu)建了一個(gè)用于 VLMs 長上下文訓(xùn)練和評(píng)估的混合數(shù)據(jù)集。研究團(tuán)隊(duì)通過這一數(shù)據(jù)集發(fā)現(xiàn),直接將 LLM 的位置編碼機(jī)制應(yīng)用于視覺 token 是次優(yōu)選擇。
  • 提出了可變視覺位置信息編碼 (V2PE),一種創(chuàng)新的位置編碼策略,通過為視覺 token 分配可變且較小的增量,大幅提升了 VLMs 對長多模態(tài)上下文的理解和推理能力。
  • 將 V2PE 方法和擴(kuò)展訓(xùn)練數(shù)據(jù)應(yīng)用于開源視覺模型 InternVL2-2B, 微調(diào)后的模型在統(tǒng)一多模態(tài)基準(zhǔn)測試和長上下文多模態(tài)任務(wù)中表現(xiàn)優(yōu)異,成功處理長達(dá) 1M token 的序列,展現(xiàn)了卓越的長上下文處理能力。

可變視覺位置編碼

突破視覺 - 語言模型在長上下文場景中的新邊界

在人工智能領(lǐng)域,視覺 - 語言模型 因其在多模態(tài)任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而,在處理視頻、高分辨率圖像或長篇圖文文檔等長上下文場景時(shí),其泛化能力卻顯著下降,這限制了它們在實(shí)際應(yīng)用中的潛力,并影響了用戶體驗(yàn)的進(jìn)一步提升。

V2PE 旨在解決的核心問題在于:為什么 VLMs 在長上下文場景下表現(xiàn)不佳,以及如何提升它們在長序列多模態(tài)理解與推理上的能力?

為了研究 VLMs 為什么在長上下文場景表現(xiàn)不佳,研究團(tuán)隊(duì)通過構(gòu)建大規(guī)模的長上下文多模態(tài)數(shù)據(jù)集,系統(tǒng)地評(píng)估和分析 VLMs 的能力,在這一過程中,他們意識(shí)到位置編碼策略在 VLMs 的性能中起著至關(guān)重要的作用。

傳統(tǒng)的 VLMs 位置編碼通常不區(qū)分文本 token 和圖像 token,并在訓(xùn)練中使用固定的編碼規(guī)則。然而,文本 token 屬于一維數(shù)據(jù),位置編碼僅需傳達(dá)先后順序;圖像 token 則為二維數(shù)據(jù),位置編碼需傳遞圖像塊的空間位置信息,還要考慮多分辨率下縮略圖與子圖像塊的對應(yīng)關(guān)系。此外,當(dāng)模型處理超出訓(xùn)練上下文窗口的長序列時(shí),固定位置編碼會(huì)超出模型已知范圍,導(dǎo)致推理能力受限。

因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專門針對視覺 - 語言模型(VLMs)中的長上下文場景。V2PE 通過為視覺 token 分配更小的、可變的位置增量,有效地管理長多模態(tài)序列。

增強(qiáng)的長上下文多模態(tài)數(shù)據(jù)集

圖片

作者引入了兩個(gè)增強(qiáng)的長上下文多模態(tài)數(shù)據(jù)集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長上下文能力并建立評(píng)估框架。

  • Long-VQA 數(shù)據(jù)集擴(kuò)展了 17 個(gè)被廣泛采用的數(shù)據(jù)集,將內(nèi)容從短序列擴(kuò)展到包含高達(dá) 32K token 的序列。任務(wù)涵蓋常識(shí)推理、事實(shí)知識(shí)和解釋文本和視覺信息。
  • Long-MR 數(shù)據(jù)集受多模態(tài)大海撈針 benchamrk -- MM-NIAH 的啟發(fā),通過在交錯(cuò)的文本圖像中檢測目標(biāo)圖像或段落,評(píng)估 VLMs 處理超長上下文的能力。

可變視覺位置編碼

位置編碼在視覺 - 語言模型中的作用

位置編碼是 Transformer 架構(gòu)中的基本組成部分,它通過為 token 提供位置信息來捕獲序列關(guān)系。位置編碼通常涉及兩個(gè)步驟:位置索引推導(dǎo)圖片和位置嵌入計(jì)算圖片。

  • 位置索引推導(dǎo):為每個(gè) token圖片分配位置索引圖片。
  • 位置嵌入計(jì)算:將這些索引轉(zhuǎn)換為影響注意力機(jī)制的位置嵌入。

可變位置索引推導(dǎo)

作者提出了一種針對模態(tài)特定的遞歸函數(shù),為文本和視覺 token 分配不同的位置索引:

圖片

其中圖片是一個(gè)小于 1 的增量,用于減少視覺 token 的位置索引增加速率。在訓(xùn)練過程中,圖片可以從一組分?jǐn)?shù)值中動(dòng)態(tài)選擇,以適應(yīng)不同的輸入長度和復(fù)雜性。

這種方法與傳統(tǒng)的長上下文方法相比具有幾個(gè)優(yōu)勢:

1. V2PE 保留了 VLMs 中的所有視覺 token,保留了視覺內(nèi)容的豐富性和細(xì)節(jié)。

2. V2PE 允許 VLMs 通過在訓(xùn)練期間動(dòng)態(tài)選擇圖片來適應(yīng)任意間隔的位置索引,避免了位置編碼外推引起的不準(zhǔn)確。

長上下文能力顯著提升

經(jīng)過一系列的實(shí)驗(yàn)和分析,研究團(tuán)隊(duì)取得了顯著的成果。通過引入 Variable Visual Position Encoding (V2PE) 和增強(qiáng)的長上下文多模態(tài)數(shù)據(jù)集,研究團(tuán)隊(duì)得到了以下幾個(gè)重要的發(fā)現(xiàn):

  • 圖片對模型上下文能力的影響

圖片

在上下文長度 32k 以內(nèi)的數(shù)據(jù)上訓(xùn)練模型,在 64k 以內(nèi),多種長度的基準(zhǔn)測試上進(jìn)行測試。實(shí)驗(yàn)的結(jié)果表明,在測試長度超出訓(xùn)練的上下文長度時(shí),模型效果會(huì)顯著下降,但選用更小的增量圖片可以有效緩解這一現(xiàn)象。

  • 在 1M 上下文長度下的表現(xiàn)提升

圖片

作者分別在 32k 和 256k 的訓(xùn)練數(shù)據(jù)上微調(diào)模型,并在長達(dá) 1M 的多種上下文長度上進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,V2PE 在長上下文場景下的表現(xiàn)明顯優(yōu)于不加 V2PE 的模型,也優(yōu)于使用插值方法的模型,甚至能超越先進(jìn)的閉源大模型。

圖片

此外,作者將訓(xùn)練好的 V2PE 模型與其他視覺 - 語言模型在多種基準(zhǔn)測試進(jìn)行了對比,結(jié)果表明,V2PE 在長上下文多模態(tài)任務(wù)上的表現(xiàn)優(yōu)于其他模型,證明了 V2PE 的有效性。

圖片

圖片

消融實(shí)驗(yàn)中,作者將 V2PE 方法與 token 壓縮的方法以及在訓(xùn)練時(shí)固定視覺 token 的位置編碼增量的方法進(jìn)行了對比,證明了 V2PE 的優(yōu)勢。

在對注意力圖的分析中,作者關(guān)注注意力圖的尾部,即對應(yīng)序列末端的問題部分的注意力圖。作者發(fā)現(xiàn),隨著圖片的減小,模型能更好地把注意力集中在問題對應(yīng)的答案附近,證明了 V2PE 能夠有效地提升模型將注意力對齊到輸入序列中的關(guān)鍵部分的能力。

圖片

V2PE 的提出,為視覺 - 語言模型在長上下文場景下的表現(xiàn)提供了新的思路。通過為視覺 token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓(xùn)練上下文窗口的問題,提升了模型在長上下文場景下的表現(xiàn)。

作者相信,V2PE 的提出將為視覺 - 語言模型的發(fā)展帶來新的機(jī)遇,為模型在長上下文多模態(tài)任務(wù)中的應(yīng)用提供更多可能性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-20 14:37:59

模型AI圖像生成

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-02-19 10:22:06

ChatGPT人工智能

2023-08-30 13:23:00

模型訓(xùn)練

2024-10-25 14:30:00

模型AI

2024-02-01 13:03:00

AI模型

2020-08-13 10:00:56

AI 數(shù)據(jù)人工智能

2024-11-25 14:30:00

2025-05-23 09:18:25

2023-03-14 14:06:52

訓(xùn)練模型

2025-02-25 13:51:16

2025-02-27 13:00:00

2025-05-28 11:55:28

模型AI評(píng)估

2013-09-27 17:29:16

清華大學(xué)IT運(yùn)維RIIL

2012-04-06 16:44:30

BMCITSMITIL

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2011-10-26 10:57:56

EqualLogic戴爾存儲(chǔ)

2023-05-19 13:01:10

ChatGPT模型

2024-03-25 12:40:19

訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)