偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet

發(fā)布于 2024-9-24 10:19
瀏覽
0收藏

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.12191
Github鏈接:https://github.com/QwenLM/Qwen2-VL

亮點(diǎn)直擊
本文介紹了Qwen系列大型視覺(jué)語(yǔ)言模型的最新成員:Qwen2-VL系列,該系列包括三款開(kāi)放權(quán)重模型,總參數(shù)量分別為20億、80億和720億。如圖1所示,Qwen2-VL的關(guān)鍵進(jìn)展包括:

  • 在各種分辨率和寬高比上的最先進(jìn)理解能力:Qwen2-VL在視覺(jué)基準(zhǔn)測(cè)試中表現(xiàn)出色,包括DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista等。
  • 對(duì)長(zhǎng)時(shí)間視頻(超過(guò)20分鐘)的理解能力:Qwen2-VL能夠理解超過(guò)20分鐘的視頻,增強(qiáng)了其進(jìn)行高質(zhì)量視頻問(wèn)答、對(duì)話、內(nèi)容創(chuàng)作等的能力。
  • 強(qiáng)大的設(shè)備操作代理能力:憑借先進(jìn)的推理和決策能力,Qwen2-VL可以與手機(jī)、機(jī)器人等設(shè)備集成,實(shí)現(xiàn)基于視覺(jué)輸入和文本指令的自主操作。
  • 多語(yǔ)言支持:為了服務(wù)全球受眾,Qwen2-VL不僅支持英語(yǔ)和中文,還支持包括大多數(shù)歐洲語(yǔ)言、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、越南語(yǔ)等在內(nèi)的多語(yǔ)言上下文理解。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

效果展示

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

Qwen2-VL系列旨在重新定義傳統(tǒng)的固定分辨率視覺(jué)處理方法,解決了在處理不同分辨率圖像時(shí)的效率和準(zhǔn)確性問(wèn)題。

提出的方案

引入了“Naive Dynamic Resolution”機(jī)制,使模型能夠動(dòng)態(tài)處理不同分辨率的圖像,并生成不同數(shù)量的視覺(jué)tokens,從而提升視覺(jué)表示的效率和準(zhǔn)確性。

應(yīng)用的技術(shù)

  1. Naive Dynamic Resolution機(jī)制:動(dòng)態(tài)處理圖像分辨率。
  2. Multimodal rotary position embedding (M-RoPE):有效融合文本、圖像和視頻的位置信息。
  3. 統(tǒng)一處理范式:同時(shí)處理圖像和視頻,增強(qiáng)視覺(jué)感知能力。
  4. 擴(kuò)展規(guī)律:探索大規(guī)模視覺(jué)語(yǔ)言模型(LVLM)的擴(kuò)展規(guī)律,通過(guò)模型大?。?B、8B和72B參數(shù))和訓(xùn)練數(shù)據(jù)的增加來(lái)提升性能。

達(dá)到的效果

Qwen2-VL系列在各類多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色,特別是Qwen2-VL-72B模型,其性能與領(lǐng)先模型如GPT-4o和Claude3.5-Sonnet相當(dāng),超越了其他通用模型。

方法

Qwen2-VL系列由三種大小的模型組成,分別為Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超參數(shù)和重要信息。Qwen2-VL在各種規(guī)模的LLM中采用了675M參數(shù)的Vison Transformer(ViT),確保了ViT的計(jì)算負(fù)載在不同規(guī)模的LLM中保持恒定。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型架構(gòu)

下圖2展示了Qwen2-VL的全面結(jié)構(gòu)。保留了Qwen-VL框架,該框架集成了視覺(jué)編碼器和語(yǔ)言模型。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

針對(duì)不同的規(guī)模適配,實(shí)現(xiàn)了一種具有大約675百萬(wàn)參數(shù)的ViT,能夠處理圖像和視頻輸入。在語(yǔ)言處理方面,選擇了更強(qiáng)大的Qwen2語(yǔ)言模型系列。為了進(jìn)一步增強(qiáng)模型有效感知和理解視頻中的視覺(jué)信息的能力,引入了幾個(gè)關(guān)鍵升級(jí):


簡(jiǎn)單動(dòng)態(tài)分辨率:Qwen2-VL的一項(xiàng)關(guān)鍵架構(gòu)改進(jìn)是引入了簡(jiǎn)單動(dòng)態(tài)分辨率支持。與其前身不同,Qwen2-VL現(xiàn)在可以處理任意分辨率的圖像,動(dòng)態(tài)將其轉(zhuǎn)換為可變數(shù)量的視覺(jué)tokens。為支持此功能,修改了ViT,去除了原始的絕對(duì)位置嵌入,并引入了2D-RoPE,以捕捉圖像的二維位置信息。


在推理階段,不同分辨率的圖像被打包成一個(gè)單一序列,打包長(zhǎng)度受到控制,以限制GPU內(nèi)存使用。此外,為減少每幅圖像的視覺(jué)tokens,在ViT后采用了一個(gè)簡(jiǎn)單的多層感知器(MLP)層,將相鄰的2×2 token壓縮為一個(gè)token,并在壓縮的視覺(jué)tokens的開(kāi)頭和結(jié)尾放置特殊的<|vision_start|>和<|vision_end|> tokens。因此,分辨率為224×224的圖像在使用patch_size=14的ViT編碼后,將在進(jìn)入LLM之前壓縮為66個(gè)tokens。


Multimodal rotary position embedding (M-RoPE) 另一個(gè)關(guān)鍵架構(gòu)增強(qiáng)是Multimodal Rotary Position Embedding(M-RoPE)的創(chuàng)新。與傳統(tǒng)的1D-RoPE(用于LLM)僅能編碼一維位置信息不同,M-RoPE有效地建模了多模態(tài)輸入的位置信息。這通過(guò)將原始旋轉(zhuǎn)embedding分解為三個(gè)組成部分:時(shí)間、高度和寬度實(shí)現(xiàn)。對(duì)于文本輸入,這些組件使用相同的位置ID,使得M-RoPE在功能上等同于1D-RoPE。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

在處理圖像時(shí),每個(gè)視覺(jué)token的時(shí)間ID保持不變,而高度和寬度組件則根據(jù)token在圖像中的位置分配不同的ID。對(duì)于視頻,視為一系列幀,每幀的時(shí)間ID遞增,而高度和寬度組件遵循與圖像相同的ID分配模式。在輸入包含多種模態(tài)的情況下,每種模態(tài)的位置編號(hào)通過(guò)將前一模態(tài)的最大位置ID加一來(lái)初始化。M-RoPE不僅增強(qiáng)了位置信息的建模,還減少了圖像和視頻的位置ID值,使模型在推理時(shí)能夠推斷更長(zhǎng)的序列。


統(tǒng)一的圖像與視頻理解 Qwen2-VL采用混合訓(xùn)練方案,結(jié)合圖像和視頻數(shù)據(jù),確保在圖像理解和視頻理解方面的熟練度。為了盡可能完整地保留視頻信息,以每秒兩幀的頻率采樣每個(gè)視頻。此外,將3D卷積與深度為二的卷積結(jié)合,以處理視頻輸入,使模型能夠處理3D pipeline 而非2D塊,從而在不增加序列長(zhǎng)度的情況下處理更多視頻幀。


為了保持一致性,每幅圖像被視為兩個(gè)相同的幀。為了平衡長(zhǎng)視頻處理的計(jì)算需求與整體訓(xùn)練效率,動(dòng)態(tài)調(diào)整每個(gè)視頻幀的分辨率,將每個(gè)視頻的總tokens數(shù)限制為16384。該訓(xùn)練方法在模型理解長(zhǎng)視頻的能力與訓(xùn)練效率之間取得了平衡。

訓(xùn)練

遵循Qwen-VL,采用三階段訓(xùn)練方法。在第一階段,專注于訓(xùn)練ViT組件,利用大量圖像-文本對(duì)提升大型語(yǔ)言模型(LLM)的語(yǔ)義理解。在第二階段,解凍所有參數(shù),使用更廣泛的數(shù)據(jù)進(jìn)行更全面的學(xué)習(xí)。最后階段,鎖定ViT參數(shù),專注于使用指令數(shù)據(jù)集進(jìn)行LLM的微調(diào)。


模型在多樣化的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,包括圖像-文本對(duì)、光學(xué)字符識(shí)別(OCR)數(shù)據(jù)、交錯(cuò)的圖像-文本文章、視覺(jué)問(wèn)答數(shù)據(jù)集、視頻對(duì)話和圖像知識(shí)數(shù)據(jù)集。數(shù)據(jù)源主要來(lái)自清理過(guò)的網(wǎng)頁(yè)、開(kāi)源數(shù)據(jù)集和合成數(shù)據(jù),數(shù)據(jù)截止日期為2023年6月。這種多樣的數(shù)據(jù)組成對(duì)發(fā)展強(qiáng)大的多模態(tài)理解能力至關(guān)重要。


在初始預(yù)訓(xùn)練階段,Qwen2-VL接觸到約6000億個(gè)tokens。Qwen2-VL的LLM組件使用Qwen2中的參數(shù)初始化,而視覺(jué)編碼器則基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D替代。此階段主要學(xué)習(xí)圖像-文本關(guān)系、通過(guò)OCR進(jìn)行文本內(nèi)容識(shí)別以及圖像分類任務(wù),為模型建立視覺(jué)-文本關(guān)聯(lián)的扎實(shí)基礎(chǔ)。


第二階段的預(yù)訓(xùn)練標(biāo)志著重要進(jìn)展,涉及額外的8000億個(gè)與圖像相關(guān)的數(shù)據(jù)。此階段引入了更多混合圖像-文本內(nèi)容,促進(jìn)了對(duì)視覺(jué)和文本信息之間相互作用的更細(xì)致理解。視覺(jué)問(wèn)答數(shù)據(jù)集的納入提升了模型對(duì)圖像相關(guān)查詢的響應(yīng)能力,同時(shí),多任務(wù)數(shù)據(jù)集的引入對(duì)模型同時(shí)處理多種任務(wù)的能力至關(guān)重要,這在處理復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)集時(shí)尤為重要。純文本數(shù)據(jù)繼續(xù)在維持和提高模型語(yǔ)言能力方面發(fā)揮關(guān)鍵作用。


在整個(gè)預(yù)訓(xùn)練階段,Qwen2-VL處理了總計(jì)1.4萬(wàn)億個(gè)tokens,包括文本tokens和圖像tokens。然而,訓(xùn)練過(guò)程中僅對(duì)文本tokens提供監(jiān)督。這種對(duì)廣泛而多樣的語(yǔ)言和視覺(jué)場(chǎng)景的接觸確保模型深入理解視覺(jué)和文本信息之間的復(fù)雜關(guān)系,從而為各種多模態(tài)任務(wù)奠定堅(jiān)實(shí)基礎(chǔ)。


在指令微調(diào)階段,采用ChatML格式構(gòu)建指令跟隨數(shù)據(jù)集。該數(shù)據(jù)集不僅包括純文本對(duì)話數(shù)據(jù),還包含多模態(tài)對(duì)話數(shù)據(jù)。多模態(tài)組件包括圖像問(wèn)答、文檔解析、多圖像比較、視頻理解、視頻流對(duì)話和基于代理的交互。對(duì)數(shù)據(jù)構(gòu)建的綜合方法旨在增強(qiáng)模型理解和執(zhí)行各種模態(tài)下廣泛指令的能力。通過(guò)納入多樣化的數(shù)據(jù)類型,希望開(kāi)發(fā)出更具多樣性和魯棒性的語(yǔ)言模型,能夠處理復(fù)雜的多模態(tài)任務(wù),以及傳統(tǒng)的基于文本的交互。

數(shù)據(jù)格式

與Qwen-VL一致,Qwen2-VL也使用特殊tokens來(lái)區(qū)分視覺(jué)和文本輸入。Tokens <|vision_start|>和<|vision_end|>插入在圖像特征序列的開(kāi)始和結(jié)束,以劃定圖像內(nèi)容。


對(duì)話數(shù)據(jù) 在對(duì)話格式方面,使用ChatML格式構(gòu)建指令調(diào)優(yōu)數(shù)據(jù)集,每個(gè)交互的陳述用兩個(gè)特殊tokens(<|im_start|>和<|im_end|>),以便于對(duì)話的結(jié)束。藍(lán)色tokens的部分表示受監(jiān)督的部分。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺(jué)定位 為了賦予模型視覺(jué)定位能力,邊界框坐標(biāo)被標(biāo)準(zhǔn)化到[0, 1000)范圍內(nèi),并表示為"(, ), (, )"。Tokens <|box_start|>和<|box_end|>用于標(biāo)記邊界框文本。為了準(zhǔn)確地將邊界框與其文本描述聯(lián)系起來(lái),引入了tokens <|object_ref_start|>和<|object_ref_end|>,以指示邊界框所引用的內(nèi)容,從而使模型能夠有效地解釋和生成特定區(qū)域的精確描述。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺(jué)Agent 為了將Qwen2-VL發(fā)展為通用的VL-Agent,將各種代理任務(wù)(如UI操作、機(jī)器人控制、游戲和導(dǎo)航)視為順序決策問(wèn)題,使Qwen2-VL能夠通過(guò)多步行動(dòng)執(zhí)行來(lái)完成任務(wù)。對(duì)于每個(gè)任務(wù),首先定義一組可允許的動(dòng)作和關(guān)鍵詞模式(下劃線)以供功能調(diào)用。然后,Qwen2-VL分析觀察結(jié)果,進(jìn)行推理和規(guī)劃,執(zhí)行所選動(dòng)作,并與環(huán)境互動(dòng)以獲取新觀察。這一循環(huán)反復(fù)進(jìn)行,直到任務(wù)成功完成。通過(guò)整合各種工具并利用大型視覺(jué)語(yǔ)言模型(LVLM)的視覺(jué)感知能力,Qwen2-VL能夠迭代執(zhí)行涉及現(xiàn)實(shí)世界視覺(jué)交互的日益復(fù)雜的任務(wù)。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多模態(tài)模型基礎(chǔ)設(shè)施

Qwen2-VL模型在阿里云的PAI-Lingjun智能計(jì)算服務(wù)上進(jìn)行訓(xùn)練,利用其可擴(kuò)展的計(jì)算、自動(dòng)恢復(fù)和延遲檢測(cè)功能。


存儲(chǔ) 使用阿里云的超高速CPFS(云并行文件存儲(chǔ))構(gòu)建Qwen2-VL的預(yù)訓(xùn)練和后訓(xùn)練存儲(chǔ)系統(tǒng)。將文本數(shù)據(jù)和視覺(jué)數(shù)據(jù)存儲(chǔ)解耦。文本數(shù)據(jù)簡(jiǎn)單地存儲(chǔ)在CPFS上,并使用mmap進(jìn)行高效訪問(wèn)。視覺(jué)數(shù)據(jù)使用阿里云的OSS(對(duì)象存儲(chǔ)服務(wù))進(jìn)行持久存儲(chǔ)。在訓(xùn)練過(guò)程中,通過(guò)OSS的python-client并發(fā)訪問(wèn)視覺(jué)數(shù)據(jù),并調(diào)整并發(fā)和重試參數(shù)以避免達(dá)到QPS(每秒查詢次數(shù))限制。視頻數(shù)據(jù)解碼是主要瓶頸,尤其是對(duì)于長(zhǎng)視頻。在幾次嘗試開(kāi)源(FFmpeg開(kāi)發(fā)者)和內(nèi)部軟件失敗后,研究者們選擇了緩存解碼技術(shù)。檢查點(diǎn)保存每個(gè)GPU的優(yōu)化器和模型狀態(tài)在CPFS上。


并行性 使用3D并行性,結(jié)合數(shù)據(jù)并行性(DP)、張量并行性(TP)和 pipeline 并行性(PP)來(lái)擴(kuò)展Qwen2-VL模型訓(xùn)練。還利用DeepSpeed的zero-1冗余優(yōu)化器進(jìn)行狀態(tài)分片以節(jié)省內(nèi)存。使用選擇性檢查點(diǎn)激活的序列并行性(SP)以減少內(nèi)存使用。當(dāng)啟用TP訓(xùn)練時(shí),總是將視覺(jué)編碼器和大型語(yǔ)言模型一起分片,但不對(duì)視覺(jué)合并進(jìn)行分片,因?yàn)槠鋮?shù)相對(duì)較少。我們發(fā)現(xiàn)TP訓(xùn)練會(huì)導(dǎo)致不同的模型共享權(quán)重,這是由于卷積操作的非確定性行為。我們通過(guò)對(duì)共享權(quán)重進(jìn)行離線減少解決了這個(gè)問(wèn)題,從而避免了額外的全歸約通信步驟。這種方法對(duì)性能的影響非常小。


研究者們利用1F1B PP進(jìn)行Qwen2-VL 72B的訓(xùn)練。我們將視覺(jué)編碼器、視覺(jué)適配器和幾個(gè)LLM的解碼器層組合為一個(gè)階段,并均勻分割剩余的解碼器層。請(qǐng)注意,視覺(jué)和文本序列長(zhǎng)度對(duì)于每個(gè)數(shù)據(jù)點(diǎn)都是動(dòng)態(tài)的。在啟動(dòng)1F1B過(guò)程之前廣播動(dòng)態(tài)序列長(zhǎng)度,并使用批索引訪問(wèn)形狀信息。還實(shí)現(xiàn)了交錯(cuò)的1F1B PP,但發(fā)現(xiàn)其速度比標(biāo)準(zhǔn)1F1B設(shè)置慢。


軟件 使用PyTorch版本2.1.2與CUDA 11.8進(jìn)行訓(xùn)練。此外,在視覺(jué)編碼器和LLM的訓(xùn)練中利用閃存注意力以提高效率。還利用了融合操作符,如LayerNorm、RMSNorm和Adam。此外,在訓(xùn)練過(guò)程中利用矩陣乘法中的通信與計(jì)算重疊。

實(shí)驗(yàn)

與現(xiàn)有技術(shù)的比較

通過(guò)各種視覺(jué)基準(zhǔn)、視頻任務(wù)和基于代理的評(píng)估來(lái)評(píng)估我們模型的視覺(jué)能力。Qwen2-VL在相同規(guī)模下表現(xiàn)出高度競(jìng)爭(zhēng)力,取得了新的最先進(jìn)(SoTA)結(jié)果。72B模型在大多數(shù)評(píng)估指標(biāo)上始終提供頂尖性能,常常超越閉源模型,如GPT-4o和Claude 3.5-Sonnet。在文檔理解任務(wù)中,它表現(xiàn)出顯著優(yōu)勢(shì)。然而,在MMM基準(zhǔn)中,本文的模型在處理更復(fù)雜和具有挑戰(zhàn)性的問(wèn)題集時(shí)仍然落后于GPT-4o,表明Qwen2-VL-72B還有改進(jìn)的空間。

定量結(jié)果

對(duì)Qwen2-VL系列在多種數(shù)據(jù)集上的廣泛評(píng)估進(jìn)行展示,提供對(duì)模型在各方面能力的全面理解。

一般視覺(jué)問(wèn)答

為了嚴(yán)格評(píng)估本文模型在一般視覺(jué)問(wèn)答任務(wù)中的能力,研究者們?cè)诙喾N最先進(jìn)的基準(zhǔn)上進(jìn)行了廣泛評(píng)估:RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。


Qwen2-VL系列在這些基準(zhǔn)上表現(xiàn)出色,72B模型始終達(dá)到或超過(guò)最先進(jìn)的結(jié)果,而7B和2B變體也表現(xiàn)出強(qiáng)大的能力。在評(píng)估真實(shí)世界空間理解的RealWorldQA上,Qwen2-VL-72B的得分為77.8,超過(guò)了之前的最先進(jìn)(72.2)和強(qiáng)有力的基線,如GPT-4o(75.4),展示了其對(duì)物理環(huán)境的優(yōu)越理解。


在評(píng)估真正多模態(tài)能力的MMStar基準(zhǔn)中,Qwen2-VL-72B獲得68.3,超越了之前的最佳成績(jī)67.1,突顯了其在視覺(jué)和文本信息整合方面的能力。在MMVet上,Qwen2-VL-72B在16個(gè)復(fù)雜多模態(tài)任務(wù)中表現(xiàn)出色,取得了74.0,顯著超過(guò)強(qiáng)勁的競(jìng)爭(zhēng)對(duì)手,包括GPT-4V(67.5),展示了其在應(yīng)對(duì)多樣化多模態(tài)挑戰(zhàn)中的多功能性。


在評(píng)估先進(jìn)推理和指令跟隨的MMT-Bench中,Qwen2-VL-72B獲得71.7,明顯超過(guò)之前的最佳(63.4),展示了其在應(yīng)用專業(yè)知識(shí)和執(zhí)行視覺(jué)識(shí)別、定位、推理及規(guī)劃方面的能力。在評(píng)估細(xì)粒度能力的MMBench中,Qwen2-VL-72B在英語(yǔ)測(cè)試集上獲得86.5,匹配了最先進(jìn)的水平,而在中文測(cè)試集上取得86.6,創(chuàng)下新基準(zhǔn)。對(duì)于測(cè)量14個(gè)子任務(wù)中廣泛感知和認(rèn)知能力的MME,Qwen2-VL-72B獲得累計(jì)得分2482.7,顯著超過(guò)之前的最佳(2414.7),突顯了其在視覺(jué)感知和高級(jí)認(rèn)知任務(wù)中的先進(jìn)能力。


這些綜合結(jié)果突顯了Qwen2-VL系列在一般視覺(jué)問(wèn)答任務(wù)中的卓越能力。模型在真實(shí)世界空間理解、真正多模態(tài)整合、復(fù)雜推理、指令跟隨以及廣泛的感知和認(rèn)知任務(wù)方面展現(xiàn)出先進(jìn)能力。特別是72B模型在多種基準(zhǔn)上持續(xù)表現(xiàn)優(yōu)越,使Qwen2-VL系列成為視覺(jué)問(wèn)答領(lǐng)域的領(lǐng)先解決方案。我們的模型在處理視覺(jué)不可或缺的任務(wù)、整合核心視覺(jué)-語(yǔ)言能力以及在多樣化多模態(tài)場(chǎng)景中展現(xiàn)專業(yè)知識(shí)方面表現(xiàn)出色,涵蓋從基礎(chǔ)感知任務(wù)到復(fù)雜推理和規(guī)劃的廣泛能力。這一全面評(píng)估強(qiáng)調(diào)了Qwen2-VL系列在應(yīng)對(duì)最先進(jìn)多模態(tài)基準(zhǔn)所帶來(lái)的多面挑戰(zhàn)中的多功能性和有效性,從而為大型視覺(jué)-語(yǔ)言模型設(shè)立了新的標(biāo)準(zhǔn)。

文檔和圖表閱讀

在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D數(shù)據(jù)集上測(cè)試了模型的OCR以及文檔和圖表理解能力。DocVQA/InfoVQA/ChartQA數(shù)據(jù)集側(cè)重于模型理解文檔、高分辨率信息圖表和圖表中的文本能力,而TextVQA數(shù)據(jù)集考察了模型理解自然圖像中文本的能力。

OCRBench數(shù)據(jù)集是一個(gè)混合任務(wù)的數(shù)據(jù)集,除了基于文本的視覺(jué)問(wèn)答外,還關(guān)注數(shù)學(xué)公式解析和信息提取。AI2D數(shù)據(jù)集側(cè)重于科學(xué)圖表中包含文本的多項(xiàng)選擇題。還在OCRBench上測(cè)試了模型的OCR和公式識(shí)別能力,以及在MTVQA數(shù)據(jù)集上測(cè)試了模型的多語(yǔ)言O(shè)CR能力。


實(shí)驗(yàn)結(jié)果表明,本文的模型在多個(gè)指標(biāo)上達(dá)到了最先進(jìn)水平,包括DocVQA、InfoVQA、TextVQA和OCRBench,展示了模型對(duì)多個(gè)領(lǐng)域圖像中文本內(nèi)容的良好理解能力。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

多語(yǔ)言文本識(shí)別與理解

在多語(yǔ)言O(shè)CR方面,本文的模型超越了所有現(xiàn)有的通用LVLM。本文的模型不僅在公開(kāi)的MTVQA數(shù)據(jù)集上優(yōu)于現(xiàn)有的LVLM(包括諸如GPT-4o、Claude 3.5 Sonnet等專有模型),還在內(nèi)部基準(zhǔn)測(cè)試中在除阿拉伯語(yǔ)外的所有外語(yǔ)上超越了GPT-4o(見(jiàn)下表3)。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

數(shù)學(xué)推理

在MathVista和MathVision數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以評(píng)估數(shù)學(xué)推理能力。MathVista是一個(gè)綜合基準(zhǔn),包含6,141個(gè)多樣的數(shù)學(xué)和視覺(jué)任務(wù)示例。MathVision數(shù)據(jù)集包括3,040個(gè)embeddings在實(shí)際數(shù)學(xué)競(jìng)賽中的視覺(jué)背景下的數(shù)學(xué)問(wèn)題,涵蓋16個(gè)數(shù)學(xué)學(xué)科,并在五個(gè)級(jí)別上具有不同的難度。這些挑戰(zhàn)強(qiáng)調(diào)了LVLM展現(xiàn)強(qiáng)大視覺(jué)理解、深刻數(shù)學(xué)理解和良好邏輯推理能力的必要性。Qwen2-VL系列在MathVista上表現(xiàn)出色,取得70.5的成績(jī),超越了其他LVLM。此外,它在MathVision上設(shè)定了新的開(kāi)源基準(zhǔn),得分為25.9。

參照表達(dá)理解

在視覺(jué)定位任務(wù)方面,在RefCOCO、RefCOCO+和RefCOCOg數(shù)據(jù)集上評(píng)估了Qwen2-VL。結(jié)果如下表6所示,表明Qwen2-VL在通用模型中取得了頂級(jí)結(jié)果。得益于更合理的結(jié)構(gòu)設(shè)計(jì),Qwen2-VL能夠感知高分辨率圖像中的細(xì)節(jié),從而顯著提高了性能。與通用和專用模型相比,這些模型的優(yōu)越性突顯了它們?cè)谕七M(jìn)視覺(jué)定位領(lǐng)域和實(shí)際任務(wù)中實(shí)現(xiàn)精確視覺(jué)理解的潛力。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視頻理解

在各種視頻理解任務(wù)上也評(píng)估了本文的模型,相關(guān)基準(zhǔn)覆蓋從幾秒到長(zhǎng)達(dá)一小時(shí)的視頻。下表4展示了Qwen2-VL及基線模型的性能??傮w而言,Qwen2-VL在2B、7B和72B尺寸上表現(xiàn)強(qiáng)勁,其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。這展示了Qwen2-VL在視頻理解任務(wù)中的優(yōu)越能力,并且擴(kuò)大Qwen2-VL的規(guī)模帶來(lái)了顯著的提升。對(duì)于具有挑戰(zhàn)性的Video-MME基準(zhǔn),該基準(zhǔn)包括最長(zhǎng)可達(dá)一小時(shí)的視頻,值得注意的是,我們?cè)谠u(píng)估過(guò)程中將每個(gè)視頻提取的最大幀數(shù)限制為768,這可能影響了在較長(zhǎng)視頻上的表現(xiàn)。未來(lái)的工作將集中在擴(kuò)展Qwen2-VL以支持更長(zhǎng)的序列,從而適應(yīng)更長(zhǎng)的視頻。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

視覺(jué)智能體

首先評(píng)估Qwen2-VL在通過(guò)函數(shù)調(diào)用與環(huán)境互動(dòng)的能力,然后評(píng)估其通過(guò)多輪交互完成復(fù)雜決策任務(wù)的能力。該實(shí)現(xiàn)基于Qwen-Agent框架。


函數(shù)調(diào)用 與LLM中的函數(shù)調(diào)用不同,LVLM中的函數(shù)調(diào)用通常涉及從視覺(jué)線索中提取信息。由于缺乏評(píng)估LVLM在函數(shù)調(diào)用能力方面的公共基準(zhǔn),我們構(gòu)建了內(nèi)部評(píng)估數(shù)據(jù)集。

為構(gòu)建評(píng)估數(shù)據(jù)集,進(jìn)行了以下程序:場(chǎng)景分類、圖像收集、圖像內(nèi)容提取,以及問(wèn)題/函數(shù)/參數(shù)生成。首先,我們根據(jù)不同的視覺(jué)應(yīng)用將場(chǎng)景分類。隨后,從互聯(lián)網(wǎng)上下載并精心選擇每個(gè)類別的高質(zhì)量代表性圖像。利用先進(jìn)的LVLM,分析每張圖像以提取關(guān)鍵視覺(jué)元素和文本信息。最后,基于圖像的內(nèi)容信息,使用先進(jìn)的LLM生成一系列需要特定函數(shù)回答的問(wèn)題,并指定這些函數(shù)調(diào)用所需的輸入?yún)?shù)。


研究者們?cè)O(shè)計(jì)了兩種指標(biāo)來(lái)評(píng)估函數(shù)選擇的準(zhǔn)確性和參數(shù)輸入的正確性:類型匹配(Type Match,TM)和精確匹配(Exact Match,EM)。


下表5所示,Qwen2-VL在Type Match(93.1對(duì)90.2)和Exact Match(53.2對(duì)50.0)上的表現(xiàn)優(yōu)于GPT-4o,這證明了Qwen2-VL在函數(shù)調(diào)用能力上的有效性,凸顯了其通過(guò)外部工具集成擴(kuò)展應(yīng)用的顯著潛力。評(píng)估結(jié)果表明,GPT-4o的表現(xiàn)不佳,主要由于兩個(gè)因素:在不確定性場(chǎng)景中,GPT-4o表現(xiàn)出保守的態(tài)度,避免使用外部工具。此外,Qwen2-VL在光學(xué)字符識(shí)別(OCR)能力方面也優(yōu)于GPT-4o,尤其是在中文字符的處理上。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

用戶界面操作/游戲/機(jī)器人/導(dǎo)航 為了評(píng)估Qwen2-VL處理復(fù)雜任務(wù)的能力,在多個(gè)視覺(jué)語(yǔ)言代理任務(wù)上進(jìn)行了評(píng)估,包括移動(dòng)操作、機(jī)器人控制、紙牌游戲和視覺(jué)語(yǔ)言導(dǎo)航等。由于這些任務(wù)需要多次行動(dòng)才能完成,通過(guò)Qwen2-VL支持32K上下文長(zhǎng)度來(lái)保留歷史(觀察、動(dòng)作),然后在每次行動(dòng)后附加新的觀察圖像,以實(shí)現(xiàn)對(duì)后續(xù)步驟的連續(xù)推理。


用戶界面操作使用AITZ任務(wù)評(píng)估Qwen2-VL,該任務(wù)構(gòu)建了一個(gè)基于AITW的核心干凈測(cè)試集。根據(jù)手機(jī)的常見(jiàn)操作模式,為Qwen2-VL定義了諸如點(diǎn)擊、輸入和滑動(dòng)等操作,以便其與屏幕圖標(biāo)進(jìn)行交互以完成任務(wù)。例如,當(dāng)Qwen2-VL被要求通過(guò)Google地圖尋找附近的披薩餐廳時(shí),它應(yīng)在搜索框中輸入“pizza”,滑動(dòng)選擇適當(dāng)?shù)牟蛷d,并點(diǎn)擊對(duì)應(yīng)的鏈接。根據(jù)AITZ設(shè)置,報(bào)告了操作類型匹配(點(diǎn)擊、輸入或滑動(dòng)的正確性)和精確匹配(點(diǎn)擊位置、輸入文本或滑動(dòng)方向的正確性)。借助于用戶界面的基礎(chǔ)能力,Qwen2-VL超越了GPT-4和之前的最新技術(shù)水平。


機(jī)器人控制 在AI2THOR的ALFRED任務(wù)中評(píng)估Qwen2-VL。該任務(wù)要求智能體執(zhí)行復(fù)雜的家庭任務(wù),例如烤面包和切蘋果以準(zhǔn)備餐點(diǎn)。為了在虛擬環(huán)境中工作,定義了高層次的動(dòng)作(GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice)作為動(dòng)作集。此外,智能體需要定位可操作的物體(例如,只有在識(shí)別到蘋果時(shí)才能拾取它)。為提高操作準(zhǔn)確性,整合了SAM。ALFRED任務(wù)報(bào)告任務(wù)成功率(SR)(例如,準(zhǔn)備晚餐)和子目標(biāo)完成率(GC)(例如,面包是否被烤熟或蘋果是否被切)。


紙牌游戲 利用來(lái)自RL4VLM的紙牌游戲環(huán)境來(lái)評(píng)估Qwen2-VL在一系列紙牌游戲中的表現(xiàn):Number Line、BlackJack、EZPoint和Point24。每個(gè)游戲提出了不同的挑戰(zhàn):

  1. 通過(guò)+1或-1操作達(dá)到目標(biāo)數(shù)字;
  2. 抽取或保留牌與莊家競(jìng)爭(zhēng);
  3. 應(yīng)用基本算術(shù)運(yùn)算達(dá)到總數(shù)12;
  4. 使用算術(shù)運(yùn)算達(dá)到總數(shù)24。

報(bào)告任務(wù)的成功率,這不僅評(píng)估了智能體的能力,還需要強(qiáng)大的OCR技能來(lái)識(shí)別這些牌并理解游戲進(jìn)程。Qwen2-VL在所有任務(wù)中表現(xiàn)優(yōu)越。


視覺(jué)語(yǔ)言導(dǎo)航 在視覺(jué)語(yǔ)言導(dǎo)航(VLN)任務(wù)中評(píng)估Qwen2-VL,使用R2R和REVERIE。在VLN中,模型必須根據(jù)指令和當(dāng)前觀察自主確定下一個(gè)位置。我們報(bào)告該任務(wù)中到達(dá)預(yù)定目的地的成功率(SR)。Qwen2-VL的表現(xiàn)與GPT-4o相當(dāng),但兩者都顯著落后于當(dāng)前專門的VLN模型。將這一差距歸因于模型從多個(gè)圖像生成的不完整和非結(jié)構(gòu)化的地圖信息。在三維環(huán)境中準(zhǔn)確建模地圖和位置仍然是多模態(tài)模型面臨的重大挑戰(zhàn)。

消融研究

本節(jié)展示了關(guān)于圖像動(dòng)態(tài)分辨率、M-RoPE和模型規(guī)模的消融研究。這些實(shí)驗(yàn)旨在提供這些關(guān)鍵組件對(duì)模型性能影響的深入見(jiàn)解。

動(dòng)態(tài)分辨率

如下表7所示,比較了動(dòng)態(tài)分辨率與固定分辨率的性能。在固定分辨率下,調(diào)整圖像大小,以確保輸入到模型的圖像tokens數(shù)量保持恒定,而不是調(diào)整到特定的高度和寬度,因?yàn)檫@會(huì)扭曲原始寬高比。在動(dòng)態(tài)分辨率中,我們僅設(shè)置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28,允許圖像tokens的數(shù)量主要依賴于圖像的原始分辨率。可以觀察到,調(diào)整圖像大小僅導(dǎo)致性能的小幅波動(dòng),表明模型對(duì)不同圖像大小的魯棒性。此外,動(dòng)態(tài)分辨率的方法效率更高。我們發(fā)現(xiàn)沒(méi)有單一固定分辨率在所有基準(zhǔn)測(cè)試中都能達(dá)到最佳性能。相比之下,動(dòng)態(tài)分辨率方法在平均消耗更少tokens的情況下,始終實(shí)現(xiàn)頂級(jí)性能。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

單純?cè)黾訄D像大小并不總是導(dǎo)致性能的提升。選擇適當(dāng)?shù)姆直媛蕦?duì)不同圖像更為重要。如下圖4所示,將小圖像放大到超過(guò)指定的min_pixels閾值。對(duì)放大圖像的評(píng)估顯示,在InfoVQA、HallusionBench和OCRBench等感知任務(wù)上性能增強(qiáng)。我們將這些增益歸因于增加的計(jì)算負(fù)載。然而,對(duì)于OCRBench,過(guò)高的min_pixels值導(dǎo)致嚴(yán)重的性能下降。這可能是因?yàn)镺CRBench包含許多極小的圖像,過(guò)度放大會(huì)使這些圖像偏離訓(xùn)練數(shù)據(jù)分布,變成超出分布的樣本。相反,增加min_pixels對(duì)MMMU基準(zhǔn)的影響微乎其微。我們假設(shè)MMMU的性能瓶頸與模型的推理能力關(guān)系更大,而非圖像分辨率。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

M-RoPE

本節(jié)展示了M-RoPE的有效性。首先,驗(yàn)證其在各種下游任務(wù)中的能力。采用Qwen2-1.5B和ViT-L作為基礎(chǔ),并報(bào)告預(yù)訓(xùn)練模型的結(jié)果。如下表8所示,與1D-RoPE相比,使用M-RoPE在下游任務(wù)中表現(xiàn)更佳,特別是在視頻基準(zhǔn)測(cè)試中。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

此外,在Video-MME中等長(zhǎng)度視頻上評(píng)估了M-RoPE的長(zhǎng)度外推能力。下圖5展示了Qwen2-VL-72B在不同推理長(zhǎng)度下的性能。利用M-RoPE,模型在各種推理長(zhǎng)度下表現(xiàn)穩(wěn)健。值得注意的是,盡管在訓(xùn)練期間每個(gè)視頻的最大tokens限制為16K,但模型在最大推理長(zhǎng)度達(dá)到80K tokens時(shí)仍表現(xiàn)出色。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

模型規(guī)模

評(píng)估了不同規(guī)模模型在多個(gè)能力維度上的表現(xiàn)。具體而言,將這些維度分類為復(fù)雜的大學(xué)水平問(wèn)題解決能力、數(shù)學(xué)能力、文檔和表格理解、一般場(chǎng)景問(wèn)答以及視頻理解。通過(guò)對(duì)與每個(gè)維度相關(guān)的不同基準(zhǔn)測(cè)試的得分進(jìn)行平均,我們?cè)u(píng)估了模型的整體能力。


具體來(lái)說(shuō), 使用MMMU基準(zhǔn)來(lái)表示大學(xué)水平的問(wèn)題解決能力,同時(shí),MathVista和MathVision的平均得分作為數(shù)學(xué)能力的指標(biāo)。對(duì)于一般場(chǎng)景問(wèn)答,計(jì)算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基準(zhǔn)的平均得分。

文檔和表格理解能力通過(guò)DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基準(zhǔn)的平均得分體現(xiàn)。最后,視頻理解能力通過(guò)MVBench、Perception-Test、EgoSchema和Video-MME的平均得分進(jìn)行測(cè)量。


如下圖6(a)所示,隨著模型規(guī)模的增加,性能呈現(xiàn)出一致的提升,特別是在數(shù)學(xué)能力方面,這與模型參數(shù)的數(shù)量呈正相關(guān)。另一方面,對(duì)于光學(xué)字符識(shí)別(OCR)相關(guān)任務(wù),即使是小規(guī)模模型的表現(xiàn)也相對(duì)強(qiáng)勁。

Qwen2-VL全面解讀!阿里開(kāi)源多模態(tài)視覺(jué)語(yǔ)言模型,多項(xiàng)超越GPT4o與Claude 3.5-Sonnet-AI.x社區(qū)

如上圖6(b)所示,我們可視化了Qwen2-VL-7B在預(yù)訓(xùn)練第二階段中模型性能與訓(xùn)練tokens數(shù)量之間的關(guān)系。隨著訓(xùn)練tokens數(shù)量的增加,模型性能有所提升;然而,在視覺(jué)問(wèn)答(VQA)任務(wù)上,性能卻表現(xiàn)出一定波動(dòng)。相比之下,對(duì)于AI2D和InfoVQA等任務(wù),這些任務(wù)涉及理解圖像中的文本和圖形信息,隨著訓(xùn)練數(shù)據(jù)的增加,模型性能穩(wěn)步提升。

結(jié)論

本文介紹了Qwen2-VL系列,這是多功能的大型視覺(jué)語(yǔ)言模型,包括三個(gè)開(kāi)放權(quán)重模型,參數(shù)總量分別為20億、80億和720億。Qwen2-VL在多種多模態(tài)場(chǎng)景中的表現(xiàn)與頂尖模型如GPT-4o和Claude3.5-Sonnet相匹配,超越了所有其他開(kāi)放權(quán)重的LVLM模型。Qwen2-VL系列引入了簡(jiǎn)單的動(dòng)態(tài)分辨率和Multimodal rotary position embedding (M-RoPE),有效融合跨模態(tài)信息,并能夠理解超過(guò)20分鐘長(zhǎng)度的視頻。憑借先進(jìn)的推理和決策能力,Qwen2-VL可以與移動(dòng)設(shè)備、機(jī)器人等設(shè)備集成。此外,Qwen2-VL現(xiàn)已支持理解圖像中的多語(yǔ)言文本,包括大多數(shù)歐洲語(yǔ)言、日語(yǔ)、韓語(yǔ)、阿拉伯語(yǔ)、越南語(yǔ)等。


目前已將Qwen2-VL模型權(quán)重開(kāi)放獲取,允許研究人員和開(kāi)發(fā)者在各種應(yīng)用和研究項(xiàng)目中充分利用其潛力。我們致力于推進(jìn)人工智能技術(shù),增強(qiáng)其對(duì)社會(huì)的積極影響。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/YLwhukJ-WbtY8TN6Wtl1oA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄