偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)Mamba+Transformer混合架構(gòu)多模態(tài)大模型來(lái)了,實(shí)現(xiàn)單卡千圖推理

人工智能 新聞
LongLLaVA(長(zhǎng)上下文大型語(yǔ)言和視覺助手)這一創(chuàng)新性混合架構(gòu)模型,在長(zhǎng)上下文多模態(tài)理解方面表現(xiàn)出色。

本文作者來(lái)自于香港中文大學(xué)深圳和深圳大數(shù)據(jù)研究院。其中第一作者為香港中文大學(xué)深圳博士生王熙棟和研究助理宋定杰,主要研究方向分別為醫(yī)療AGI和多模態(tài)學(xué)習(xí);博士生陳舒年研究方向?yàn)槎嗄B(tài)學(xué)習(xí),博士生張辰研究方向?yàn)楦咝дZ(yǔ)言模型。通訊作者為香港中文大學(xué)深圳數(shù)據(jù)科學(xué)學(xué)院王本友教授。

擴(kuò)展多模態(tài)大語(yǔ)言模型(MLLMs)的長(zhǎng)上下文能力對(duì)于視頻理解、高分辨率圖像理解以及多模態(tài)智能體至關(guān)重要。這涉及一系列系統(tǒng)性的優(yōu)化,包括模型架構(gòu)、數(shù)據(jù)構(gòu)建和訓(xùn)練策略,尤其要解決諸如隨著圖像增多性能下降以及高計(jì)算成本等挑戰(zhàn)。

該團(tuán)隊(duì)將模型架構(gòu)調(diào)整為 Mamba 和 Transformer 塊的混合體,在數(shù)據(jù)構(gòu)建中考慮多個(gè)圖像之間的時(shí)間和空間依賴性,并采用漸進(jìn)式訓(xùn)練策略。提出了首個(gè)混合架構(gòu)多模態(tài)大語(yǔ)言模型 LongLLaVA,在效率和性能之間實(shí)現(xiàn)了更好的平衡。

圖片

LongLLaVA 不僅在各種基準(zhǔn)測(cè)試中取得了有競(jìng)爭(zhēng)力的結(jié)果,還保持了高吞吐量和低顯存消耗,其可以在單個(gè) A100 80GB GPU 上處理近千張圖像,展現(xiàn)出了廣闊的應(yīng)用前景。

圖片

  • 論文地址:https://arxiv.org/abs/2409.02889
  • 項(xiàng)目地址:https://github.com/FreedomIntelligence/LongLLaVA

1. 簡(jiǎn)介

多模態(tài)大語(yǔ)言模型(MLLMs)的快速進(jìn)步展示了它們?cè)诟鱾€(gè)應(yīng)用領(lǐng)域中的顯著能力。然而,多圖像理解場(chǎng)景仍然是一個(gè)重要但尚未充分探索的方面。特別是,將 MLLMs 的應(yīng)用場(chǎng)景擴(kuò)展到理解更長(zhǎng)的視頻、更高分辨率的圖像以及基于更多歷史信息的決策,對(duì)于提升用戶體驗(yàn)和進(jìn)一步拓展 MLLMs 的應(yīng)用范圍至關(guān)重要。

然而,將 MLLM 的上下文長(zhǎng)度擴(kuò)展以提高其可用性,面臨著處理更多圖像時(shí)性能下降和計(jì)算成本高昂的挑戰(zhàn)。一些研究專注于構(gòu)造包含多個(gè)圖像的長(zhǎng)上下文訓(xùn)練數(shù)據(jù),以增強(qiáng)性能。其他研究探索了創(chuàng)新性的訓(xùn)練策略,以減輕性能下降。關(guān)于高計(jì)算成本的問(wèn)題,LongVILA 通過(guò)降低通信成本在提高多節(jié)點(diǎn)效率方面取得了進(jìn)展。然而,在管理更長(zhǎng)的上下文時(shí),加速計(jì)算這個(gè)問(wèn)題本身仍有待解決。

為了解決上述挑戰(zhàn),該研究提出了 LongLLaVA 系統(tǒng)解決方案,采用混合架構(gòu)進(jìn)行加速。該解決方案在三個(gè)維度上進(jìn)行了全面優(yōu)化:多模態(tài)架構(gòu)、數(shù)據(jù)構(gòu)建和訓(xùn)練策略。

  • 對(duì)于多模態(tài)架構(gòu),采用結(jié)合 Transformer 和 Mamba 的混合架構(gòu),并提出了一種高效圖像表示方法,該方法對(duì)圖像 Token 應(yīng)用 2D 池化以降低計(jì)算成本同時(shí)保持性能。
  • 對(duì)于數(shù)據(jù)構(gòu)建,為不同的任務(wù)設(shè)計(jì)了獨(dú)特的格式,使模型能夠區(qū)分圖像之間的時(shí)間和空間的依賴關(guān)系。
  • 訓(xùn)練策略方面,采用了一種三階段的多模態(tài)自適應(yīng)方法 —— 單圖像對(duì)齊、單圖像指令調(diào)整和多圖像指令調(diào)整 —— 以逐步提升模型處理多模態(tài)長(zhǎng)上下文的能力。

實(shí)驗(yàn)結(jié)果表明,LongLLaVA 在高效理解多模態(tài)長(zhǎng)上下文方面表現(xiàn)卓越。它在VNBench的檢索、計(jì)數(shù)和排序任務(wù)中領(lǐng)先,并在單張 80GB GPU 上對(duì) 1000 張圖像進(jìn)行大海撈針評(píng)估時(shí)達(dá)到了近 100% 的準(zhǔn)確率。從保證研究可復(fù)現(xiàn)和促進(jìn)社區(qū)發(fā)展出發(fā),團(tuán)隊(duì)將開源所有與 LongLLaVA 相關(guān)的模型、代碼和數(shù)據(jù)集。

2. LongLLaVA: 將 LLaVA 擴(kuò)展到更長(zhǎng)的上下文

為了解決上述挑戰(zhàn)并提高模型對(duì)長(zhǎng)文本和多圖像場(chǎng)景的適應(yīng)性,團(tuán)隊(duì)從三個(gè)角度進(jìn)行了改進(jìn):多模態(tài)模型架構(gòu),數(shù)據(jù)構(gòu)造和訓(xùn)練策略。

圖片

2.1 多模態(tài)架構(gòu)

LongLLaVA 基于 LLaVA 的三個(gè)核心組件:視覺編碼器、 映射器 和大語(yǔ)言模型。

視覺信息處理。團(tuán)隊(duì)使用 CLIP 作為視覺編碼器來(lái)編碼視覺信息,并采用兩層 MLP 作為映射器,將視覺特征映射到適合 LLM 的文本嵌入空間。在映射之前,應(yīng)用2D池化,有效地節(jié)省了訓(xùn)練和推理時(shí)間,同時(shí)保持了圖像塊之間的基本空間關(guān)系。

混合 LLM 架構(gòu)。LongLLaVA 采用了一種混合 LLM 架構(gòu),將 Transformer 和 Mamba 層以 1:7 的比例集成,如圖 2 所示。在每一層中還采用了混合專家(MoE)方法,使用 16 個(gè)專家,并為每個(gè) Token 選擇前兩個(gè)專家。在層之間使用 RMSNorm 來(lái)增強(qiáng)歸一化,但省略了位置嵌入。該模型集成了分組 Query 注意力(GQA)和 SwiGLU 激活函數(shù),與其他大型語(yǔ)言模型相似。模型的總體參數(shù)數(shù)量為 530 億,推理過(guò)程中的激活參數(shù)總數(shù)為 130 億。

圖片

2.2 數(shù)據(jù)處理協(xié)議

為確保模型在多圖像場(chǎng)景中有效地區(qū)分圖像之間的時(shí)序和空間依賴關(guān)系,并在各種任務(wù)中表現(xiàn)良好,團(tuán)隊(duì)細(xì)致地區(qū)分了不同場(chǎng)景下的特殊字符。如圖 3 所示,這些特殊字符全面處理了不同情境下圖像之間的各種關(guān)系,從而增強(qiáng)了模型對(duì)不同任務(wù)的適應(yīng)性。

  • 常規(guī)單圖和多圖輸入:使用 <img></img> 幫助模型區(qū)分圖像和文本 Token 。
  • 視頻:在不同的幀之間添加 <t>,以表示它們之間的時(shí)間依賴性。
  • 高分辨率圖像:使用換行符 "\n" 來(lái)區(qū)分主圖像與其子圖像。 對(duì)于子圖像的排列,通過(guò)從左上角遍歷到右下角的方式進(jìn)行分割,在分割行之間添加"\n"以保留子圖像的相對(duì)空間位置。

2.3 訓(xùn)練策略

團(tuán)隊(duì)逐步實(shí)現(xiàn)單模態(tài)和多模態(tài)的適配,將預(yù)訓(xùn)練語(yǔ)言模型轉(zhuǎn)變?yōu)槎嗄B(tài)長(zhǎng)上下文模型。

純文本指令微調(diào)。首先提升預(yù)訓(xùn)練語(yǔ)言模型在純文本場(chǎng)景中遵循不同長(zhǎng)度指令的能力。這是通過(guò)使用包含來(lái)自 Evol-instruct-GPT4、WildChat 和 LongAlign 的 278k 條純文本條目的數(shù)據(jù)集實(shí)現(xiàn)的。

圖片

在多模態(tài)自適應(yīng)方面,在 LLaVA 中 “單圖像對(duì)齊” 和 “單圖像指令微調(diào)” 階段之后,團(tuán)隊(duì)引入了 “多圖像指令微調(diào)” 階段,逐步增強(qiáng)模型的多模態(tài)長(zhǎng)上下文能力。采用漸進(jìn)式訓(xùn)練不僅是為了更好地控制變量,也是為了增加模型的可重用性。具體的數(shù)據(jù)集使用情況如圖 4 所示。

第一階段:單圖像對(duì)齊。這一階段是為了將視覺模態(tài)特征與文本模態(tài)進(jìn)行對(duì)齊。團(tuán)隊(duì)使用了 ALLaVA-Caption 和 ShareGPT4V 等數(shù)據(jù)集,這些數(shù)據(jù)集包含大約 600K 個(gè)高質(zhì)量的圖像 - 字幕對(duì)。在此階段,僅訓(xùn)練映射器,同時(shí)凍結(jié)視覺編碼器和 LLM 的參數(shù)。

第二階段:單圖像指令微調(diào)。這個(gè)階段的目的是賦予模型多模態(tài)指令遵循能力。團(tuán)隊(duì)使用了 LLaVA-1.5 和 Manti-Single 等數(shù)據(jù)集,總共有約 932K 個(gè)高質(zhì)量的問(wèn)答對(duì)。在此過(guò)程中,只凍結(jié)了視覺編碼器,而映射器和 LLM 部分進(jìn)行訓(xùn)練。

第三階段:多圖像指令微調(diào)。在這一階段,模型被訓(xùn)練以在多模態(tài)長(zhǎng)文本場(chǎng)景中遵循指令。團(tuán)隊(duì)分別從 Mantis、VideoChat2 和 ShareGPT4Video 中采樣 200K、200K 和 50K 數(shù)據(jù)項(xiàng)。為了保留模型的單圖像理解和純文本對(duì)話能力,團(tuán)隊(duì)將來(lái)自單圖像指令微調(diào)和純文本指令微調(diào)階段的額外 200K 和 50K 數(shù)據(jù)項(xiàng)作為 Replay 部分。此外,為了提高模型解釋復(fù)雜單圖像(分割成多個(gè)子圖像)的能力,團(tuán)隊(duì)從單圖像指令微調(diào)階段采樣 50K 條數(shù)據(jù),進(jìn)行填充和分割,將原始圖像分割成尺寸為 336x336 的子圖像作為 SubImage 部分。

3. 評(píng)估結(jié)果

3.1 主要結(jié)果

如表 2 所示,LongLLaVA 在 MileBench 上表現(xiàn)出色,甚至超過(guò)了閉源模型Claude-3-Opus,尤其在檢索任務(wù)方面表現(xiàn)出色。突顯其在處理多圖像任務(wù)方面的強(qiáng)大能力。

圖片

LongLLaVA 在涉及中等至長(zhǎng)視頻的任務(wù)中表現(xiàn)出色,超越了傳統(tǒng)的視頻模型,如 Video-LLaMA2 和 VideoChat2。在取得了這些令人印象深刻結(jié)果的同時(shí),LongLLaVA 的 FLOPs 比其他模型少一個(gè)數(shù)量級(jí)。

3.2 長(zhǎng)上下文大型語(yǔ)言模型的診斷評(píng)估

考慮到以前的評(píng)估不能充分捕捉 MLLM 在長(zhǎng)語(yǔ)境下的能力,團(tuán)隊(duì)采用了一個(gè)新的診斷評(píng)估集 VNBench,以進(jìn)一步分析模型在長(zhǎng)語(yǔ)境下的原子能力。VNBench 是一個(gè)基于合成視頻生成的長(zhǎng)上下文診斷任務(wù)框架,包括檢索、排序和計(jì)數(shù)等任務(wù)。

圖片

結(jié)果顯示如表 3 所示,LongLLaVA 在跨語(yǔ)境檢索、排序和技術(shù)能力等任務(wù)中的表現(xiàn)與領(lǐng)先的閉源模型相當(dāng),甚至在某些方面超過(guò)了 GPT-4V。在開源模型中,LongLLaVA 也展現(xiàn)出其卓越的性能。展示了 LongLLaVA 在管理和理解長(zhǎng)上下文方面的先進(jìn)能力。

3.3 消融實(shí)驗(yàn)

圖片

表 4 中顯示,使用具有相同數(shù)據(jù)的混合 LLM 架構(gòu),在評(píng)估集中都觀察到了顯著的改進(jìn),證明了其在多模態(tài)場(chǎng)景中的潛力。對(duì)于 Token 壓縮,選擇了 2D 池化,這顯著減少了計(jì)算負(fù)載,同時(shí)將性能下降控制在可接受范圍內(nèi)。與 1D 池化相比,2D 池化方法得到更好的結(jié)果。在數(shù)據(jù)構(gòu)建方面,在訓(xùn)練團(tuán)隊(duì)的單圖像數(shù)據(jù)后,模型在 SEEDBench 上的準(zhǔn)確率提高了 1.5%,在 MileBench 上提高了 12.3%。隨后的多圖像訓(xùn)練使得 MileBench 上的準(zhǔn)確率進(jìn)一步提高了 7.4%,驗(yàn)證了數(shù)據(jù)集構(gòu)建的有效性。

4. 更多分析

為了解 LongLLaVA 的內(nèi)部工作原理和跨模態(tài)長(zhǎng)文本處理能力,該團(tuán)隊(duì)進(jìn)行了進(jìn)一步分析。

4.1 關(guān)于混合架構(gòu)的動(dòng)機(jī)

圖片

團(tuán)隊(duì)探討了不同架構(gòu)在 ICL 能力和推理效率方面的優(yōu)缺點(diǎn),強(qiáng)調(diào)了混合架構(gòu)的平衡優(yōu)勢(shì)。

ICL 分析。團(tuán)隊(duì)評(píng)估了在 VL-ICL 基準(zhǔn)測(cè)試中對(duì)多模態(tài)情境學(xué)習(xí)中匹配圖像任務(wù)的性能。該任務(wù)的輸入包含一個(gè)圖像對(duì),輸出表示是否存在特定的關(guān)系。MLLM 需要從示例中學(xué)習(xí)關(guān)系。如表 5 所示,混合架構(gòu)和 Transformer 架構(gòu)隨著示例數(shù)量的增加表現(xiàn)出快速的性能提升,而 Mamba 架構(gòu)的提升較少,證實(shí)了其在情境學(xué)習(xí)方面的不足。

效率分析。團(tuán)隊(duì)關(guān)注三個(gè)方面:預(yù)填充時(shí)間(首次推理延遲)、吞吐量(每秒生成的下一個(gè) Token 數(shù))和內(nèi)存使用。團(tuán)隊(duì)將輸入文本長(zhǎng)度控制在 100K,并測(cè)量生成 1 個(gè) Token 和 1000 個(gè) Token 的輸出所需的時(shí)間和最大內(nèi)存使用。吞吐量計(jì)算為圖片。為了更好地模擬實(shí)際應(yīng)用場(chǎng)景,使用 vLLM 框架和 Int8 量化評(píng)估了 Transformer 和混合架構(gòu)。如表 5 所示,Mamba 架構(gòu)具有最快的預(yù)填充時(shí)間,最高的吞吐量。與具有相似推理參數(shù)的 Transformer 架構(gòu)相比,混合架構(gòu)實(shí)現(xiàn)了 2.5 倍的吞吐量,75% 的預(yù)填充時(shí)間,并減少了內(nèi)存使用。

4.2 圖像數(shù)量的縮放定律

隨著可處理圖像數(shù)量的增加,模型能夠支持更多圖像塊以進(jìn)行高分辨率圖像理解,以及使用更多視頻幀進(jìn)行視頻理解。為了探索增加子圖像和視頻幀數(shù)量的影響,團(tuán)隊(duì)分別在 V* Bench 和 Video-MME 基準(zhǔn)測(cè)試上評(píng)估了 LongLLaVA。

增加子圖像數(shù)量。V* Bench 評(píng)估了一個(gè)模型在大型圖像中定位小目標(biāo)的能力。如圖 5 所示,最初增加子圖像的數(shù)量顯著提高了模型性能,表明模型對(duì)圖像細(xì)節(jié)的理解更好。然而,團(tuán)隊(duì)也發(fā)現(xiàn),進(jìn)一步增加子圖像的數(shù)量略微降低了性能,這表明過(guò)多的子圖像可能會(huì)干擾在此任務(wù)上的性能。

圖片

增加幀數(shù)規(guī)模。視頻多模態(tài)編碼器是一個(gè)測(cè)試模型從視頻中提取信息能力的基準(zhǔn)。從圖 6 中可以看到,隨著采樣幀數(shù)的增加,模型在基準(zhǔn)測(cè)試中的性能顯著提高,當(dāng)提取 256 幀時(shí)達(dá)到峰值。這表明模型能夠有效地理解和利用額外采樣幀中包含的信息,以提供更好的響應(yīng)。

圖片

5. 進(jìn)一步將圖像數(shù)量擴(kuò)大到 1000

利用 LongVA 中提出的 V-NIAH 評(píng)估框架,團(tuán)隊(duì)進(jìn)行了 “大海撈針” 測(cè)試來(lái)評(píng)估模型性能??紤]到模型的訓(xùn)練序列長(zhǎng)度限制為 40,960 個(gè) token,采用 token 池化技術(shù)將原始 token 數(shù)量從 144 個(gè)減少到 36 個(gè)。這種調(diào)整能夠高效地從大量數(shù)據(jù)集中檢索相關(guān)信息。如圖 7 所示,模型在 1000 張圖像集上實(shí)現(xiàn)了近 100% 的檢索準(zhǔn)確率,而無(wú)需額外的訓(xùn)練。

圖片

然而,當(dāng)增加測(cè)試圖像數(shù)量超過(guò) 1,000 張時(shí),團(tuán)隊(duì)觀察到檢索準(zhǔn)確率下降。這種性能下降可能是因?yàn)槌隽四P偷挠?xùn)練序列長(zhǎng)度,這可能會(huì)影響其保持更多圖像準(zhǔn)確性的能力。在未來(lái)的工作中團(tuán)隊(duì)將延長(zhǎng)訓(xùn)練序列長(zhǎng)度至 140,000 Token,即 LongLLaVA 進(jìn)行單卡推理的極限長(zhǎng)度,以進(jìn)一步釋放模型潛力。

6. 結(jié)論

LongLLaVA(長(zhǎng)上下文大型語(yǔ)言和視覺助手)這一創(chuàng)新性混合架構(gòu)模型,在長(zhǎng)上下文多模態(tài)理解方面表現(xiàn)出色。該模型集成了 Mamba 和 Transformer 模塊,利用多個(gè)圖像之間的時(shí)空依賴性構(gòu)建數(shù)據(jù),并采用漸進(jìn)式訓(xùn)練策略。

LongLLaVA 在各種基準(zhǔn)測(cè)試中表現(xiàn)出競(jìng)爭(zhēng)性的性能,同時(shí)確保了效率,為長(zhǎng)上下文多模態(tài)大型語(yǔ)言模型(MLLMs)設(shè)定了新的標(biāo)準(zhǔn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-10 08:47:00

模型AI訓(xùn)練

2025-03-11 09:42:00

2024-08-13 12:49:29

2023-03-13 15:56:00

模型框架

2025-01-08 08:21:16

2023-06-06 14:09:32

模型開源

2024-03-25 12:40:19

訓(xùn)練模型

2025-05-14 08:51:00

2025-05-21 08:47:00

2024-05-13 10:38:08

2023-09-29 22:31:25

高斯混合模型機(jī)器學(xué)習(xí)

2025-03-24 13:04:12

2022-01-21 15:33:56

架構(gòu)模型AI

2025-02-28 10:15:00

3D模型編碼器

2023-12-28 17:31:44

PixelLM性能模型

2024-09-10 13:30:00

2025-06-10 03:30:00

2024-08-13 13:30:00

2025-06-27 08:40:00

模型推理AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)