偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Encoder-free無(wú)編碼器多模態(tài)大模型EVEv2模型架構(gòu)、訓(xùn)練方法淺嘗

人工智能
基于視覺編碼器的MLLM的基本構(gòu)成:MLLM通常由預(yù)訓(xùn)練的模態(tài)編碼器、預(yù)訓(xùn)練的LLM和一個(gè)連接它們的模態(tài)接口三個(gè)模塊組成。模態(tài)編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。

基于視覺編碼器的MLLM的基本構(gòu)成:MLLM通常由預(yù)訓(xùn)練的模態(tài)編碼器、預(yù)訓(xùn)練的LLM和一個(gè)連接它們的模態(tài)接口三個(gè)模塊組成。模態(tài)編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。預(yù)訓(xùn)練的LLM則負(fù)責(zé)理解和推理處理過的信號(hào)。模態(tài)接口用于對(duì)齊不同的模態(tài),實(shí)現(xiàn)異構(gòu)模態(tài)表征空間的語(yǔ)義對(duì)齊。下面這張圖概括的比較好。

基于視覺編碼器的MLLM的基本構(gòu)成基于視覺編碼器的MLLM的基本構(gòu)成

上述工作都是基于視覺編碼器的多模態(tài)大模型,下面來看一個(gè)Encoder-free VLMs(無(wú)視覺編碼器的多模態(tài)大模型)的思路,供參考。

模型架構(gòu)

圖片圖片

視覺和文本編碼

多模態(tài)編碼:為了在視覺和文本之間建立有效的交互,提出了一個(gè)分而治之的設(shè)計(jì),通過引入模態(tài)感知組件來顯式解耦關(guān)鍵模塊。包括獨(dú)立的注意力矩陣(查詢、鍵和值)、歸一化層和前饋模塊,每個(gè)都有不同的參數(shù),以適應(yīng)不同模態(tài)的需求。

分而治設(shè)計(jì)

通過分而治之的架構(gòu)設(shè)計(jì),EVEv2.0能夠有效地減少模態(tài)間的干擾,提高模型的訓(xùn)練效率和性能。

使用多頭自注意力(Multi-Head Self-Attention, ATTN)來跨所有模態(tài)進(jìn)行建模,以在統(tǒng)一特征空間中模擬跨模態(tài)關(guān)系。公式如下:

圖片

通過完全解耦架構(gòu),最小化表示空間中的干擾。每個(gè)Transformer塊的總體操作定義如下:

圖片

這種設(shè)計(jì)允許在保持預(yù)訓(xùn)練知識(shí)的同時(shí),獨(dú)立地進(jìn)行單模態(tài)編碼和跨模態(tài)對(duì)應(yīng),從而實(shí)現(xiàn)靈活的建模模式,以理解和推理多模態(tài)信息。

視覺特征與語(yǔ)言輸入的融合方式

從代碼上看,融合時(shí),會(huì)遍歷輸入序列中的每個(gè)樣本,根據(jù) IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語(yǔ)言輸入的嵌入和圖像特征按順序拼接在一起,形成新的輸入嵌入 new_input_embeds,同時(shí)更新標(biāo)簽 new_labels 和視覺標(biāo)記掩碼 visual_token_mask。

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.pyhttps://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

訓(xùn)練方式

訓(xùn)練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓(xùn)練圖像塊嵌入層,以在不同模態(tài)間建立初始對(duì)齊。之后,我們僅更新大型語(yǔ)言模型(LLM)內(nèi)的視覺層,逐步增強(qiáng)視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行訓(xùn)練,以加強(qiáng)跨模態(tài)對(duì)應(yīng)和復(fù)雜理解能力。訓(xùn)練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓(xùn)練圖像塊嵌入層,以在不同模態(tài)間建立初始對(duì)齊。之后,我們僅更新大型語(yǔ)言模型(LLM)內(nèi)的視覺層,逐步增強(qiáng)視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行訓(xùn)練,以加強(qiáng)跨模態(tài)對(duì)應(yīng)和復(fù)雜理解能力。

訓(xùn)練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓(xùn)練圖像塊嵌入層,以在不同模態(tài)間建立初始對(duì)齊。之后,我們僅更新大型語(yǔ)言模型(LLM)內(nèi)的視覺層,逐步增強(qiáng)視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行訓(xùn)練,以加強(qiáng)跨模態(tài)對(duì)應(yīng)和復(fù)雜理解能力。

訓(xùn)練過程分為四個(gè)連續(xù)階段。訓(xùn)練數(shù)據(jù)包括公開可用的圖像數(shù)據(jù)集,以及表 1 中的各種問答(QA)數(shù)據(jù)集和多模態(tài)對(duì)話數(shù)據(jù)。

圖片圖片

第2.2階段和第3階段的訓(xùn)練數(shù)據(jù)集詳細(xì)信息,用于微調(diào)E
VEv2.0,F(xiàn)L表示過濾后的訓(xùn)練數(shù)據(jù)集第2.2階段和第3階段的訓(xùn)練數(shù)據(jù)集詳細(xì)信息,用于微調(diào)E VEv2.0,F(xiàn)L表示過濾后的訓(xùn)練數(shù)據(jù)集

階段1:DenseFusion++

DenseFusion++:通過大規(guī)模的合成數(shù)據(jù)來增強(qiáng)模型的視覺感知能力。使用LLaVA-1.6(7B)為基礎(chǔ),結(jié)合多個(gè)視覺專家(如標(biāo)簽、檢測(cè)、OCR等)來學(xué)習(xí)GPT-4V的融合策略。通過這種方式,可以在不依賴高質(zhì)量標(biāo)注的情況下,擴(kuò)展合成數(shù)據(jù)的規(guī)模,從而提高訓(xùn)練效率。

階段2:LLM引導(dǎo)的對(duì)齊

凍結(jié)大型語(yǔ)言模型(LLM)的權(quán)重,僅訓(xùn)練patch嵌入層。使用公開的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行訓(xùn)練,以防止模型崩潰并加速后續(xù)階段的收斂。通過這種方式,確保模型在初始階段能夠快速對(duì)齊視覺和語(yǔ)言信息。

階段3:視覺感知學(xué)習(xí)和視覺-文本完全對(duì)齊

  • 視覺感知學(xué)習(xí)(Vision Perception Learning):加載LLM的權(quán)重并初始化LLM內(nèi)部的視覺層。僅訓(xùn)練patch嵌入層和視覺層,而凍結(jié)Qwen2.5模型,以便在大規(guī)模合成數(shù)據(jù)上進(jìn)行視覺表示的學(xué)習(xí)。通過逐步增加數(shù)據(jù)量和圖像分辨率,促進(jìn)視覺感知能力的提升。
  • 視覺-文本完全對(duì)齊(Vision-Text Fully-aligning):更新整個(gè)模型架構(gòu)以進(jìn)一步改善圖像-文本的關(guān)聯(lián)。使用多樣化的指令數(shù)據(jù)集進(jìn)行訓(xùn)練,以增強(qiáng)模型的視覺感知能力和視覺-語(yǔ)言對(duì)齊。通過這種方式,確保模型在處理復(fù)雜的多模態(tài)任務(wù)時(shí)能夠表現(xiàn)出色。

階段4:監(jiān)督微調(diào)

進(jìn)一步優(yōu)化模型以理解復(fù)雜的指令和對(duì)話模式。使用高質(zhì)量的指令數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高模型在實(shí)際應(yīng)用中的表現(xiàn)。通過這種方式,確保模型能夠處理各種真實(shí)世界的應(yīng)用場(chǎng)景。

實(shí)驗(yàn)效果

圖片圖片

參考文獻(xiàn):EVEv2: Improved Baselines for Encoder-Free Vision-Language Models,https://arxiv.org/pdf/2502.06788

責(zé)任編輯:武曉燕 來源: 大模型自然語(yǔ)言處理
相關(guān)推薦

2025-02-28 10:15:00

3D模型編碼器

2025-02-27 13:00:00

2024-07-16 13:18:36

2025-03-10 02:00:00

2025-04-10 06:30:00

2025-04-08 04:20:00

2023-09-02 12:49:01

2024-12-12 00:25:09

2025-01-08 08:21:16

2025-04-07 00:00:00

多模態(tài)大模型

2025-04-08 03:00:00

2025-04-11 02:00:00

模態(tài)編碼器ALIGN視覺語(yǔ)言模型

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP

2022-07-28 12:18:40

視覺語(yǔ)言模型

2023-11-23 18:19:15

騰訊騰訊混元Angel

2024-12-30 00:01:00

多模態(tài)大模型Python

2025-04-07 03:30:00

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2024-06-03 06:49:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)