偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項(xiàng)圖文任務(wù)取得SOTA效果

發(fā)布于 2024-10-10 14:48
瀏覽
0收藏

這篇文章給大家介紹一下阿里發(fā)表的多模態(tài)大模型工作mPLUG-Owl,共2篇文章,建立在前序圖像表征對(duì)齊預(yù)訓(xùn)練大語(yǔ)言模型的思路,提出了不同的參數(shù)訓(xùn)練方式、多模態(tài)解耦映射等優(yōu)化方法,在多項(xiàng)任務(wù)取得了SOTA效果。

相關(guān)論文:

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

1.核心思路

多模態(tài)大模型希望構(gòu)建一個(gè)能同時(shí)處理文本、圖像等不同模態(tài)信息的數(shù)據(jù),解決復(fù)雜的圖文推理等多模態(tài)任務(wù)。在NLP中的大語(yǔ)言模型逐漸興起后,多模態(tài)模型的一個(gè)主要構(gòu)建思路為:以預(yù)訓(xùn)練的大語(yǔ)言模型LLM為基座,通過(guò)ViT等Vision Encoder將圖像映射成表征,和文本token embedding拼接到一起輸入大模型,結(jié)合預(yù)訓(xùn)練、Instruction Tuning等方法進(jìn)行訓(xùn)練。

這種多模態(tài)大模型的建模方法,經(jīng)過(guò)2年的研究,逐漸完善起來(lái)。阿里的mPLUG-Owl工作,就建立在這個(gè)思路基礎(chǔ)之上。

2.基礎(chǔ)模型結(jié)構(gòu)

第一版本的mPLUG-Owl核心結(jié)構(gòu)如下圖,主要包括一個(gè)預(yù)訓(xùn)練的LLM、一個(gè)圖像編碼器、一個(gè)視覺(jué)抽象器3個(gè)部分。

其中的核心是,如何將圖像信息進(jìn)行比較好的處理,和LLM的表征空間對(duì)齊。對(duì)于圖像信息,對(duì)圖像分patch后,采用預(yù)訓(xùn)練ViT進(jìn)行處理,生成每個(gè)patch的embedding。由于圖像中包含背景等噪聲信息,且維度較高,直接將原始圖像信息輸入語(yǔ)言模型難以學(xué)習(xí)且復(fù)雜度高。因此,文中引入了Visual Abstractor模塊,對(duì)基礎(chǔ)的圖像特征進(jìn)行抽象。

Visual Abstractor由cross attention構(gòu)成,使用一些可學(xué)習(xí)的token embedding和原始圖像的patch embedding進(jìn)行cross attention計(jì)算,token的數(shù)量遠(yuǎn)小于patch的數(shù)量,選擇性的將patch embedding的重要信息匯聚到可學(xué)習(xí)token上。

Visual Abstractor輸出多個(gè)視覺(jué)token embedding,和文本的token embedding拼接到一起,輸入到預(yù)訓(xùn)練的LLM中。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項(xiàng)圖文任務(wù)取得SOTA效果-AI.x社區(qū)

3.訓(xùn)練方式

視覺(jué)特征對(duì)齊語(yǔ)言模型的多模態(tài)大模型,一般采用兩個(gè)階段進(jìn)行訓(xùn)練。在第一個(gè)階段,使用基礎(chǔ)的圖文數(shù)據(jù)構(gòu)建生成式任務(wù),第二階段利用Instruction Tuning的方式讓模型進(jìn)一步提升復(fù)雜多模態(tài)理解能力

在之前的很多工作中,都采用這種兩階段的訓(xùn)練,但是更新的參數(shù)不同。比如MiniGPT4只更新圖像表征到LLM輸入的MLP映射網(wǎng)絡(luò),其他方法也對(duì)Visual Encoder進(jìn)行了凍結(jié)。為了提升多模態(tài)的聯(lián)合學(xué)習(xí)能力,本文在預(yù)訓(xùn)練階段,打開(kāi)Visual Encoder的參數(shù)更新,強(qiáng)化模型的多模態(tài)訓(xùn)練過(guò)程。在第二階段,凍結(jié)Visual Encoder參數(shù),finetune語(yǔ)言模型參數(shù)。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項(xiàng)圖文任務(wù)取得SOTA效果-AI.x社區(qū)

4.V2版本優(yōu)化

在近期阿里發(fā)布的mPLUG-Owl2工作中,主要對(duì)多模態(tài)的對(duì)齊進(jìn)行了優(yōu)化。

這里的核心優(yōu)化點(diǎn)是對(duì)語(yǔ)言模型的self-attention機(jī)制進(jìn)行了優(yōu)化,對(duì)于兩個(gè)模態(tài)的表征,分別使用獨(dú)立layer normalization縮放到相同scale后,使用兩組不同的MLP網(wǎng)絡(luò)分別進(jìn)行兩個(gè)模態(tài)表征到同空間的映射。

相比之前共享MLP的映射方法,這種獨(dú)立映射的方法保留了兩個(gè)模態(tài)個(gè)性化的信息,又能映射到相同空間。在attention后再分別接各自模態(tài)的layer normalization生成最終預(yù)測(cè)結(jié)果。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項(xiàng)圖文任務(wù)取得SOTA效果-AI.x社區(qū)

在知識(shí)星球中,也為大家整理了這種視覺(jué)對(duì)齊LLM的多模態(tài)大模型歷史工作,感興趣的同學(xué)可以加入學(xué)習(xí)。

5.實(shí)驗(yàn)效果

文中對(duì)比了mPLUG-Owl在各項(xiàng)任務(wù)上和MiniGPT、BLIP、LLaVA等多模態(tài)大模型的效果,均取得了SOTA效果,驗(yàn)證了mPLUG-Owl的多模態(tài)理解能力。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項(xiàng)圖文任務(wù)取得SOTA效果-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦