偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

達摩院貓頭鷹mPLUG-Owl亮相:模塊化多模態(tài)大模型,追趕GPT-4多模態(tài)能力

人工智能 新聞
阿里達摩院便推出 mPLUG-Owl ,一個基于模塊化實現(xiàn)的多模態(tài)大模型。

純文本大模型方興未艾,多模態(tài)領域也開始涌現(xiàn)出多模態(tài)大模型工作,地表最強的 GPT-4 具備讀圖的多模態(tài)能力,但是遲遲未向公眾開放體驗,于是乎研究社區(qū)開始在這個方向上發(fā)力研究并開源。MiniGPT-4 和 LLaVA 問世不久,阿里達摩院便推出 mPLUG-Owl ,一個基于模塊化實現(xiàn)的多模態(tài)大模型。

mPLUG-Owl 是阿?巴巴達摩院 mPLUG 系列的最新工作,延續(xù)了 mPLUG 系列的模塊化訓練思想,把 LLM 升級為一個多模態(tài)大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。

今天要介紹的是 mPLUG-Owl,該工作不僅通過大量 cases 展示出優(yōu)秀的多模態(tài)能力,還第一次針對視覺相關的指令理解提出一個全?的測試集 OwlEval,通過人工評測對比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系統(tǒng)類 MM-REACT 等工作,實驗結果表明 mPLUG-Owl 展示出更優(yōu)的多模態(tài)能力,尤其在多模態(tài)指令理解能力、多輪對話能力、知識推理能力等方?表現(xiàn)突出

圖片

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態(tài)能力展示

我們把 mPLUG-Owl 與現(xiàn)有工作進行對比來感受一下 mPLUG-Owl 的多模態(tài)效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了 cherry pick 問題。

下圖 6 展示了 mPLUG-Owl 很強的多輪對話能力。

圖片

從圖 7 中可以發(fā)現(xiàn),  mPLUG-Owl 具有很強的推理能力。

圖片

如圖 9 展示了一些笑話解釋例?。

圖片

在該工作中,除了評測對比外,該研究團隊還觀察到 mPLUG-Owl 初顯一些意想不到的能力,比如多圖關聯(lián)、多語?、文字識別和文檔理解等能力。

如圖 10 所示,雖然在訓練階段并沒有進行多圖關聯(lián)數(shù)據(jù)的訓練,mPLUG-Owl 展現(xiàn)出了一定的多圖關聯(lián)能力。

圖片

如圖 11 所示,盡管 mPLUG-Owl 在訓練階段僅使用了英文數(shù)據(jù),但其展現(xiàn)出了有趣的多語?能力。這可能是因為 mPLUG-Owl 中的語?模型使用了 LLaMA,從而出現(xiàn)了這一現(xiàn)象。

圖片

盡管 mPLUG-Owl 沒有在帶有標注的文檔數(shù)據(jù)上進行訓練,但其仍然展現(xiàn)出了一定的文字識別和文檔理解能力,測試結果如圖 12 所示。

圖片

方法介紹

該工作提出的 mPLUG-Owl,其整體架構如圖 2 所示。

圖片

模型結構:它由視覺基礎模塊

圖片

(開源的 ViT-L)、視覺抽象模塊

圖片

以及預訓練語?模型

圖片

( LLaMA-7B) 組成。視覺抽象模塊將較?的、細粒度的圖像特征概括為少量可學習的 Token,從而實現(xiàn)對視覺信息的?效建模。?成的視覺 Token 與文本查詢一起輸?到語?模型中,以?成相應的回復。

模型訓練:采用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語?模態(tài)間的對?。不同于先前的工作,  mPLUG-Owl 提出凍住視覺基礎模塊會限制模型關聯(lián)視覺知識和文本知識的能力。  因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數(shù),采用 LAION-400M,  COYO-700M,  CC 以及 MSCOCO 訓練視覺基礎模塊和視覺摘要模塊。

第?階段:延續(xù) mPLUG 和 mPLUG-2 中不同模態(tài)混合訓練對彼此有收益的發(fā)現(xiàn),Owl 在第?階段的指令微調(diào)訓練中也同時采用了純文本的指令數(shù)據(jù) (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模態(tài)的指令數(shù)據(jù) (150k from LLaVA)。作者通過詳細的消融實驗驗證了引?純文本指令微調(diào)在指令理解等方?帶來的收益。第?階段中視覺基礎模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住,參考 LoRA,只在 LLM 引?少量參數(shù)的 adapter 結構用于指令微調(diào)。

實驗結果

SOTA 對比

為了比較不同模型的多模態(tài)能力,該工作構建一個多模態(tài)指令評測集 OwlEval。由于?前并沒有合適的自動化指標,參考 Self-Intruct 對模型的回復進行人工評測,打分規(guī)則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復存在明顯錯誤";D="完全不相關或不正確的回復"。

對比結果如下圖 3 所示,實驗證明 Owl 在視覺相關的指令回復任務上優(yōu)于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

圖片

多維度能力對比

多模態(tài)指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細粒度地探究模型在不同能力上的?平,本文進一步定義了多模態(tài)場景中的 6 種主要的能力,并對 OwlEval 每個測試指令人工標注了相關的能力要求以及模型的回復中體現(xiàn)了哪些能力。

結果如下表格 6 所示,在該部分實驗,作者既進行了 Owl 的消融實驗,驗證了訓練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性,也和上一個實驗中表現(xiàn)最佳的 baseline— MiniGPT4 進行了對比,結果顯示 Owl 在各個能力方?都優(yōu)于 MiniGPT4。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-30 10:23:45

模型研究

2023-08-14 07:20:10

2024-08-19 13:35:09

2024-08-08 13:04:28

2025-01-08 08:21:16

2023-09-19 13:48:31

AI數(shù)據(jù)

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-12-23 23:35:13

語言視覺

2023-07-23 18:55:20

ChatGPTGPT-4

2023-03-21 15:23:52

模型測試

2025-05-21 08:47:00

2023-03-10 13:30:01

微軟人工智能

2023-04-28 15:27:06

微軟模型

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-05-15 12:14:02

ChatGPT語音模型

2023-07-05 09:57:11

2023-06-02 13:39:00

GPT-3開源GPU
點贊
收藏

51CTO技術棧公眾號