偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺? 精華

發(fā)布于 2025-2-17 09:22
瀏覽
0收藏

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

本文介紹了多模態(tài)大型語言模型(MLLM)的定義、使用挑戰(zhàn)性提示的應(yīng)用場景,以及正在重塑計算機(jī)視覺的頂級模型。

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

目錄

  1. 什么是多模態(tài)大語言模型(MLLM)?
  2. MLLM 在計算機(jī)視覺中的應(yīng)用與案例
  3. 領(lǐng)先的多模態(tài)大型語言模型
  4. 未來展望

1. 什么是多模態(tài)大型語言模型(MLLM)?

簡單來說,多模態(tài)大型語言模型(MLLM)是結(jié)合了大型語言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同時具備接收、理解并輸出多種模態(tài)信息的能力。

示例:圖 1 展示了一個醫(yī)療領(lǐng)域的多模態(tài) AI 系統(tǒng) [4]。它接收兩個輸入:

  1. 一張醫(yī)學(xué)影像
  2. 一個文本查詢,如:“這張影像中是否存在胸腔積液?”該系統(tǒng)輸出一個關(guān)于該查詢的預(yù)測答案。


多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)


多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)



在本文中,可能會簡化“多模態(tài)大型語言模型”這一術(shù)語,直接稱其為“多模態(tài)模型”。

1.1 人工智能中的多模態(tài)崛起

近年來,人工智能經(jīng)歷了重大變革,其中Transformer [5] 體系架構(gòu)的興起極大推動了語言模型的發(fā)展 [6]。這一架構(gòu)由 Google 于 2017 年提出,并對計算機(jī)視覺領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。


早期的示例包括視覺 Transformer(ViT) [7],它將圖像分割為多個補(bǔ)丁,并將其作為獨(dú)立的視覺 token 進(jìn)行輸入處理。


隨著大型語言模型(LLM)的崛起,一種新的生成式模型,即多模態(tài)大型語言模型(MLLM),自然地誕生了。


如前面時間線圖所示,2023 年,大多數(shù)科技巨頭都推出了至少一種 MLLM。到了 2024 年,OpenAI 的 GPT-4o 在 5 月發(fā)布時成為行業(yè)熱點(diǎn)。

1.2 MLLMs vs VLMs vs 基礎(chǔ)模型

一些人認(rèn)為 MLLMs 其實(shí)就是基礎(chǔ)模型(Foundation Models)。例如,Google 的 Vertex AI 將 Claude 3、PaliGemma 和 Gemini 1.5 等多模態(tài)大型語言模型歸類為基礎(chǔ)模型。??


另一方面,視覺語言模型(VLMs)[8] 是多模態(tài)模型的一個子類別,它們集成了文本和圖像輸入,并生成文本輸出。


MLLMs 和 VLMs 的主要區(qū)別在于:

  1. MLLMs 能處理更多模態(tài),而不僅僅是文本和圖像(如 VLMs)。
  2. VLMs 的推理能力較弱,而 MLLMs 具有更強(qiáng)的邏輯推理能力。

1.3 體系架構(gòu)

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

如圖 3 所示,MLLM 的架構(gòu)主要分為三個部分:

  1. 模態(tài)編碼器(Modality Encoder):該組件將視覺、音頻等原始數(shù)據(jù)轉(zhuǎn)換為緊湊的表示形式。通常使用預(yù)訓(xùn)練編碼器(如 CLIP)進(jìn)行遷移學(xué)習(xí),以適配不同的模態(tài)輸入。
  2. LLM 主干(LLM Backbone):語言模型負(fù)責(zé)生成文本輸出,作為 MLLM 的“核心大腦”。編碼器接收圖像、音頻或視頻輸入并生成特征,由連接器(模態(tài)接口)處理后輸入 LLM。
  3. 模態(tài)接口(Modality Interface):連接編碼器和 LLM,確保 LLM 能夠理解不同模態(tài)的信息,并進(jìn)行合理的推理和輸出。

2. 多模態(tài)模型在計算機(jī)視覺中的應(yīng)用

為了驗(yàn)證這些模型的能力,使用了 GPU 對三個頂級 MLLMs 進(jìn)行測試,并使用了具有挑戰(zhàn)性的查詢(不再是貓??和狗??的簡單示例)。


測試的 MLLMs:

  • GPT-4o (OpenAI)
  • LLaVA 7b (開源,基于 LLaMA)
  • Apple Ferret 7b (Apple 開源)

2.1 目標(biāo)遮擋情況下的物體計數(shù)

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

任務(wù): 計算圖像中出現(xiàn)的安全帽數(shù)量,并提供其位置(見圖 4)。

  • GPT-4o提供了詳盡的場景描述,但給出的坐標(biāo)有誤。
  • LLaVA僅檢測到 3 個安全帽,并且沒有正確識別遮擋部分的安全帽。
  • Apple Ferret成功檢測到 4 個安全帽,包括左側(cè)被遮擋的那個!??

2.2 自動駕駛:風(fēng)險評估與規(guī)劃

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

任務(wù): 從自動駕駛汽車的角度評估風(fēng)險,并檢測車輛和行人(見圖 5)。

  • LLaVA未能識別前方的大卡車。
  • GPT-4o在文本分析方面表現(xiàn)優(yōu)異,但檢測出的目標(biāo)框位置錯誤。
  • Apple Ferret是唯一一個準(zhǔn)確檢測出大部分物體并給出正確坐標(biāo)的模型 ?。

2.3 體育分析:目標(biāo)檢測與場景理解

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

任務(wù): 分析足球比賽場景,包括球員計數(shù)、球和守門員位置估計,并預(yù)測進(jìn)球可能性(見圖 7)。

結(jié)果:

  • 所有模型均未能正確檢測所有球員,并區(qū)分不同球隊(duì)。
  • 相比之下,YOLOv8 這樣的單模態(tài)檢測模型表現(xiàn)更優(yōu)。

這表明,MLLMs 在一些復(fù)雜任務(wù)上仍然存在局限性,它們尚未完全取代專門優(yōu)化的計算機(jī)視覺模型。


下一步是否應(yīng)該對 MLLMs 進(jìn)行微調(diào)???

3. 領(lǐng)先的多模態(tài)大型語言模型

多模態(tài)大語言模型(MLLMs)如何重塑和變革計算機(jī)視覺?-AI.x社區(qū)

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦