偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？精華

發(fā)布于 2025-2-17 09:22

瀏覽

0收藏

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

本文介紹了多模態(tài)大型語言模型（MLLM）的定義、使用挑戰(zhàn)性提示的應(yīng)用場景，以及正在重塑計算機(jī)視覺的頂級模型。

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

目錄

什么是多模態(tài)大語言模型（MLLM）？
MLLM 在計算機(jī)視覺中的應(yīng)用與案例
領(lǐng)先的多模態(tài)大型語言模型
未來展望

1. 什么是多模態(tài)大型語言模型（MLLM）？

簡單來說，多模態(tài)大型語言模型（MLLM）是結(jié)合了大型語言模型（LLM）（如 GPT-3 [2] 或 LLaMA-3 [3]）的推理能力，同時具備接收、理解并輸出多種模態(tài)信息的能力。

示例：圖 1 展示了一個醫(yī)療領(lǐng)域的多模態(tài) AI 系統(tǒng) [4]。它接收兩個輸入：

一張醫(yī)學(xué)影像
一個文本查詢，如：“這張影像中是否存在胸腔積液？”該系統(tǒng)輸出一個關(guān)于該查詢的預(yù)測答案。

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

在本文中，可能會簡化“多模態(tài)大型語言模型”這一術(shù)語，直接稱其為“多模態(tài)模型”。

1.1 人工智能中的多模態(tài)崛起

近年來，人工智能經(jīng)歷了重大變革，其中Transformer [5] 體系架構(gòu)的興起極大推動了語言模型的發(fā)展 [6]。這一架構(gòu)由 Google 于 2017 年提出，并對計算機(jī)視覺領(lǐng)域產(chǎn)生了深遠(yuǎn)影響。

早期的示例包括視覺 Transformer（ViT） [7]，它將圖像分割為多個補(bǔ)丁，并將其作為獨(dú)立的視覺 token 進(jìn)行輸入處理。

隨著大型語言模型（LLM）的崛起，一種新的生成式模型，即多模態(tài)大型語言模型（MLLM），自然地誕生了。

如前面時間線圖所示，2023 年，大多數(shù)科技巨頭都推出了至少一種 MLLM。到了 2024 年，OpenAI 的 GPT-4o 在 5 月發(fā)布時成為行業(yè)熱點(diǎn)。

1.2 MLLMs vs VLMs vs 基礎(chǔ)模型

一些人認(rèn)為 MLLMs 其實(shí)就是基礎(chǔ)模型（Foundation Models）。例如，Google 的 Vertex AI 將 Claude 3、PaliGemma 和 Gemini 1.5 等多模態(tài)大型語言模型歸類為基礎(chǔ)模型。??

另一方面，視覺語言模型（VLMs）[8] 是多模態(tài)模型的一個子類別，它們集成了文本和圖像輸入，并生成文本輸出。

MLLMs 和 VLMs 的主要區(qū)別在于：

MLLMs 能處理更多模態(tài)，而不僅僅是文本和圖像（如 VLMs）。
VLMs 的推理能力較弱，而 MLLMs 具有更強(qiáng)的邏輯推理能力。

1.3 體系架構(gòu)

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

如圖 3 所示，MLLM 的架構(gòu)主要分為三個部分：

模態(tài)編碼器（Modality Encoder）：該組件將視覺、音頻等原始數(shù)據(jù)轉(zhuǎn)換為緊湊的表示形式。通常使用預(yù)訓(xùn)練編碼器（如 CLIP）進(jìn)行遷移學(xué)習(xí)，以適配不同的模態(tài)輸入。
LLM 主干（LLM Backbone）：語言模型負(fù)責(zé)生成文本輸出，作為 MLLM 的“核心大腦”。編碼器接收圖像、音頻或視頻輸入并生成特征，由連接器（模態(tài)接口）處理后輸入 LLM。
模態(tài)接口（Modality Interface）：連接編碼器和 LLM，確保 LLM 能夠理解不同模態(tài)的信息，并進(jìn)行合理的推理和輸出。

2. 多模態(tài)模型在計算機(jī)視覺中的應(yīng)用

為了驗(yàn)證這些模型的能力，使用了 GPU 對三個頂級 MLLMs 進(jìn)行測試，并使用了具有挑戰(zhàn)性的查詢（不再是貓??和狗??的簡單示例）。

測試的 MLLMs：

GPT-4o （OpenAI）
LLaVA 7b （開源，基于 LLaMA）
Apple Ferret 7b （Apple 開源）

2.1 目標(biāo)遮擋情況下的物體計數(shù)

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

任務(wù)： 計算圖像中出現(xiàn)的安全帽數(shù)量，并提供其位置（見圖 4）。

GPT-4o提供了詳盡的場景描述，但給出的坐標(biāo)有誤。
LLaVA僅檢測到 3 個安全帽，并且沒有正確識別遮擋部分的安全帽。
Apple Ferret成功檢測到 4 個安全帽，包括左側(cè)被遮擋的那個！??

2.2 自動駕駛：風(fēng)險評估與規(guī)劃

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

任務(wù)： 從自動駕駛汽車的角度評估風(fēng)險，并檢測車輛和行人（見圖 5）。

LLaVA未能識別前方的大卡車。
GPT-4o在文本分析方面表現(xiàn)優(yōu)異，但檢測出的目標(biāo)框位置錯誤。
Apple Ferret是唯一一個準(zhǔn)確檢測出大部分物體并給出正確坐標(biāo)的模型 ?。

2.3 體育分析：目標(biāo)檢測與場景理解

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

任務(wù)： 分析足球比賽場景，包括球員計數(shù)、球和守門員位置估計，并預(yù)測進(jìn)球可能性（見圖 7）。

結(jié)果：

所有模型均未能正確檢測所有球員，并區(qū)分不同球隊(duì)。
相比之下，YOLOv8 這樣的單模態(tài)檢測模型表現(xiàn)更優(yōu)。

這表明，MLLMs 在一些復(fù)雜任務(wù)上仍然存在局限性，它們尚未完全取代專門優(yōu)化的計算機(jī)視覺模型。

下一步是否應(yīng)該對 MLLMs 進(jìn)行微調(diào)？??

3. 領(lǐng)先的多模態(tài)大型語言模型

多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機(jī)視覺？-AI.x社區(qū)

標(biāo)簽

數(shù)據(jù)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

多模態(tài)視覺-語言大模型的架構(gòu)演進(jìn)

angel ? 6661瀏覽 ? 0回復(fù)
計算機(jī)視覺關(guān)鍵技術(shù)

mb66125a723d24d ? 3577瀏覽 ? 0回復(fù)
AGI時代下，計算機(jī)專業(yè)出身的該何去何從？

科叼dd ? 3343瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：揭開計算機(jī)視覺任務(wù)神秘面紗

魯班模錘1 ? 4247瀏覽 ? 0回復(fù)
冰球運(yùn)動的AI科技感：用計算機(jī)視覺跟蹤球員

51CTO內(nèi)容精選 ? 4154瀏覽 ? 0回復(fù)
數(shù)據(jù)高效和計算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM

angel ? 3874瀏覽 ? 0回復(fù)
探索 Ultralytics YOLO11 計算機(jī)視覺領(lǐng)域的關(guān)鍵突破

穿越時空111 ? 8659瀏覽 ? 0回復(fù)
Cephalo：專門用于仿生設(shè)計的多模態(tài)視覺大型語言模型

魯班模錘1 ? 4423瀏覽 ? 0回復(fù)
谷歌&Mistral AI發(fā)布TIPS：具有空間意識的文本-圖像預(yù)訓(xùn)練（適配各種計算機(jī)視覺任務(wù)）

angel ? 3988瀏覽 ? 0回復(fù)
OpenCV 5：邁向計算機(jī)視覺新紀(jì)元的最新進(jìn)展

sword_hero ? 4903瀏覽 ? 0回復(fù)
EarthMarker：首個視覺提示遙感多模態(tài)大模型

AIRoobt ? 7385瀏覽 ? 0回復(fù)
計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD

angel ? 3691瀏覽 ? 0回復(fù)
EVEv2.0，視覺語言分開編碼，多模態(tài)視覺語言理解；視覺信息引導(dǎo)與標(biāo)記邏輯增強(qiáng)減少大語言模型幻覺

AI研究前瞻 ? 4137瀏覽 ? 0回復(fù)
計算機(jī)視覺五大核心算法解析

每天五分鐘玩轉(zhuǎn)人工智能 ? 2733瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)詳解：傳統(tǒng)機(jī)器學(xué)習(xí)在計算機(jī)視覺領(lǐng)域的局限性

人工智能訓(xùn)練營 ? 1881瀏覽 ? 0回復(fù)
如何使用Google Gemini模型完成計算機(jī)視覺任務(wù)？

51CTO內(nèi)容精選 ? 1739瀏覽 ? 0回復(fù)
計算機(jī)視覺領(lǐng)域詳解：從基礎(chǔ)到前沿的全面剖析

每天五分鐘玩轉(zhuǎn)人工智能 ? 5548瀏覽 ? 0回復(fù)
基于深度學(xué)習(xí)的計算機(jī)視覺技術(shù)的智慧農(nóng)業(yè)應(yīng)用

51CTO內(nèi)容精選 ? 1152瀏覽 ? 0回復(fù)
為ArduRover裝上“眼睛”：基于計算機(jī)視覺的自主漫游車實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 736瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

上一篇：從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節(jié))

下一篇： ICLR 2025 | 計算量僅DiT一半!中山大學(xué)&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務(wù)

社區(qū)精華內(nèi)容

目錄