偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="a94ir"><tt id="a94ir"></tt></tr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD

發(fā)布于 2025-1-21 10:46

瀏覽

0收藏

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.04449
項目鏈接：https://github.com/MCG-NJU/p-MoD

亮點直擊

MoD機制的引入：通過選擇性處理重要視覺token，顯著減少計算負(fù)擔(dān)，提升模型效率。
創(chuàng)新的TanhNorm與STRing設(shè)計：解決了MoD模塊在多模態(tài)訓(xùn)練中的穩(wěn)定性和性能問題，即使在有限數(shù)據(jù)下也能精準(zhǔn)評估token的重要性。
PRD策略：通過逐層減少保留token的比例，針對視覺token的冗余問題提供了有效的解決方案，大幅提高計算效率。
全面的實驗驗證：在多個基準(zhǔn)測試中，p-MoD模型不僅保證了高效性，還表現(xiàn)出了超越傳統(tǒng)基線的性能。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

總結(jié)速覽

解決的問題：

高計算成本：盡管多模態(tài)大語言模型（MLLMs）在多任務(wù)中表現(xiàn)出色，但其龐大的訓(xùn)練和推理成本嚴(yán)重阻礙了其發(fā)展。計算的主要負(fù)擔(dān)來自于通過LLM處理的大量視覺token。
視覺token冗余：在處理高分辨率圖像和視頻時，視覺token數(shù)量急劇增加，導(dǎo)致計算成本暴漲，限制了MLLMs的進(jìn)一步應(yīng)用。

提出的方案：

MoD機制：通過引入深度混合（Mixture-of-Depths, MoD）機制，選擇每個Transformer層要處理的最重要的視覺token，同時跳過冗余的token，從而提高計算效率。
創(chuàng)新設(shè)計：

TanhNorm：用于權(quán)重歸一化的tanh門控方法，確保MoD模塊的正確初始化，增強訓(xùn)練穩(wěn)定性并解決推理時的數(shù)值穩(wěn)定性問題。
STRing：對稱token重加權(quán)模塊，利用有限的訓(xùn)練數(shù)據(jù)和語言監(jiān)督信號來精確評估token的重要性。
PRD策略：漸進(jìn)式比例衰減（Progressive Ratio Decay, PRD）策略，基于移位余弦調(diào)度逐層減少保留token的比例，優(yōu)化視覺token的冗余問題。

應(yīng)用的技術(shù)：

MoD機制：最初用于大語言模型的MoD機制被改造為適用于多模態(tài)語言模型。
TanhNorm與STRing：用于解決MoD模塊的初始化與訓(xùn)練穩(wěn)定性問題，提升有限數(shù)據(jù)下的token重要性預(yù)測。
PRD策略：通過逐層減少視覺token的保留比例，進(jìn)一步提高計算效率。

達(dá)到的效果：

高效推理：在推理時，p-MoD模型的TFLOPs僅為基線模型的55.6%，KV緩存存儲僅為53.8%。
高效訓(xùn)練：訓(xùn)練時，p-MoD僅使用77.7%的GPU時間，顯著減少了計算成本。
優(yōu)異表現(xiàn)：在14個基準(zhǔn)測試中，p-MoD模型的表現(xiàn)與LLaVA-NeXT基線相當(dāng)，甚至超越了基線，證明了高效性和性能的平衡。

方法

本節(jié)介紹 p-MoD 模型。如下圖 2 所示，本文的模型由 p-MoD 層組成，這些層通過 tanh 門控權(quán)重歸一化（TanhNorm）和對稱 token 重加權(quán)（STRing）來升級 MoD 架構(gòu)。關(guān)鍵的設(shè)計是漸進(jìn)式比例衰減（PRD）策略，它控制不同層之間的 token 保留比例。接下來的部分中，將首先簡要回顧 MoD，然后詳細(xì)解釋p-MoD 模型的每個組件。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

回顧 Mixture-of-Depths

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

在經(jīng)過 transformer 層處理后，選中的 tokens 會根據(jù)其對應(yīng)的權(quán)重進(jìn)行縮放。通過這種方式，權(quán)重預(yù)測器參與到梯度路徑中，使其參數(shù)能夠通過反向傳播進(jìn)行更新。這個過程稱為 token 重加權(quán)。

在原始為 LLM 設(shè)計的 MoD 模塊中， X代表文本 tokens。在本文的多模態(tài)場景中， X代表視覺 tokens。僅在視覺 tokens 上應(yīng)用 MoD，因為它們占用了主要的計算負(fù)擔(dān)，并且在深層中顯示出高冗余性。

改進(jìn) Mixture-of-Depths 模塊

與從頭訓(xùn)練 MoD 基于 LLMs 的模型不同，將 MoD 集成到 MLLMs 中面臨幾個挑戰(zhàn)。將新的 MoD 模塊插入到預(yù)訓(xùn)練的 LLM 中可能會導(dǎo)致訓(xùn)練和推理的不穩(wěn)定。相對較小的多模態(tài)數(shù)據(jù)量可能不足以訓(xùn)練 MoD 模塊。兩種增強 MoD 模塊的設(shè)計，以應(yīng)對這些挑戰(zhàn)。

Tanh 門控權(quán)重歸一化

原始的 MoD 機制是為從頭訓(xùn)練 MoD 基于 LLMs 的模型設(shè)計的。在多模態(tài)訓(xùn)練場景中，需要將新的 MoD 模塊插入到預(yù)訓(xùn)練的原始 LLM 中。一種常見的方法是交替訓(xùn)練，其中在第一階段僅訓(xùn)練新插入的模塊，在第二階段同時訓(xùn)練所有模塊。然而，這種方法不適合 MoD，因為 MoD 模塊在 token 重加權(quán)過程中通過其權(quán)重來縮放 tokens，而后續(xù)被凍結(jié)的 LLM 層無法處理被縮放的 tokens。本文的實驗結(jié)果一致表明，訓(xùn)練 MoD 模塊并凍結(jié) LLM 層無法收斂。因此，唯一可行的方法是直接解決這一挑戰(zhàn)：將 MoD 模塊插入到 LLM 中，并同時訓(xùn)練它們。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

這里是一個超參數(shù)，用于控制歸一化權(quán)重的范圍。雖然很簡單，但 TanhNorm 確保了以下幾點：

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

這些特性帶來了以下好處：

歸一化的權(quán)重在訓(xùn)練開始時接近零，這確保了通過插入 MoD 模塊后，LLM 的正確訓(xùn)練初始化保持不變。
零中心的權(quán)重分布降低了某些 tokens 在所有 MoD 層中被正（或負(fù)）權(quán)重重復(fù)縮放的風(fēng)險。這確保了訓(xùn)練的穩(wěn)定性，并減輕了推理過程中數(shù)值穩(wěn)定性的問題。

上述兩個好處有助于提高模型性能。在第 4.4 節(jié)中，我們驗證了 TanhNorm 的有效性。

對稱 Token 重加權(quán)

與用于訓(xùn)練 MoD 基于 LLMs 的文本數(shù)據(jù)相比，MLLMs 是在規(guī)模小幾個數(shù)量級的多模態(tài)數(shù)據(jù)上訓(xùn)練的。訓(xùn)練一個權(quán)重預(yù)測器（MoD 模塊中唯一可學(xué)習(xí)的部分）來準(zhǔn)確且穩(wěn)健地評估視覺 tokens 的重要性并分配相應(yīng)的權(quán)重是具有挑戰(zhàn)性的。權(quán)重預(yù)測器模塊的梯度來自于 token 重加權(quán)過程。原始 MoD 僅對選中的 tokens 進(jìn)行 token 重加權(quán)，如方程 2 所示。這樣，語言監(jiān)督信號僅監(jiān)督權(quán)重預(yù)測器為選中的 tokens 分配高權(quán)重，而對跳過的 tokens 的權(quán)重預(yù)測過程沒有監(jiān)督（即沒有梯度）。

為了充分利用有限的訓(xùn)練數(shù)據(jù)，通過對選中和跳過的 tokens 對稱地應(yīng)用 token 重加權(quán)過程來增強 MoD 機制。通過我們對稱的 token 重加權(quán)（STRing）模塊，方程 3 可以進(jìn)一步修改為：

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

通過這種方式，MoD 模塊可以充分利用訓(xùn)練過程中的語言監(jiān)督信號，并在有限的訓(xùn)練數(shù)據(jù)上學(xué)習(xí)準(zhǔn)確評估 token 的重要性。

漸進(jìn)式比例衰減（Progressive Ratio Decay）

在通過 TanhNorm 和 STRing 模塊升級 MoD 后，成功地訓(xùn)練了基于 MoD 的 MLLMs。然而，模型的性能與效率之間的權(quán)衡仍遠(yuǎn)未令人滿意。當(dāng) token 保留比例設(shè)置低于 70% 時，模型的性能急劇下降。

原始的 MoD 基于 LLMs 在所有 MoD 層中采用固定的 token 保留比例。這一策略假設(shè) tokens 在不同層中的冗余程度相同。在多模態(tài)場景中這一假設(shè)是不成立的。在每個 transformer 層中的自注意力作用下，視覺 tokens 會逐漸相互聚合信息，文本 tokens 也會從視覺 tokens 中獲取相關(guān)信息。因此，隨著層數(shù)的加深，視覺 tokens 應(yīng)該變得越來越冗余。

為了驗證本文的假設(shè)，在基于 MoD 的 MLLM 上進(jìn)行了一系列探索性實驗，在所有層中設(shè)置 70% 的 token 保留比例。如下圖 3a 所示，首先將層劃分為若干組。在每個實驗中，僅對其中一組層應(yīng)用較低的 token 保留比例（15%），而保持其他層不變，并在 14 個基準(zhǔn)上評估該模型的表現(xiàn)。圖 3b 中的結(jié)果強烈支持了我們的假設(shè)：將較低的 token 保留比例應(yīng)用于越深的層，性能越好。這表明，視覺 tokens 在較深的層中具有更高的冗余性，這與之前的研究 [4, 45] 的觀察結(jié)果一致。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

本文設(shè)計了一個漸進(jìn)式比例衰減（PRD）策略。如前圖 2 右側(cè)所示，PRD 按照 shifted cosine 調(diào)度逐層減少 token 保留比例。假設(shè)模型有 L 層，第 l 層的 token 保留比例可以表示為：

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

這里，是一個平移因子，可以通過垂直平移余弦衰減曲線來靈活控制模型的整體計算成本。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

在實驗中，證明了使用 PRD 策略的 p-MoD 模型在相同計算預(yù)算下，顯著優(yōu)于使用固定保留比例的模型。它還優(yōu)于其他類型的比例調(diào)度器。

實驗

設(shè)置

模型
為了評估 p-MoD 的有效性，選擇了兩個代表性的開源 MLLM：LLaVA-1.5 和 LLaVA-NeXT，作為實驗中的基線模型。將對應(yīng)的 p-MoD 模型命名為 p-MoD-LLaVA-1.5 和 p-MoD-LLaVA-NeXT。LLaVA-1.5 將輸入圖像調(diào)整為固定分辨率，這與其 CLIP 視覺編碼器的訓(xùn)練設(shè)置對齊，將圖像編碼為 576 個 token。LLaVA-NeXT 將高分辨率圖像分成多個片段，這些片段由視覺編碼器獨立處理。這一策略增強了視覺感知能力，但也導(dǎo)致了更多的視覺 token（最多 2880 個）和更高的計算成本。

訓(xùn)練數(shù)據(jù)
遵循基線方法的訓(xùn)練設(shè)置。LLaVA-1.5 和 LLaVA-NeXT 都使用 LCS-558K 作為預(yù)訓(xùn)練數(shù)據(jù)。在指令調(diào)優(yōu)階段，LLaVA-1.5 使用 LLaVA-mix-665。原始的 LLaVA-NeXT 模型使用了 760k 數(shù)據(jù)進(jìn)行微調(diào)，但 LLaVA 團(tuán)隊發(fā)布的 LLaVA-NeXT 訓(xùn)練數(shù)據(jù)包含 779k 數(shù)據(jù)。為了公平比較，我們使用 LLaVA 團(tuán)隊發(fā)布的 779k 數(shù)據(jù)和官方 LLaVA-NeXT 代碼庫訓(xùn)練 LLaVA-NeXT 模型。

基準(zhǔn)
在 14 個基準(zhǔn)上進(jìn)行了全面的實驗：GQA、OK-VQA、AI2D 和 ScienceQA-IMG 是傳統(tǒng)的視覺問答基準(zhǔn)；DocVQA、TextVQA、ChartQA 和 InfographicVQA 聚焦于細(xì)粒度的視覺問答；POPE 評估 MLLMs 的幻覺；SEED-Bench（圖像）、RealWorldQA、MME、MMBench 和 MMMU 是為 MLLMs 定制的綜合性基準(zhǔn)。為了確保本文的結(jié)果可以方便地復(fù)現(xiàn)，我們使用 LLaVA 團(tuán)隊開發(fā)和維護(hù)的 lmms-eval 評估框架評估本文的模型。

評估指標(biāo)
本文報告所有基準(zhǔn)的性能，并結(jié)合反映訓(xùn)練和推理效率的多種指標(biāo)。我們報告了 TFLOPs，它衡量推理計算復(fù)雜度，以及 KV 緩存存儲，這是推理過程中的主要內(nèi)存瓶頸。此外，我們還報告了模型訓(xùn)練中的 GPU 小時數(shù)和推理延遲。

實現(xiàn)細(xì)節(jié)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

主要結(jié)果

將 p-MoD 集成到 LLaVA-1.5 和 LLaVA-NeXT 基線模型中，并在 14 個基準(zhǔn)上進(jìn)行了全面評估，如下表 1 和表 2 所示。與基線模型相比，p-MoD-LLaVA-1.5 和 p-MoD-LLaVA-NeXT 在所有基準(zhǔn)上都實現(xiàn)了可比甚至更好的性能，同時顯著節(jié)省了推理 TFLOPs 和 KV 緩存存儲。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

表 1 包含了一般的 VQA 和 MLLM 基準(zhǔn)，衡量了 MLLM 在各個方面的綜合能力。我們的 p-MoD-LLaVA-NeXT 模型在顯著減少推理 TFLOPs 和 KV 緩存存儲的同時，達(dá)到了可比的性能。我們的 p-MoD-LLaVA-1.5 模型甚至超過了 LLaVA-1.5 基線模型，推理 TFLOPs 為 58.7%，KV 緩存存儲為 53.8%。

在表 2 中，值得注意的是，像 DocVQA、ChartQA、TextVQA 和 InfoVQA 這樣的文本豐富和基于圖表的基準(zhǔn)需要細(xì)粒度的視覺感知和推理能力。只有在模型成功識別出與答案相關(guān)的區(qū)域并且這些區(qū)域占整個圖像的比例較小時，才能給出正確的答案。值得一提的是，p-MoD-LLaVA-NeXT 在 DocVQA 和 InfoVQA 上幾乎沒有性能下降，在 ChartQA 上甚至提高了 0.2% 的準(zhǔn)確率，同時在時間和內(nèi)存效率上也取得了顯著改進(jìn)。

以上結(jié)果表明，本文的方法在保持性能的同時，顯著提高了效率。

性能與效率的權(quán)衡

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

總之，表 3 展示了一個趨勢：隨著計算成本的降低，p-MoD 的性能線性下降，下降幅度較淺，提供了卓越的性能-效率權(quán)衡。

消融研究

Tanh-gated 權(quán)重歸一化通過與不同的權(quán)重歸一化方法進(jìn)行比較來驗證 TanhNorm 的有效性，如下表 4 所示。首先，確認(rèn)使用沒有權(quán)重歸一化模塊會導(dǎo)致訓(xùn)練過程中出現(xiàn)溢出，如第一行所示。然后，探討 TanhNorm 的兩個重要特性：

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

零中心化歸一化：我們將 TanhNorm 的零中心化特性與 Softmax 歸一化函數(shù)進(jìn)行比較，包括標(biāo)準(zhǔn)和偏移形式：
從上表 4 的最后一行可以看出，TanhNorm 顯著優(yōu)于原始和偏移 softmax 函數(shù)。這證明了零中心化是 TanhNorm 強大性能的關(guān)鍵，因為盡管偏移 softmax 函數(shù)與 TanhNorm 具有相同的范圍，但由于缺乏零中心化特性，表現(xiàn)較差。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

對稱 token 重新加權(quán)

對稱 token 重新加權(quán)（STRing）策略的影響，如前表 4 中的最后兩行所示。STRing 在 DocVQA 和 RWQA 基準(zhǔn)測試中分別提高了 1%，且平均性能提高了 0.3%。這表明 STRing 通過更有效地利用語言監(jiān)督信號來訓(xùn)練一個更好的權(quán)重預(yù)測器，尤其是在訓(xùn)練數(shù)據(jù)有限的情況下。

漸進(jìn)比例衰減

為了驗證漸進(jìn)比例衰減（PRD）策略的有效性，進(jìn)行了四個不同調(diào)度函數(shù)的實驗，這些函數(shù)控制解碼器層中的 token 保留比例。這些函數(shù)包括：

常數(shù)函數(shù)：對所有層使用相同的比例。
交替函數(shù)：在標(biāo)準(zhǔn) transformer 層和具有較低保留比例的 MoD 層之間交替，原 MoD 論文中采用此方法。
階梯衰減函數(shù)：以階梯方式減少保留比例。
線性衰減函數(shù)：逐漸減少保留比例。

在本文的實驗中，將所有層的平均保留比例固定在約 54%。下表 5 中的結(jié)果得出以下結(jié)論：

非衰減函數(shù)，如常數(shù)和交替函數(shù)，顯著低于衰減函數(shù)。這證實了視覺 token 在較深層中存在更高的冗余性，支持漸進(jìn)衰減的必要性。
連續(xù)衰減函數(shù)，如余弦和線性衰減，顯著優(yōu)于不連續(xù)的階梯衰減函數(shù)。在這些方法中，余弦衰減函數(shù)取得了最佳結(jié)果，證明了我們采用的 shifted cosine 調(diào)度在優(yōu)化層間 token 保留比例方面的有效性。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

可視化

下圖 5 展示了 p-MoD-LLaVA-NeXT 在不同層次上選擇的 tokens。通過漸進(jìn)比例衰減策略的引導(dǎo)，MoD 層處理的 tokens 數(shù)量逐層逐漸減少。從中可以觀察到，選中的視覺 tokens 在圖像中逐步集中于具有豐富語義信息的關(guān)鍵區(qū)域。具體而言，在上面的圖中，位于不同位置的文本和圖形所對應(yīng)的視覺 tokens 幾乎都在第 26 層以較低的比例被選中。在下面的圖中，選中的 tokens 漸漸集中于標(biāo)尺上的度量標(biāo)記和其他物體。這些結(jié)果表明，我們的模型通過保留有信息的 tokens 有效地壓縮了視覺信息，從而在顯著降低訓(xùn)練和推理成本的同時，保持了良好的性能。

計算效率和性能雙贏！南大聯(lián)合中移動發(fā)布高效多模態(tài)大模型新范式—— p-MoD-AI.x社區(qū)

結(jié)論與未來工作

本文探討了通過 Mixture-of-Depths 機制構(gòu)建高效的 MLLMs（多模態(tài)語言模型）。提出命名為 p-MoD的模型，具有三個關(guān)鍵設(shè)計。首先，應(yīng)用了 tanh-gated 權(quán)重歸一化機制，以確保預(yù)測 token 權(quán)重在訓(xùn)練初始化和推理過程中保持穩(wěn)定。其次，采用了對稱 token 重新加權(quán)策略，充分利用語言監(jiān)督信號，通過有限的訓(xùn)練數(shù)據(jù)訓(xùn)練出更優(yōu)的權(quán)重預(yù)測模塊。最后，模型采用了漸進(jìn)比例衰減策略，逐層減少 token 保留比例。p-MoD 模型在 14 項不同基準(zhǔn)測試中，取得了與基線模型相當(dāng)或更優(yōu)的結(jié)果，并且在訓(xùn)練和推理效率上有了顯著提升。希望 p-MoD 能成為未來高效 MLLMs 研究的強大且高效的基線。

本研究的一個限制是 p-MoD 僅在 LLaVA-1.5 和 LLaVA-NeXT 模型上進(jìn)行了實驗，這些模型專注于單圖像理解任務(wù)。認(rèn)為p-MoD 在處理更多視覺 token 的任務(wù)中，如高分辨率、多圖像和長視頻理解任務(wù)中，可能會取得更顯著的結(jié)果。將把 p-MoD 應(yīng)用到其他視覺任務(wù)中的探索留待未來的研究。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/DhCPVbneK0adJVPx15Q3HQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語言模型最新綜述

laokugonggao ? 5587瀏覽 ? 0回復(fù)
大模型微調(diào)新范式：當(dāng)LoRA遇見MoE

zhangyannni ? 5410瀏覽 ? 0回復(fù)
超越GPT-4V，蘋果多模態(tài)大模型上新！

duhorse ? 3473瀏覽 ? 0回復(fù)
港大字節(jié)提出多模態(tài)大模型新范式，模擬人類先感知后認(rèn)知，精確定位圖中物體

Crystalcxt ? 3561瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 6907瀏覽 ? 0回復(fù)
數(shù)據(jù)高效和計算高效全都要！中科大&微信等提出多模態(tài)大語言模型EE-MLLM

angel ? 3882瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 3754瀏覽 ? 0回復(fù)
超越CLIP，視覺大模型訓(xùn)練新范式？

kede96 ? 3470瀏覽 ? 0回復(fù)
南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題

海因斯DK ? 4681瀏覽 ? 0回復(fù)
AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式

Baihai_IDP ? 3813瀏覽 ? 0回復(fù)
codebook從崩潰到高效利用！南大&清華&騰訊聯(lián)合打造IBQ：自回歸生成最強視覺分詞器

angel ? 5309瀏覽 ? 0回復(fù)
阿里巴巴語音實驗室發(fā)布新成果，多模態(tài)方法顯著提升視頻主題分割性能

xuxiangda ? 4049瀏覽 ? 0回復(fù)
2025 年 10 大 AI 方向：高效推理、多模態(tài)等

云原生AI百寶箱 ? 5113瀏覽 ? 0回復(fù)
多模態(tài)大語言模型（MLLMs）如何重塑和變革計算機視覺？

angel ? 6022瀏覽 ? 0回復(fù)
何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現(xiàn)高分辨率逐像素生成

Crystalcxt ? 3136瀏覽 ? 0回復(fù)
Qwen2.5-VL-32B：多模態(tài)大模型的性能與效率新標(biāo)桿

Halo咯咯 ? 4850瀏覽 ? 0回復(fù)
大型語言模型的推理經(jīng)濟(jì)學(xué)：平衡性能與計算成本的新范式

頓數(shù)AI ? 2999瀏覽 ? 0回復(fù)
TreeHop：無需大語言模型的高效多跳問答新范式

大語言模型論文跟蹤 ? 2342瀏覽 ? 0回復(fù)
ICCV 2025 | 描述替代指令：南大聯(lián)合vivo發(fā)布DescriptiveEdit，定義語義圖像編輯新范式

zhangyannni ? 1314瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： FLUX加持大幅提升渲染質(zhì)量和控制能力！浙大&哈佛提出3DIS升級版3DIS-FLUX

下一篇：面向統(tǒng)一的單、多主體個性化文生圖框架！阿里通義發(fā)布AnyStory！

社區(qū)精華內(nèi)容

目錄