偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決?

發(fā)布于 2025-6-24 06:03
瀏覽
0收藏

MLLM中”模態(tài)懶惰“和”模態(tài)偏差“問題常見解決方案總結(jié)。

本篇繼續(xù)說明MLLM中多模態(tài)對齊的難點以及現(xiàn)有的解決方法,本系列要說明的主要難點有:

  • 多模態(tài)數(shù)據(jù)構(gòu)建
  • 跨模態(tài)差異影響融合效果
  • 模態(tài)對齊評估效率比較低

上一篇中講到了多模態(tài)數(shù)據(jù)構(gòu)建的難點和解決方法,???大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法???

本篇開始總結(jié)跨模態(tài)差異影響融合效果部分。具體來說就是不同模態(tài)特征分布差異顯著(如圖像與文本的嵌入空間不匹配),會阻礙深度融合從而影響MLLM的效果。

這塊部分在多模態(tài)學(xué)習(xí)中也叫“模態(tài)懶惰”問題。在多模態(tài)學(xué)習(xí)中,不同的數(shù)據(jù)模態(tài)(如文本、圖像、音頻等)可能在信息貢獻上存在不平衡,導(dǎo)致一些模態(tài)在學(xué)習(xí)過程中顯得更為主導(dǎo),而其他模態(tài)則被忽視,這種現(xiàn)象就被稱為模態(tài)懶惰。這會導(dǎo)致多模態(tài)學(xué)習(xí)系統(tǒng)的性能不佳。

另外除了“模態(tài)懶惰”外,“模態(tài)偏差”也常常跟著被一起提到,MLLMs在處理多模態(tài)數(shù)據(jù)時,往往會過度依賴于某一模態(tài)(如語言或視覺),而忽視其他模態(tài)中的關(guān)鍵信息,從而導(dǎo)致模型生成不準(zhǔn)確或不相關(guān)的回答。目前這種模態(tài)偏差主要表現(xiàn)為語言偏差(language bias)和視覺偏差(vision bias)。

  • 語言偏差:比如在回答“熊的顏色是什么?”時,模型可能基于大多數(shù)熊是棕色的常識,忽略了輸入圖像中顯示的北極熊是白色的。
  • 視覺偏差:指模型過度關(guān)注圖像細節(jié),而忽略了文本問題的真正意圖。例如,在回答“房子在左邊嗎?”時,模型可能提供了過多的圖像細節(jié),而沒有準(zhǔn)確理解文本問題。體現(xiàn)出來可能覺得模型回答過于冗余但并沒有回答到點上。

下面是具體的解決方法,主要分為訓(xùn)練方式、算法設(shè)計和訓(xùn)練數(shù)據(jù)分布優(yōu)化。

訓(xùn)練方式這里就不做贅述了,比較常見的是漸進式解凍訓(xùn)練:先fix住某一模態(tài)編碼器權(quán)重,再訓(xùn)練另一模態(tài)權(quán)重,最后全網(wǎng)絡(luò)整體訓(xùn)練。

本篇主要講述算法細節(jié)設(shè)計和訓(xùn)練數(shù)據(jù)分布優(yōu)化的詳細內(nèi)容,下面是一個快捷目錄。

一、算法細節(jié)設(shè)計

1. 最小化模態(tài)間投影誤差

2. 模態(tài)間交叉引導(dǎo)融合不同模態(tài)特征差異

二、訓(xùn)練數(shù)據(jù)分布優(yōu)化

1. 在不同模態(tài)的不同語義層級設(shè)計對齊約束

2. 主動學(xué)習(xí)實現(xiàn)更平衡的數(shù)據(jù)選擇

3.  引導(dǎo)偏好優(yōu)化(BPO),懲罰某一模態(tài)的依賴行為

注意這里的訓(xùn)練數(shù)據(jù)優(yōu)化相對于于上一篇中的數(shù)據(jù)構(gòu)建有所區(qū)別,主要強調(diào)基于已有數(shù)據(jù)進行分布優(yōu)化以及不同模態(tài)鏈接,更便于緩解跨模態(tài)差異實現(xiàn)深度融合。

算法細節(jié)設(shè)計

1. 最小化模態(tài)間投影誤差(如文本→圖像映射的均方誤差)

結(jié)合最優(yōu)傳輸理論(Optimal Transport)建模分布對齊,解決語義密度差異問題。

這里舉一個ICLR 2024的論文《Multimodal Representation Learning with Alternating Unimodal Adaptation》的例子。這篇論文提出了一種名為MLA(Multimodal Learning with Alternating Unimodal Adaptation)的方法:

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

主要包括下面四個核心步驟,筆者覺得實際中都很實用。

1) 交替單模態(tài)學(xué)習(xí):把傳統(tǒng)的多模態(tài)聯(lián)合優(yōu)化過程轉(zhuǎn)變?yōu)榻惶娴膯文B(tài)學(xué)習(xí)過程。在每個訓(xùn)練步驟中,只優(yōu)化一個模態(tài)的編碼器,從而減少模態(tài)之間的干擾,使每個模態(tài)都能獨立地被優(yōu)化。

2)共享頭部:每個模態(tài)獨立優(yōu)化,但用一個跨所有模態(tài)的共享頭部來捕獲跨模態(tài)的交互信息。共享頭部在不同模態(tài)之間持續(xù)優(yōu)化,有助于整合多模態(tài)信息。

3)梯度修改機制:為了防止共享頭部在遇到新模態(tài)時丟失之前學(xué)習(xí)到的信息(即模態(tài)遺忘問題),通過正交化梯度方向來減少不同模態(tài)之間的干擾。

4)推理階段動態(tài)模態(tài)融合:在inference階段,基于不確定性的模型融合機制來整合多模態(tài)信息;評估每個模態(tài)在預(yù)測中的重要性,并根據(jù)這個評估來分配權(quán)重,然后結(jié)合所有模態(tài)的預(yù)測結(jié)果。

2. 模態(tài)間交叉引導(dǎo)融合不同模態(tài)特征差異

比較常見的是跨模態(tài)交叉注意力(Cross-modal Cross-Attention)顯式建模不同模態(tài)特征的融合,Query來自一模態(tài),Key/Value來自另一模態(tài);或者基于輸入內(nèi)容自適應(yīng)調(diào)整各模態(tài)貢獻權(quán)重,抑制低質(zhì)量模態(tài)噪聲。

另外時間與空間交叉引導(dǎo)對齊也開始有一些論文在提到:

CVPR 2025中的論文《Magma: A Foundation Model for Multimodal AI Agents》中的預(yù)訓(xùn)練學(xué)習(xí)任務(wù)SoM和ToM。

Set-of-Mark (SoM) for Action Grounding,在圖像中標(biāo)注可操作區(qū)域(如 GUI 中的可點擊按鈕),幫助模型學(xué)習(xí)如何定位和識別這些區(qū)域;在每個圖像中,提取一組候選區(qū)域或點,并在這些位置上標(biāo)注數(shù)字標(biāo)簽,形成一個新的標(biāo)記圖像。模型需要從這些標(biāo)記中選擇正確的標(biāo)記,從而顯著簡化了行動定位任務(wù)。

Trace-of-Mark (ToM) for Action Planning,在視頻中標(biāo)注動作軌跡,幫助模型學(xué)習(xí)如何預(yù)測未來的動作。在視頻序列中,提取每個幀中的標(biāo)記位置,并預(yù)測這些標(biāo)記在未來幀中的軌跡。這不僅使模型能夠理解視頻中的時間動態(tài),還能“提前規(guī)劃”未來的動作。

訓(xùn)練數(shù)據(jù)分布優(yōu)化 

1. 在不同模態(tài)的不同語義層級設(shè)計對齊約束

論文《DenseFusion-1M: Fusing Multi-visual Experts for Fine-grained Understanding》提出了一種名為“Perceptual Fusion”的方法,使用低成本但高效的字幕引擎生成詳盡準(zhǔn)確的圖像描述,便于生成不同語義粒度的更高質(zhì)量的圖像-文本數(shù)據(jù)集。

有一個非常關(guān)鍵的視覺專家集成(Mixture of Visual Experts),可以利用多種視覺專家模型來提供圖像理解的中間信息。視覺專家一共包括下面四類:

  • 圖像標(biāo)注模型(Image Tagging Model):提供場景級別的理解。
  • 目標(biāo)檢測模型(Object Detection Model):精確檢測圖像中的物體。
  • 文本識別模型(Text Recognition Model):識別圖像中的所有文本元素。
  • 世界知識(World Knowledge):提供背景信息和細節(jié),增強模型的知識密度。

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

那么在做對齊的時候從局部和全局入手,局部可以對齊圖像區(qū)域與文本單詞(如目標(biāo)檢測框與名詞短語);從全局對齊整體圖像與句子語義,避免細節(jié)丟失。

2. 主動學(xué)習(xí)實現(xiàn)更平衡的數(shù)據(jù)選擇

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

這里之前的文章也有提過,使用Shapley值來估計每個模態(tài)對最終多模態(tài)預(yù)測的貢獻,不需要真實標(biāo)簽。

通過計算模型輸出(即預(yù)測概率)在包含和不包含某個模態(tài)特征時的變化,來估計該模態(tài)特征的邊際貢獻,然后對所有可能的子集選擇取平均值,從而得到該模態(tài)的Shapley值。

論文《Towards Balanced Active Learning for Multimodal Classification》  把模態(tài)貢獻定義為該模態(tài)的Shapley值的絕對值與所有模態(tài)的Shapley值絕對值之和的比值。并且提出了三個原則:

1)優(yōu)先選擇貢獻更平衡的樣本:如果兩個多模態(tài)數(shù)據(jù)樣本的傳統(tǒng)主動學(xué)習(xí)(CAL)策略的獲取分數(shù)相等,那么具有更平衡單模態(tài)貢獻的樣本應(yīng)具有更高的平衡多模態(tài)主動學(xué)習(xí)(BMMAL)策略的獲取分數(shù)。

2)減少強模態(tài)和弱模態(tài)數(shù)據(jù)樣本平均獲取分數(shù)的差距:為了避免偏向強模態(tài)的數(shù)據(jù)選擇,應(yīng)減少強模態(tài)主導(dǎo)的數(shù)據(jù)樣本和弱模態(tài)主導(dǎo)的數(shù)據(jù)樣本之間的平均獲取分數(shù)的差距。

3)保持模態(tài)貢獻與獲取分數(shù)的正比關(guān)系:為了防止偏向弱模態(tài)的數(shù)據(jù)選擇,需要確保每個模態(tài)對獲取分數(shù)函數(shù)的貢獻與其對模型輸出在樣本級別的貢獻成正比。

因此在訓(xùn)練時結(jié)合此原則可以調(diào)整訓(xùn)練方法進行選擇:

1)調(diào)整梯度嵌入:首先計算多模態(tài)分類器的梯度嵌入,然后根據(jù)每個模態(tài)的貢獻比例,分別對每個單模態(tài)的梯度嵌入進行縮放。具體來說,對于兩個模態(tài)的情況,如果一個模態(tài)的貢獻大于另一個模態(tài),那么其對應(yīng)的梯度嵌入會被乘以一個權(quán)重,該權(quán)重小于1且與模態(tài)貢獻的差異成正比。這樣,不平衡的樣本的梯度嵌入的幅度會被抑制,從而降低它們被K-Means++算法選擇的可能性。

2)樣本選擇:最后,使用K-Means++算法對調(diào)整后的梯度嵌入進行聚類,選擇具有顯著影響的多樣化多模態(tài)數(shù)據(jù)樣本用于模型訓(xùn)練。

3.  引導(dǎo)偏好優(yōu)化(BPO),懲罰某一模態(tài)的依賴行為

可以通過引入擾動來減少某些模態(tài)的信息內(nèi)容,迫使模型在生成負面響應(yīng)時依賴特定模態(tài)。比如前面提到的兩個”模態(tài)偏差“的例子,棕色的北極熊和對于”房子在左邊嗎?“問題的不精準(zhǔn)回答,把這些生成的偏差響應(yīng)都作為負面樣本,形成了一個新的偏好優(yōu)化數(shù)據(jù)集。

論文 《 Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization》提出了噪聲感知偏好優(yōu)化算法(NaPO)動態(tài)識別噪聲數(shù)據(jù)并減少對這些樣本的優(yōu)化權(quán)重。具體實現(xiàn)如下:

1)結(jié)合MAE和BCE:NaPO通過負Box-Cox變換將DPO中的二元交叉熵(BCE)與噪聲魯棒的平均絕對誤差(MAE)結(jié)合起來。BCE收斂速度快但容易過擬合噪聲數(shù)據(jù),而MAE具有更好的噪聲魯棒性但收斂速度慢。通過調(diào)整噪聲魯棒性系數(shù)q,可以在兩者之間取得平衡。

2)動態(tài)調(diào)整噪聲魯棒性系數(shù):基于數(shù)據(jù)噪聲水平動態(tài)調(diào)整q,通過分析數(shù)據(jù)的獎勵邊際(reward margin),可以評估數(shù)據(jù)的質(zhì)量,并據(jù)此調(diào)整q的值。具體公式為:

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

其中,ψ(x,yw,yl)是獎勵邊際公式,α是歸一化因子,σ是sigmoid函數(shù)。通過這種方式,NaPO能夠根據(jù)數(shù)據(jù)的噪聲水平自適應(yīng)地調(diào)整其噪聲魯棒性。

需要注意的是,不同模態(tài)的數(shù)據(jù)融合的處理方法存在較大差異,比如文本與圖像、圖像與點云、視頻與軌跡等,細分領(lǐng)域的專業(yè)性較強;本篇只總結(jié)了一些比較常見的方法。


本文轉(zhuǎn)載自??瓦力算法學(xué)研所??,作者:喜歡瓦力的卷卷

已于2025-6-24 06:03:37修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦