高效評(píng)估多模態(tài)預(yù)訓(xùn)練對(duì)齊質(zhì)量,中科大提出模態(tài)融合率MIR
本文作者來(lái)自于中國(guó)科學(xué)技術(shù)大學(xué),上海人工智能實(shí)驗(yàn)室以及香港中文大學(xué)。其中第一作者黃啟棟為中國(guó)科學(xué)技術(shù)大學(xué)三年級(jí)博士生,主要研究方向包括多模態(tài)大模型(MLLM)和可信 / 高效 AI,師從張衛(wèi)明教授。
是否還在苦惱如何評(píng)估自己預(yù)訓(xùn)練好的多模態(tài) LLM 的性能?是否還在使用并不靠譜的損失 Loss,困惑度 Perplexity(PPL),上下文 In-Context 評(píng)估,亦或是一遍遍地通過(guò)有監(jiān)督微調(diào)(SFT)之后下游測(cè)試基準(zhǔn)的分?jǐn)?shù)來(lái)判斷自己的預(yù)訓(xùn)練是否有效?
來(lái)自中科大等單位的研究團(tuán)隊(duì)共同提出了用來(lái)有效評(píng)估多模態(tài)大模型預(yù)訓(xùn)練質(zhì)量的評(píng)估指標(biāo) Modality Integration Rate(MIR),能夠快速準(zhǔn)確地評(píng)估多模態(tài)預(yù)訓(xùn)練的模態(tài)對(duì)齊程度。
- 標(biāo)題:Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
- 論文:https://arxiv.org/abs/2410.07167
- 代碼:https://github.com/shikiw/Modality-Integration-Rate
研究背景
預(yù)訓(xùn)練(Pre-training)是現(xiàn)有多模態(tài)大模型(MLLM)在訓(xùn)練過(guò)程中一個(gè)不可或缺的階段。不同于大型語(yǔ)言模型(LLM)的預(yù)訓(xùn)練,多模態(tài)預(yù)訓(xùn)練的主要目標(biāo)聚焦于不同模態(tài)之間的對(duì)齊。隨著近兩年的發(fā)展,多模態(tài)預(yù)訓(xùn)練已經(jīng)從輕量級(jí)圖像 - 文本對(duì)的對(duì)齊,發(fā)展為基于廣泛多樣的多模態(tài)數(shù)據(jù)進(jìn)行深層次模態(tài)集成,旨在構(gòu)建更通用的多模態(tài)大模型。
然而,多模態(tài)預(yù)訓(xùn)練的評(píng)估對(duì)于業(yè)界仍然是一個(gè)未被充分解決的挑戰(zhàn)?,F(xiàn)有最常用的評(píng)估手段為通過(guò)進(jìn)一步的有監(jiān)督微調(diào)(SFT)來(lái)測(cè)試在下游基準(zhǔn)上的模型能力,但是其伴隨的計(jì)算成本和復(fù)雜性不容忽視。另外有一些方法通過(guò)借用 LLM 的預(yù)訓(xùn)練評(píng)估指標(biāo),包括損失值 Loss、困惑度 PPL 和上下文 In-Context 評(píng)估等方式,在多模態(tài)預(yù)訓(xùn)練評(píng)估中都被證明是不穩(wěn)定和不可靠的。
研究者們通過(guò)在不同規(guī)模的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)上預(yù)訓(xùn)練 LLaVA-v1.5 的 7B 模型,用上述不同的方法評(píng)估其預(yù)訓(xùn)練質(zhì)量,并與有監(jiān)督微調(diào)之后在下游測(cè)試基準(zhǔn)上的得分進(jìn)行對(duì)照。如下圖所示,損失值 Loss、困惑度 PPL、以及上下文 In-Context 評(píng)估都無(wú)法準(zhǔn)確的對(duì)應(yīng) SFT 之后在下游測(cè)試基準(zhǔn)上的模型性能,而本文提出的模態(tài)融合率 MIR 則能完美對(duì)應(yīng)。
實(shí)際上,PPL 等指標(biāo)的不適用主要由于 LLM 與 MLLM 在預(yù)訓(xùn)練目標(biāo)上的差異。LLM 預(yù)訓(xùn)練主要學(xué)習(xí)建模語(yǔ)言的基本模式,而 MLLM 預(yù)訓(xùn)練則側(cè)重于縮小不同模態(tài)之間的差距。如果用多個(gè)不同來(lái)源的圖像和文本數(shù)據(jù),并在 LLaVA-v1.5 的大模型輸入層去可視化它們的特征分布,會(huì)發(fā)現(xiàn)盡管圖像或文本內(nèi)容多樣,但在每種模態(tài)內(nèi),它們的分布相對(duì)均勻,而模態(tài)之間則存在明顯的分布差距,如下圖(左)所示。
如上圖(右)所示,通過(guò)進(jìn)一步計(jì)算現(xiàn)有 MLLM 的在大模型不同層中的模態(tài)差距,會(huì)觀察到淺層的時(shí)候仍然有較大差距,但當(dāng)?shù)皆絹?lái)越深的層,這一差距逐漸縮小,這表明 MLLM 在訓(xùn)練過(guò)程中仍需要學(xué)習(xí)對(duì)齊不同分布,以理解新引入的模態(tài)。
技術(shù)方案
本文提出模態(tài)融合率 MIR,能夠用于評(píng)估多模態(tài)預(yù)訓(xùn)練的跨模態(tài)對(duì)齊質(zhì)量。該指標(biāo)能準(zhǔn)確反映各種預(yù)訓(xùn)練配置(如數(shù)據(jù)、策略、訓(xùn)練配方和架構(gòu)選擇)對(duì)模型性能的影響,而無(wú)需再進(jìn)行有監(jiān)督微調(diào) SFT 并于下游測(cè)試基準(zhǔn)上評(píng)估。
對(duì)于一個(gè)預(yù)訓(xùn)練的多模態(tài)大模型 M = (E, P, D),其中 E 表示視覺(jué)編碼器,P 表示視覺(jué)語(yǔ)言映射模塊,D = (D_t, F) 表示包含分詞器 D_t 和 K 層 transformer 的底座大模型 F。當(dāng)輸入一組 “圖像 - 文本” 對(duì) {v_n, t_n}, n = 1,..., N 給模型,會(huì)從大模型第 k 層 F_k 得到該層關(guān)于數(shù)據(jù)對(duì) {v_n, t_n} 的視覺(jué) token 特征 f_k^{v_n} 和文本 token 特征 f_k^{t_n},即
研究者們將多個(gè)樣本的特征 f_k^{v_n} 合并到一起得到 f_k^v,同理 f_k^{t_n} 可以合并得到 f_k^t,并且定義 f_{k, i}^v 為第 i 個(gè)視覺(jué) token 特征,f_{k, j}^t 為第 j 個(gè)語(yǔ)言 token 特征。
文本中心歸一化
由于越深層的 token 特征在數(shù)值絕對(duì)尺度上明顯比淺層的大,并且不同模態(tài)特征間在絕對(duì)尺度上存在差異,直接使用 Frechet 距離等度量函數(shù)、或是把所有 token 特征統(tǒng)一歸一化后再使用度量函數(shù)都是不合適的。為此,研究者們?cè)O(shè)計(jì)了一種文本中心的歸一化方法,對(duì)于 f_k^t 中的總共 s 個(gè)文本 token 特征,計(jì)算尺度因子:
然后對(duì)第 k 層對(duì)應(yīng)的視覺(jué)特征和文本特征都使用該因子進(jìn)行放縮,在保證跨層對(duì)比合理性的同時(shí),保持模態(tài)間絕對(duì)尺度帶來(lái)的差異。
離群值篩除
許多工作如 StreamLLM [1]、Massive Activations [2] 都提到,有極少部分絕對(duì)數(shù)值異常大的 token 會(huì)用來(lái)在注意力模塊的 SoftMax 計(jì)算中使總和填充到 1。為了避免此類(lèi)離群值對(duì)整體統(tǒng)計(jì)分布的影響,這里使用 “3-sigma” 的準(zhǔn)則對(duì)于所有 f_k^v 和 f_k^t 中的離群值進(jìn)行篩除。以下用 omega 表示這個(gè)操作。
模態(tài)融合率
在經(jīng)過(guò)文本中心歸一化以及離群 token 篩除之后,模態(tài)融合率 MIR 可以通過(guò)累和大模型逐層的模態(tài)域間距離來(lái)得到:
其中,mu_{v, k} 和 mu_{t, k} 分別是處理后視覺(jué) token 特征和文本 token 特征的均值,而
對(duì)應(yīng)于各自的協(xié)方差計(jì)算。最后的平方根項(xiàng)通常在 PyTorch 中計(jì)算緩慢,這是由于大模型的特征維度普遍較高。因此研究者們使用 Newton-Schulz 迭代近似的方式估計(jì)該項(xiàng),在大大提高計(jì)算速度的同時(shí),保證實(shí)踐中誤差不超過(guò) 1%??傮w上來(lái)看,越低的 MIR 代表著越高的預(yù)訓(xùn)練模態(tài)對(duì)齊質(zhì)量。
可學(xué)習(xí)模態(tài)校準(zhǔn)
在對(duì) MIR 的探究推導(dǎo)過(guò)程中,證明了底座大模型在訓(xùn)練過(guò)程中展現(xiàn)出的在淺層逐漸縮小模態(tài)間差距的傾向。這促使研究者們重新思考多模態(tài)大模型中一些繼承自大型語(yǔ)言模型的設(shè)計(jì)是否不利于促進(jìn)跨模態(tài)對(duì)齊。為此,研究者們提出了 MoCa,一個(gè)可插拔輕量級(jí)的可學(xué)習(xí)模塊,來(lái)促進(jìn)跨模態(tài)對(duì)齊。簡(jiǎn)單來(lái)說(shuō),即對(duì)于每一層的視覺(jué) token 特征單獨(dú)進(jìn)行一個(gè)可學(xué)習(xí)的縮放和偏移:
其中縮放向量 u 初始化為全一向量,偏移向量 v 初始化為全 0 向量,兩者隨著模型一起訓(xùn)練,但是基本不增加額外參數(shù)量。
實(shí)驗(yàn)探究
研究者們首先展示了 MIR 在在擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)規(guī)模時(shí)衡量預(yù)訓(xùn)練質(zhì)量的有效性。這里采用兩種預(yù)訓(xùn)練策略:1) 僅訓(xùn)練 MLP 投影模塊;2) 解鎖視覺(jué)編碼器后半部分和整個(gè) LLM。在第一種策略下,SFT 后的性能在 800K~1M 數(shù)據(jù)規(guī)模時(shí)逐漸改善但趨于飽和。而在使用第二種策略時(shí),即使在 1.8M 數(shù)據(jù)規(guī)模下,性能仍持續(xù)顯著提升。該結(jié)果說(shuō)明了了 MIR 在擴(kuò)大預(yù)訓(xùn)練數(shù)據(jù)時(shí)的有效性,也說(shuō)明了適當(dāng)?shù)胤砰_(kāi)視覺(jué)編碼器或 LLM 在大規(guī)模數(shù)據(jù)上有持續(xù)改善預(yù)訓(xùn)練的效果。
研究者們也探究了 MIR 在超參數(shù)調(diào)整、預(yù)訓(xùn)練策略選擇上的有效性。在超參數(shù)調(diào)整方面,研究者們發(fā)現(xiàn) MIR 與 SFT 后下游測(cè)試基準(zhǔn)性能之間存在正相關(guān),這說(shuō)明 MIR 直接反映不同訓(xùn)練超參數(shù)對(duì)于在預(yù)訓(xùn)練質(zhì)量的影響,以后對(duì)照 MIR 就可以實(shí)現(xiàn)預(yù)訓(xùn)練調(diào)參煉丹!
在訓(xùn)練策略方面,研究者們探討了 MIR 如何指導(dǎo)選擇有效的預(yù)訓(xùn)練放開(kāi)策略。結(jié)果顯示,放開(kāi) LLM 顯著降低了 MIR,且顯著增強(qiáng)下游基準(zhǔn)上的表現(xiàn)。
同時(shí),MIR 也可以幫助選擇一些有利于跨模態(tài)對(duì)齊的模塊設(shè)計(jì)。如下圖所示,當(dāng)使用不同的視覺(jué)語(yǔ)言投影模塊結(jié)構(gòu)時(shí),MIR 可以很準(zhǔn)確的對(duì)應(yīng)到 SFT 之后的測(cè)試基準(zhǔn)性能。
同樣,所提出的可學(xué)習(xí)模態(tài)校準(zhǔn) MoCa 也可以有效幫助不同模型在下游測(cè)試基準(zhǔn)上漲點(diǎn),并取得更低的 MIR。
本文仍有較多其他方面的實(shí)驗(yàn)和探索,有興趣的同學(xué)可以參考原文!