【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴(kuò)展多模態(tài)大型語言模型 精華
一、結(jié)論寫在前面
近期,多模態(tài)大型語言模型(LLMs)的發(fā)展主要集中在通過增加文本-圖像配對(duì)數(shù)據(jù)和增強(qiáng)LLMs來提高多模態(tài)任務(wù)的性能。然而,這些擴(kuò)展方法計(jì)算成本高昂,且忽視了從視覺方面有效提升模型能力的重要性。受到混合專家(MoE)在LLMs中成功應(yīng)用的啟發(fā),該技術(shù)在訓(xùn)練過程中提高了模型的可擴(kuò)展性,同時(shí)保持推理成本與小型模型相似,論文將稀疏混合專家設(shè)計(jì)引入了多模態(tài)大型語言模型。
具體而言,論文用Top-K稀疏MoE塊替換了MLP連接器和視覺編碼器中的每個(gè)MLP塊。為了增強(qiáng)訓(xùn)練穩(wěn)定性,論文采用了三階段訓(xùn)練方法,在視覺指令調(diào)優(yōu)階段引入了再利用的MoE塊,以及輔助bzloss來維持專家的均衡加載。所有CuMo模型都在完全開源的數(shù)據(jù)集和基準(zhǔn)測試上進(jìn)行訓(xùn)練和評(píng)估。通過廣泛的實(shí)驗(yàn)和消融研究,論文驗(yàn)證了每個(gè)模塊中再利用的MoE塊的有效性。CuMo在多個(gè)競爭基準(zhǔn)測試中超過了同等模型大小組別內(nèi)的最新模型。
CuMo的代碼和模型權(quán)重已在??https://github.com/SHI-Labs/CuMo??上開源。
二、論文的簡單介紹
2.1 論文的背景
最近的多模態(tài)LLMs 通常將預(yù)訓(xùn)練的視覺編碼器和LLMs與視覺指令調(diào)整數(shù)據(jù)集成,以微調(diào)預(yù)訓(xùn)練的LLMs,增強(qiáng)其視覺理解能力。為了進(jìn)一步擴(kuò)展多模態(tài)LLMs,以往的努力主要集中在使用更廣泛的文本-圖像配對(duì)數(shù)據(jù)集訓(xùn)練模型,并采用更強(qiáng)大的LLMs,顯著增加了訓(xùn)練工作量。在視覺方面,最近的工作集中在利用多個(gè)視覺編碼器來豐富視覺內(nèi)容,采用更大的視覺編碼器,并使用先進(jìn)的視覺-語言連接器來提高多模態(tài)任務(wù)的性能。然而,這些技術(shù)導(dǎo)致了額外的參數(shù)數(shù)量增加,并為LLMs處理生成了額外的視覺token,使得擴(kuò)展變得低效。
在高效擴(kuò)展模型方面,混合專家(MoE)已成為現(xiàn)代大規(guī)模神經(jīng)網(wǎng)絡(luò),特別是在自然語言處理(NLP)中的事實(shí)標(biāo)準(zhǔn)框架。大多數(shù)大型語言模型(LLM)都是基于transformer 架構(gòu),其中稀疏MoE被用來替換密集MLP塊,采用Top-K稀疏門控MoE塊。最近,最先進(jìn)的開源和私有LLMs主要采用了稀疏MoE架構(gòu)。這些模型在訓(xùn)練過程中通過MoE設(shè)計(jì)進(jìn)行擴(kuò)展,同時(shí)保持相對(duì)較低的推理成本,因?yàn)橹挥羞x定的MLP專家在向前傳播過程中被激活。然而,MoE模型的開發(fā)和優(yōu)化主要針對(duì)LLMs,而使用MoE擴(kuò)展多模態(tài)LLMs,特別是在視覺方面的探索,仍然很大程度上未被探索。
受這些觀察的啟發(fā),論文引入了CuMo,它將Top-K稀疏門控MoE塊融入多模態(tài)LLMs的視覺編碼器和MLP連接器中,如圖2所示。論文還探索了CuMo相關(guān)的訓(xùn)練配方和方法。首先,論文預(yù)訓(xùn)練MLP連接器,并在不引入MoE架構(gòu)的情況下進(jìn)行預(yù)微調(diào),以穩(wěn)定后續(xù)的視覺指令調(diào)整階段,該階段引入了新的稀疏MoE塊。然后,論文通過協(xié)同升級(jí),將MLP連接器和視覺編碼器中的每個(gè)MLP塊替換為稀疏MoE塊。稀疏MoE塊中的每個(gè)專家都從預(yù)訓(xùn)練和預(yù)微調(diào)階段的相應(yīng)MLP塊初始化。此外,每個(gè)MoE塊包含一個(gè)從頭開始訓(xùn)練的Top-K路由器,在視覺指令調(diào)整階段選擇專家,路由器上的輔助損失用于維持專家負(fù)載的平衡。論文進(jìn)一步比較了協(xié)同升級(jí)的LLMs和預(yù)訓(xùn)練的MoE基LLMs。
2.2 論文的方法
2.2.1. 回顧稀疏MoE
稀疏MoE結(jié)構(gòu):以前的主流實(shí)踐[60]是替換密集MLP塊與稀疏門控專家混合塊。為了通過并行多個(gè)MLP塊擴(kuò)展模型,稀疏MoE塊包括一個(gè)路由網(wǎng)絡(luò)來從S個(gè)總專家中選擇Top-K專家。這個(gè)路由網(wǎng)絡(luò)有一個(gè)線性層來根據(jù)輸入計(jì)算歸一化權(quán)重矩陣以進(jìn)行投票。對(duì)于每個(gè)token,根據(jù)選擇前K個(gè)專家,并使用下式計(jì)算重新歸一化的權(quán)重 。每個(gè)選擇的專家都由一個(gè)多層感知器(MLP)塊表示,最終的輸出是通過對(duì)這些專家的加權(quán)求和獲得的。
從頭開始訓(xùn)練基于MoE的設(shè)計(jì)可能不穩(wěn)定且成本高昂。稀疏再利用[33]通過從預(yù)訓(xùn)練的密集檢查點(diǎn)中對(duì)應(yīng)的MLP塊初始化每個(gè)MoE塊中的專家,來解決這一挑戰(zhàn)。這種初始化方式為訓(xùn)練基于MoE的模型提供了一個(gè)更好的起點(diǎn),并且與從頭訓(xùn)練相比降低了訓(xùn)練成本。
圖4. CuMo的訓(xùn)練階段。第一階段涉及預(yù)訓(xùn)練MLP以獲得更好的對(duì)齊。隨后,預(yù)微調(diào)階段訓(xùn)練所有參數(shù)作為下一階段的預(yù)熱。最后,每個(gè)MoE塊內(nèi)的MLP專家從相應(yīng)MLP塊的權(quán)重初始化,隨后在視覺指令調(diào)優(yōu)階段訓(xùn)練所有參數(shù)
2.2.2. CuMo架構(gòu)
MLP連接器中的稀疏MoE: MLP連接器將視覺token轉(zhuǎn)換為單詞嵌入空間,對(duì)齊視覺和文本token之間的維度。視覺語言連接器的有效架構(gòu)是一個(gè)包含兩個(gè)線性層的MLP塊。論文從單個(gè)MLP塊開始,將其替換為Top-K稀疏MoE塊,結(jié)合Top-K路由器和一組專家將視覺token投影到單詞嵌入空間。
視覺編碼器中的稀疏MoE: 視覺編碼器提取圖像特征作為視覺token序列,用于在LLMs中進(jìn)行推理。CLIP是多模態(tài)LLM最流行的預(yù)訓(xùn)練視覺編碼器之一,因?yàn)樗诖笠?guī)模圖像-文本對(duì)上進(jìn)行了預(yù)訓(xùn)練,適合處理多模態(tài)用途的圖像。CLIP的視覺編碼部分是一個(gè)ViT模型,其轉(zhuǎn)換器編碼器中有連續(xù)的MLP塊。論文將每個(gè)MLP塊替換為Top-K稀疏MoE塊,保留MoE塊輸出的跳躍連接。
LLM中的稀疏MoE: 在使用MoE的LLM方面,論文將共升級(jí)的LLM與預(yù)訓(xùn)練的基于MoE的LLM進(jìn)行比較。論文從Mistral-7B開始,升級(jí)的Mistral-7B-MoE在某些基準(zhǔn)測試中略微優(yōu)于Mistral-7B。然而,考慮到從Mistral-7B升級(jí)的專家的知識(shí)庫有限,論文將其與具有多樣化知識(shí)庫預(yù)訓(xùn)練專家的預(yù)訓(xùn)練Mixtral 8x7B進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,預(yù)訓(xùn)練的Mixtral 8x7B顯著優(yōu)于Mistral-7B-MoE。因此,LLM沒有與CLIP和MLP連接器共升級(jí),因?yàn)樗鼛砹诉呺H改進(jìn),但參數(shù)增加了很多。
2.2.3. 訓(xùn)練配方
共升級(jí)MoE塊:論文從從頭開始訓(xùn)練添加的MoE塊開始,而模型在收斂方面遇到困難。嘗試通過降低學(xué)習(xí)率來解決這個(gè)問題,但結(jié)果比基線更差。因此,論文采用共升級(jí)方法,將每個(gè)集成稀疏門控MoE塊的模塊初始化為預(yù)訓(xùn)練的MLP,以替換相應(yīng)的MLP塊,如圖3所示。
三階段訓(xùn)練:為了進(jìn)一步增強(qiáng)訓(xùn)練穩(wěn)定性,論文為CuMo模型采用了一種三階段訓(xùn)練策略,如圖4所示。在第一階段,論文只預(yù)訓(xùn)練MLP連接器,因?yàn)橐曈X編碼器和LLM已經(jīng)在大型數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。在第二階段預(yù)微調(diào)期間,論文使用高質(zhì)量的標(biāo)題數(shù)據(jù)訓(xùn)練所有參數(shù),以在引入MoE塊的后續(xù)階段之前預(yù)熱整個(gè)模型。第三階段涉及視覺指令微調(diào),其中多模態(tài)LLM通過升級(jí)的MoE塊進(jìn)行擴(kuò)展,并在視覺指令微調(diào)數(shù)據(jù)上進(jìn)行訓(xùn)練。
*表1. CuMo與其他最先進(jìn)的多模態(tài)LLM在競爭基準(zhǔn)上的比較。這些模型根據(jù)基礎(chǔ)LLM的大小分組。由于空間有限,基準(zhǔn)測試是雙行的:SQA-IMG [50];TextVQA [62];GQA [24];POPE [40];MME [19];MMBench [49];MMVet [71];VQAv2 [21];LLaVA-Wild [47];SEED-IMG [37];MMMU [72];MathVista [51]。
激活參數(shù)。數(shù)字?是通過查詢GPT API的三次推理運(yùn)行平均得到的*
損失函數(shù):為了在每個(gè)MoE塊中保持專家之間的負(fù)載平衡,論文采用了基于語言建模交叉熵?fù)p失的輔助損失。輔助損失包括加載平衡損失和路由器z損失[77]。
2.3 論文的效果
論文在一個(gè)混合的開源數(shù)據(jù)集上訓(xùn)練CuMo模型,這些數(shù)據(jù)集被轉(zhuǎn)換為視覺指令調(diào)整格式。然后,論文在各種競爭性的VQA基礎(chǔ)和指令遵循基礎(chǔ)的基準(zhǔn)上對(duì)CuMo模型的性能進(jìn)行全面評(píng)估。此外,論文對(duì)每個(gè)模塊進(jìn)行消融研究,使用升級(jí)的MoE塊,并對(duì)結(jié)果進(jìn)行定性分析。
2.3.1. 實(shí)現(xiàn)細(xì)節(jié)
訓(xùn)練數(shù)據(jù)集 在預(yù)訓(xùn)練期間,論文僅使用LLaVA-558K [47]來訓(xùn)練MLP連接器,以獲得更好的對(duì)齊。在隨后的預(yù)微調(diào)階段,使用來自ALLaVA 的詳細(xì)的圖像標(biāo)題數(shù)據(jù)來預(yù)熱多模態(tài)LLM的所有參數(shù)。對(duì)于最終的視覺指令調(diào)整階段,使用包括LLaVA-665K 、ShareGPT4V 、LAION-GPT-V 、DocVQA 、ChartQA 、AI2D 、InfoVQA 、SynDog-EN 、ALLaVA和LIMA在內(nèi)的混合數(shù)據(jù)集來訓(xùn)練帶有升級(jí)MoE塊的CuMo模型。視覺指令調(diào)整的總數(shù)據(jù)大小約為165萬,所有訓(xùn)練數(shù)據(jù)都是公開可訪問的。
表2. CuMo Mistral-7B與其他具有有限訓(xùn)練數(shù)據(jù)的多模態(tài)LMM模型的比較
表3. 對(duì)MLP-MoE模塊的消融研究。每一行代表一個(gè)不同的配置,使用?和+符號(hào)token更改或添加。在表1中為MLP-MoE模塊采用的設(shè)置以淺藍(lán)色背景突出顯示
表4. 對(duì)CLIP-MoE模塊的消融研究。所有CLIP中的MoE塊都使用升級(jí)進(jìn)行初始化
表5. 對(duì)LLM-MoE模塊的消融研究。Mixtral 8×7B在很大程度上優(yōu)于升級(jí)的Mistral MoE模型。
評(píng)估基準(zhǔn):CuMo模型的評(píng)估主要集中在學(xué)術(shù)VQA基礎(chǔ)數(shù)據(jù)集,如VQAv2 、GQA 、Science-QA 和TextVQA ,以及指令遵循基礎(chǔ)的LMM基準(zhǔn),包括POPE 、MME 、MM-Bench 、SEED-Bench 、LLaVA-Wild和MM-Vet。此外,還評(píng)估了具有挑戰(zhàn)性的MMMU [72]和MathVista [51]數(shù)據(jù)集,以評(píng)估多模態(tài)LLM的視覺推理能力。
訓(xùn)練設(shè)置:論文采用預(yù)訓(xùn)練的CLIP ViT-L 作為視覺編碼器,一個(gè)兩層MLP作為視覺-語言連接器,以及Mistral-7B 作為LLM,以遵循LLaVA v1.5 建立基線模型。論文僅使用LLaVA-558K作為預(yù)訓(xùn)練數(shù)據(jù),使用LLaVA-665K 作為視覺指令調(diào)整數(shù)據(jù)來訓(xùn)練基線模型,并進(jìn)行消融研究以進(jìn)行比較。學(xué)習(xí)率設(shè)置為1e-3用于預(yù)訓(xùn)練MLP連接器,并降低到2e-5用于MLP連接器和CLIP的視覺指令調(diào)整。為了在擴(kuò)展額外數(shù)據(jù)后進(jìn)一步穩(wěn)定視覺指令調(diào)整過程,最終結(jié)果中CuMo模型的所有參數(shù)的學(xué)習(xí)率降低到2e-6。
評(píng)估設(shè)置:在評(píng)估過程中,論文遵循LLaVA系列中概述的設(shè)置,為所有基準(zhǔn)測試采用貪婪解碼策略。
數(shù)據(jù)和問題被轉(zhuǎn)換成視覺指令,以提示多模態(tài)大型語言模型(LLMs)。對(duì)于使用GPT API進(jìn)行評(píng)估的基準(zhǔn)測試,論文為LLaVA-Wild采用gpt-4-0613,為MathVista[51]采用gpt-3.5-turbo。
2.3.2. 主要結(jié)果
與最先進(jìn)的(SoTA)多模態(tài)LLMs的比較:在表1中,論文展示了CuMo模型與其他基于指令跟隨的最先進(jìn)多模態(tài)LLMs的比較。論文根據(jù)基礎(chǔ)LLMs的大小對(duì)模型進(jìn)行分類,包括7B模型、13B模型和7B MoE模型。CuMo Mistral-7B在多個(gè)基準(zhǔn)測試中超越了其他基于7B的最先進(jìn)多模態(tài)LLMs。此外,CuMo Mistral-7B模型的性能與許多基于13B的多模態(tài)LLMs相當(dāng)。在Mixtral-8×7B模型的情況下,CuMo實(shí)現(xiàn)了與SPHINX-MoE、MM1和Mini-Gemini相當(dāng)?shù)慕Y(jié)果。由于許可限制,論文沒有在論文的實(shí)驗(yàn)中使用基于LLaMA的LLMs。
在有限訓(xùn)練數(shù)據(jù)下的比較:為了進(jìn)一步評(píng)估共同升級(jí)的MoE塊的有效性,論文在表2中展示了在有限訓(xùn)練數(shù)據(jù)下訓(xùn)練的純CuMo mistral-7B。結(jié)果顯示,CuMo在相同的訓(xùn)練數(shù)據(jù)下超越了其他7B模型,并達(dá)到了與LLaVA-v1.5 Vicuna-13B相當(dāng)?shù)男阅堋?/p>
2.3.3. 消融研究
將MLP連接器升級(jí)為MLP-MoE:論文通過將MLP連接器替換為升級(jí)的MLP-MoE來開始消融研究,如表3所示。論文從一個(gè)Top 2-in-4路由器開始,并從頭開始訓(xùn)練MoE塊,這導(dǎo)致在所有基準(zhǔn)測試上的性能明顯下降。然后,論文采用升級(jí)策略來初始化MLP專家。論文觀察到相對(duì)于基線有邊際改進(jìn),考慮到每個(gè)專家只包含兩個(gè)線性層。隨后,將bzloss納入以確保MLP-MoE中專家的平衡加載,在MMVet上產(chǎn)生了明顯的改進(jìn)。然而,使用帶有升級(jí)和bzloss的Top 2-in-8路由器導(dǎo)致性能略有下降,可能是由于訓(xùn)練強(qiáng)大的、平衡的八個(gè)專家所需的視覺指令調(diào)整數(shù)據(jù)有限。
增強(qiáng)CLIP與CLIP-MoE:在表4中,最初基于MLP-MoE解凍CLIP在TextVQA和MMVet基準(zhǔn)測試上導(dǎo)致了明顯的改進(jìn)。然而,從頭開始訓(xùn)練添加的Top2-in-4 MoE塊在CLIP中被證明是不成功的,因?yàn)榧词故褂媒档偷膶W(xué)習(xí)率,模型也無法收斂。因此,在視覺指令調(diào)整階段采用升級(jí)的MoE塊在TextVQA、MMVet和SEED基準(zhǔn)測試上產(chǎn)生了進(jìn)一步的改進(jìn)。
升級(jí)LLM與預(yù)訓(xùn)練LLM-MoE:在視覺部分替換所有MLP塊為稀疏門控MoE塊后,論文進(jìn)一步研究了LLM中MoE架構(gòu)的使用。從Mistral-7B模型開始,論文首先將學(xué)習(xí)率降低到2e-6以設(shè)置基線和隨后的實(shí)驗(yàn),因?yàn)?e-5的學(xué)習(xí)率會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。然后,論文將每個(gè)MLP塊與一個(gè)稀疏門控MoE塊升級(jí),每個(gè)專家的權(quán)重從預(yù)訓(xùn)練的MLP塊初始化。如表5所示,升級(jí)的Mistral-4×7B和8×7B在除了TextVQA之外略微超越了Mistral-7B模型。然而,考慮到升級(jí)的專家顯著增加了參數(shù)而沒有引入新知識(shí),論文將升級(jí)的Mistral 8×7B替換為Mixtral 8×7B[30]。在Mixtral 8×7B中,所有專家層都在大規(guī)模語言數(shù)據(jù)上預(yù)訓(xùn)練,提供了比升級(jí)更優(yōu)越的初始化。結(jié)果表明,CuMo Mixtral-8x7B顯著超越了其升級(jí)的對(duì)應(yīng)物,并在最終模型中使用bzloss來維持專家的平衡加載。
多分辨率視覺特征:將多分辨率輸入納入對(duì)于增強(qiáng)多模態(tài)LLMs對(duì)圖像內(nèi)容的理解至關(guān)重要。遵循S2[61]中概述的方法,論文將多分辨率輸入引入到CLIP中,并在通道上連接特征圖,以保持與低分辨率輸入一致的總視覺token數(shù)。如表6所示,3×和1×的經(jīng)驗(yàn)組合產(chǎn)生了最佳性能,論文為最終的CuMo模型采用了這種配置。
預(yù)微調(diào)階段:之前的消融研究直接在MLP連接器預(yù)訓(xùn)練后進(jìn)行,導(dǎo)致在視覺指令調(diào)優(yōu)期間觀察到訓(xùn)練不穩(wěn)定性。為了解決這個(gè)問題,論文引入了一個(gè)利用高質(zhì)量圖像描述數(shù)據(jù)的預(yù)微調(diào)階段,在這個(gè)階段所有參數(shù)都被解凍。在表7中,論文利用ALLaVA數(shù)據(jù)集進(jìn)行這個(gè)階段的訓(xùn)練。結(jié)果表明,ALLaVA數(shù)據(jù)證明是一個(gè)更好的選擇,它提供的描述數(shù)據(jù)雖然更少但質(zhì)量更高,最終導(dǎo)致性能的提升。
圖6. 用戶與多模態(tài)LLMs在挑戰(zhàn)性圖像上的對(duì)話。論文強(qiáng)調(diào)了多模態(tài)LLMs回答中的正確答案和幻覺
2.3.4. 定性分析
專家分布: 如圖5所示,論文可視化了CLIP-MoE中選定層的MoE塊中的專家分布。分析的數(shù)據(jù)集是MME基準(zhǔn)測試集。分布顯示,在推理過程中選擇的專家均勻分布在各層,進(jìn)一步證明了輔助損失在維持負(fù)載平衡方面的有效性。
對(duì)話比較: 在圖6中,論文對(duì)比了CuMo-Mistral-7B、LLaVA-Yi-34B和MiniGemini-Yi-34B的響應(yīng)。它展示了CuMo-Mistral7B能夠有效地執(zhí)行指令,并且主要能對(duì)源自復(fù)雜場景的具有挑戰(zhàn)性的問題給出正確答復(fù)。然而,CuMo也展現(xiàn)了一些產(chǎn)生幻覺的情況,比如回答"2個(gè)人站在桌子上",這凸顯了需要進(jìn)一步研究來減少CuMo中的幻覺。
論文標(biāo)題:CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
論文鏈接:???https://arxiv.org/pdf/2405.05949??
本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺
