電子科大、同濟大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力
一、結(jié)論寫在前面
下面介紹的論文來自:電子科技大學(xué)、新加坡科技設(shè)計大學(xué)、同濟大學(xué)、新加坡國立大學(xué)。
論文標(biāo)題:Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
論文鏈接:??https://arxiv.org/pdf/2406.17294??
代碼和數(shù)據(jù):??https://github.com/HZQ950419/Math-LLaVA??。
LLMs在文本數(shù)學(xué)問題解決方面展示了令人印象深刻的推理能力。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每個圖像包含有限的問題-答案對,未能充分利用視覺信息來增強多模態(tài)LLMs(MLLMs)的數(shù)學(xué)推理能力。
為了填補這一空白,論文通過從24個現(xiàn)有數(shù)據(jù)集中收集40K高質(zhì)量圖像及其問題-答案對,并合成320K新對,創(chuàng)建了MathV360K數(shù)據(jù)集,該數(shù)據(jù)集增強了多模態(tài)數(shù)學(xué)問題的廣度和深度。論文引入了基于LLaVA-1.5的Math-LLaVA模型,該模型通過MathV360K進行微調(diào)。
這一新穎方法顯著提升了LLaVA-1.5的多模態(tài)數(shù)學(xué)推理能力,實現(xiàn)了19個百分點的提升,并在MathVista的迷你測試分組上與GPT-4V表現(xiàn)相當(dāng)。此外,Math-LLaVA展示了增強的泛化能力,在MMMU基準(zhǔn)上取得了顯著進步。論文的研究強調(diào)了數(shù)據(jù)多樣性和合成在提升MLLMs數(shù)學(xué)推理能力中的重要性。
二、論文的簡單介紹
2.1 論文的背景
多模態(tài)數(shù)學(xué)推理任務(wù)要求模型解釋多樣化的圖像并應(yīng)用高級推理技能。盡管開源的多模態(tài)大型語言模型(MLLMs)如LLaVA和Mini-GPT4在視覺問答任務(wù)上表現(xiàn)良好,但它們在解決涉及視覺內(nèi)容的復(fù)雜數(shù)學(xué)問題方面仍不及專有的MLLMs。
提升多模態(tài)大型語言模型(MLLMs)數(shù)學(xué)推理能力的兩種常見方法是提示方法和微調(diào)方法。提示方法通過精心設(shè)計的提示利用MLLMs的潛在能力,而微調(diào)方法則使用從現(xiàn)實世界或高級LLMs(如GPT-4)生成的合成數(shù)據(jù)中收集的推理數(shù)據(jù)來調(diào)整模型參數(shù)。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含的問答對數(shù)量有限,未能充分利用視覺信息來增強MLLMs的多模態(tài)數(shù)學(xué)推理能力。
為了填補這一空白,論文從24個現(xiàn)有數(shù)據(jù)集中選取了40K張高質(zhì)量圖像及其對應(yīng)的問答對。這些圖像和問題涵蓋了代數(shù)、算術(shù)、幾何、邏輯、數(shù)值常識、科學(xué)和視覺問答等多個學(xué)科。選取標(biāo)準(zhǔn)基于圖像清晰度和理解復(fù)雜性。此外,論文提出了一種流程,基于這40K張圖像和種子查詢合成320K個新問答對。
2.2 數(shù)據(jù)合成
現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含有限的問答對,未能充分發(fā)掘視覺信息以增強MLLM的多模態(tài)數(shù)學(xué)推理能力。
為此,論文提出MathV360K,一個基于40K精選圖像和多子領(lǐng)域種子問答對合成的強大數(shù)據(jù)集。如圖1左側(cè)所示,論文首先從24個開源多模態(tài)問答數(shù)據(jù)集中,根據(jù)圖像清晰度和理解復(fù)雜度篩選出40K高質(zhì)量數(shù)據(jù)點。在第二步,如圖1右上方所示,論文嘗試充分挖掘圖像的視覺信息以生成額外問題。數(shù)據(jù)生成流程包括創(chuàng)建多樣化的新問題以充分發(fā)掘視覺信息、更復(fù)雜的問題以進一步提高推理能力,重述問題和未明確指定的問題以提高模型的魯棒性。通過數(shù)據(jù)生成流程,論文為選定的40K數(shù)據(jù)點收集了36萬條高質(zhì)量且多樣化的指令調(diào)優(yōu)數(shù)據(jù),以增強LLaVA-1.5開源模型的圖像理解和數(shù)學(xué)推理能力。
圖1:提出的多模態(tài)問答數(shù)據(jù)選擇與數(shù)據(jù)增強的整體流程圖。論文的數(shù)據(jù)選擇依賴于微調(diào)后的ViT作為圖像分類器。數(shù)據(jù)生成過程依賴于視覺-語言模型
2.2.1 多模態(tài)推理數(shù)據(jù)選擇
2.2.1.1 源數(shù)據(jù)
論文收集了24個視覺問答和多模態(tài)數(shù)學(xué)推理數(shù)據(jù)集,每個數(shù)據(jù)集針對特定的任務(wù)類型和視覺內(nèi)容。論文聚焦于需要高級推理的五種問題任務(wù)類型來編譯源數(shù)據(jù)集:圖表問答(FQA)、幾何問題解決(GPS)、數(shù)學(xué)文字問題(MWP)、教科書問答(TQA)和視覺問答(VQA)。附錄中的表5展示了每個源數(shù)據(jù)集的任務(wù)類型和視覺內(nèi)容的更多細(xì)節(jié)。
每個多模態(tài)訓(xùn)練樣本包含三個組成部分:一張圖像,一個文本問題,以及一個真實答案。從這種數(shù)據(jù)格式中,模型旨在捕捉視覺信息和問題語義以推理出最終答案。
2.2.1.2 圖像過濾與比例分配
在獲取24個源數(shù)據(jù)集后,論文根據(jù)以下標(biāo)準(zhǔn)有意識地從原始圖像中選擇數(shù)據(jù):(1)圖像的清晰度,因為質(zhì)量差的圖像會引入噪聲并干擾圖像語義的學(xué)習(xí);(2)圖像的理解復(fù)雜度,從簡單到復(fù)雜不等。通過將圖像分類為不同的復(fù)雜度級別并按比例選擇,論文可以形成一個具有適當(dāng)難度分布的訓(xùn)練集;(3)相應(yīng)文本問題數(shù)據(jù)的質(zhì)量,確保難度與圖像的理解復(fù)雜度相匹配。
論文微調(diào)了兩個Vision Transformer(ViT)模型,分別用于圖像清晰度和圖像理解復(fù)雜度的分類。由于缺乏標(biāo)注的圖像數(shù)據(jù),論文首先從源數(shù)據(jù)集中均勻且隨機地采樣了10K張圖像。這些圖像使用GPT-4V(OpenAI)進行清晰度和理解復(fù)雜度的標(biāo)注,論文設(shè)計的提示語如圖2所示。對于圖像清晰度,標(biāo)簽0表示模糊、質(zhì)量差的圖像,標(biāo)簽1表示清晰、質(zhì)量好的圖像。圖像理解復(fù)雜度由對象數(shù)量、它們的位置關(guān)系、是否需要數(shù)學(xué)計算、細(xì)節(jié)級別、紋理和材質(zhì)屬性決定。圖像被分為0、1、2和3四個評分,評分越低表示視覺上下文理解越容易?;谶@10K張標(biāo)注圖像,論文使用交叉熵?fù)p失訓(xùn)練了兩個ViT模型,并初始化了全連接層進行分類。論文首先使用微調(diào)后的圖像清晰度分類器對所有源訓(xùn)練數(shù)據(jù)集圖像進行分類,并過濾掉標(biāo)簽為0的圖像。表5顯示了過濾前(即訓(xùn)練圖像)和過濾后(即清晰圖像)的圖像數(shù)量。
接下來,論文使用圖像理解復(fù)雜度分類器對篩選后的圖像進行評分。表5顯示,大多數(shù)圖像被分類為中等復(fù)雜度,其次是簡單,最后是最復(fù)雜??紤]到簡單圖像更容易學(xué)習(xí),而復(fù)雜圖像更難且需要更多參考樣本,論文采用從簡單到復(fù)雜的漸進比例對前三個復(fù)雜度類別進行采樣。由于評分3的圖像最為稀缺,論文收集了所有這些圖像。論文根據(jù)總體復(fù)雜度2:3:4:1的比例選擇了40K數(shù)據(jù)點,確保從每個源數(shù)據(jù)集中均勻選擇不同復(fù)雜度的樣本。因此,論文獲得了40K高質(zhì)量(1, Q, A)真實數(shù)據(jù)點,這些數(shù)據(jù)點在圖像信息和問題難度上具有多樣性和漸進性。
圖2:論文在GPT-4V API中用于圖像標(biāo)注的提示模板。圖像清晰度被視為二元分類,而圖像理解復(fù)雜度被視為多分類
2.2.2 數(shù)據(jù)增強
2.2.2.1 挖掘圖像以生成QA
在選擇了40K多模態(tài)推理數(shù)據(jù)后,論文觀察到每張圖像通常對應(yīng)有限的問題。如圖1的表格圖像所示,原始問題往往僅關(guān)注局部算術(shù)差異。然而,還可以提出關(guān)于總體平均值、連續(xù)變化等問題,表明僅通過一個問題并未充分利用圖像的視覺信息。因此,論文可以通過為每張圖像生成更多的問題-答案對來進一步增強可用真實數(shù)據(jù)。
論文使用GPT-4V根據(jù)輸入圖像和原始問題生成額外的問題。如果以零樣本方式生成問題,它們往往聚焦于單方面的視覺場景,缺乏推理和數(shù)學(xué)技能。對于來自特定任務(wù)的圖像,如幾何圖形,應(yīng)提出更多任務(wù)特定的問題。因此,論文采用少樣本示范方法讓GPT-4V生成新問題。
對于屬于某一類別(FQA、GPS、MWP、TQA、VQA)的圖像,論文首先將每個任務(wù)類別內(nèi)的源數(shù)據(jù)集問題內(nèi)部聚類為五個類別。具體來說,使用TF-IDF獲取文本問題的特征,并使用K-Means進行聚類。如圖4所示,論文以IconQA為例。在訓(xùn)練集中對問題進行聚類后,每個聚類內(nèi)部代表一種特定的提問格式和模式,可供參考。通過從屬于某個任務(wù)類型的每個源數(shù)據(jù)集的每個聚類中隨機抽取一個問題來構(gòu)建示范。
生成輸入圖像新問題的提示如圖3所示。這種方法確保新生成的問題與原始參考問題的分布一致,同時提高多樣性。通過這種方法,論文基于選定的40K數(shù)據(jù)點生成了200K個新的問題-答案對。
2.2.2.2 原始問題增強
論文設(shè)計了提示來增強原始問題,如圖5所示。使用GPT-4V,論文生成了40K個更復(fù)雜的問題、40K個簡化的問題和40K個改寫的問題。增強主要集中在以下方面:
復(fù)雜性。更復(fù)雜的推理樣本可以增強微調(diào)LLMs(大型語言模型)的推理能力。論文的第一種方法是在原始圖像和相應(yīng)詢問的基礎(chǔ)上創(chuàng)建更復(fù)雜的問題。
邏輯一致性。魯棒的多模態(tài)大型語言模型(MLLMs)應(yīng)對給定圖像中的相似內(nèi)容提供一致的回答。論文采用GPT-4V,通過不同方式提問相同問題,確保答案不變。
圖3:論文使用的GPT-4V API提示模板為每個輸入圖像生成額外問題。演示通過從每個源數(shù)據(jù)集的每個集群中隨機抽取一個問題構(gòu)建,以適應(yīng)特定任務(wù)類型
語義欠規(guī)范。魯棒的MLLMs必須處理語義欠規(guī)范問題,即語言信號僅傳達(dá)了成功交流所需的部分信息。因此,論文在不影響與圖像結(jié)合的語義理解的前提下,簡化了原始問題。
2.3 實驗
2.3.1 模型與訓(xùn)練
論文采用LLaVA-1.5架構(gòu)作為基礎(chǔ)模型,主要包含Vicuna-v1.5語言模型(Team, 2023)和預(yù)訓(xùn)練的Vision Transformer(ViT)作為圖像編碼器。為了保持基礎(chǔ)模型卓越的視覺感知和描述能力,論文使用提出的MathV360K指令調(diào)優(yōu)數(shù)據(jù)集對LLaVA-1.5-13B進行微調(diào)。該數(shù)據(jù)集中多樣的問題模式和豐富的視覺內(nèi)容增強了模型的多模態(tài)數(shù)學(xué)推理能力,同時保持其通用的視覺-語言理解技能。
2.3.2 評估與指標(biāo)
論文采用零樣本方式,使用MathVista的minitest子集來評估論文的模型。該minitest子集包含1000個樣本,其中包括540道多項選擇題和460道需要以整數(shù)、浮點數(shù)或列表形式自由作答的問題。Math-Vista充分評估了MLLMs在多模態(tài)數(shù)學(xué)技能方面的能力,涵蓋代數(shù)推理(ALG)、算術(shù)推理(ARI)、幾何推理(GEO)、邏輯推理(LOG)、數(shù)值常識(NUM)、科學(xué)推理(SCD)和統(tǒng)計推理(STA)。此外,Math-Vista的問題可以分為以下子集:FQA、GPS、MWP、TQA和VQA。在評估過程中,論文首先利用GPT-4從響應(yīng)中提取預(yù)測選項或答案,然后報告答案準(zhǔn)確性,即判斷最終答案是否與標(biāo)準(zhǔn)答案匹配。此外,論文還使用MMMU基準(zhǔn)來評估論文模型的增強泛化能力。
MMMU基準(zhǔn)包含900個評估樣本,涵蓋六個核心學(xué)科:藝術(shù)與設(shè)計、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會科學(xué)以及技術(shù)與工程,適合評估MLLMs推理能力的泛化性。
2.3.3 實施細(xì)節(jié)
論文利用GPT-4V(GPT-4 Vision Preview)進行數(shù)據(jù)生成過程。為了對圖像清晰度和理解復(fù)雜度進行分類,論文微調(diào)了兩個ViT-Large-Patch16-224模型,每個模型的學(xué)習(xí)率為2e-4,訓(xùn)練周期為5個epoch。
圖 4:T-SNE 對 K-Means 的可視化。論文以 IconQA 為例。每個集群的提問格式可以作為參考,用于生成類似視覺內(nèi)容的新問題
對于 LLaVA-1.5-13B 模型,輸入圖像分辨率設(shè)置為 336 乘 336 像素。投影線性層和語言模型均可訓(xùn)練。在微調(diào)階段,論文設(shè)置學(xué)習(xí)率為 2e-5,采用批量大小為 16,并使用配備 80GB 內(nèi)存的 A800 GPU 進行 2 個周期的微調(diào)。
2.4 結(jié)果與分析
2.4.1 主要比較:MathVista
論文在 MathVista 基準(zhǔn)的 minitest 分割上比較了 Math-LLaVA 與其他多模態(tài)語言模型(MLLMs),結(jié)果如表 1 所示。如圖所示,開源 MLLMs 如 miniGPT4、instructBLIP和 LLaVA-1.5-13B 在多模態(tài)數(shù)學(xué)方面表現(xiàn)不佳,總體準(zhǔn)確率低于 30%。
與基礎(chǔ)模型 LLaVA-1.5-13B 相比,其多模態(tài)數(shù)學(xué)能力較差,Math-LLaVA 實現(xiàn)了 46.6% 的總體準(zhǔn)確率,顯著提升了 19%。更令人驚訝的是,提出的 Math-LLaVA 模型超過了閉源模型 Gemini 1.0 Pro和 Claude 3 Haiku,甚至達(dá)到了與 GPT-4V(OpenAI)相當(dāng)?shù)男阅?,最強大的閉源MLLMs。
Math-LLaVA在GPS子集上達(dá)到了57.7%的準(zhǔn)確率,超過了G-LLaVA-13B(Gao et al., 2023),后者已在170K高質(zhì)量的幾何圖像-標(biāo)題和問題-答案對上進行了訓(xùn)練。Math-LLaVA的優(yōu)越性能表明,高質(zhì)量、多樣化的多模態(tài)問題-答案對的數(shù)據(jù)選擇和合成在提高MLLM的多模態(tài)數(shù)學(xué)推理能力方面是有效的。
圖5:在論文的GPT-4V API中使用的提示模板,用于從原始問題文本生成更復(fù)雜、邏輯一致和欠規(guī)范的問題
2.4.2 Math-LLaVA的泛化能力
提出的Math-LLaVA模型在多模態(tài)數(shù)學(xué)推理任務(wù)中展示了出色的性能。為了評估其泛化能力,論文使用包含各種學(xué)科和領(lǐng)域的MMMU基準(zhǔn)進行了評估實驗。結(jié)果如表2所示。僅使用選定的數(shù)據(jù),Math-LLaVA在科學(xué)子集上的性能有所下降。
然而,論文可以觀察到,在MathV360K上微調(diào)的Math-LLaVA模型在所有六個子領(lǐng)域上都能顯著超越基礎(chǔ)模型LLaVA-1.5-13B,以及其他幾個開源MLLMs。這種優(yōu)越性能突顯了其向下的多模態(tài)理解和推理任務(wù)的泛化能力。此外,使用論文的合成數(shù)據(jù)進行微調(diào)的過程并沒有削弱模型在其他領(lǐng)域的推理能力;相反,它增強了其泛化能力。
表1:與MathVista基準(zhǔn)測試mini集上的基準(zhǔn)對比?;鶞?zhǔn)結(jié)果來自Lu et al. (2023)。"表示論文復(fù)現(xiàn)的LLaVA-1.5-13B結(jié)果。閉源和開源MLLMs中的最佳結(jié)果以粗體顯示。MathVista分為兩種方式:任務(wù)類型或數(shù)學(xué)技能,論文報告每個子集的準(zhǔn)確性
2.4.3 對合成數(shù)據(jù)集的過擬合問題
提出的數(shù)據(jù)合成流程為每張圖像生成額外的問答對,以增強MLLMs的數(shù)學(xué)推理能力。直觀上,論文應(yīng)該探究所提出的模型Math-LLaVA是否在生成的問答對上發(fā)生過擬合。如果發(fā)生過擬合,Math-LLaVA可能會記憶或檢索圖像信息,而不需要任何視覺輸入。
為了檢查這一點,論文比較了Math-LLaVA在數(shù)據(jù)合成前后的性能,分別稱為Math-LLaVA-DS和Math-LLaVA,在MathVista上僅使用文本輸入進行測試。如表3所示,Math-LLaVA在沒有視覺信息的情況下進行推理時,在MathVista上表現(xiàn)出與Math-LLaVA-DS相似的性能,約為32.0%。此外,僅使用文本數(shù)據(jù)對Math-LLaVA進行微調(diào)也得到了類似的觀察結(jié)果。這表明Math-LLaVA模型并未在合成的問答對上發(fā)生過擬合。
有趣的是,論文也觀察到,僅使用文本輸入時,LLaVA-1.5-13B在MathVista上的準(zhǔn)確率為23.3%。潛在的原因,如(Chen et al., 2024b)所探討的,可能是MathVista中的許多樣本不需要視覺內(nèi)容,并且在LLMs和MLLMs的預(yù)訓(xùn)練過程中可能發(fā)生了無意中的數(shù)據(jù)泄露。
2.4.4 合成數(shù)據(jù)的有效性
為了驗證數(shù)據(jù)選擇和提出的數(shù)據(jù)增強策略的有效性,論文對MathV360K的各個組件進行了獨立實驗。首先,論文在源數(shù)據(jù)集中隨機抽取40K個數(shù)據(jù)點對LLaVA-1.5模型進行微調(diào),不進行任何選擇,以展示數(shù)據(jù)過濾和比例調(diào)整的效果。
隨后,論文分別將選定的40K數(shù)據(jù)點與使用四種增強方法生成的數(shù)據(jù)結(jié)合:為QA生成挖掘圖像(AskImg),提出復(fù)雜問題(CompQ),重新表述問題為了邏輯一致性(RephQ),以及簡化問題以解決不明確性(SimpQ)。表4展示了不同增強組合在MathVista上達(dá)到的準(zhǔn)確率。結(jié)果表明,論文的數(shù)據(jù)合成方法,結(jié)合了數(shù)據(jù)選擇和每種增強方法,取得了更好的性能。綜合這些策略,相較于隨機采樣40K數(shù)據(jù)點,實現(xiàn)了顯著的11%提升。
表2:在MMMU基準(zhǔn)上與基線模型的比較
表3:僅使用Math-Vista的文本作為輸入進行推理的結(jié)果。對LLaVA-1.5使用圖像-文本或純文本數(shù)據(jù)進行微調(diào)
表4:數(shù)據(jù)選擇和不同數(shù)據(jù)增強策略在MathVista上的有效性
2.4.5 每種任務(wù)類型增強的提升效果
鑒于論文從五種不同的問答任務(wù)類型中選擇了數(shù)據(jù),論文的目標(biāo)是研究哪些類型或技能在多模態(tài)數(shù)學(xué)推理中可以通過增強每個單獨任務(wù)類別的源數(shù)據(jù)得到提升。為此,論文對新數(shù)據(jù)進行了實驗,針對每種任務(wù)類型合成的數(shù)據(jù),與選定的數(shù)據(jù)混合。MathVista上的結(jié)果如圖6所示。
論文觀察到,對各種類型的源數(shù)據(jù)進行增強可以進一步提高模型在相應(yīng)任務(wù)上的性能。特別是在涉及FQA、MWP和VQA的任務(wù)中,增強效果尤為顯著。有趣的是,針對單一任務(wù)類型的數(shù)據(jù)增強也顯示出對其他任務(wù)類型有效性的提升,這可能是因為不同任務(wù)之間所需的推理技能存在重疊。
圖6:通過針對每種任務(wù)類型的增強在MathVista上的準(zhǔn)確性
