處女座 (Virgo):基于文本指令微調(diào)的多模態(tài)慢思考推理系統(tǒng)
1. 引言
近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,人工智能 (AI) 在諸多領(lǐng)域取得了突破性進(jìn)展。然而,傳統(tǒng)的深度學(xué)習(xí)模型在處理需要復(fù)雜推理的任務(wù)時仍然面臨挑戰(zhàn)。例如,在面對數(shù)學(xué)題、邏輯謎題或科學(xué)問題時,簡單地依靠模式識別和函數(shù)擬合難以獲得令人滿意的結(jié)果。為了解決這個問題,研究人員開始探索將深度學(xué)習(xí)與符號推理相結(jié)合,從而賦予 AI 系統(tǒng)更強(qiáng)的推理能力,即慢思考推理。
慢思考推理強(qiáng)調(diào)對問題進(jìn)行深入分析和逐步求解,而非僅僅依賴直覺或快速聯(lián)想。這種方法更接近人類的認(rèn)知過程,也更適用于需要邏輯推理、知識應(yīng)用和問題解決的復(fù)雜場景。慢思考推理的應(yīng)用場景非常廣泛,包括但不限于:
- 科學(xué)發(fā)現(xiàn):輔助科學(xué)家進(jìn)行數(shù)據(jù)分析、假設(shè)驗證和新知識發(fā)現(xiàn)。
 - 自動解題:自動求解數(shù)學(xué)題、邏輯謎題和編程問題。
 - 代碼生成:根據(jù)自然語言描述生成高質(zhì)量、可解釋的代碼。
 
多模態(tài)慢思考推理將慢思考推理的概念擴(kuò)展到多模態(tài)領(lǐng)域,旨在使 AI 系統(tǒng)能夠處理圖像、文本、代碼、表格等多種模態(tài)的信息,并進(jìn)行跨模態(tài)的邏輯推理和問題解決。然而,多模態(tài)慢思考推理也面臨著諸多挑戰(zhàn):
- 多模態(tài)數(shù)據(jù):如何有效地融合和理解來自不同模態(tài)的信息?
 - 推理過程:如何設(shè)計能夠處理多模態(tài)信息和復(fù)雜推理過程的模型?
 - 模型結(jié)構(gòu):如何構(gòu)建能夠進(jìn)行跨模態(tài)推理和知識應(yīng)用的模型架構(gòu)?
 
為了應(yīng)對這些挑戰(zhàn),百川智能和中國人民大學(xué)的研究人員在論文《Virgo: A Preliminary Exploration on Reproducing o1-like MLLM》提出了一種簡單而有效的方法,將慢思考能力賦予多模態(tài)大語言模型 (MLLM)處女座 (Virgo)。百川智能是一家專注于人工智能研究與開發(fā)的創(chuàng)新公司,致力于打造更智能、更可信、更人性化的 AI 系統(tǒng)。其核心思想是利用文本長程思維數(shù)據(jù)對 MLLM 進(jìn)行微調(diào),從而使模型能夠模仿人類的推理過程,進(jìn)行多模態(tài)的慢思考推理。
2. 相關(guān)工作
2.1 慢思考大語言模型 (LLM)
近年來,研究人員提出了一系列方法來增強(qiáng)大型語言模型 (LLM) 的推理能力。其中,思維鏈 (Chain-of-Thought, CoT) 是一種被廣泛認(rèn)可的有效方法。CoT 通過在 LLM 的輸入中添加中間推理步驟,引導(dǎo)模型進(jìn)行逐步推理,從而提高其在復(fù)雜推理任務(wù)上的性能。
OpenAI 提出的 "o1" 模型是慢思考 LLM 的一個典型代表。該模型在諸多基準(zhǔn)測試中展現(xiàn)出強(qiáng)大的推理能力,能夠解決復(fù)雜的數(shù)學(xué)題、邏輯謎題和代碼生成問題。此外,DeepSeek R1、Qwen QwQ 等模型也展現(xiàn)了慢思考 LLM 在不同領(lǐng)域的應(yīng)用潛力。
2.2 多模態(tài)大語言模型 (MLLM)
多模態(tài)大語言模型 (MLLM) 旨在將 LLM 的能力擴(kuò)展到多模態(tài)領(lǐng)域。通常,MLLM 包括三個主要組件:
- 視覺編碼器:用于提取圖像等視覺信息的特征表示。
 - LLM:用于處理文本信息和進(jìn)行邏輯推理。
 - 跨模態(tài)連接器:用于連接視覺編碼器和 LLM,實現(xiàn)跨模態(tài)的信息交互。
 
MLLM 在視覺問答、圖像描述生成、多模態(tài)對話等任務(wù)中取得了顯著成果。然而,現(xiàn)有的 MLLM 在處理需要復(fù)雜推理的任務(wù)時仍然存在不足。
2.3 指令微調(diào)
指令微調(diào)是一種通過指令數(shù)據(jù)對 LLM 和 MLLM 進(jìn)行微調(diào)的方法。指令數(shù)據(jù)通常包含一個任務(wù)描述、一些示例和一個期望的輸出。通過學(xué)習(xí)大量的指令數(shù)據(jù),模型可以更好地理解人類的意圖,并生成更符合要求的輸出。
指令微調(diào)已被證明可以有效提升 LLM 和 MLLM 的泛化能力和可控性。通過使用不同的指令數(shù)據(jù),可以使模型適應(yīng)不同的任務(wù)和領(lǐng)域。
3. 論文方法
論文的核心思想是利用文本長程思維數(shù)據(jù)對 MLLM 進(jìn)行微調(diào),從而使模型能夠進(jìn)行多模態(tài)的慢思考推理。作者們假設(shè)慢思考能力與語言模型組件密切相關(guān),因此可以通過文本指令遷移來 eliciting MLLM 的慢思考能力。
論文提出了兩種具體的 MLLM 慢思考方案:
3.1 文本指令遷移
- 文本長程思維數(shù)據(jù)收集:從 DeepSeek-R1-Lite-Preview 和 QwQ-32B-preview 兩個模型中收集了約 5K 條文本長程思維指令數(shù)據(jù),涵蓋數(shù)學(xué)、科學(xué)、代碼、謎題等多個領(lǐng)域。這些指令數(shù)據(jù)包含完整的推理過程和最終答案,并使用特殊的符號進(jìn)行標(biāo)記,例如<|begin_of_thought |>、<|end_of_thought |>、< begin_of_solution |>、< end_of_solution|>。
 - 文本指令微調(diào):選擇 Qwen2-VL-72B-Instruct 作為基礎(chǔ)模型,并凍結(jié)其視覺編碼器的參數(shù)。使用 AdamW 優(yōu)化器,學(xué)習(xí)率為 7e-6,批大小為 128,訓(xùn)練 10 個 epoch。
 
3.2 慢思考 MLLM 蒸餾
- 視覺長程思維數(shù)據(jù)收集:從 LLaVA-One Vision 數(shù)據(jù)集中選擇了 8 個數(shù)據(jù)集,涵蓋幾何、表格、圖表、對象等多個領(lǐng)域,共計約 7K 條數(shù)據(jù)。每個數(shù)據(jù)樣本包含一個問題、一張圖像和一個答案。使用 QVQ 模型和 Virgo 模型進(jìn)行 rollout,生成每個問題的推理過程。
 - 視覺指令微調(diào):凍結(jié)視覺編碼器的參數(shù),只訓(xùn)練 LLM 和跨模態(tài)連接器。為了進(jìn)行 self-distillation,作者們設(shè)計了一種多階段微調(diào)策略:首先使用文本指令數(shù)據(jù)對 Qwen2-VL-72B-Instruct 進(jìn)行微調(diào),然后使用微調(diào)后的模型進(jìn)行 self-distillation,生成視覺長程思維數(shù)據(jù),最后使用這些數(shù)據(jù)再次對模型進(jìn)行微調(diào)。
 
4. 實驗結(jié)果與分析
為了驗證方法的有效性,作者在四個挑戰(zhàn)性的基準(zhǔn)上進(jìn)行了實驗:MathVerse、MathVision、OlympiadBench 和 MMMU。這些數(shù)據(jù)集涵蓋了各種類型的多模態(tài)推理問題,包括數(shù)學(xué)題、圖表分析、圖像理解等,可以全面評估模型的慢思考能力。
4.1 實驗設(shè)置
- 評估基準(zhǔn):
 
MathVerse:包含來自不同來源的 2612 道多學(xué)科數(shù)學(xué)題,例如代數(shù)、幾何、微積分等。
MathVision:包含來自 established 數(shù)學(xué)競賽的 3040 道高質(zhì)量數(shù)學(xué)題,難度較高。
OlympiadBench:包含 8476 道用于奧林匹克級別數(shù)學(xué)和物理競賽的雙語多模態(tài)問題, 考察模型的跨語言和跨模態(tài)推理能力。
MMMU:包含 11500 道涵蓋 30 個學(xué)科和 183 個子領(lǐng)域的問題,例如物理、化學(xué)、生物、歷史、地理等,是一個綜合性多模態(tài)推理數(shù)據(jù)集。
- 對比模型:
 - 慢思考 MLLM:OpenAI "o1" 和 QVQ-72B-preview,是目前最先進(jìn)的慢思考多模態(tài)模型。
 - 通用 MLLM:GPT-40、Gemini-Pro 和 Claude-3.5-Sonnet,是目前最先進(jìn)的通用多模態(tài)模型,但不具備專門的慢思考能力。
 - 基礎(chǔ)模型:Qwen2-VL-72B-Instruct,是一個開源的多模態(tài)大語言模型,作者在其基礎(chǔ)上進(jìn)行微調(diào),構(gòu)建 Virgo 模型。
 
4.2 主要結(jié)果
實驗結(jié)果表明,Virgo 模型在四個基準(zhǔn)測試中均取得了優(yōu)異的性能,證明了基于文本指令微調(diào)的多模態(tài)慢思考方案的有效性。具體來說:
- 整體性能: Virgo 模型在所有基準(zhǔn)測試中的性能都顯著優(yōu)于基礎(chǔ)模型 Qwen2-VL-72B-Instruct,并且與 OpenAI "o1" 和 QVQ-72B-preview 等先進(jìn)的慢思考 MLLM 的性能相當(dāng),甚至在某些指標(biāo)上超過它們。
 - 文本指令遷移: 使用文本長程思維數(shù)據(jù)進(jìn)行微調(diào)的效果優(yōu)于使用從慢思考 MLLM 中蒸餾得到的視覺指令數(shù)據(jù),這表明慢思考能力可以通過文本指令有效地遷移到多模態(tài)領(lǐng)域。
 - 模型規(guī)模: 模型規(guī)模對性能有顯著影響,72B 模型的性能明顯優(yōu)于 7B 模型,這說明更大的模型具有更強(qiáng)的慢思考能力。
 
4.3 進(jìn)一步分析
為了更深入地理解模型的行為,作者進(jìn)行了一系列分析實驗,探索了任務(wù)難度、指令長度、指令規(guī)模、視覺指令難度等因素對模型性能的影響。
- 任務(wù)難度: 慢思考推理對較難的任務(wù)的性能提升更明顯,這表明慢思考方法更適用于需要復(fù)雜推理的場景。
 - 指令長度: 中等長度的指令數(shù)據(jù)效果最佳,過短的指令可能無法提供足夠的推理步驟,而過長的指令可能引入噪聲,影響模型學(xué)習(xí)。
 - 指令規(guī)模: 增加文本指令的數(shù)量可以提升模型性能,這說明更多的數(shù)據(jù)可以幫助模型更好地學(xué)習(xí)慢思考推理模式。
 - 視覺指令難度: 不同難度的視覺指令對模型性能影響不大,這可能是因為當(dāng)前的視覺指令生成方法還不夠完善,無法有效控制指令的難度。
 
4.4 案例分析
作者還通過具體的案例分析,展示了 Virgo 模型的優(yōu)勢和不足。
- 成功案例: Virgo 模型能夠進(jìn)行詳細(xì)的圖像描述和自我反思,例如在解答一道幾何題時,它可以準(zhǔn)確識別圖形中的關(guān)鍵信息,并進(jìn)行逐步的推理和驗證,最終得出正確答案。
 
- 失敗案例: Virgo 模型缺乏對感知結(jié)果的反思,例如在分析圖表時,如果模型對圖表中的數(shù)據(jù)產(chǎn)生了誤讀,即使進(jìn)行了推理,也可能得出錯誤的結(jié)論。
 
5. 結(jié)論與未來方向
5.1 主要結(jié)論
- 通過使用文本長格式思維數(shù)據(jù)簡單地微調(diào) MLLM,一個有能力的 MLLM 可以表現(xiàn)出顯著增強(qiáng)的慢思考能力。
 - 對四個具有挑戰(zhàn)性的基準(zhǔn)進(jìn)行了廣泛的實驗,結(jié)果表明,與行業(yè)推理系統(tǒng)相比,這種方法實現(xiàn)了極具競爭力的性能。
 - 研究了文本指令數(shù)據(jù)的不同因素的影響,例如數(shù)據(jù)量和長度分布。
 
5.2 未來AGI的可能
作者認(rèn)為,當(dāng)前構(gòu)建多模態(tài)慢思考系統(tǒng)的嘗試是初步的。在未來的工作中,AGI的目標(biāo)應(yīng)該是擴(kuò)展具有挑戰(zhàn)性的多模態(tài)問題的來源,并設(shè)計更有原則的方法來增強(qiáng)這種能力。具體來說,未來的研究方向包括:
- 構(gòu)建更具挑戰(zhàn)性的多模態(tài)數(shù)據(jù)集: 目前的多模態(tài)推理數(shù)據(jù)集大多集中在數(shù)學(xué)和科學(xué)領(lǐng)域,未來需要構(gòu)建更多涵蓋不同領(lǐng)域和任務(wù)類型的數(shù)據(jù)集,例如包含代碼、表格、圖形等多種模態(tài)信息的數(shù)據(jù)集,以及需要進(jìn)行復(fù)雜邏輯推理和知識應(yīng)用的數(shù)據(jù)集。
 - 設(shè)計更精細(xì)的 MLLM 慢思考訓(xùn)練方法: 除了文本指令微調(diào),還可以探索其他訓(xùn)練方法,例如結(jié)合強(qiáng)化學(xué)習(xí),對模型的推理路徑進(jìn)行優(yōu)化,使其能夠更高效地找到問題的解決方案。
 - 提升 MLLM 在感知和推理方面的綜合能力: 現(xiàn)有的 MLLM 在感知和推理方面都存在一定的局限性,未來需要進(jìn)一步提升模型的感知能力,例如識別圖像中的細(xì)粒度信息,以及推理能力,例如進(jìn)行多跳推理和常識推理。
 - 探索慢思考 MLLM 與其他技術(shù)的結(jié)合: 可以將慢思考 MLLM 與其他技術(shù)相結(jié)合,例如知識圖譜、知識推理等,從而進(jìn)一步提升模型的推理能力和問題解決能力。
 
6. 論文引發(fā)的思考
6.1 慢思考系統(tǒng)與其他技術(shù)的結(jié)合
慢思考系統(tǒng)并非孤立的技術(shù),它可以與其他 AI 技術(shù)相結(jié)合,優(yōu)勢互補(bǔ),從而進(jìn)一步提升其推理能力和問題解決能力。
- 知識圖譜: 知識圖譜以結(jié)構(gòu)化的形式存儲了大量的知識和概念之間的關(guān)系,可以為慢思考系統(tǒng)提供豐富的背景知識和推理規(guī)則。將知識圖譜融入慢思考系統(tǒng),可以使其能夠進(jìn)行更深入的知識應(yīng)用和邏輯推理,例如在解答數(shù)學(xué)題時,可以利用知識圖譜中的數(shù)學(xué)公式和定理進(jìn)行推理;在進(jìn)行醫(yī)療診斷時,可以利用知識圖譜中的醫(yī)學(xué)知識進(jìn)行分析。
 - 強(qiáng)化學(xué)習(xí): 強(qiáng)化學(xué)習(xí)是一種通過試錯來學(xué)習(xí)最佳策略的方法,可以用于優(yōu)化慢思考系統(tǒng)的推理路徑和策略。例如,可以將推理過程中的每一步?jīng)Q策看作一個動作,將最終的推理結(jié)果的正確性作為獎勵信號,通過強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)如何選擇最佳的推理路徑,從而使慢思考系統(tǒng)能夠更高效地解決問題。
 - 多模態(tài)預(yù)訓(xùn)練: 多模態(tài)預(yù)訓(xùn)練旨在學(xué)習(xí)不同模態(tài)信息之間的關(guān)聯(lián)和表征,可以提升 MLLM 對多模態(tài)信息的理解能力,為慢思考推理提供更豐富的語義表示。例如,通過多模態(tài)預(yù)訓(xùn)練,MLLM 可以更好地理解圖像和文本之間的關(guān)聯(lián),從而在進(jìn)行視覺問答時,能夠更準(zhǔn)確地理解問題并找到答案。
 
6.2 慢思考系統(tǒng)在實際場景中的應(yīng)用
慢思考系統(tǒng)在教育、科研、代碼生成等領(lǐng)域具有廣闊的應(yīng)用前景,可以幫助人們更高效地學(xué)習(xí)、工作和解決問題。
- 教育輔助: 慢思考系統(tǒng)可以用于自動解題、personalized learning 等,幫助學(xué)生更好地學(xué)習(xí)和掌握知識。例如,可以根據(jù)學(xué)生的學(xué)習(xí)情況,生成個性化的學(xué)習(xí)計劃和練習(xí)題,并提供詳細(xì)的解題思路和步驟,幫助學(xué)生理解和掌握知識點。
 - 科學(xué)研究: 慢思考系統(tǒng)可以輔助科學(xué)家進(jìn)行數(shù)據(jù)分析和假設(shè)驗證,加速科學(xué)發(fā)現(xiàn)的進(jìn)程。例如,可以幫助科學(xué)家分析大量的實驗數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律和模式,并生成科學(xué)假設(shè)和理論,從而推動科學(xué)研究的進(jìn)展。
 - 代碼生成: 慢思考系統(tǒng)可以根據(jù)自然語言描述生成高質(zhì)量、可解釋的代碼,提高軟件開發(fā)的效率和質(zhì)量。例如,可以將用戶的需求描述轉(zhuǎn)化為代碼,并生成代碼的解釋文檔,從而降低軟件開發(fā)的難度,提高代碼的可讀性和可維護(hù)性。
 
6.3 慢思考系統(tǒng)對人工智能倫理的影響
隨著慢思考系統(tǒng)的能力不斷提升,其對人工智能倫理的影響也日益凸顯,需要我們認(rèn)真思考和應(yīng)對。
- 可解釋性: 慢思考系統(tǒng)能夠提供推理過程,增強(qiáng)模型的可解釋性,有助于人們理解 AI 的決策過程。然而,慢思考系統(tǒng)的推理過程可能非常復(fù)雜,如何將其轉(zhuǎn)化為人類能夠理解的形式,仍然是一個挑戰(zhàn)。
 - 安全性: 如何確保慢思考系統(tǒng)做出安全可靠的決策,避免產(chǎn)生負(fù)面影響,是一個亟待解決的問題。例如,在醫(yī)療診斷、自動駕駛等領(lǐng)域,慢思考系統(tǒng)的決策可能會對人的生命安全產(chǎn)生重大影響,因此需要對其進(jìn)行嚴(yán)格的測試和驗證,確保其安全性。
 - 公平性: 如何避免慢思考系統(tǒng)產(chǎn)生偏見和歧視,確保其公平公正地服務(wù)于所有人,也是一個重要的倫理問題。例如,在招聘、貸款等領(lǐng)域,慢思考系統(tǒng)可能會受到數(shù)據(jù)偏差的影響,從而對某些群體產(chǎn)生歧視,因此需要采取措施來消除數(shù)據(jù)偏差,確保模型的公平性。
 
總而言之,慢思考推理是人工智能領(lǐng)域的一個重要發(fā)展方向,它將推動 AI 系統(tǒng)朝著更智能、更可信、更人性化的方向發(fā)展。論文提出的基于文本指令微調(diào)的 MLLM 慢思考方案具有重要的研究價值和應(yīng)用潛力,可以為構(gòu)建更強(qiáng)大的多模態(tài) AI 系統(tǒng)提供了新的思路。
參考論文:rXiv:2501.01904v1 [cs.CV] 3 Jan 2025


















