Cantor?:激發(fā)MLLM的多模態(tài)思維鏈 原創(chuàng)
?摘要:隨著通過思維鏈(CoT)方法增強的大型語言模型(LLMs)的出現(xiàn),視覺推理問題通常被分解成可管理的子任務(wù),并使用各種外部工具依次解決。然而,這種范式面臨決策中潛在的“確定性幻覺”的挑戰(zhàn),這是由于視覺信息不足以及低級感知工具的限制,這些工具無法提供全面推理所需的抽象總結(jié)。我們認為,視覺上下文獲取與邏輯推理的融合是解決視覺推理任務(wù)的關(guān)鍵。本文深入探討了多模態(tài)CoT的領(lǐng)域,使用多模態(tài)大型語言模型(MLLMs)及其認知能力來解決復(fù)雜的視覺推理任務(wù)。為此,我們提出了一個創(chuàng)新的多模態(tài)CoT框架,稱為Cantor,其特點是感知決策架構(gòu)。Cantor首先作為一個決策生成器,整合視覺輸入來分析圖像和問題,確保與實際上下文更緊密的對齊。此外,Cantor利用MLLMs的高級認知功能,作為多方面的專家來推導(dǎo)出更高級別的信息,增強CoT生成過程。我們廣泛的實驗證明了所提出框架的有效性,顯示出在兩個復(fù)雜的視覺推理數(shù)據(jù)集上多模態(tài)CoT性能的顯著提升,而無需進行微調(diào)或需要真實理由。項目頁面:
??https://ggg0919.github.io/cantor/??。
1. 引言
隨著大型語言模型(LLMs)的發(fā)展,研究人員開始采用思維鏈(CoT)策略來提高模型在推理任務(wù)中的性能。CoT模仿了人類逐步推理的過程,通過構(gòu)建一系列邏輯步驟來幫助模型提高對復(fù)雜視覺推理問題的深入理解和分析能力。CoT在語言推理任務(wù)中的有效性已經(jīng)得到了廣泛驗證。最近,研究人員自然地將其應(yīng)用擴展到多模態(tài)領(lǐng)域。視覺推理任務(wù)[29, 30]本質(zhì)上適合使用思維鏈(CoT)方法。這些任務(wù)要求模型不僅要“感知”圖像中的內(nèi)容和上下文,還要“理解”這些視覺元素,以做出連貫的推理和決策。因此,多模態(tài)CoT的探索在研究社區(qū)中顯著擴大。
大多數(shù)現(xiàn)有的多模態(tài)CoT方法分為兩個階段:決策生成和執(zhí)行。
1) 決策生成。這是多模態(tài)CoT方法的第一步,涉及理解、分析問題并制定推理計劃?,F(xiàn)有的確定方法包括將問題分解為子問題[53],捕獲圖像中的場景圖[32],尋找相關(guān)圖像中的相似性和差異[49]等[41, 44]。它們試圖在文本層面簡化問題或在視覺層面增加更多上下文信息。
2) 執(zhí)行。在這個階段,模型執(zhí)行前一確定階段安排的特定操作。具體來說,模型將計劃轉(zhuǎn)化為實際解決方案?,F(xiàn)有的執(zhí)行方法通常依賴于各種專門的API工具或視覺-語言模型(VLMs),前者強調(diào)任務(wù)執(zhí)行的特定性[31, 41],后者強調(diào)任務(wù)執(zhí)行的普遍性[44, 53]。
盡管這些多模態(tài)CoT方法提高了視覺推理任務(wù)的性能,但仍有局限性:首先,在做出決策時,現(xiàn)有方法通常直接將純文本輸入到LLMs中,而不考慮視覺上下文[17, 44, 53]。直觀上,這增加了LLMs對問題的發(fā)散性思維,但實際上,它可能導(dǎo)致“確定性幻覺”。如圖1(a)所示,如果問題本身與圖像沒有密切關(guān)系,僅基于文本詢問“這個班級測量的最高量是多少?”,LLM(GPT-3.5)不清楚“這個班級”具體指的是什么。它將回答提供的信息不足,并開始猜測“班級”是指物理中的度量單位還是編程中的類。這種感知不確定性可能導(dǎo)致LLMs做出與問題無關(guān)或甚至錯誤的決策,誤導(dǎo)后續(xù)執(zhí)行并導(dǎo)致完全無關(guān)的答案。
其次,在執(zhí)行期間,現(xiàn)有方法通常通過調(diào)用外部工具來執(zhí)行任務(wù),因為MLLMs仍然無法解決許多視覺推理任務(wù)[17, 31, 32, 38, 44]。但這些工具大多是低級視覺感知工具(檢測器、識別器、OCR等),只能提取低級視覺信息。如圖1(b)所示,當(dāng)比較溶液中粒子的數(shù)量時,它們只提供粒子的位置,而無法推斷出它們的數(shù)量關(guān)系等高級信息。它們進一步將這些低級線索輸入到LLMs中進行組織和總結(jié)[17, 32, 53]。當(dāng)復(fù)雜線索增加時,這無疑增加了LLMs在長文本推理上的負擔(dān)。同時,隨著許多外部工具的使用,它也增加了流程的復(fù)雜性。
圖 1. (a) 決策生成中視覺信息的比較:詢問GPT-3.5(沒有視覺上下文)會導(dǎo)致由于圖像不清晰而產(chǎn)生的“確定性幻覺”。Cantor(帶有標題)通過標題引入視覺上下文,不會遇到這個問題。Cantor(帶圖像)甚至更精確,提高了任務(wù)分配的合理性。(b) 不同視覺工具的比較:傳統(tǒng)方法中使用的低級專業(yè)感知工具僅獲得基本數(shù)據(jù)。由MLLM扮演的高級通用認知專家獲得對象數(shù)量關(guān)系,使直接和后續(xù)推理成為可能。
為了解決上述局限性,我們提出了一個新穎的多模態(tài)CoT框架,Cantor。在決策生成中,我們使MLLM或LLM作為合唱團中的Cantor,同時處理視覺和文本上下文,以全面理解,然后為由單個MLLM扮演的“專家”分配特定任務(wù),以進行高級邏輯問題解決。具體來說,在決策生成期間,我們詳細分析了視覺信息在確定階段的重要性。這包括有或沒有視覺信息的確定質(zhì)量,以及詳細或簡潔視覺信息對確定的影響差異。最終,我們得出結(jié)論,視覺信息在決策生成階段至關(guān)重要。當(dāng)我們使用MLLM模型(如Gemini)作為決策生成器時,我們直接將圖像輸入到模型中,以完全理解問題并對其進行深思熟慮。然而,當(dāng)使用LLM模型(如GPT-3.5)時,我們發(fā)現(xiàn)提供更詳細的圖像標題更有助于理解問題。此外,決策生成器需要明確提供解釋性決策,包括問題解決策略、調(diào)用專家的原因以及每個專家的具體任務(wù)執(zhí)行。因此,它指導(dǎo)MLLM作為定制專家(如ObjectQuant定位器、TextIntel提取器、VisionIQ分析師和ChartSense專家)為過程中的子任務(wù)提供確定性答案。如圖1(a)所示,當(dāng)使用LLM做出決策時,在詳細標題的指導(dǎo)下,模型知道它正在詢問燒杯的最大體積,并做出正確的決策。當(dāng)圖像對MLLM可用時,決策更清晰,即要求VisionIQ分析師提取杯壁頂部的數(shù)字。在執(zhí)行期間,我們觀察到MLLM是一個先進的認知工具,它在直接獲取高級信息(例如,相對位置和數(shù)量)方面比獲取檢測位置等低級視覺信息表現(xiàn)得更好。這種高級信息對多模態(tài)CoT更為優(yōu)越。Cantor不是使用幾個外部工具,而是通過不同的專家身份和任務(wù)指令,將不同任務(wù)分配給單個MLLM,探索MLLM作為某些專家的專業(yè)潛力。定制專家直接提供高級專業(yè)信息,從而減少了后續(xù)綜合推理的負擔(dān)。如圖1(b)所示,當(dāng)比較綠色粒子的濃度時,我們首先需要比較兩個瓶子中粒子的數(shù)量。MLLM作為ObjectQuant定位器,直接比較兩種溶液中的數(shù)量變化。與獲取粒子位置相比,MLLM更準確地獲得了數(shù)量關(guān)系的結(jié)果。這個結(jié)果直接應(yīng)用于最終答案的進一步推理。
我們提出的框架Cantor在ScinceQA[29]和Mathvista[30]上都取得了最先進的結(jié)果。當(dāng)Gemini用作決策生成器時,Cantor分別獲得了4.11%和5.9%的準確率提升。在Cantor中使用GPT-3.5也實現(xiàn)了2.24%和9.2%的準確率提升。在我們的所有實驗中,我們只使用一個MLLM(Gemini)扮演多個專家的角色,執(zhí)行具有不同要求的不同子任務(wù)。
我們的貢獻如下:
? 我們提出了一個鼓舞人心的多模態(tài)CoT框架,名為Cantor,它以感知決策架構(gòu)為特色,有效地整合了視覺上下文和邏輯推理,以解決視覺推理任務(wù)。
? 我們利用MLLM的先進認知能力,扮演多方面的專家,獲取高級信息,并顯著增強CoT生成。
? 我們證明了Cantor在兩個具有挑戰(zhàn)性的基準測試中的有效性,大大超過了現(xiàn)有的對手。
2. 相關(guān)工作
2.1 多模態(tài)大型語言模型
最近的研究顯示,多模態(tài)大型語言模型(MLLMs)[6, 10, 11, 33, 37, 39, 47, 48]的發(fā)展是將大型語言模型(LLMs)的高級推理能力與視覺-語言模型(VLMs)的能力相結(jié)合的產(chǎn)物。這些模型通過整合視覺和語言信息,在多模態(tài)任務(wù)中取得了顯著的性能提升。特別是,在將視覺和文本表示與對比視覺和語言模型連接方面取得了重大進展[13, 23, 36],但它們在處理需要生成組件或?qū)σ曈X和語言進行更精細推理的下游任務(wù)時遇到了限制。為了克服這些限制,MLLM通過直接推斷嵌入式視覺特征[1, 2, 7, 9, 24, 54],將LLM的推理和生成能力擴展到視覺領(lǐng)域。此外,MLLMs通過微調(diào)視覺指令進一步提高性能[28]。
這些進步不僅展示了MLLM處理復(fù)雜多模態(tài)信息的能力,而且還為通過豐富的多模態(tài)信息實現(xiàn)通用人工智能(AGI)提供了新的可能性。通過整合LLM的文本推理能力與視覺語言模型的圖像理解能力,MLLM可以在多種模態(tài)中實現(xiàn)深入的理解和表達,處理如圖像字幕和視覺問題回答等復(fù)雜任務(wù)。開源MLLMs如LLaVA[28]展示了這些能力,而閉源模型如GPT4-V[34]和Gemini[40]在捕捉場景上下文、推理和創(chuàng)造力方面邁出了更大的一步。盡管對于特定任務(wù),這些閉源模型可能不直接具備能力或微調(diào)。然而,提示學(xué)習(xí)在一定程度上可以克服這些限制。本文致力于探索CoT[43]技術(shù),以增強MLLM捕捉復(fù)雜視覺場景完整上下文的能力,從而進一步加強其推理能力。
2.2 工具增強型語言模型
近年來,盡管大型語言模型(LLMs)表現(xiàn)出色,但它們并非沒有固有的局限性。這些包括獲取最新信息的挑戰(zhàn)[21]、無法使用特定工具[31, 38]以及執(zhí)行復(fù)雜推理過程的困難[29, 30]。與此同時,研究人員越來越感興趣于使用外部工具和模塊化方法,通過提示和上下文學(xué)習(xí)來增強LLM。這些增強的LLM可以利用不同的外部工具為LLM提供更多功能并獲得更多知識。一些工作[5, 12, 17, 19]利用提示生成可以由計算機執(zhí)行的復(fù)雜程序,調(diào)用不同的工具更有效地執(zhí)行邏輯推理任務(wù)。例如,PaLI-X-VPD[17]通過生成多個候選程序,通過外部工具執(zhí)行程序并驗證其正確性,提取了LLM的推理能力。它將每個正確的程序轉(zhuǎn)換為推理步驟的語言描述,形成CoT。此外,一些工作提出了基準測試(如API Bank[25]、ToolQA[55]和MetaTool[18])來評估LLM工具使用的有效性。本文主要強調(diào)增強MLLM的工具使用能力。
2.3 多模態(tài)CoT推理
LLMs和MLLMs越來越受歡迎。盡管它們自身的能力越來越強,但良好的提示方法仍然是充分發(fā)揮它們能力的關(guān)鍵。思維鏈(CoT)是提高LLM推理能力的一種方法,CoT的核心是鼓勵LLM以人類思維方式明確它們的推理,具體是在獲得答案之前添加邏輯思考過程。在NLP領(lǐng)域,CoT已經(jīng)得到了廣泛的研究[8, 15, 42, 51]。Jason Wei等人[43]通過簡單地將問題解決思路直接添加到上下文示例中,顯著提高了LLM的推理能力。隨后,研究人員主要關(guān)注如何自動化構(gòu)建CoT以減少手動注釋和更復(fù)雜的結(jié)構(gòu),如思維樹(ToT)[45]和思維圖(GoT)[3, 22, 46]。
同時,在多模態(tài)CoT方面也取得了驚人的進展。MM-CoT[52]首先提出了一個使用文本和圖像對作為輸入的兩階段推理框架,首先生成理由,然后生成答案。隨后的工作[14, 14, 41, 53]大多基于這個框架,專注于設(shè)計特殊視覺-語言特征融合機制以增強多模態(tài)信息交互。然而,這些CoT提示方法需要在自然語言推理的真值上進行微調(diào),這需要注釋和計算成本高昂。基于這個問題,研究人員提出了其他不需要手動注釋和訓(xùn)練的CoT方法。一方面,它們充分挖掘文本信息。例如,DD-CoT[53]進一步完善了生成CoT的過程。它沒有引入視覺信息,而是使用LLM將問題分解成多個相關(guān)子問題,然后逐個回答每個子問題以形成CoT。另一方面,研究人員致力于通過各種手段增強視覺信息。例如,CoCoT[49]通過比較圖像之間的相似性和差異來捕捉圖像特征,而CCoT[32]通過解構(gòu)圖像中的目標和屬性來獲取場景圖以協(xié)助理由生成。我們方法與這些方法的關(guān)鍵區(qū)別在于,在挖掘文本信息時,我們提前引入視覺信息,使決策更加合理和事實。此外,我們通過調(diào)用多個專家更全面地增強視覺信息。最后,Cantor也是一種不需要訓(xùn)練或手動注釋的方法,因此它具有強大的通用性和便利性。本文強調(diào)增強MLLM的專家使用能力。考慮到MLLM具有多模態(tài)通用能力,它自然適合擔(dān)任各種專家。因此,本文將賦予MLLM各種身份,并探索其扮演專家的能力。
3. 方法
為了解決多模態(tài)CoT在解決視覺推理任務(wù)中的局限性,我們提出了Cantor,它引入了視覺信息以做出正確的決策,并使用單個MLLM充當(dāng)多個專家,以適應(yīng)廣泛的問題的需要。我們描述了Cantor的框架(第3.1節(jié))。然后,我們詳細介紹了我們的兩步方法:首先是決策生成(第3.2節(jié)),其次是執(zhí)行(第3.3節(jié))。
3.1. 預(yù)備知識
Cantor由兩個階段組成:決策生成和執(zhí)行,如圖2所示。在Cantor的決策生成階段,Cantor的輸入包括X = {I, T, Pin},其中I表示視覺輸入(圖像或標題),T表示文本輸入,代表問題陳述及其上下文的串聯(lián),Pin代表生成決策的提示。正式地,給定輸入查詢X,生成決策P如下:Pout = F(X),其中F表示決策生成器(LLM或MLLM)。特別地,Pout = {R, O, St},其中R表示原則分析,O表示模塊選擇與推理,St表示分配給專家模塊的任務(wù)。具體示例,請參見圖2中間的藍色部分。
在執(zhí)行模塊化階段,從決策Pout和圖像I派生的多個子任務(wù)St = {st1, st2...stn}共同發(fā)送到相應(yīng)的專家模塊,以獲得子答案Sa = {sa1, sa2, ..., san}。過程如下:Sa = G(St, I),其中G表示各種專家(MLLM)。這個過程對應(yīng)于圖2右下角紫色部分的執(zhí)行模塊化階段。然后在執(zhí)行綜合階段,我們將子任務(wù)和子答案串聯(lián)起來形成輔助信息S = {St, Sa},并設(shè)計答案生成提示E。最后,輸入更新后的輸入X' = {I, T, S, E}并推斷最終答案A = F(X'),其中F表示答案生成器(LLM或MLLM),如圖2右上角所示。
圖 2. Cantor的概述和一個具體示例。Cantor通過決策生成器分析圖像和問題,提供問題的原則分析,并提供模塊選擇與推理以及具體的任務(wù)分配。隨后,MLLM充當(dāng)各種專家模塊來執(zhí)行子任務(wù)。最后,Cantor通過答案生成器進行綜合和思考,提供最終答案。
(注釋:Cantor是一個多模態(tài)思維鏈框架,旨在增強大型多模態(tài)語言模型(MLLMs)的決策能力。其工作原理可以分解為幾個關(guān)鍵步驟,結(jié)合了視覺信息和邏輯推理來解決復(fù)雜的視覺推理問題。
1. 決策生成(Decision Generation):
- 在這一階段,Cantor使用決策生成器來分析問題和圖像。
- 決策生成器會進行原理分析(Principle Analysis),即對問題進行初步理解,并確定解決問題所需的基本原理。
- 然后,Cantor進行模塊選擇與推理(Module Selection & Reason),決定需要哪些專家模塊來幫助解決問題。
- 最后,Cantor進行任務(wù)分配(Task Allocation),為每個選定的專家模塊分配具體的任務(wù)。
2. 執(zhí)行模塊化(Execution-Modularization):
- 在這一階段,MLLM作為不同的專家模塊執(zhí)行分配的子任務(wù)。
- 每個專家模塊針對其特定的任務(wù)進行操作,比如“TextIntel Extractor”提取文本信息,“ObjectQuant Locator”比較粒子數(shù)量等。
3. 執(zhí)行綜合(Execution-Synthesis):
- 完成所有子任務(wù)后,Cantor進入執(zhí)行綜合階段。
- 在這一階段,Cantor將所有子任務(wù)和得到的子答案進行綜合,形成輔助推理的補充信息。
4. 答案生成(Answer Generation):
- 最后,Cantor通過答案生成器進行最終的綜合和思考。
- 答案生成器結(jié)合問題、選項和補充信息,生成最終答案。
以圖片中的具體示例來解釋Cantor的工作原理:
- 問題涉及到比較兩個樣本(Sample A和Sample B)的溫度,已知它們的粒子平均速度相同,但質(zhì)量不同。
- 在決策生成階段,Cantor確定需要使用“TextIntel Extractor”來提取樣本中粒子的質(zhì)量和速度信息,以及使用“ObjectQuant Locator”來比較兩個樣本中粒子的數(shù)量。
- 在執(zhí)行模塊化階段,MLLM作為專家模塊執(zhí)行以下任務(wù):
- “TextIntel Extractor”提取出Sample A的質(zhì)量為44單位,速度為1,400米/秒;Sample B的質(zhì)量為46單位,速度也為1,400米/秒。
- “ObjectQuant Locator”確定兩個樣本中的粒子數(shù)量相同。
- 在執(zhí)行綜合階段,Cantor綜合這些信息,并利用動能公式(1/2mv^2)來比較兩個樣本的平均動能,從而推斷出哪個樣本具有更高的溫度。
- 最終,在答案生成階段,Cantor得出結(jié)論:Sample B由于質(zhì)量更大,即使速度相同,也會擁有更多的動能,因此溫度更高。
通過這種方法,Cantor能夠有效地結(jié)合視覺信息和邏輯推理,解決復(fù)雜的視覺推理問題,提供準確的答案。)
3.2. 第1步:決策生成
我們的第一步是生成考慮到并部署問題決策的Pout。請注意,我們正在研究無監(jiān)督視覺推理任務(wù),這涉及讓模型為問題生成相應(yīng)的決策而無需真實情況[44, 49]。此外,為了標準化和準確性,我們采用了少量設(shè)置提示,為模型提供決策生成提示Pin,其中包括決策生成的要求、可調(diào)用模塊的特點以及幾個手動編寫的決策示例。
讓我們詳細介紹Cantor的決策生成過程以及提示Pin的具體組成部分:
1. 擔(dān)任決策生成器。我們用“你是一個高級問答代理,需要四個專業(yè)模塊來幫助分析和回應(yīng)有關(guān)圖像的查詢”來提示LLM或MLLM,使其能夠在Cantor中充當(dāng)決策生成器。
2. 專家模塊揭曉。如圖2的專家模塊所示。我們?yōu)镃antor提供了每個專家模塊的詳細特點信息,目的是在決策生成階段根據(jù)解決問題的原則分配任務(wù)給每個專家模塊,如下:TextIntel提?。涸撃K提取并轉(zhuǎn)換圖像中的文本為可編輯文本格式。它特別適用于包含文本和圖形元素混合的圖像。ObjectQuant定位器:該模塊識別并定位圖像中的對象。它在比較數(shù)量和識別空間關(guān)系方面非常先進。VisionIQ分析師:該模塊處理并解釋視覺數(shù)據(jù),使你能夠提出與圖像內(nèi)容相關(guān)的任何查詢。ChartSense專家:該模塊專門分析和解釋圖表和圖形中的信息。它可以提取數(shù)據(jù)點,了解趨勢,并識別圖表中的關(guān)鍵組件,如標題、軸、標簽和圖例。
3. 原理分析和模塊選擇與推理。我們提示Cantor“為你回答問題的方法提供理由,解釋你將如何使用圖像和模塊中的信息來形成一個全面的答案”,對問題進行整體評估和模塊分析。
4. 任務(wù)分配。我們提示“根據(jù)他們的功能,按需為每個模塊分配特定任務(wù),以收集準確回答問題所必需的額外信息?!?,要求Cantor選擇必要的模塊并分配它們相應(yīng)的特定任務(wù)。
5. 上下文洞察和實際應(yīng)用。我們引入了一些上下文示例以增強Cantor對我們提示的理解,確保其響應(yīng)符合期望的格式。詳細的實例在補充材料中提供以供進一步參考。
然后,我們輸入需要解決的具體問題及其上下文細節(jié),使Cantor能夠制定微妙的決策。圖2左半部分的藍色部分顯示了一個具體的決策生成示例。
上述五個部分結(jié)合形成最終的決策生成提示Pin。隨后,Pin與視覺輸入I和文本輸入T一起,構(gòu)成了Cantor第一階段的完整輸入,提示Cantor提供深思熟慮的決策Pout。
決策生成方法代表了我們工作的核心新貢獻。最初,LLM或MLLM被用作決策生成器,充當(dāng)大腦。接下來,集成了一系列專業(yè)專家模塊,增強了決策生成,具有類似肢體的多樣化能力。這種整合確保了決策生成既全面又細致,利用每個模塊的優(yōu)勢。之后,決策生成器根據(jù)原則分析中獲得的洞察力為選定的專家模塊定制任務(wù)。這種動態(tài)任務(wù)分配增強了Cantor的效率和有效性。最終,引入上下文示例使MLLM能夠?qū)W習(xí)和參考,從而進一步提高決策生成的準確性和適應(yīng)性。值得注意的是,在決策生成階段而不是執(zhí)行階段提前引入視覺上下文,有效地緩解了確定性幻覺。
3.3. 第2步:執(zhí)行
在Cantor中,執(zhí)行階段可以分為兩個階段,執(zhí)行模塊化和執(zhí)行綜合。
前者通過調(diào)用各種專家模塊并提供輔助信息來完成決策生成階段分配的子任務(wù)。后者總結(jié)了執(zhí)行模塊化階段的各種輔助信息,并通過合理和詳細的思考生成最終答案。
執(zhí)行模塊化。我們調(diào)用專家模塊來執(zhí)行決策生成階段分配的各種子任務(wù)。特別地,我們首先從Pout中提取子任務(wù)St = {st1, st2...stn}。接下來,我們按順序找到與子任務(wù)sti對應(yīng)的專家模塊,并將子任務(wù)sti作為提示輸入到專家中,例如:“ObjectQuant定位器:哪個樣本有更多的顆粒?”。隨后,我們獲得子任務(wù)答案sai,例如,“它們的數(shù)量相同”,如圖2右下角所示。
象征性地,我們輸入由MLLM扮演的專家,子任務(wù)sti和圖像I,MLLM提供了子任務(wù)的執(zhí)行結(jié)果。過程如下:sai = G(I, sti),其中G(·)表示MLLM扮演專家,sai表示子任務(wù)的答案。在執(zhí)行子任務(wù)時,我們只使用一個MLLM來扮演不同的專家模塊。這不僅簡化了方法的流程,而且旨在充分利用MLLM的高級認知能力。
執(zhí)行綜合。我們將獲得的子任務(wù)和子任務(wù)答案進行串聯(lián)和總結(jié),以獲得輔助推理的輔助信息S,如下:S = {[st1, sa1] · [st2, sa2] · ... · [stn, san]}。值得注意的是,在答案生成階段,我們引入了答案生成提示E,其中包括生成答案的提示和格式化要求,如下:“你是一個知識淵博且精通信息整合的科學(xué)專家。請根據(jù)給定的問題、選項和補充信息逐步思考并回答問題。請注意,我們不僅需要答案,更重要的是,我們需要獲得答案的理由。請結(jié)合你的知識和補充信息來獲得推理和答案。請優(yōu)先使用你的知識回答問題。如果無法回答,請保持批判性思維,并選擇有效信息來幫助你選擇最正確的選項作為答案。此外,請不要僅依賴補充信息,因為提供的補充信息可能并不總是有效的?!?/p>
這包括三個關(guān)鍵點。首先,我們使用提示讓Cantor扮演一個知識淵博且擅長整合信息的答案生成器的角色。這不僅確保了其專業(yè)性和對問題的基本判斷能力,而且還確保了它能夠更好地整合執(zhí)行模塊化階段獲得的信息。其次,為了提高可解釋性,展示Cantor的思考過程并提高其思考能力,我們要求Cantor首先回答基本原則,然后生成相應(yīng)的選項,如圖2中的粉色框所示。最后,我們要求Cantor保持理性和批判性,確保它不僅僅依賴于從執(zhí)行模塊化階段獲得的信息。這種方法促進了更加平衡和全面的執(zhí)行綜合過程。
4.實驗(略)
5. 結(jié)論
在本文中,我們介紹了一個鼓舞人心的多模態(tài)思維鏈框架,名為Cantor,旨在增強MLLMs的決策能力。通過深入探討視覺信息在決策生成過程中的關(guān)鍵作用,本文強調(diào)了在決策階段整合視覺線索的重要性,有效減輕了LLMs可能出現(xiàn)的幻覺問題。Cantor框架的新穎之處還在于其能夠使MLLM模擬特定領(lǐng)域的專家角色,獲取高級信息,從而促進更合理和深入的推理過程。在涉及復(fù)雜視覺推理任務(wù)的ScienceQA和MathVista挑戰(zhàn)性基準測試中,Cantor展現(xiàn)出了顯著的適應(yīng)性和有效性,證明了其在解決各個領(lǐng)域現(xiàn)實世界推理問題方面的強有力潛力。
Gao T, Chen P, Zhang M, et al. Cantor: Inspiring Multimodal Chain-of-Thought of MLLM[J]. arXiv preprint arXiv:2404.16033, 2024.
?
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:????https://mp.weixin.qq.com/s/h2cTwcjoTLDO1BdD6f90SA???
