偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Chameleon:使用大型語言模型的即插即用組合推理 原創(chuàng)

發(fā)布于 2024-7-25 19:40
瀏覽
0收藏

?摘要:大型語言模型(LLMs)在解決各種自然語言處理任務(wù)方面取得了顯著進(jìn)展,這歸功于其突顯的推理能力。然而,LLMs本身存在固有的局限性,例如無法訪問最新信息(存儲(chǔ)在網(wǎng)絡(luò)或任務(wù)特定的知識(shí)庫中)、無法使用外部工具,以及無法進(jìn)行精確的數(shù)學(xué)和邏輯推理。在本文中,我們提出了變色龍(Chameleon),一個(gè)通過增加即插即用模塊來增強(qiáng)LLMs進(jìn)行組合推理的AI系統(tǒng)。變色龍通過組合各種工具(例如LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的方法)來合成程序,以完成復(fù)雜的推理任務(wù)。變色龍的核心是一個(gè)基于LLM的計(jì)劃器,它組裝了一系列工具以生成最終的響應(yīng)。我們展示了變色龍?jiān)趦蓚€(gè)多模態(tài)知識(shí)密集型推理任務(wù)上的有效性:ScienceQA和TabMWP。由GPT4驅(qū)動(dòng)的變色龍?jiān)赟cienceQA上實(shí)現(xiàn)了86.54%的總體準(zhǔn)確率,比目前發(fā)表的最佳少樣本結(jié)果提高了11.37%。在TabMWP上,由GPT4驅(qū)動(dòng)的變色龍將準(zhǔn)確率提高了17.0%,將最新水平提升至98.78%。我們的分析還表明,與由ChatGPT驅(qū)動(dòng)的計(jì)劃器相比,由GPT4驅(qū)動(dòng)的計(jì)劃器通過推斷指令中的潛在約束,表現(xiàn)出更一致和合理的工具選擇。

1、引言

近年來,大型語言模型(LLMs)在各種自然語言處理任務(wù)中取得了顯著進(jìn)展,代表性的例子包括 GPT3 [4]、PaLM [8]、LLaMA [64]、ChatGPT [41] 和最近開發(fā)的 GPT4 [42]。LLMs展示了新興的能力,如上下文學(xué)習(xí)和鏈?zhǔn)剿季S推理 [56]。這些模型能夠以零樣本方式解決各種任務(wù) [25],或在少量示例的幫助下完成任務(wù) [57],并且在規(guī)劃和決策方面展示了與人類類似的潛力 [17, 16]。盡管具有這些能力,LLMs面臨固有的局限,比如無法訪問最新信息 [26],執(zhí)行精確的數(shù)學(xué)推理 [44, 35] 或利用專門的模型 [49]。因此,增強(qiáng)當(dāng)前的LLMs,使其具備自動(dòng)組合外部工具來解決現(xiàn)實(shí)世界任務(wù)的能力,對(duì)解決這些缺點(diǎn)至關(guān)重要。

 

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖1:我們?cè)赟cienceQA [32]上使用GPT4進(jìn)行變色龍方法的示例,這是一個(gè)科學(xué)領(lǐng)域的多模態(tài)問答基準(zhǔn)。變色龍通過合成程序來組合各種工具并依次執(zhí)行它們以獲得最終答案,從而適應(yīng)不同的查詢。

(注釋:

1. 問題1:

查詢:給定一個(gè)包含棒球運(yùn)動(dòng)員打擊動(dòng)作的圖像,問題是“這個(gè)推力的方向是什么?”選項(xiàng)是:(A) 遠(yuǎn)離棒球棒 (B) 朝向棒球棒。

工具組合:使用圖像描述生成工具(Image Captioner)生成圖像描述,然后使用知識(shí)檢索工具(Knowledge Retrieval)查找相關(guān)信息,再使用解決方案生成工具(Solution Generator)分析答案。

答案生成:最終答案生成器(Answer Generator)得出答案。

2. 問題2:

查詢:給定一個(gè)環(huán)保廣告的圖像,問題是“這則廣告中主要使用的勸說手段是什么?”選項(xiàng)是:(A) 情感 (B) 人格 (C) 理性。

工具組合:使用文本檢測工具(Text Detector)提取廣告中的文本,然后使用知識(shí)檢索工具查找相關(guān)信息,再使用解決方案生成工具分析答案。

詳細(xì)解釋:

名詞提示:提供了廣告中提到的環(huán)保紙盤的詳細(xì)背景信息。

句子提示:描述了廣告中使用的勸說手段。

多模態(tài)提示:結(jié)合文本和圖像推理,提供了廣告的全面分析。

答案生成:最終答案生成器得出答案“ethos(人格)”。

3. 問題3:

查詢:給定一張動(dòng)物的圖像,問題是“哪種動(dòng)物的皮膚適應(yīng)在寒冷環(huán)境中生存?”選項(xiàng)是:(A) 歐亞猞猁 (B) 荊棘龍蜥。

工具組合:使用圖像描述生成工具生成圖像描述,然后使用查詢生成器(Query Generator)構(gòu)建查詢,接著通過Bing搜索引擎查找相關(guān)信息,再使用解決方案生成工具分析答案。

答案生成:最終答案生成器得出答案。

總結(jié):通過變色龍方法,系統(tǒng)能夠適應(yīng)不同類型的查詢,合成和組合各種工具并依次執(zhí)行它們,以生成最終的答案。變色龍方法展示了其在多模態(tài)知識(shí)密集型推理任務(wù)中的有效性,并且能夠生成詳細(xì)、合理且一致的答案。)

考慮圖1中例子②的問題:“這則廣告中使用了哪種主要的說服手法?”。為了回答這個(gè)問題,需要進(jìn)行以下步驟:1)推斷出廣告圖像中包含文本內(nèi)容并調(diào)用文本解碼器理解語義;2)檢索有關(guān)說服手法及其區(qū)別的背景知識(shí);3)基于輸入查詢和前幾步驟的中間結(jié)果生成解決方案;以及4)最終以特定于任務(wù)的格式給出答案。

另一方面,當(dāng)回答“哪種動(dòng)物的皮膚適應(yīng)在寒冷地方生存(③)”時(shí),可能需要調(diào)用諸如圖像標(biāo)題生成器解析圖像信息和網(wǎng)絡(luò)搜索引擎檢索領(lǐng)域知識(shí)以理解科學(xué)術(shù)語。然而,目前的工具增強(qiáng)型LLMs在處理這些跨多種場景的現(xiàn)實(shí)世界查詢時(shí)仍面臨挑戰(zhàn)。大多數(shù)現(xiàn)有方法要么局限于少量工具 [39, 6, 55, 18, 43, 49],要么依賴于特定領(lǐng)域的工具 [40, 60, 13, 59, 52],因此難以推廣到新領(lǐng)域的查詢(詳見第2節(jié)和A.1節(jié)進(jìn)一步討論)。在本文中,我們研究如何使LLMs能夠合成程序,以捕捉組合異構(gòu)工具的邏輯。

為了解決現(xiàn)有工作的挑戰(zhàn),我們引入了Chameleon,一個(gè)即插即用的組合推理框架,利用LLMs合成程序并組合各種工具,以應(yīng)對(duì)廣泛的任務(wù)需求。與現(xiàn)有的工具增強(qiáng)型LLMs [49, 40, 60, 13, 59, 52] 不同,Chameleon使用更豐富的工具集,包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的模塊。此外,Chameleon利用LLMs的上下文學(xué)習(xí)能力,以及將LLM作為自然語言規(guī)劃器的特性,無需任何訓(xùn)練或精心策劃的規(guī)則。根據(jù)工具描述和使用示例,規(guī)劃器推斷出一個(gè)由一系列工具組成的程序,以便執(zhí)行以生成用戶查詢的最終響應(yīng)。與生成特定領(lǐng)域語言的程序不同 [40, 52, 13],Chameleon生成類似自然語言的(NL)程序(例如,[文本檢測器,知識(shí)檢索,解決方案生成器,答案生成器] 用于圖1中的第二個(gè)查詢)。NL程序易于理解和由編程經(jīng)驗(yàn)有限的用戶調(diào)試,并且容易擴(kuò)展到新模塊。在每個(gè)模塊的執(zhí)行過程中,模塊處理查詢和緩存的上下文,返回由模塊自身確定的結(jié)果,并更新后續(xù)執(zhí)行的查詢和上下文。通過將模塊組合成順序程序,后續(xù)模塊可以利用先前緩存的上下文和更新的查詢。

我們展示了Chameleon在兩個(gè)任務(wù)上的適應(yīng)性和效果:ScienceQA [32] 和TabMWP [33]。ScienceQA是一個(gè)跨多種上下文格式和各種科學(xué)主題的多模式問題回答基準(zhǔn),而TabMWP則涉及各種表格上下文的數(shù)學(xué)基準(zhǔn)。這兩個(gè)基準(zhǔn)作為評(píng)估Chameleon跨不同類型和領(lǐng)域協(xié)調(diào)各種工具能力的良好測試平臺(tái)。值得注意的是,Chameleon結(jié)合GPT4在ScienceQA上達(dá)到了86.54%的準(zhǔn)確率,顯著優(yōu)于最佳已發(fā)表的少樣本模型達(dá)11.37%。在TabMWP上,使用GPT4作為基礎(chǔ)LLM,Chameleon相比鏈?zhǔn)剿季S(CoT)提示的GPT4 [57] 提升了7.97%,相比最佳已發(fā)表模型 [6] 提升了17.0%,將技術(shù)水平提升至98.78%。進(jìn)一步研究表明,使用GPT4作為規(guī)劃器能夠展示更一致和理性的工具選擇,并能根據(jù)指令推斷出潛在約束,相較于其他LLMs如ChatGPT。

我們的貢獻(xiàn)如下:(1) 我們開發(fā)了一個(gè)即插即用的組合推理框架Chameleon,有效地組合外部工具以解決LLMs的固有限制,并應(yīng)對(duì)廣泛的推理任務(wù)。(2) 利用LLM作為自然語言規(guī)劃器生成程序,Chameleon成功地整合了包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于規(guī)則的模塊等多種工具,構(gòu)建了一個(gè)多功能且適應(yīng)性強(qiáng)的人工智能系統(tǒng),能夠回答現(xiàn)實(shí)世界的查詢。(3) 我們展示了Chameleon在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試中的有效性,顯著超越現(xiàn)有技術(shù)水平。

2、相關(guān)工作

組合推理

神經(jīng)模塊化和組合方法已被探索用于自動(dòng)執(zhí)行所需的子任務(wù)分解,增強(qiáng)各種推理任務(wù)的可解釋性和適應(yīng)性。早期的工作[2, 3]認(rèn)為復(fù)雜的推理任務(wù)本質(zhì)上是組合的,并提出了神經(jīng)模塊網(wǎng)絡(luò)(NMN)以將其分解為子任務(wù)。然而,這些方法依賴于脆弱的現(xiàn)成解析器,并受到模塊配置的限制。一些后來的工作[19, 15, 14, 21]通過端到端方式預(yù)測特定實(shí)例的網(wǎng)絡(luò)布局,利用強(qiáng)化學(xué)習(xí)[58]和弱監(jiān)督學(xué)習(xí),進(jìn)一步推進(jìn)了這一領(lǐng)域。在視覺推理中,提出了包含程序生成器和執(zhí)行引擎的模型,以結(jié)合深度表示學(xué)習(xí)和符號(hào)程序執(zhí)行[19, 61]。在數(shù)學(xué)推理領(lǐng)域,開發(fā)了一種可解釋的求解器,將定理知識(shí)作為條件規(guī)則逐步進(jìn)行符號(hào)推理[31]。我們的工作從神經(jīng)模塊網(wǎng)絡(luò)中汲取靈感,但提供了幾個(gè)顯著的優(yōu)勢(shì)。首先,Chameleon 不需要昂貴的特定任務(wù)程序監(jiān)督來進(jìn)行模型訓(xùn)練,而是生成由模塊組成的順序程序,這些程序易于推廣到各種領(lǐng)域和任務(wù),允許以即插即用的方式擴(kuò)展新模塊。其次,Chameleon 不需要任何訓(xùn)練,而是利用大語言模型(LLMs)的上下文學(xué)習(xí)能力,通過自然語言指令和示例生成程序。

工具增強(qiáng)型語言模型

近年來,大型語言模型(LLMs)[48, 8, 9, 53, 4, 41, 42]的發(fā)展取得了巨大進(jìn)展,并刺激了提示學(xué)習(xí)[57, 33, 22]和指令學(xué)習(xí)[53, 64, 46, 11]的研究。盡管LLMs表現(xiàn)出色,但它們存在固有的局限性,如無法訪問最新信息[26]、利用外部工具[49]或進(jìn)行精確的數(shù)學(xué)推理[44, 35]。最近的基準(zhǔn)測試,如ScienceQA和TabMWP[32, 33, 7, 54, 51, 30],已出現(xiàn)用于評(píng)估LLMs處理復(fù)雜推理挑戰(zhàn)的能力,特別是強(qiáng)調(diào)使用外部工具的能力。同時(shí),利用外部工具和模塊化方法增強(qiáng)LLMs的興趣不斷增長。這些增強(qiáng)型LLMs可以通過網(wǎng)絡(luò)搜索引擎訪問實(shí)時(shí)信息[40],并利用外部資源的領(lǐng)域特定知識(shí)[62]。有些工作利用Python解釋器生成復(fù)雜程序,以更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43, 36]。例如,Toolformer[49]構(gòu)建了工具使用增強(qiáng)的數(shù)據(jù),以訓(xùn)練語言模型選擇五種工具。在視覺工具領(lǐng)域,提出了各種方法來增強(qiáng)大型語言模型處理視覺任務(wù)的能力[60, 59, 52, 13, 50],這些方法結(jié)合了Hugging Face模型[50]、Azure模型[60]、視覺基礎(chǔ)模型[59]。我們?cè)诒?中將Chameleon與其他工具增強(qiáng)型語言模型進(jìn)行了比較。許多這些方法要么受限于少量工具,要么局限于特定任務(wù)工具,這減少了它們?cè)诟鞣N技能維度上的能力,并阻礙了它們對(duì)新任務(wù)的普適性。最近的一些工作依賴大量監(jiān)督[49, 26],并專注于生成命令[40]和程序[52, 13]以推斷工具的選擇。然而,這種方法需要為特定任務(wù)和特定工具精心設(shè)計(jì)提示,既不靈活也不適應(yīng)性強(qiáng)。相比之下,Chameleon通過自然語言指令指導(dǎo)LLMs,簡單描述每個(gè)模塊的角色并提供一些調(diào)用示例,消除了學(xué)習(xí)組合不同工具時(shí)對(duì)額外訓(xùn)練或工具特定提示的需求。更重要的是,Chameleon在工具類型和來源、更新底層LLMs、添加新工具和適應(yīng)新任務(wù)方面為用戶提供了靈活性。我們的工作與AutoGPT[47]的精神一致,AutoGPT是一種具備人工通用智能(AGI)雄心的自主GPT-4代理,旨在結(jié)合眾多工具以實(shí)現(xiàn)用戶定義的目標(biāo)。雖然AutoGPT仍在開發(fā)中,但我們的工作是第一個(gè)具體實(shí)現(xiàn)這一理念并在廣泛研究的基準(zhǔn)測試中驗(yàn)證其有效性的。

表1:對(duì)使用工具增強(qiáng)大型語言模型的工作的比較。我們報(bào)告了工具的數(shù)量和工具類型,包括OpenAI ( ), Hugging Face ( ), Github ( ), Web搜索 ( ), 和代碼 ( )。我們比較了每種方法所具備的技能,例如圖像理解、瀏覽器搜索、知識(shí)檢索、數(shù)學(xué)推理和表格理解。有些模型可以組合各種工具,提出一個(gè)計(jì)劃器來推斷執(zhí)行相關(guān)工具,或者本質(zhì)上可以擴(kuò)展到新工具。標(biāo)簽“-”表示文獻(xiàn)中的不確定信息。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

3、通用框架:Chameleon

為了應(yīng)對(duì)當(dāng)前大型語言模型(LLMs)在利用多種工具方面的局限性,我們提出了Chameleon,一個(gè)新穎的即插即用組合推理框架,綜合多種工具的組合以適應(yīng)廣泛的問題。Chameleon由一個(gè)模塊庫和一個(gè)基于LLM的規(guī)劃器組成,其目的是將原始問題分解為可以由特定任務(wù)工具有效解決的子任務(wù)。與現(xiàn)有的工具增強(qiáng)型LLM方法[49, 13, 59, 50]不同,我們的模塊庫具有多種工具類型,如表2所示,使得Chameleon能夠展示多種推理能力,包括圖像理解、知識(shí)檢索、網(wǎng)絡(luò)搜索、復(fù)雜數(shù)學(xué)推理和表格理解。Chameleon并不生成特定領(lǐng)域的程序[40, 13, 52],而是采用基于LLM的規(guī)劃器創(chuàng)建類似自然語言的程序,遵循自然語言指令,這種方法更少出錯(cuò),易于擴(kuò)展到新模塊,且對(duì)用戶友好。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表1:我們模塊庫中的不同工具

我們將規(guī)劃器形式化如下:給定輸入查詢x0、模塊庫M和約束G,基于自然語言的規(guī)劃器P選擇一組模塊,這些模塊可以按順序執(zhí)行,通過生成類似自然語言格式的程序來回答查詢。模塊庫M由一組預(yù)構(gòu)建模塊組成:{Mi},每個(gè)模塊對(duì)應(yīng)于不同類型的工具(見表2)。G是計(jì)劃生成的約束,例如模塊的并發(fā)關(guān)系和順序。在我們的工作中,規(guī)劃器P是一個(gè)通過少樣本設(shè)置生成模塊名稱序列的LLM。規(guī)劃器以自然語言進(jìn)行提示,包含規(guī)劃任務(wù)指令I(lǐng)、模塊庫M的描述及相應(yīng)的約束G,以及一些示例D。從P生成的T長度計(jì)劃可以表示為p = M1, ..., MT,其中Mt表示生成計(jì)劃中的第t個(gè)元素,且Mt ∈ M。形式上,給定輸入查詢(問題陳述)x0,計(jì)劃p生成如下:

p←P(x0; I, M, G, D)

根據(jù)生成的計(jì)劃,各步驟對(duì)應(yīng)的模塊按順序執(zhí)行。該計(jì)劃是一個(gè)自然語言程序,每個(gè)模塊通過字符串匹配簡單綁定。在時(shí)間步驟t評(píng)估模塊Mt時(shí),執(zhí)行的輸出yt計(jì)算如下:

yt ←Mt(xt-1; ct-1)

其中xt-1是當(dāng)前模塊Mt的輸入, ct-1是緩存的信息(例如,圖像語義、檢索到的知識(shí)、生成的程序),這些信息來自模塊的執(zhí)行歷史。

接下來,通過以下方式分別更新下一個(gè)模塊Mt+1的輸入xt和緩存ct

xt←update_input(xt-1; yt)

ct←update_cache(ct-1; yt)

update_input和update_cache函數(shù)是為每個(gè)Mi手動(dòng)設(shè)計(jì)的。具體來說,update_input應(yīng)用于輸入查詢中的元素,包括問題、表格上下文和圖像。這些元素在模塊執(zhí)行后會(huì)更新。update_cache對(duì)應(yīng)新信息的生成,如輸入圖像的描述或從外部資源檢索到的知識(shí)。最后,由最后一個(gè)模塊MT生成對(duì)查詢的響應(yīng)r:

r = yT←MT(xT-1; cT-1)


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖2:我們?cè)赥abMWP [33]上使用GPT4進(jìn)行變色龍方法的兩個(gè)示例,這是一個(gè)具有表格上下文的數(shù)學(xué)推理基準(zhǔn)。變色龍展示了在適應(yīng)需要各種推理能力的不同查詢時(shí)的靈活性和效率。

(注釋:

1. 示例1:

查詢:Wanda去野營旅行并記錄了她每天徒步的里程數(shù),問題是“這些數(shù)字的中位數(shù)是多少?”

表格數(shù)據(jù):顯示了她每天徒步的里程數(shù)。

周日:10

周一:9

周二:10

周三:5

周四:9

工具組合:

知識(shí)檢索:檢索相關(guān)知識(shí),解釋中位數(shù)的定義和計(jì)算方法。

程序生成器:生成計(jì)算中位數(shù)的Python代碼。

程序驗(yàn)證器:驗(yàn)證生成的代碼。

程序執(zhí)行器:執(zhí)行代碼計(jì)算中位數(shù)。

答案生成器:生成最終答案。

答案:中位數(shù)為9。

2. 示例2:

查詢:根據(jù)以下時(shí)間表,公交車從火車站出發(fā)的時(shí)間是什么時(shí)候?

表格數(shù)據(jù):顯示了各個(gè)地點(diǎn)的到達(dá)和出發(fā)時(shí)間。

體育場:到達(dá) 10:20 A.M.,出發(fā) 10:25 A.M.

公園:到達(dá) 10:35 A.M.,出發(fā) 10:45 A.M.

酒店:到達(dá) 11:10 A.M.,出發(fā) 11:15 A.M.

機(jī)場:到達(dá) 12:05 P.M.,出發(fā) 12:10 P.M.

火車站:到達(dá) 12:25 P.M.,出發(fā) 12:35 P.M.

公交車站:到達(dá) 1:10 P.M.,出發(fā) 1:10 P.M.

選項(xiàng):

(A) 12:35 P.M.

(B) 1:10 P.M.

(C) 1:10 P.M. (D) 10:45 A.M.

工具組合:

行查找:在時(shí)間表中找到火車站的相關(guān)行。

解決方案生成器:生成步驟解釋以找到答案。

答案生成器:生成最終答案。

答案:公交車從火車站出發(fā)的時(shí)間是12:35 P.M.

總結(jié):通過變色龍方法,系統(tǒng)能夠靈活地適應(yīng)具有不同上下文和要求的查詢,合成和組合各種工具以生成最終的答案。變色龍方法在具有表格數(shù)據(jù)的數(shù)學(xué)推理任務(wù)中展示了其強(qiáng)大的推理能力和效率,能夠提供詳細(xì)的步驟解釋和正確的答案。)

4、Chameleon的應(yīng)用

我們展示了Chameleon在兩個(gè)具有挑戰(zhàn)性的任務(wù)上的應(yīng)用:ScienceQA [32](第4.2節(jié))和TabMWP [33](第4.3節(jié)),使用第4.1節(jié)中介紹的模塊庫。更多實(shí)驗(yàn)細(xì)節(jié)見附錄A.2。

4.1 模塊庫

為了適應(yīng)各種推理能力和多樣化的查詢,我們的系統(tǒng)利用了豐富的外部工具模塊庫。這里提供了該庫的高級(jí)概述,詳細(xì)實(shí)現(xiàn)見具體實(shí)驗(yàn)。完整的模塊庫M如表2所示。每個(gè)庫中的工具定義如下:


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表2:我們模塊庫中的不同工具

- 知識(shí)檢索工具:此模塊檢索解決復(fù)雜問題所需的額外背景知識(shí)。它對(duì)科學(xué)和數(shù)學(xué)等專門領(lǐng)域特別有益,提供任務(wù)的上下文。例如,如果查詢涉及稅表,此模塊可以生成關(guān)于稅務(wù)程序的知識(shí),提供有價(jià)值的背景信息。

- Bing搜索:類似“知識(shí)檢索”,但“Bing搜索”模塊旨在提供廣泛的任務(wù)相關(guān)知識(shí)。當(dāng)需要來自多個(gè)來源的廣泛或最新信息時(shí),它表現(xiàn)更好。使用搜索引擎API,此模塊根據(jù)輸入查詢返回相關(guān)搜索結(jié)果,隨后模塊解析并使用這些結(jié)果從多種來源獲取豐富的上下文信息,增強(qiáng)問題解決的效果。

- 查詢生成器:由于原始問題通常缺乏檢索任務(wù)相關(guān)信息的定制查詢,此模塊根據(jù)問題創(chuàng)建搜索引擎查詢,然后由“Bing搜索”模塊使用。通常,在使用“Bing搜索”之前,使用“查詢生成器”模塊是一個(gè)好策略。結(jié)合搜索引擎工具,生成更有針對(duì)性的查詢通常有助于提高檢索信息的召回率和精確度。

- 圖像說明生成器:旨在為圖像生成說明,此模塊為查詢提供重要的補(bǔ)充上下文。它在語義理解圖像時(shí)特別有價(jià)值,如識(shí)別場景中的物體和互動(dòng)。使用預(yù)訓(xùn)練模型,它將視覺數(shù)據(jù)轉(zhuǎn)化為語言,促進(jìn)對(duì)圖像內(nèi)容的有效理解和推理。

- 文本檢測器:此模塊旨在識(shí)別給定圖像中的文本。當(dāng)問題需要從包含圖表、表格、地圖或其他視覺元素的圖像中提取文本信息時(shí),通常使用“文本檢測器”。通過有效檢測各種格式的文本,此模塊有助于分析和理解基于圖像的內(nèi)容。

- 行查找:當(dāng)查詢涉及表格上下文時(shí),此模塊非常關(guān)鍵,因?yàn)橥ǔP枰ㄎ幌嚓P(guān)的單元格。大型表格可能會(huì)分散系統(tǒng)注意力,因此“行查找”通過保留與查詢相關(guān)的行簡化表格。如果所有行都相關(guān),則返回原始表格。

- 列查找:類似“行查找”模塊,“列查找”通過關(guān)注相關(guān)列解決涉及表格上下文的問題。它通過保留相關(guān)列簡化表格,如果所有列都相關(guān),則返回原始表格。

- 表格語言化:將結(jié)構(gòu)化表格轉(zhuǎn)換為文本可能會(huì)增強(qiáng)下游模塊對(duì)表格信息的理解,如開放域問答[37]所示,這使得此模塊成為我們系統(tǒng)的重要部分。它將表格翻譯為易于理解的描述,特別適用于“程序生成器”和“解決方案生成器”等模塊,尤其對(duì)莖葉圖或函數(shù)表等小型、特定領(lǐng)域的表格有用。

- 程序生成器:程序輔助方法被證明可以增強(qiáng)LLMs的邏輯和數(shù)學(xué)推理能力[55, 10, 6, 39, 18, 43]。“程序生成器”生成Python程序以有效解決查詢,這對(duì)于需要復(fù)雜計(jì)算或復(fù)雜邏輯操作(如“if-else”語句)的查詢特別有益。

- 程序驗(yàn)證器:最近的研究強(qiáng)調(diào)了驗(yàn)證以減少幻覺的重要性[45, 38]。因此,“程序驗(yàn)證器”確保由“程序生成器”生成的程序的有效性和無錯(cuò)誤性。它檢查語法和邏輯錯(cuò)誤以及潛在的執(zhí)行問題,增強(qiáng)解決方案的可靠性和準(zhǔn)確性。

- 程序執(zhí)行器:此模塊執(zhí)行由“程序生成器”生成的程序并產(chǎn)生結(jié)果,橋接程序生成和最終解決方案推導(dǎo)之間的差距。

- 解決方案生成器:此模塊利用所有緩存的信息生成輸入查詢的詳細(xì)解決方案。采用連鎖思維提示方法[57],確保連貫和結(jié)構(gòu)良好的響應(yīng)。如果規(guī)劃器能夠獨(dú)立解決查詢,尤其是對(duì)于較簡單的問題,可以直接使用此模塊而不是其他功能模塊。

- 答案生成器:此任務(wù)特定模塊使用基于規(guī)則的方法從“程序執(zhí)行器”或“解決方案生成器”的結(jié)果中提取和規(guī)范化答案。與提供詳細(xì)多步解決方案的“解決方案生成器”不同,“答案生成器”作為流水線中的最終模塊,提供簡明的任務(wù)特定答案。

4.2 科學(xué)問題解答

科學(xué)問題解答(ScienceQA [32])是一個(gè)多模式問題解答的多樣化基準(zhǔn),涵蓋一系列科學(xué)主題和背景。如圖1所示,這些問題的解答需要各種工具和技能,如圖像說明生成、文本檢測、知識(shí)檢索、在線資源搜索和多線索視覺推理。在生成使用工具的程序時(shí),我們將搜索空間限制為相關(guān)的庫子集(見附錄中的表6)。如果程序的最后兩個(gè)元素不是“解決方案生成器”和“答案生成器”,則該程序被視為無效,并默認(rèn)為這兩個(gè)元素的序列,遵循連鎖思維提示基線[57]。請(qǐng)參見附錄中的表8以了解構(gòu)建的自然語言規(guī)劃器提示。基于LLM的模塊(如“知識(shí)檢索”、“查詢生成器”和“解決方案生成器”的提示見附錄中的表10、11和12)。

4.3 表格數(shù)學(xué)推理

TabMWP [33] 是一個(gè)涉及各種表格上下文的數(shù)學(xué)推理任務(wù),如日程表、價(jià)格表、稅表、圖表和函數(shù)關(guān)系(見圖2)。它要求AI系統(tǒng)理解各種表格格式并進(jìn)行精確的數(shù)值或符號(hào)計(jì)算。與ScienceQA類似,我們將程序搜索空間限制為兩種工具類型:1)幫助LLM更好地理解表格信息的工具(如“行查找”、“列查找”和“表格語言化”)和2)執(zhí)行準(zhǔn)確符號(hào)計(jì)算的工具(如“程序生成器”、“程序驗(yàn)證器”和“程序執(zhí)行器”),如表6所列。生成的程序必須符合一定的約束條件,例如包括“答案生成器”,并且將“程序生成器”置于“程序驗(yàn)證器”和“程序執(zhí)行器”之前。不符合要求的程序默認(rèn)為“程序生成器”、“程序驗(yàn)證器”、“程序執(zhí)行器”和“答案生成器”的序列,符合帶有驗(yàn)證的程序思維提示基線[6]。

5、實(shí)驗(yàn)

我們?cè)u(píng)估了Chameleon在兩個(gè)復(fù)雜推理任務(wù)ScienceQA [32]和TabMWP [33]上的有效性和適應(yīng)性。實(shí)驗(yàn)細(xì)節(jié)見附錄A.2。

5.1 實(shí)驗(yàn)結(jié)果

ScienceQA。表3展示了現(xiàn)有基線和我們的方法Chameleon的結(jié)果,關(guān)鍵結(jié)果在圖3(a)中突出顯示。使用ChatGPT [41]作為基礎(chǔ)LLM,Chameleon達(dá)到了79.93%的準(zhǔn)確率,比連鎖思維提示(CoT)[57]提示的ChatGPT高出1.62%。值得注意的是,Chameleon是CoT的廣義形式,其中生成的程序是“解決方案生成器”和“答案生成器”的序列。Chameleon受益于額外的工具使用,如“知識(shí)檢索”、“Bing搜索”、“圖像說明生成器”和“文本檢測器”?;贕PT-4 [42]時(shí),我們的模型達(dá)到了86.54%的準(zhǔn)確率,比GPT-4 CoT [32]高出2.55%,比GPT-3 CoT高出11.37%,在少樣本設(shè)置中創(chuàng)造了新的最先進(jìn)水平。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表3:ScienceQA [32] 測試集上的問答準(zhǔn)確率(%)。我們報(bào)告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準(zhǔn)確率,以及不同問題類型的準(zhǔn)確率,包括自然科學(xué)、社會(huì)科學(xué)和語言科學(xué)、文本、圖像和無上下文問題,以及1-6年級(jí)和7-12年級(jí)的問題。每部分和總體的最高分?jǐn)?shù)分別用藍(lán)色和紅色突出顯示,我們最佳模型的結(jié)果用粗體標(biāo)出。

TabMWP。表4展示了關(guān)鍵模型的結(jié)果,見圖3(b)。同樣,Chameleon在微調(diào)和少樣本模型上都顯示了顯著的改進(jìn)。值得注意的是,CoT和程序思維(PoT)[6]可以看作是Chameleon的特例。除了“解決方案生成器”和“答案生成器”,CoT不使用任何工具,而PoT僅依賴于符號(hào)編程工具,如“程序生成器”和“程序執(zhí)行器”。Chameleon(ChatGPT)比ChatGPT CoT和ChatGPT PoT分別高出11.25%和3.79%,強(qiáng)調(diào)了我們豐富工具集的優(yōu)勢(shì)。使用GPT-4,Chameleon又獲得了5.50%的提升,達(dá)到了98.78%的準(zhǔn)確率。值得注意的是,Chameleon(GPT-4)超過了Codex PoT-SC [6],即最好的已發(fā)布模型,高出17.0%,并超過了人類表現(xiàn)8.56%。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖3:主要基線和Chameleon的結(jié)果。虛線表示人類表現(xiàn)。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表4:TabMWP [33] 測試集上的問答準(zhǔn)確率(%)。我們報(bào)告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準(zhǔn)確率,以及不同問題類型的準(zhǔn)確率,包括自由文本問題、多選問題、整數(shù)答案、小數(shù)答案、抽取式答案、布爾答案、其他文本答案、1-6年級(jí)和7-8年級(jí)的問題。*表示結(jié)果的一個(gè)子集。

5.2 定性分析

工具使用規(guī)劃。圖4和圖5分別展示了Chameleon在ScienceQA和TabMWP中調(diào)用關(guān)鍵工具的比例。令人感興趣的是,ChatGPT和GPT-4表現(xiàn)出不同的規(guī)劃行為。一般而言,ChatGPT對(duì)使用或不使用某些工具有強(qiáng)烈的偏見,深受上下文示例的影響。例如,ChatGPT在72%的查詢中調(diào)用“知識(shí)檢索”,但在ScienceQA中僅在3%的情況下調(diào)用“Bing搜索”;在TabMWP中,ChatGPT嚴(yán)重依賴“行查找”(47%),但很少調(diào)用“列查找”(4%)。然而,GPT-4在工具選擇上表現(xiàn)得更加客觀和理性。例如,在回答ScienceQA的科學(xué)問題時(shí),GPT-4更頻繁地調(diào)用“知識(shí)檢索”(81%對(duì)72%),并比ChatGPT更多地調(diào)用“Bing搜索”(11%對(duì)3%)。令人印象深刻的是,GPT-4通過觀察工具使用描述,一致地同時(shí)調(diào)用“查詢生成器”和“Bing搜索”,而ChatGPT缺乏這種推理能力。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖5:Chameleon在TabMWP上生成的程序中調(diào)用的工具。

禁用模塊的消融研究。我們研究了禁用生成程序中的關(guān)鍵模塊時(shí)Chameleon的準(zhǔn)確率下降情況(見表5),使用ChatGPT作為基礎(chǔ)LLM和500個(gè)測試樣例。結(jié)果表明,“知識(shí)檢索”在兩項(xiàng)任務(wù)中都起到了重要作用。特定領(lǐng)域的工具,如ScienceQA的搜索引擎和視覺模型,以及TabMWP的程序工具,也被證明是重要的。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

模塊轉(zhuǎn)換。我們?cè)趫D7和圖8中分別展示了Chameleon(GPT-4)在ScienceQA和TabMWP上生成程序的模塊轉(zhuǎn)換圖。這些圖中的轉(zhuǎn)換概率是從測試集上觀察到的工具轉(zhuǎn)換中計(jì)算出來的。這些圖表明,GPT-4規(guī)劃器能夠在少樣本設(shè)置中很好地決定如何排序工具。例如,在ScienceQA中,Chameleon通常決定依賴“知識(shí)檢索”或“Bing搜索”,但很少同時(shí)使用。在TabMWP中,我們觀察到兩種主要模式:要么通過解決方案生成器模塊,要么通過程序生成器、驗(yàn)證器和執(zhí)行器。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖7:Chameleon(GPT-4)在ScienceQA上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號(hào),END是終止符號(hào),其他為非終止符號(hào)。

圖8:Chameleon(GPT-4)在TabMWP上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號(hào),END是終止符號(hào),其他為非終止符號(hào)。

5.3 案例研究

ScienceQA的可視化示例。圖1中展示了Chameleon(GPT-4)在ScienceQA上的示例。Chameleon(GPT-4)能夠通過生成組合各種工具的程序并按順序執(zhí)行它們,以適應(yīng)不同的輸入查詢,從而獲得準(zhǔn)確的響應(yīng)。例如,要回答第一個(gè)問題(①)“推動(dòng)的方向是什么?”,系統(tǒng)調(diào)用圖像說明生成器模型從圖像中提取語義信息,并使用知識(shí)檢索模型收集背景知識(shí)以進(jìn)行多模式推理。在第二個(gè)示例(②)中,自然語言規(guī)劃器推斷需要文本檢測工具來理解廣告的背景。第三個(gè)查詢(③;更多細(xì)節(jié)見附錄中的圖9)“哪種動(dòng)物的皮膚適應(yīng)在寒冷地區(qū)生存?”涉及與動(dòng)物生存相關(guān)的科學(xué)術(shù)語。規(guī)劃器決定調(diào)用Bing搜索引擎以訪問特定領(lǐng)域的知識(shí),受益于眾多在線資源。

TabMWP的可視化示例。圖2中的示例展示了Chameleon在處理各種查詢方面的適應(yīng)性和多功能性。第一個(gè)示例(①)涉及稅表上的數(shù)學(xué)推理。Chameleon(1)調(diào)用知識(shí)檢索模型以回憶有助于理解該特定領(lǐng)域表格的基本知識(shí),(2)以更易讀的自然語言格式描述表格,(3)最終依賴程序輔助工具進(jìn)行精確計(jì)算。在第二個(gè)示例(②)中,系統(tǒng)生成的Python代碼與知識(shí)檢索模型提供的背景知識(shí)緊密一致。第三個(gè)示例(③)需要系統(tǒng)在給定輸入查詢的情況下定位大表格中的單元格。Chameleon調(diào)用行查找模型以幫助準(zhǔn)確定位相關(guān)行,并通過LLM模型生成語言解決方案,而不是依賴于程序工具。

失敗案例和局限性。Chameleon(GPT-4)的失敗示例在附錄中的表19至24中展示。不準(zhǔn)確的響應(yīng)可能源于當(dāng)前模塊的局限性或由規(guī)劃器生成的次優(yōu)程序。此外,模塊庫可能缺乏能夠解決特定能力的工具。未來的方向可能包括升級(jí)模塊和規(guī)劃器,或擴(kuò)展模塊庫以支持更廣泛的能力。更多局限性和更廣泛的影響分別在附錄的B和C節(jié)中討論。

5.4 錯(cuò)誤分析

為了檢查基礎(chǔ)大型語言模型的錯(cuò)誤來源,并了解我們的模型如何從不同方面減少錯(cuò)誤,我們進(jìn)行了錯(cuò)誤分析,如圖6所示。我們從ScienceQA的ChatGPT基線中選取了50個(gè)錯(cuò)誤示例作為評(píng)估集。我們統(tǒng)計(jì)了錯(cuò)誤示例的數(shù)量,并分析了ChatGPT、我們的Chameleon(ChatGPT)方法和Chameleon(GPT-4)各自的錯(cuò)誤類型類別。結(jié)果顯示,與ChatGPT相比,我們的Chameleon方法可以大幅減少錯(cuò)誤數(shù)量。我們的模型具備圖像說明和知識(shí)檢索工具,因此ChatGPT在圖像理解類別中犯的錯(cuò)誤由32個(gè)減少到Chameleon(ChatGPT)的10個(gè)和Chameleon(GPT-4)的19個(gè);而ChatGPT在知識(shí)理解類別中犯的錯(cuò)誤由37個(gè)減少到Chameleon(ChatGPT)的6個(gè)和Chameleon(GPT-4)的3個(gè)。受益于工具的順序執(zhí)行,解決方案生成導(dǎo)致的錯(cuò)誤也顯著減少。此外,我們發(fā)現(xiàn)GPT-4的任務(wù)規(guī)劃遠(yuǎn)遠(yuǎn)優(yōu)于ChatGPT。

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖6:ScienceQA中不同類別的錯(cuò)誤示例數(shù)量。圖像:圖像說明生成,知識(shí):知識(shí)理解,解決方案:解決方案生成。

6、結(jié)論

總之,我們介紹了一種新穎的即插即用組合推理框架Chameleon,它通過以即插即用的方式增強(qiáng)當(dāng)前大型語言模型的外部工具,解決了它們的局限性。我們的方法使用多樣化的工具集,并在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)ScienceQA和TabMWP上展示了令人印象深刻的適應(yīng)性和有效性。通過在準(zhǔn)確性上顯著超過現(xiàn)有的最先進(jìn)模型,Chameleon展示了其在處理各個(gè)領(lǐng)域的實(shí)際查詢方面的潛力。

補(bǔ)充材料

Chameleon:即插即用組合推理的大型語言模型

# 附錄

## A.1 當(dāng)前的工具增強(qiáng)型LLM

為了解決LLM的局限性,一個(gè)活躍的研究方向是通過訪問外部工具和資源來增強(qiáng)語言模型,并探索外部工具和即插即用模塊化方法的集成。例如,借助網(wǎng)絡(luò)搜索引擎和外部知識(shí)資源,LLM能夠訪問實(shí)時(shí)信息并利用領(lǐng)域特定的知識(shí)[40]。為了增強(qiáng)數(shù)學(xué)推理能力,最近的研究使用LLM[5]生成復(fù)雜程序以利用強(qiáng)大的計(jì)算資源,并更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43]。另一類近期的工作,如ViperGPT[52]、Visual ChatGPT[59]、VisProg[13]和HuggingGPT[50],結(jié)合了一系列基礎(chǔ)計(jì)算機(jī)視覺模型,使LLM具備執(zhí)行視覺推理任務(wù)的能力。

## A.2 實(shí)驗(yàn)細(xì)節(jié)

**模塊搜索空間**。ScienceQA和TabMWP的模塊庫子集如表6所示。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

規(guī)劃器實(shí)現(xiàn)。在構(gòu)建基于LLM的規(guī)劃器時(shí),我們選擇了gpt-3.5-turbo引擎用于ChatGPT,選擇了gpt-4引擎用于GPT-4。生成程序的最大長度設(shè)置為128,溫度設(shè)置為0以實(shí)現(xiàn)最確定性的生成。ScienceQA和TabMWP的規(guī)劃器提示分別如表8和表9所示。

ScienceQA的模塊實(shí)現(xiàn)。默認(rèn)情況下,基于LLM的模型使用四個(gè)上下文示例作為演示,溫度設(shè)置為0,允許的最大完成令牌數(shù)為512。其他具體實(shí)現(xiàn)細(xì)節(jié)如下:

- 知識(shí)檢索:提示由3個(gè)演示示例組成,模板見表10。

- 查詢生成器:提示模板見表11。最大完成令牌數(shù)設(shè)置為64。

- 解決方案生成器:提示由2個(gè)演示示例組成,模板見表12。

- 圖像說明生成器:我們使用圖像說明生成模型生成輸入圖像的文本描述。生成的說明最大長度設(shè)置為16,beam數(shù)為4,最大輸出令牌數(shù)為512。

- 文本檢測器:此模塊基于GitHub模型提取圖像中的文本內(nèi)容及其坐標(biāo)。

- Bing搜索:此模塊調(diào)用Bing搜索API并返回文本查詢的前三個(gè)響應(yīng)。

- 答案生成器:此模塊從“解決方案生成器”提供的結(jié)果中提取答案片段,并從給定選項(xiàng)中選擇最相似的選項(xiàng)。

TabMWP的模塊實(shí)現(xiàn)。與ScienceQA類似,基于LLM的模塊默認(rèn)使用四個(gè)上下文示例作為演示,溫度設(shè)置為0,允許的最大完成令牌數(shù)為512。其他實(shí)現(xiàn)細(xì)節(jié)如下:

- 知識(shí)檢索:提示由5個(gè)演示示例組成,模板見表13。

- 行查找:當(dāng)有超過三行和18個(gè)表格單元時(shí)啟用,以加速推理。提示由7個(gè)演示示例組成,模板見表14。最大完成令牌數(shù)設(shè)置為256。

- 列查找:同樣,此模塊在有兩個(gè)或更多列和18個(gè)或更多表格單元時(shí)啟用。提示由6個(gè)演示示例組成,模板見表15。最大完成令牌數(shù)設(shè)置為256。

- 表格語言化:提示由7個(gè)演示示例組成,模板見表16。

- 程序生成器:提示模板見表17。最大完成令牌數(shù)設(shè)置為256。

- 解決方案生成器:提示由16個(gè)演示示例組成,模板見表18。

- 答案生成器:用于將答案標(biāo)準(zhǔn)化為兩位小數(shù)精度的問題,或?yàn)槎噙x題選擇最相似的選項(xiàng)。

update_input 和 update_cache 的實(shí)現(xiàn)。update_input由特定工具的執(zhí)行觸發(fā),如‘Row_Lookup’,其修改或替換輸入中的元素以反映更新的狀態(tài)。工具如‘Image_Captioner’、‘Text_Detector’、‘Knowledge_Retrieval’、‘Web_Search’和‘Program_Generation’生成新元素。update_cache將這些新元素存儲(chǔ)在緩存中,使其可以被后續(xù)工具執(zhí)行時(shí)訪問。

## A.3 實(shí)驗(yàn)結(jié)果

**生成程序統(tǒng)計(jì)**。Chameleon利用基于LLM的自然語言規(guī)劃器生成程序,即使用模塊(工具)的序列。我們報(bào)告了Chameleon生成的唯一程序數(shù)量和相應(yīng)工具序列的平均長度統(tǒng)計(jì)數(shù)據(jù),如表7所示。在ScienceQA和TabMWP上,使用GPT-4作為基礎(chǔ)LLM生成的獨(dú)特程序更少,即程序更一致,即使在規(guī)劃模型中給定完全相同的提示時(shí)也是如此。我們的結(jié)果與[42]中的發(fā)現(xiàn)一致,該研究發(fā)現(xiàn)GPT-4在理解長上下文、對(duì)齊人類指令和執(zhí)行高級(jí)推理方面比其他LLM(如ChatGPT)更具優(yōu)勢(shì)。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

## B 限制

雖然Chameleon在利用大型語言模型(LLM)進(jìn)行即插即用組合推理方面代表了一個(gè)重要的進(jìn)步,但仍有一些領(lǐng)域可以進(jìn)一步優(yōu)化。一個(gè)這樣的領(lǐng)域是擴(kuò)展其適應(yīng)性,以涵蓋更多樣的任務(wù)和領(lǐng)域,而不僅限于所展示的基準(zhǔn)。負(fù)責(zé)合成程序和確定工具順序的基于LLM的規(guī)劃器引入了一種創(chuàng)新的方法,但它也提出了一些關(guān)于優(yōu)化工具選擇和順序過程的有趣研究問題。在當(dāng)前系統(tǒng)設(shè)計(jì)中,基于LLM的規(guī)劃器的質(zhì)量可能會(huì)影響整體性能。此外,Chameleon在生成程序時(shí)是一步完成的,而沒有在程序處理模塊時(shí)加入重新規(guī)劃機(jī)制。此外,我們假設(shè)模塊列表及其描述能夠適應(yīng)LLM的上下文窗口,但這并不總是適用。隨著任務(wù)復(fù)雜性增加和模塊庫擴(kuò)展,可能會(huì)出現(xiàn)計(jì)算需求激增或由于上下文限制而導(dǎo)致的限制,這表明未來可能需要進(jìn)行優(yōu)化。然而,這些潛在的改進(jìn)領(lǐng)域并不會(huì)削弱本文的核心成就,而是為未來的工作和研究提供了寶貴的方向。

## C 更廣泛的影響

本文所展示的Chameleon在社會(huì)上具有顯著的正面潛力。通過為大型語言模型(LLM)提供即插即用的組合推理模塊,Chameleon可以為復(fù)雜的多模式任務(wù)提供更準(zhǔn)確的響應(yīng),使其成為各種應(yīng)用(包括但不限于教育、金融和決策支持系統(tǒng))中可能有價(jià)值的框架。此外,系統(tǒng)在不需要任何訓(xùn)練的情況下合成程序的能力,可以使非專家能夠在不同領(lǐng)域中利用AI技術(shù),從而實(shí)現(xiàn)AI技術(shù)的普及。隨著大型語言模型和工具集成的研究不斷推進(jìn),我們預(yù)計(jì)我們的框架將為進(jìn)一步的創(chuàng)新奠定基礎(chǔ),推動(dòng)更具普適性和效率的復(fù)雜推理任務(wù)解決方案的追求。

盡管Chameleon可能帶來負(fù)面的社會(huì)影響,如如果其利用的數(shù)據(jù)源和外部工具未被精心策劃,可能導(dǎo)致誤信息和隱私問題,我們相信這些風(fēng)險(xiǎn)是可以通過仔細(xì)管理和最小化的。還有一個(gè)風(fēng)險(xiǎn)是,過度依賴Chameleon的自主性可能會(huì)削弱批判性思維能力或工作職能。為了有效緩解這些問題,必須仔細(xì)策劃數(shù)據(jù)源和外部工具,并強(qiáng)烈致力于用戶數(shù)據(jù)保護(hù)。此外,應(yīng)將Chameleon的自主性視為增強(qiáng)人類能力的手段,而不是替代。因此,制定強(qiáng)有力的道德準(zhǔn)則、透明機(jī)制和保障措施至關(guān)重要,體現(xiàn)了我們對(duì)社會(huì)責(zé)任性AI部署的承諾。


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表8:為ScienceQA任務(wù)構(gòu)建的規(guī)劃器模型提示。提示包括描述規(guī)劃器模型角色的說明、將問題映射到模塊序列的上下文示例以及測試示例。

(翻譯:

## 規(guī)劃器模型說明

您需要作為策略模型,給定一個(gè)問題和一組模塊,確定可以順序執(zhí)行以解決問題的模塊序列。模塊定義如下:

- Query_Generator:此模塊為給定的問題生成搜索引擎查詢。通常,當(dāng)問題涉及領(lǐng)域特定知識(shí)時(shí),我們會(huì)考慮使用“Query_Generator”。

- Bing_Search:此模塊在網(wǎng)上搜索與問題相關(guān)的信息。通常,當(dāng)問題涉及領(lǐng)域特定知識(shí)時(shí),我們會(huì)考慮使用“Bing_Search”。

- Image_Captioner:此模塊為給定的圖像生成說明。通常,當(dāng)問題涉及圖像的語義理解,且元數(shù)據(jù)中的“has_image”字段為真時(shí),我們會(huì)考慮使用“Image_Captioner”。

- Text_Detector:此模塊檢測給定圖像中的文本。通常,當(dāng)問題涉及展開圖像中的文本(如圖表、表格、地圖等)時(shí),且元數(shù)據(jù)中的“has_image”字段為真時(shí),我們會(huì)考慮使用“Text_Detector”。

- Knowledge_Retrieval:此模塊檢索作為提示的背景知識(shí)以解決給定問題。通常,當(dāng)背景知識(shí)有助于指導(dǎo)解決方案時(shí),我們會(huì)考慮使用“Knowledge_Retrieval”。

- Solution_Generator:此模塊基于提供的信息生成問題的詳細(xì)解決方案。通常,“Solution_Generator”會(huì)整合來自“Query_Generator”、“Bing_Search”、“Image_Captioner”、“Text_Detector”和“Knowledge_Retrieval”的信息。

- Answer_Generator:此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常是預(yù)測流水線中的最后一個(gè)模塊。

以下是將問題映射到模塊的一些示例。

## 上下文示例

問題:比較每個(gè)樣本中粒子的平均動(dòng)能。哪個(gè)樣本的溫度更高?

上下文:下圖顯示了兩個(gè)相同封閉、剛性容器中的純氣體樣本。每個(gè)彩色球代表一個(gè)氣體粒子。兩個(gè)樣本的粒子數(shù)量相同。

選項(xiàng): (A) 都不是;樣本的溫度相同 (B) 樣本A (C) 樣本B

元數(shù)據(jù):‘pid’: 19, ‘has_image’: True, ‘grade’: 8, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘粒子運(yùn)動(dòng)和能量’, ‘skill’: ‘識(shí)別粒子運(yùn)動(dòng)如何影響溫度和壓力’

模塊:["Text_Detector", "Knowledge_Retrieval", "Solution_Generator", "Answer_Generator"])

Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表9:為TabMWP任務(wù)構(gòu)建的規(guī)劃器模型提示。類似地,提示包括說明、上下文示例和測試示例。

(翻譯:

規(guī)劃器模型說明

給定一個(gè)問題和一組模塊,確定可以順序執(zhí)行以解決問題的模塊序列。

模塊定義如下:

- Program_Generator:此模塊生成可以解決給定問題的Python程序。它接收問題和可能的上下文,生成一個(gè)可以由“Program_Executor”模塊執(zhí)行的程序。通常,當(dāng)問題和上下文涉及復(fù)雜計(jì)算(如多個(gè)數(shù)字的算術(shù)運(yùn)算)或復(fù)雜邏輯操作(如“if-else”語句)時(shí),我們會(huì)考慮使用“Program_Generator”。

- Program_Verifier:此模塊驗(yàn)證“Program_Generator”生成的程序是否有效且無錯(cuò)誤。它檢查語法錯(cuò)誤、邏輯錯(cuò)誤和程序執(zhí)行過程中可能出現(xiàn)的其他潛在問題。

- Program_Executor:此模塊執(zhí)行“Program_Generator”生成的程序,并生成可以由其他模塊(如“Question_Answering”)進(jìn)一步處理的輸出。

- Row_Lookup:此模塊返回僅保留與問題相關(guān)行的簡化表格。它接收問題和表格,并返回簡化后的表格。如果所有行都相關(guān)或行數(shù)少于或等于三行,則返回原始表格。通常,當(dāng)表格涉及超過三行且問題只需要少量行來回答時(shí),我們會(huì)考慮使用“Row_Lookup”。

- Column_Lookup:此模塊返回僅保留與問題相關(guān)列的簡化表格。它接收問題和表格,并返回簡化后的表格。如果所有列都相關(guān)或列數(shù)只有兩列,則返回原始表格。通常,當(dāng)表格涉及超過兩列且問題只需要少量列來回答時(shí),我們會(huì)考慮使用“Column_Lookup”。

- Table_Verbalizer:此模塊將表格轉(zhuǎn)換為易于下游模塊(如“Program_Generator”、“Solution_Generator”、“Question_Answering”)理解的描述。通常,當(dāng)表格涉及少量行和列且是特定領(lǐng)域的(如莖葉圖、函數(shù)表等)時(shí),我們會(huì)考慮使用“Table_Verbalizer”。

- Knowledge_Retrieval:此模塊為給定的問題和表格檢索特定領(lǐng)域的知識(shí)。通常,當(dāng)問題和表格涉及特定領(lǐng)域的知識(shí)(如莖葉圖、函數(shù)表、稅務(wù)表等)時(shí),我們會(huì)考慮使用“Knowledge_Retrieval”。

- Solution_Generator:此模塊基于提供的信息生成問題的詳細(xì)解決方案。通常,當(dāng)問題和表格涉及簡單計(jì)算(如單個(gè)數(shù)字的算術(shù)運(yùn)算)時(shí),我們會(huì)使用“Solution_Generator”。

- Answer_Generator:此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常在“Solution_Generator”或“Program_Executor”模塊之后使用。

以下是將問題映射到模塊的一些示例。

## 上下文示例

表格:

| designer watch | $8,141 |

| designer coat | $6,391 |

問題:設(shè)計(jì)師手表比設(shè)計(jì)師大衣貴多少?(單位:$)

模塊:["Program_Generator", "Program_Verifier", "Program_Executor", "Answer_Generator"]


Chameleon:使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表10:為ScienceQA任務(wù)構(gòu)建的“知識(shí)檢索”模塊提示。

(翻譯:

### 說明

閱讀以下問題,并生成背景知識(shí)作為上下文信息,以幫助回答問題。

### 上下文示例

問題:這三個(gè)物體有什么共同的屬性?

選項(xiàng):(A) 硬 (B) 軟 (C) 黃

元數(shù)據(jù):‘pid’: 43, ‘has_image’: True, ‘grade’: 4, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘材料’, ‘skill’: ‘比較物體的屬性’

圖像中檢測到的文本:['手帕', '拖鞋', '休閑套裝']

知識(shí)

- 這個(gè)問題是關(guān)于比較三個(gè)物體的屬性:手帕、拖鞋和休閑套裝。

- 這些物體與物理學(xué)主題和比較物體屬性的技能相關(guān)。

- 物體的屬性可以包括物理特征,如顏色、質(zhì)地、形狀、大小、重量和材料。)

Lu P, Peng B, Cheng H, et al. Chameleon: Plug-and-play compositional reasoning with large language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

1University of California, Los Angeles

2Microsoft Research, Redmond

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??????https://mp.weixin.qq.com/s/K7J6zWaFYYZW_zHO9Y-aew???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦