偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="fjvdp"><i id="fjvdp"></i></sub>

<cite id="fjvdp"><rp id="fjvdp"><form id="fjvdp"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Chameleon：使用大型語言模型的即插即用組合推理原創(chuàng)

發(fā)布于 2024-7-25 19:40

瀏覽

0收藏

?摘要：大型語言模型（LLMs）在解決各種自然語言處理任務(wù)方面取得了顯著進(jìn)展，這歸功于其突顯的推理能力。然而，LLMs本身存在固有的局限性，例如無法訪問最新信息（存儲(chǔ)在網(wǎng)絡(luò)或任務(wù)特定的知識(shí)庫中）、無法使用外部工具，以及無法進(jìn)行精確的數(shù)學(xué)和邏輯推理。在本文中，我們提出了變色龍（Chameleon），一個(gè)通過增加即插即用模塊來增強(qiáng)LLMs進(jìn)行組合推理的AI系統(tǒng)。變色龍通過組合各種工具（例如LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的方法）來合成程序，以完成復(fù)雜的推理任務(wù)。變色龍的核心是一個(gè)基于LLM的計(jì)劃器，它組裝了一系列工具以生成最終的響應(yīng)。我們展示了變色龍?jiān)趦蓚€(gè)多模態(tài)知識(shí)密集型推理任務(wù)上的有效性：ScienceQA和TabMWP。由GPT4驅(qū)動(dòng)的變色龍?jiān)赟cienceQA上實(shí)現(xiàn)了86.54%的總體準(zhǔn)確率，比目前發(fā)表的最佳少樣本結(jié)果提高了11.37%。在TabMWP上，由GPT4驅(qū)動(dòng)的變色龍將準(zhǔn)確率提高了17.0%，將最新水平提升至98.78%。我們的分析還表明，與由ChatGPT驅(qū)動(dòng)的計(jì)劃器相比，由GPT4驅(qū)動(dòng)的計(jì)劃器通過推斷指令中的潛在約束，表現(xiàn)出更一致和合理的工具選擇。

1、引言

近年來，大型語言模型（LLMs）在各種自然語言處理任務(wù)中取得了顯著進(jìn)展，代表性的例子包括 GPT3 [4]、PaLM [8]、LLaMA [64]、ChatGPT [41] 和最近開發(fā)的 GPT4 [42]。LLMs展示了新興的能力，如上下文學(xué)習(xí)和鏈?zhǔn)剿季S推理 [56]。這些模型能夠以零樣本方式解決各種任務(wù) [25]，或在少量示例的幫助下完成任務(wù) [57]，并且在規(guī)劃和決策方面展示了與人類類似的潛力 [17, 16]。盡管具有這些能力，LLMs面臨固有的局限，比如無法訪問最新信息 [26]，執(zhí)行精確的數(shù)學(xué)推理 [44, 35] 或利用專門的模型 [49]。因此，增強(qiáng)當(dāng)前的LLMs，使其具備自動(dòng)組合外部工具來解決現(xiàn)實(shí)世界任務(wù)的能力，對(duì)解決這些缺點(diǎn)至關(guān)重要。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖1：我們?cè)赟cienceQA [32]上使用GPT4進(jìn)行變色龍方法的示例，這是一個(gè)科學(xué)領(lǐng)域的多模態(tài)問答基準(zhǔn)。變色龍通過合成程序來組合各種工具并依次執(zhí)行它們以獲得最終答案，從而適應(yīng)不同的查詢。

（注釋：

1. 問題1：

查詢：給定一個(gè)包含棒球運(yùn)動(dòng)員打擊動(dòng)作的圖像，問題是“這個(gè)推力的方向是什么？”選項(xiàng)是：(A) 遠(yuǎn)離棒球棒 (B) 朝向棒球棒。

工具組合：使用圖像描述生成工具（Image Captioner）生成圖像描述，然后使用知識(shí)檢索工具（Knowledge Retrieval）查找相關(guān)信息，再使用解決方案生成工具（Solution Generator）分析答案。

答案生成：最終答案生成器（Answer Generator）得出答案。

2. 問題2：

查詢：給定一個(gè)環(huán)保廣告的圖像，問題是“這則廣告中主要使用的勸說手段是什么？”選項(xiàng)是：(A) 情感 (B) 人格 (C) 理性。

工具組合：使用文本檢測工具（Text Detector）提取廣告中的文本，然后使用知識(shí)檢索工具查找相關(guān)信息，再使用解決方案生成工具分析答案。

詳細(xì)解釋：

名詞提示：提供了廣告中提到的環(huán)保紙盤的詳細(xì)背景信息。

句子提示：描述了廣告中使用的勸說手段。

多模態(tài)提示：結(jié)合文本和圖像推理，提供了廣告的全面分析。

答案生成：最終答案生成器得出答案“ethos（人格）”。

3. 問題3：

查詢：給定一張動(dòng)物的圖像，問題是“哪種動(dòng)物的皮膚適應(yīng)在寒冷環(huán)境中生存？”選項(xiàng)是：(A) 歐亞猞猁 (B) 荊棘龍蜥。

工具組合：使用圖像描述生成工具生成圖像描述，然后使用查詢生成器（Query Generator）構(gòu)建查詢，接著通過Bing搜索引擎查找相關(guān)信息，再使用解決方案生成工具分析答案。

答案生成：最終答案生成器得出答案。

總結(jié)：通過變色龍方法，系統(tǒng)能夠適應(yīng)不同類型的查詢，合成和組合各種工具并依次執(zhí)行它們，以生成最終的答案。變色龍方法展示了其在多模態(tài)知識(shí)密集型推理任務(wù)中的有效性，并且能夠生成詳細(xì)、合理且一致的答案。）

考慮圖1中例子②的問題：“這則廣告中使用了哪種主要的說服手法？”。為了回答這個(gè)問題，需要進(jìn)行以下步驟：1）推斷出廣告圖像中包含文本內(nèi)容并調(diào)用文本解碼器理解語義；2）檢索有關(guān)說服手法及其區(qū)別的背景知識(shí)；3）基于輸入查詢和前幾步驟的中間結(jié)果生成解決方案；以及4）最終以特定于任務(wù)的格式給出答案。

另一方面，當(dāng)回答“哪種動(dòng)物的皮膚適應(yīng)在寒冷地方生存（③）”時(shí)，可能需要調(diào)用諸如圖像標(biāo)題生成器解析圖像信息和網(wǎng)絡(luò)搜索引擎檢索領(lǐng)域知識(shí)以理解科學(xué)術(shù)語。然而，目前的工具增強(qiáng)型LLMs在處理這些跨多種場景的現(xiàn)實(shí)世界查詢時(shí)仍面臨挑戰(zhàn)。大多數(shù)現(xiàn)有方法要么局限于少量工具 [39, 6, 55, 18, 43, 49]，要么依賴于特定領(lǐng)域的工具 [40, 60, 13, 59, 52]，因此難以推廣到新領(lǐng)域的查詢（詳見第2節(jié)和A.1節(jié)進(jìn)一步討論）。在本文中，我們研究如何使LLMs能夠合成程序，以捕捉組合異構(gòu)工具的邏輯。

為了解決現(xiàn)有工作的挑戰(zhàn)，我們引入了Chameleon，一個(gè)即插即用的組合推理框架，利用LLMs合成程序并組合各種工具，以應(yīng)對(duì)廣泛的任務(wù)需求。與現(xiàn)有的工具增強(qiáng)型LLMs [49, 40, 60, 13, 59, 52] 不同，Chameleon使用更豐富的工具集，包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于啟發(fā)式的模塊。此外，Chameleon利用LLMs的上下文學(xué)習(xí)能力，以及將LLM作為自然語言規(guī)劃器的特性，無需任何訓(xùn)練或精心策劃的規(guī)則。根據(jù)工具描述和使用示例，規(guī)劃器推斷出一個(gè)由一系列工具組成的程序，以便執(zhí)行以生成用戶查詢的最終響應(yīng)。與生成特定領(lǐng)域語言的程序不同 [40, 52, 13]，Chameleon生成類似自然語言的（NL）程序（例如，[文本檢測器，知識(shí)檢索，解決方案生成器，答案生成器] 用于圖1中的第二個(gè)查詢）。NL程序易于理解和由編程經(jīng)驗(yàn)有限的用戶調(diào)試，并且容易擴(kuò)展到新模塊。在每個(gè)模塊的執(zhí)行過程中，模塊處理查詢和緩存的上下文，返回由模塊自身確定的結(jié)果，并更新后續(xù)執(zhí)行的查詢和上下文。通過將模塊組合成順序程序，后續(xù)模塊可以利用先前緩存的上下文和更新的查詢。

我們展示了Chameleon在兩個(gè)任務(wù)上的適應(yīng)性和效果：ScienceQA [32] 和TabMWP [33]。ScienceQA是一個(gè)跨多種上下文格式和各種科學(xué)主題的多模式問題回答基準(zhǔn)，而TabMWP則涉及各種表格上下文的數(shù)學(xué)基準(zhǔn)。這兩個(gè)基準(zhǔn)作為評(píng)估Chameleon跨不同類型和領(lǐng)域協(xié)調(diào)各種工具能力的良好測試平臺(tái)。值得注意的是，Chameleon結(jié)合GPT4在ScienceQA上達(dá)到了86.54%的準(zhǔn)確率，顯著優(yōu)于最佳已發(fā)表的少樣本模型達(dá)11.37%。在TabMWP上，使用GPT4作為基礎(chǔ)LLM，Chameleon相比鏈?zhǔn)剿季S（CoT）提示的GPT4 [57] 提升了7.97%，相比最佳已發(fā)表模型 [6] 提升了17.0%，將技術(shù)水平提升至98.78%。進(jìn)一步研究表明，使用GPT4作為規(guī)劃器能夠展示更一致和理性的工具選擇，并能根據(jù)指令推斷出潛在約束，相較于其他LLMs如ChatGPT。

我們的貢獻(xiàn)如下：(1) 我們開發(fā)了一個(gè)即插即用的組合推理框架Chameleon，有效地組合外部工具以解決LLMs的固有限制，并應(yīng)對(duì)廣泛的推理任務(wù)。(2) 利用LLM作為自然語言規(guī)劃器生成程序，Chameleon成功地整合了包括LLMs、現(xiàn)成的視覺模型、網(wǎng)絡(luò)搜索引擎、Python函數(shù)和基于規(guī)則的模塊等多種工具，構(gòu)建了一個(gè)多功能且適應(yīng)性強(qiáng)的人工智能系統(tǒng)，能夠回答現(xiàn)實(shí)世界的查詢。(3) 我們展示了Chameleon在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試中的有效性，顯著超越現(xiàn)有技術(shù)水平。

2、相關(guān)工作

組合推理

神經(jīng)模塊化和組合方法已被探索用于自動(dòng)執(zhí)行所需的子任務(wù)分解，增強(qiáng)各種推理任務(wù)的可解釋性和適應(yīng)性。早期的工作[2, 3]認(rèn)為復(fù)雜的推理任務(wù)本質(zhì)上是組合的，并提出了神經(jīng)模塊網(wǎng)絡(luò)（NMN）以將其分解為子任務(wù)。然而，這些方法依賴于脆弱的現(xiàn)成解析器，并受到模塊配置的限制。一些后來的工作[19, 15, 14, 21]通過端到端方式預(yù)測特定實(shí)例的網(wǎng)絡(luò)布局，利用強(qiáng)化學(xué)習(xí)[58]和弱監(jiān)督學(xué)習(xí)，進(jìn)一步推進(jìn)了這一領(lǐng)域。在視覺推理中，提出了包含程序生成器和執(zhí)行引擎的模型，以結(jié)合深度表示學(xué)習(xí)和符號(hào)程序執(zhí)行[19, 61]。在數(shù)學(xué)推理領(lǐng)域，開發(fā)了一種可解釋的求解器，將定理知識(shí)作為條件規(guī)則逐步進(jìn)行符號(hào)推理[31]。我們的工作從神經(jīng)模塊網(wǎng)絡(luò)中汲取靈感，但提供了幾個(gè)顯著的優(yōu)勢(shì)。首先，Chameleon 不需要昂貴的特定任務(wù)程序監(jiān)督來進(jìn)行模型訓(xùn)練，而是生成由模塊組成的順序程序，這些程序易于推廣到各種領(lǐng)域和任務(wù)，允許以即插即用的方式擴(kuò)展新模塊。其次，Chameleon 不需要任何訓(xùn)練，而是利用大語言模型（LLMs）的上下文學(xué)習(xí)能力，通過自然語言指令和示例生成程序。

工具增強(qiáng)型語言模型

近年來，大型語言模型（LLMs）[48, 8, 9, 53, 4, 41, 42]的發(fā)展取得了巨大進(jìn)展，并刺激了提示學(xué)習(xí)[57, 33, 22]和指令學(xué)習(xí)[53, 64, 46, 11]的研究。盡管LLMs表現(xiàn)出色，但它們存在固有的局限性，如無法訪問最新信息[26]、利用外部工具[49]或進(jìn)行精確的數(shù)學(xué)推理[44, 35]。最近的基準(zhǔn)測試，如ScienceQA和TabMWP[32, 33, 7, 54, 51, 30]，已出現(xiàn)用于評(píng)估LLMs處理復(fù)雜推理挑戰(zhàn)的能力，特別是強(qiáng)調(diào)使用外部工具的能力。同時(shí)，利用外部工具和模塊化方法增強(qiáng)LLMs的興趣不斷增長。這些增強(qiáng)型LLMs可以通過網(wǎng)絡(luò)搜索引擎訪問實(shí)時(shí)信息[40]，并利用外部資源的領(lǐng)域特定知識(shí)[62]。有些工作利用Python解釋器生成復(fù)雜程序，以更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43, 36]。例如，Toolformer[49]構(gòu)建了工具使用增強(qiáng)的數(shù)據(jù)，以訓(xùn)練語言模型選擇五種工具。在視覺工具領(lǐng)域，提出了各種方法來增強(qiáng)大型語言模型處理視覺任務(wù)的能力[60, 59, 52, 13, 50]，這些方法結(jié)合了Hugging Face模型[50]、Azure模型[60]、視覺基礎(chǔ)模型[59]。我們?cè)诒?中將Chameleon與其他工具增強(qiáng)型語言模型進(jìn)行了比較。許多這些方法要么受限于少量工具，要么局限于特定任務(wù)工具，這減少了它們?cè)诟鞣N技能維度上的能力，并阻礙了它們對(duì)新任務(wù)的普適性。最近的一些工作依賴大量監(jiān)督[49, 26]，并專注于生成命令[40]和程序[52, 13]以推斷工具的選擇。然而，這種方法需要為特定任務(wù)和特定工具精心設(shè)計(jì)提示，既不靈活也不適應(yīng)性強(qiáng)。相比之下，Chameleon通過自然語言指令指導(dǎo)LLMs，簡單描述每個(gè)模塊的角色并提供一些調(diào)用示例，消除了學(xué)習(xí)組合不同工具時(shí)對(duì)額外訓(xùn)練或工具特定提示的需求。更重要的是，Chameleon在工具類型和來源、更新底層LLMs、添加新工具和適應(yīng)新任務(wù)方面為用戶提供了靈活性。我們的工作與AutoGPT[47]的精神一致，AutoGPT是一種具備人工通用智能（AGI）雄心的自主GPT-4代理，旨在結(jié)合眾多工具以實(shí)現(xiàn)用戶定義的目標(biāo)。雖然AutoGPT仍在開發(fā)中，但我們的工作是第一個(gè)具體實(shí)現(xiàn)這一理念并在廣泛研究的基準(zhǔn)測試中驗(yàn)證其有效性的。

表1：對(duì)使用工具增強(qiáng)大型語言模型的工作的比較。我們報(bào)告了工具的數(shù)量和工具類型，包括OpenAI ( ), Hugging Face ( ), Github ( ), Web搜索 ( ), 和代碼 ( )。我們比較了每種方法所具備的技能，例如圖像理解、瀏覽器搜索、知識(shí)檢索、數(shù)學(xué)推理和表格理解。有些模型可以組合各種工具，提出一個(gè)計(jì)劃器來推斷執(zhí)行相關(guān)工具，或者本質(zhì)上可以擴(kuò)展到新工具。標(biāo)簽“-”表示文獻(xiàn)中的不確定信息。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

3、通用框架：Chameleon

為了應(yīng)對(duì)當(dāng)前大型語言模型（LLMs）在利用多種工具方面的局限性，我們提出了Chameleon，一個(gè)新穎的即插即用組合推理框架，綜合多種工具的組合以適應(yīng)廣泛的問題。Chameleon由一個(gè)模塊庫和一個(gè)基于LLM的規(guī)劃器組成，其目的是將原始問題分解為可以由特定任務(wù)工具有效解決的子任務(wù)。與現(xiàn)有的工具增強(qiáng)型LLM方法[49, 13, 59, 50]不同，我們的模塊庫具有多種工具類型，如表2所示，使得Chameleon能夠展示多種推理能力，包括圖像理解、知識(shí)檢索、網(wǎng)絡(luò)搜索、復(fù)雜數(shù)學(xué)推理和表格理解。Chameleon并不生成特定領(lǐng)域的程序[40, 13, 52]，而是采用基于LLM的規(guī)劃器創(chuàng)建類似自然語言的程序，遵循自然語言指令，這種方法更少出錯(cuò)，易于擴(kuò)展到新模塊，且對(duì)用戶友好。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表1：我們模塊庫中的不同工具

我們將規(guī)劃器形式化如下：給定輸入查詢x₀、模塊庫M和約束G，基于自然語言的規(guī)劃器P選擇一組模塊，這些模塊可以按順序執(zhí)行，通過生成類似自然語言格式的程序來回答查詢。模塊庫M由一組預(yù)構(gòu)建模塊組成：{M_i}，每個(gè)模塊對(duì)應(yīng)于不同類型的工具（見表2）。G是計(jì)劃生成的約束，例如模塊的并發(fā)關(guān)系和順序。在我們的工作中，規(guī)劃器P是一個(gè)通過少樣本設(shè)置生成模塊名稱序列的LLM。規(guī)劃器以自然語言進(jìn)行提示，包含規(guī)劃任務(wù)指令I(lǐng)、模塊庫M的描述及相應(yīng)的約束G，以及一些示例D。從P生成的T長度計(jì)劃可以表示為p = M¹, ..., M^T，其中M_t表示生成計(jì)劃中的第t個(gè)元素，且M^t ∈ M。形式上，給定輸入查詢（問題陳述）x₀，計(jì)劃p生成如下：

p←P(x₀; I, M, G, D)

根據(jù)生成的計(jì)劃，各步驟對(duì)應(yīng)的模塊按順序執(zhí)行。該計(jì)劃是一個(gè)自然語言程序，每個(gè)模塊通過字符串匹配簡單綁定。在時(shí)間步驟t評(píng)估模塊M^t時(shí)，執(zhí)行的輸出y^t計(jì)算如下：

y^t ←M^t(x^t-1; c^t-1)

其中x^t-1是當(dāng)前模塊M^t的輸入， c^t-1是緩存的信息（例如，圖像語義、檢索到的知識(shí)、生成的程序），這些信息來自模塊的執(zhí)行歷史。

接下來，通過以下方式分別更新下一個(gè)模塊M^t+1的輸入x^t和緩存c^t：

x^t←update_input(x^t-1; y^t)

c^t←update_cache(c^t-1; y^t)

update_input和update_cache函數(shù)是為每個(gè)M_i手動(dòng)設(shè)計(jì)的。具體來說，update_input應(yīng)用于輸入查詢中的元素，包括問題、表格上下文和圖像。這些元素在模塊執(zhí)行后會(huì)更新。update_cache對(duì)應(yīng)新信息的生成，如輸入圖像的描述或從外部資源檢索到的知識(shí)。最后，由最后一個(gè)模塊M^T生成對(duì)查詢的響應(yīng)r：

r = y^T←M^T(x^T-1; c^T-1)

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖2：我們?cè)赥abMWP [33]上使用GPT4進(jìn)行變色龍方法的兩個(gè)示例，這是一個(gè)具有表格上下文的數(shù)學(xué)推理基準(zhǔn)。變色龍展示了在適應(yīng)需要各種推理能力的不同查詢時(shí)的靈活性和效率。

（注釋：

1. 示例1：

查詢：Wanda去野營旅行并記錄了她每天徒步的里程數(shù)，問題是“這些數(shù)字的中位數(shù)是多少？”

表格數(shù)據(jù)：顯示了她每天徒步的里程數(shù)。

周日：10

周一：9

周二：10

周三：5

周四：9

工具組合：

知識(shí)檢索：檢索相關(guān)知識(shí)，解釋中位數(shù)的定義和計(jì)算方法。

程序生成器：生成計(jì)算中位數(shù)的Python代碼。

程序驗(yàn)證器：驗(yàn)證生成的代碼。

程序執(zhí)行器：執(zhí)行代碼計(jì)算中位數(shù)。

答案生成器：生成最終答案。

答案：中位數(shù)為9。

2. 示例2：

查詢：根據(jù)以下時(shí)間表，公交車從火車站出發(fā)的時(shí)間是什么時(shí)候？

表格數(shù)據(jù)：顯示了各個(gè)地點(diǎn)的到達(dá)和出發(fā)時(shí)間。

體育場：到達(dá) 10:20 A.M.，出發(fā) 10:25 A.M.

公園：到達(dá) 10:35 A.M.，出發(fā) 10:45 A.M.

酒店：到達(dá) 11:10 A.M.，出發(fā) 11:15 A.M.

機(jī)場：到達(dá) 12:05 P.M.，出發(fā) 12:10 P.M.

火車站：到達(dá) 12:25 P.M.，出發(fā) 12:35 P.M.

公交車站：到達(dá) 1:10 P.M.，出發(fā) 1:10 P.M.

選項(xiàng)：

(A) 12:35 P.M.

(B) 1:10 P.M.

(C) 1:10 P.M. (D) 10:45 A.M.

工具組合：

行查找：在時(shí)間表中找到火車站的相關(guān)行。

解決方案生成器：生成步驟解釋以找到答案。

答案生成器：生成最終答案。

答案：公交車從火車站出發(fā)的時(shí)間是12:35 P.M.

總結(jié)：通過變色龍方法，系統(tǒng)能夠靈活地適應(yīng)具有不同上下文和要求的查詢，合成和組合各種工具以生成最終的答案。變色龍方法在具有表格數(shù)據(jù)的數(shù)學(xué)推理任務(wù)中展示了其強(qiáng)大的推理能力和效率，能夠提供詳細(xì)的步驟解釋和正確的答案。）

4、Chameleon的應(yīng)用

我們展示了Chameleon在兩個(gè)具有挑戰(zhàn)性的任務(wù)上的應(yīng)用：ScienceQA [32]（第4.2節(jié)）和TabMWP [33]（第4.3節(jié)），使用第4.1節(jié)中介紹的模塊庫。更多實(shí)驗(yàn)細(xì)節(jié)見附錄A.2。

4.1 模塊庫

為了適應(yīng)各種推理能力和多樣化的查詢，我們的系統(tǒng)利用了豐富的外部工具模塊庫。這里提供了該庫的高級(jí)概述，詳細(xì)實(shí)現(xiàn)見具體實(shí)驗(yàn)。完整的模塊庫M如表2所示。每個(gè)庫中的工具定義如下：

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表2：我們模塊庫中的不同工具

- 知識(shí)檢索工具：此模塊檢索解決復(fù)雜問題所需的額外背景知識(shí)。它對(duì)科學(xué)和數(shù)學(xué)等專門領(lǐng)域特別有益，提供任務(wù)的上下文。例如，如果查詢涉及稅表，此模塊可以生成關(guān)于稅務(wù)程序的知識(shí)，提供有價(jià)值的背景信息。

- Bing搜索：類似“知識(shí)檢索”，但“Bing搜索”模塊旨在提供廣泛的任務(wù)相關(guān)知識(shí)。當(dāng)需要來自多個(gè)來源的廣泛或最新信息時(shí)，它表現(xiàn)更好。使用搜索引擎API，此模塊根據(jù)輸入查詢返回相關(guān)搜索結(jié)果，隨后模塊解析并使用這些結(jié)果從多種來源獲取豐富的上下文信息，增強(qiáng)問題解決的效果。

- 查詢生成器：由于原始問題通常缺乏檢索任務(wù)相關(guān)信息的定制查詢，此模塊根據(jù)問題創(chuàng)建搜索引擎查詢，然后由“Bing搜索”模塊使用。通常，在使用“Bing搜索”之前，使用“查詢生成器”模塊是一個(gè)好策略。結(jié)合搜索引擎工具，生成更有針對(duì)性的查詢通常有助于提高檢索信息的召回率和精確度。

- 圖像說明生成器：旨在為圖像生成說明，此模塊為查詢提供重要的補(bǔ)充上下文。它在語義理解圖像時(shí)特別有價(jià)值，如識(shí)別場景中的物體和互動(dòng)。使用預(yù)訓(xùn)練模型，它將視覺數(shù)據(jù)轉(zhuǎn)化為語言，促進(jìn)對(duì)圖像內(nèi)容的有效理解和推理。

- 文本檢測器：此模塊旨在識(shí)別給定圖像中的文本。當(dāng)問題需要從包含圖表、表格、地圖或其他視覺元素的圖像中提取文本信息時(shí)，通常使用“文本檢測器”。通過有效檢測各種格式的文本，此模塊有助于分析和理解基于圖像的內(nèi)容。

- 行查找：當(dāng)查詢涉及表格上下文時(shí)，此模塊非常關(guān)鍵，因?yàn)橥ǔＰ枰ㄎ幌嚓P(guān)的單元格。大型表格可能會(huì)分散系統(tǒng)注意力，因此“行查找”通過保留與查詢相關(guān)的行簡化表格。如果所有行都相關(guān)，則返回原始表格。

- 列查找：類似“行查找”模塊，“列查找”通過關(guān)注相關(guān)列解決涉及表格上下文的問題。它通過保留相關(guān)列簡化表格，如果所有列都相關(guān)，則返回原始表格。

- 表格語言化：將結(jié)構(gòu)化表格轉(zhuǎn)換為文本可能會(huì)增強(qiáng)下游模塊對(duì)表格信息的理解，如開放域問答[37]所示，這使得此模塊成為我們系統(tǒng)的重要部分。它將表格翻譯為易于理解的描述，特別適用于“程序生成器”和“解決方案生成器”等模塊，尤其對(duì)莖葉圖或函數(shù)表等小型、特定領(lǐng)域的表格有用。

- 程序生成器：程序輔助方法被證明可以增強(qiáng)LLMs的邏輯和數(shù)學(xué)推理能力[55, 10, 6, 39, 18, 43]。“程序生成器”生成Python程序以有效解決查詢，這對(duì)于需要復(fù)雜計(jì)算或復(fù)雜邏輯操作（如“if-else”語句）的查詢特別有益。

- 程序驗(yàn)證器：最近的研究強(qiáng)調(diào)了驗(yàn)證以減少幻覺的重要性[45, 38]。因此，“程序驗(yàn)證器”確保由“程序生成器”生成的程序的有效性和無錯(cuò)誤性。它檢查語法和邏輯錯(cuò)誤以及潛在的執(zhí)行問題，增強(qiáng)解決方案的可靠性和準(zhǔn)確性。

- 程序執(zhí)行器：此模塊執(zhí)行由“程序生成器”生成的程序并產(chǎn)生結(jié)果，橋接程序生成和最終解決方案推導(dǎo)之間的差距。

- 解決方案生成器：此模塊利用所有緩存的信息生成輸入查詢的詳細(xì)解決方案。采用連鎖思維提示方法[57]，確保連貫和結(jié)構(gòu)良好的響應(yīng)。如果規(guī)劃器能夠獨(dú)立解決查詢，尤其是對(duì)于較簡單的問題，可以直接使用此模塊而不是其他功能模塊。

- 答案生成器：此任務(wù)特定模塊使用基于規(guī)則的方法從“程序執(zhí)行器”或“解決方案生成器”的結(jié)果中提取和規(guī)范化答案。與提供詳細(xì)多步解決方案的“解決方案生成器”不同，“答案生成器”作為流水線中的最終模塊，提供簡明的任務(wù)特定答案。

4.2 科學(xué)問題解答

科學(xué)問題解答（ScienceQA [32]）是一個(gè)多模式問題解答的多樣化基準(zhǔn)，涵蓋一系列科學(xué)主題和背景。如圖1所示，這些問題的解答需要各種工具和技能，如圖像說明生成、文本檢測、知識(shí)檢索、在線資源搜索和多線索視覺推理。在生成使用工具的程序時(shí)，我們將搜索空間限制為相關(guān)的庫子集（見附錄中的表6）。如果程序的最后兩個(gè)元素不是“解決方案生成器”和“答案生成器”，則該程序被視為無效，并默認(rèn)為這兩個(gè)元素的序列，遵循連鎖思維提示基線[57]。請(qǐng)參見附錄中的表8以了解構(gòu)建的自然語言規(guī)劃器提示。基于LLM的模塊（如“知識(shí)檢索”、“查詢生成器”和“解決方案生成器”的提示見附錄中的表10、11和12）。

4.3 表格數(shù)學(xué)推理

TabMWP [33] 是一個(gè)涉及各種表格上下文的數(shù)學(xué)推理任務(wù)，如日程表、價(jià)格表、稅表、圖表和函數(shù)關(guān)系（見圖2）。它要求AI系統(tǒng)理解各種表格格式并進(jìn)行精確的數(shù)值或符號(hào)計(jì)算。與ScienceQA類似，我們將程序搜索空間限制為兩種工具類型：1）幫助LLM更好地理解表格信息的工具（如“行查找”、“列查找”和“表格語言化”）和2）執(zhí)行準(zhǔn)確符號(hào)計(jì)算的工具（如“程序生成器”、“程序驗(yàn)證器”和“程序執(zhí)行器”），如表6所列。生成的程序必須符合一定的約束條件，例如包括“答案生成器”，并且將“程序生成器”置于“程序驗(yàn)證器”和“程序執(zhí)行器”之前。不符合要求的程序默認(rèn)為“程序生成器”、“程序驗(yàn)證器”、“程序執(zhí)行器”和“答案生成器”的序列，符合帶有驗(yàn)證的程序思維提示基線[6]。

5、實(shí)驗(yàn)

我們?cè)u(píng)估了Chameleon在兩個(gè)復(fù)雜推理任務(wù)ScienceQA [32]和TabMWP [33]上的有效性和適應(yīng)性。實(shí)驗(yàn)細(xì)節(jié)見附錄A.2。

5.1 實(shí)驗(yàn)結(jié)果

ScienceQA。表3展示了現(xiàn)有基線和我們的方法Chameleon的結(jié)果，關(guān)鍵結(jié)果在圖3（a）中突出顯示。使用ChatGPT [41]作為基礎(chǔ)LLM，Chameleon達(dá)到了79.93%的準(zhǔn)確率，比連鎖思維提示（CoT）[57]提示的ChatGPT高出1.62%。值得注意的是，Chameleon是CoT的廣義形式，其中生成的程序是“解決方案生成器”和“答案生成器”的序列。Chameleon受益于額外的工具使用，如“知識(shí)檢索”、“Bing搜索”、“圖像說明生成器”和“文本檢測器”?；贕PT-4 [42]時(shí)，我們的模型達(dá)到了86.54%的準(zhǔn)確率，比GPT-4 CoT [32]高出2.55%，比GPT-3 CoT高出11.37%，在少樣本設(shè)置中創(chuàng)造了新的最先進(jìn)水平。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表3：ScienceQA [32] 測試集上的問答準(zhǔn)確率（%）。我們報(bào)告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準(zhǔn)確率，以及不同問題類型的準(zhǔn)確率，包括自然科學(xué)、社會(huì)科學(xué)和語言科學(xué)、文本、圖像和無上下文問題，以及1-6年級(jí)和7-12年級(jí)的問題。每部分和總體的最高分?jǐn)?shù)分別用藍(lán)色和紅色突出顯示，我們最佳模型的結(jié)果用粗體標(biāo)出。

TabMWP。表4展示了關(guān)鍵模型的結(jié)果，見圖3（b）。同樣，Chameleon在微調(diào)和少樣本模型上都顯示了顯著的改進(jìn)。值得注意的是，CoT和程序思維（PoT）[6]可以看作是Chameleon的特例。除了“解決方案生成器”和“答案生成器”，CoT不使用任何工具，而PoT僅依賴于符號(hào)編程工具，如“程序生成器”和“程序執(zhí)行器”。Chameleon（ChatGPT）比ChatGPT CoT和ChatGPT PoT分別高出11.25%和3.79%，強(qiáng)調(diào)了我們豐富工具集的優(yōu)勢(shì)。使用GPT-4，Chameleon又獲得了5.50%的提升，達(dá)到了98.78%的準(zhǔn)確率。值得注意的是，Chameleon（GPT-4）超過了Codex PoT-SC [6]，即最好的已發(fā)布模型，高出17.0%，并超過了人類表現(xiàn)8.56%。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖3：主要基線和Chameleon的結(jié)果。虛線表示人類表現(xiàn)。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表4：TabMWP [33] 測試集上的問答準(zhǔn)確率（%）。我們報(bào)告了為此任務(wù)調(diào)優(yōu)的參數(shù)數(shù)量和整體準(zhǔn)確率，以及不同問題類型的準(zhǔn)確率，包括自由文本問題、多選問題、整數(shù)答案、小數(shù)答案、抽取式答案、布爾答案、其他文本答案、1-6年級(jí)和7-8年級(jí)的問題。*表示結(jié)果的一個(gè)子集。

5.2 定性分析

工具使用規(guī)劃。圖4和圖5分別展示了Chameleon在ScienceQA和TabMWP中調(diào)用關(guān)鍵工具的比例。令人感興趣的是，ChatGPT和GPT-4表現(xiàn)出不同的規(guī)劃行為。一般而言，ChatGPT對(duì)使用或不使用某些工具有強(qiáng)烈的偏見，深受上下文示例的影響。例如，ChatGPT在72%的查詢中調(diào)用“知識(shí)檢索”，但在ScienceQA中僅在3%的情況下調(diào)用“Bing搜索”；在TabMWP中，ChatGPT嚴(yán)重依賴“行查找”（47%），但很少調(diào)用“列查找”（4%）。然而，GPT-4在工具選擇上表現(xiàn)得更加客觀和理性。例如，在回答ScienceQA的科學(xué)問題時(shí)，GPT-4更頻繁地調(diào)用“知識(shí)檢索”（81%對(duì)72%），并比ChatGPT更多地調(diào)用“Bing搜索”（11%對(duì)3%）。令人印象深刻的是，GPT-4通過觀察工具使用描述，一致地同時(shí)調(diào)用“查詢生成器”和“Bing搜索”，而ChatGPT缺乏這種推理能力。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖5：Chameleon在TabMWP上生成的程序中調(diào)用的工具。

禁用模塊的消融研究。我們研究了禁用生成程序中的關(guān)鍵模塊時(shí)Chameleon的準(zhǔn)確率下降情況（見表5），使用ChatGPT作為基礎(chǔ)LLM和500個(gè)測試樣例。結(jié)果表明，“知識(shí)檢索”在兩項(xiàng)任務(wù)中都起到了重要作用。特定領(lǐng)域的工具，如ScienceQA的搜索引擎和視覺模型，以及TabMWP的程序工具，也被證明是重要的。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

模塊轉(zhuǎn)換。我們?cè)趫D7和圖8中分別展示了Chameleon（GPT-4）在ScienceQA和TabMWP上生成程序的模塊轉(zhuǎn)換圖。這些圖中的轉(zhuǎn)換概率是從測試集上觀察到的工具轉(zhuǎn)換中計(jì)算出來的。這些圖表明，GPT-4規(guī)劃器能夠在少樣本設(shè)置中很好地決定如何排序工具。例如，在ScienceQA中，Chameleon通常決定依賴“知識(shí)檢索”或“Bing搜索”，但很少同時(shí)使用。在TabMWP中，我們觀察到兩種主要模式：要么通過解決方案生成器模塊，要么通過程序生成器、驗(yàn)證器和執(zhí)行器。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖7：Chameleon（GPT-4）在ScienceQA上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號(hào)，END是終止符號(hào)，其他為非終止符號(hào)。

圖8：Chameleon（GPT-4）在TabMWP上生成的程序中模塊之間的轉(zhuǎn)換。START是起始符號(hào)，END是終止符號(hào)，其他為非終止符號(hào)。

5.3 案例研究

ScienceQA的可視化示例。圖1中展示了Chameleon（GPT-4）在ScienceQA上的示例。Chameleon（GPT-4）能夠通過生成組合各種工具的程序并按順序執(zhí)行它們，以適應(yīng)不同的輸入查詢，從而獲得準(zhǔn)確的響應(yīng)。例如，要回答第一個(gè)問題（①）“推動(dòng)的方向是什么？”，系統(tǒng)調(diào)用圖像說明生成器模型從圖像中提取語義信息，并使用知識(shí)檢索模型收集背景知識(shí)以進(jìn)行多模式推理。在第二個(gè)示例（②）中，自然語言規(guī)劃器推斷需要文本檢測工具來理解廣告的背景。第三個(gè)查詢（③；更多細(xì)節(jié)見附錄中的圖9）“哪種動(dòng)物的皮膚適應(yīng)在寒冷地區(qū)生存？”涉及與動(dòng)物生存相關(guān)的科學(xué)術(shù)語。規(guī)劃器決定調(diào)用Bing搜索引擎以訪問特定領(lǐng)域的知識(shí)，受益于眾多在線資源。

TabMWP的可視化示例。圖2中的示例展示了Chameleon在處理各種查詢方面的適應(yīng)性和多功能性。第一個(gè)示例（①）涉及稅表上的數(shù)學(xué)推理。Chameleon（1）調(diào)用知識(shí)檢索模型以回憶有助于理解該特定領(lǐng)域表格的基本知識(shí)，（2）以更易讀的自然語言格式描述表格，（3）最終依賴程序輔助工具進(jìn)行精確計(jì)算。在第二個(gè)示例（②）中，系統(tǒng)生成的Python代碼與知識(shí)檢索模型提供的背景知識(shí)緊密一致。第三個(gè)示例（③）需要系統(tǒng)在給定輸入查詢的情況下定位大表格中的單元格。Chameleon調(diào)用行查找模型以幫助準(zhǔn)確定位相關(guān)行，并通過LLM模型生成語言解決方案，而不是依賴于程序工具。

失敗案例和局限性。Chameleon（GPT-4）的失敗示例在附錄中的表19至24中展示。不準(zhǔn)確的響應(yīng)可能源于當(dāng)前模塊的局限性或由規(guī)劃器生成的次優(yōu)程序。此外，模塊庫可能缺乏能夠解決特定能力的工具。未來的方向可能包括升級(jí)模塊和規(guī)劃器，或擴(kuò)展模塊庫以支持更廣泛的能力。更多局限性和更廣泛的影響分別在附錄的B和C節(jié)中討論。

5.4 錯(cuò)誤分析

為了檢查基礎(chǔ)大型語言模型的錯(cuò)誤來源，并了解我們的模型如何從不同方面減少錯(cuò)誤，我們進(jìn)行了錯(cuò)誤分析，如圖6所示。我們從ScienceQA的ChatGPT基線中選取了50個(gè)錯(cuò)誤示例作為評(píng)估集。我們統(tǒng)計(jì)了錯(cuò)誤示例的數(shù)量，并分析了ChatGPT、我們的Chameleon（ChatGPT）方法和Chameleon（GPT-4）各自的錯(cuò)誤類型類別。結(jié)果顯示，與ChatGPT相比，我們的Chameleon方法可以大幅減少錯(cuò)誤數(shù)量。我們的模型具備圖像說明和知識(shí)檢索工具，因此ChatGPT在圖像理解類別中犯的錯(cuò)誤由32個(gè)減少到Chameleon（ChatGPT）的10個(gè)和Chameleon（GPT-4）的19個(gè)；而ChatGPT在知識(shí)理解類別中犯的錯(cuò)誤由37個(gè)減少到Chameleon（ChatGPT）的6個(gè)和Chameleon（GPT-4）的3個(gè)。受益于工具的順序執(zhí)行，解決方案生成導(dǎo)致的錯(cuò)誤也顯著減少。此外，我們發(fā)現(xiàn)GPT-4的任務(wù)規(guī)劃遠(yuǎn)遠(yuǎn)優(yōu)于ChatGPT。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

圖6：ScienceQA中不同類別的錯(cuò)誤示例數(shù)量。圖像：圖像說明生成，知識(shí)：知識(shí)理解，解決方案：解決方案生成。

6、結(jié)論

總之，我們介紹了一種新穎的即插即用組合推理框架Chameleon，它通過以即插即用的方式增強(qiáng)當(dāng)前大型語言模型的外部工具，解決了它們的局限性。我們的方法使用多樣化的工具集，并在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)ScienceQA和TabMWP上展示了令人印象深刻的適應(yīng)性和有效性。通過在準(zhǔn)確性上顯著超過現(xiàn)有的最先進(jìn)模型，Chameleon展示了其在處理各個(gè)領(lǐng)域的實(shí)際查詢方面的潛力。

補(bǔ)充材料

Chameleon：即插即用組合推理的大型語言模型

# 附錄

## A.1 當(dāng)前的工具增強(qiáng)型LLM

為了解決LLM的局限性，一個(gè)活躍的研究方向是通過訪問外部工具和資源來增強(qiáng)語言模型，并探索外部工具和即插即用模塊化方法的集成。例如，借助網(wǎng)絡(luò)搜索引擎和外部知識(shí)資源，LLM能夠訪問實(shí)時(shí)信息并利用領(lǐng)域特定的知識(shí)[40]。為了增強(qiáng)數(shù)學(xué)推理能力，最近的研究使用LLM[5]生成復(fù)雜程序以利用強(qiáng)大的計(jì)算資源，并更有效地執(zhí)行邏輯推理任務(wù)[55, 10, 6, 39, 18, 43]。另一類近期的工作，如ViperGPT[52]、Visual ChatGPT[59]、VisProg[13]和HuggingGPT[50]，結(jié)合了一系列基礎(chǔ)計(jì)算機(jī)視覺模型，使LLM具備執(zhí)行視覺推理任務(wù)的能力。

## A.2 實(shí)驗(yàn)細(xì)節(jié)

**模塊搜索空間**。ScienceQA和TabMWP的模塊庫子集如表6所示。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

規(guī)劃器實(shí)現(xiàn)。在構(gòu)建基于LLM的規(guī)劃器時(shí)，我們選擇了gpt-3.5-turbo引擎用于ChatGPT，選擇了gpt-4引擎用于GPT-4。生成程序的最大長度設(shè)置為128，溫度設(shè)置為0以實(shí)現(xiàn)最確定性的生成。ScienceQA和TabMWP的規(guī)劃器提示分別如表8和表9所示。

ScienceQA的模塊實(shí)現(xiàn)。默認(rèn)情況下，基于LLM的模型使用四個(gè)上下文示例作為演示，溫度設(shè)置為0，允許的最大完成令牌數(shù)為512。其他具體實(shí)現(xiàn)細(xì)節(jié)如下：

- 知識(shí)檢索：提示由3個(gè)演示示例組成，模板見表10。

- 查詢生成器：提示模板見表11。最大完成令牌數(shù)設(shè)置為64。

- 解決方案生成器：提示由2個(gè)演示示例組成，模板見表12。

- 圖像說明生成器：我們使用圖像說明生成模型生成輸入圖像的文本描述。生成的說明最大長度設(shè)置為16，beam數(shù)為4，最大輸出令牌數(shù)為512。

- 文本檢測器：此模塊基于GitHub模型提取圖像中的文本內(nèi)容及其坐標(biāo)。

- Bing搜索：此模塊調(diào)用Bing搜索API并返回文本查詢的前三個(gè)響應(yīng)。

- 答案生成器：此模塊從“解決方案生成器”提供的結(jié)果中提取答案片段，并從給定選項(xiàng)中選擇最相似的選項(xiàng)。

TabMWP的模塊實(shí)現(xiàn)。與ScienceQA類似，基于LLM的模塊默認(rèn)使用四個(gè)上下文示例作為演示，溫度設(shè)置為0，允許的最大完成令牌數(shù)為512。其他實(shí)現(xiàn)細(xì)節(jié)如下：

- 知識(shí)檢索：提示由5個(gè)演示示例組成，模板見表13。

- 行查找：當(dāng)有超過三行和18個(gè)表格單元時(shí)啟用，以加速推理。提示由7個(gè)演示示例組成，模板見表14。最大完成令牌數(shù)設(shè)置為256。

- 列查找：同樣，此模塊在有兩個(gè)或更多列和18個(gè)或更多表格單元時(shí)啟用。提示由6個(gè)演示示例組成，模板見表15。最大完成令牌數(shù)設(shè)置為256。

- 表格語言化：提示由7個(gè)演示示例組成，模板見表16。

- 程序生成器：提示模板見表17。最大完成令牌數(shù)設(shè)置為256。

- 解決方案生成器：提示由16個(gè)演示示例組成，模板見表18。

- 答案生成器：用于將答案標(biāo)準(zhǔn)化為兩位小數(shù)精度的問題，或?yàn)槎噙x題選擇最相似的選項(xiàng)。

update_input 和 update_cache 的實(shí)現(xiàn)。update_input由特定工具的執(zhí)行觸發(fā)，如‘Row_Lookup’，其修改或替換輸入中的元素以反映更新的狀態(tài)。工具如‘Image_Captioner’、‘Text_Detector’、‘Knowledge_Retrieval’、‘Web_Search’和‘Program_Generation’生成新元素。update_cache將這些新元素存儲(chǔ)在緩存中，使其可以被后續(xù)工具執(zhí)行時(shí)訪問。

## A.3 實(shí)驗(yàn)結(jié)果

**生成程序統(tǒng)計(jì)**。Chameleon利用基于LLM的自然語言規(guī)劃器生成程序，即使用模塊（工具）的序列。我們報(bào)告了Chameleon生成的唯一程序數(shù)量和相應(yīng)工具序列的平均長度統(tǒng)計(jì)數(shù)據(jù)，如表7所示。在ScienceQA和TabMWP上，使用GPT-4作為基礎(chǔ)LLM生成的獨(dú)特程序更少，即程序更一致，即使在規(guī)劃模型中給定完全相同的提示時(shí)也是如此。我們的結(jié)果與[42]中的發(fā)現(xiàn)一致，該研究發(fā)現(xiàn)GPT-4在理解長上下文、對(duì)齊人類指令和執(zhí)行高級(jí)推理方面比其他LLM（如ChatGPT）更具優(yōu)勢(shì)。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

## B 限制

雖然Chameleon在利用大型語言模型（LLM）進(jìn)行即插即用組合推理方面代表了一個(gè)重要的進(jìn)步，但仍有一些領(lǐng)域可以進(jìn)一步優(yōu)化。一個(gè)這樣的領(lǐng)域是擴(kuò)展其適應(yīng)性，以涵蓋更多樣的任務(wù)和領(lǐng)域，而不僅限于所展示的基準(zhǔn)。負(fù)責(zé)合成程序和確定工具順序的基于LLM的規(guī)劃器引入了一種創(chuàng)新的方法，但它也提出了一些關(guān)于優(yōu)化工具選擇和順序過程的有趣研究問題。在當(dāng)前系統(tǒng)設(shè)計(jì)中，基于LLM的規(guī)劃器的質(zhì)量可能會(huì)影響整體性能。此外，Chameleon在生成程序時(shí)是一步完成的，而沒有在程序處理模塊時(shí)加入重新規(guī)劃機(jī)制。此外，我們假設(shè)模塊列表及其描述能夠適應(yīng)LLM的上下文窗口，但這并不總是適用。隨著任務(wù)復(fù)雜性增加和模塊庫擴(kuò)展，可能會(huì)出現(xiàn)計(jì)算需求激增或由于上下文限制而導(dǎo)致的限制，這表明未來可能需要進(jìn)行優(yōu)化。然而，這些潛在的改進(jìn)領(lǐng)域并不會(huì)削弱本文的核心成就，而是為未來的工作和研究提供了寶貴的方向。

## C 更廣泛的影響

本文所展示的Chameleon在社會(huì)上具有顯著的正面潛力。通過為大型語言模型（LLM）提供即插即用的組合推理模塊，Chameleon可以為復(fù)雜的多模式任務(wù)提供更準(zhǔn)確的響應(yīng)，使其成為各種應(yīng)用（包括但不限于教育、金融和決策支持系統(tǒng)）中可能有價(jià)值的框架。此外，系統(tǒng)在不需要任何訓(xùn)練的情況下合成程序的能力，可以使非專家能夠在不同領(lǐng)域中利用AI技術(shù)，從而實(shí)現(xiàn)AI技術(shù)的普及。隨著大型語言模型和工具集成的研究不斷推進(jìn)，我們預(yù)計(jì)我們的框架將為進(jìn)一步的創(chuàng)新奠定基礎(chǔ)，推動(dòng)更具普適性和效率的復(fù)雜推理任務(wù)解決方案的追求。

盡管Chameleon可能帶來負(fù)面的社會(huì)影響，如如果其利用的數(shù)據(jù)源和外部工具未被精心策劃，可能導(dǎo)致誤信息和隱私問題，我們相信這些風(fēng)險(xiǎn)是可以通過仔細(xì)管理和最小化的。還有一個(gè)風(fēng)險(xiǎn)是，過度依賴Chameleon的自主性可能會(huì)削弱批判性思維能力或工作職能。為了有效緩解這些問題，必須仔細(xì)策劃數(shù)據(jù)源和外部工具，并強(qiáng)烈致力于用戶數(shù)據(jù)保護(hù)。此外，應(yīng)將Chameleon的自主性視為增強(qiáng)人類能力的手段，而不是替代。因此，制定強(qiáng)有力的道德準(zhǔn)則、透明機(jī)制和保障措施至關(guān)重要，體現(xiàn)了我們對(duì)社會(huì)責(zé)任性AI部署的承諾。

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表8：為ScienceQA任務(wù)構(gòu)建的規(guī)劃器模型提示。提示包括描述規(guī)劃器模型角色的說明、將問題映射到模塊序列的上下文示例以及測試示例。

（翻譯：

## 規(guī)劃器模型說明

您需要作為策略模型，給定一個(gè)問題和一組模塊，確定可以順序執(zhí)行以解決問題的模塊序列。模塊定義如下：

- Query_Generator：此模塊為給定的問題生成搜索引擎查詢。通常，當(dāng)問題涉及領(lǐng)域特定知識(shí)時(shí)，我們會(huì)考慮使用“Query_Generator”。

- Bing_Search：此模塊在網(wǎng)上搜索與問題相關(guān)的信息。通常，當(dāng)問題涉及領(lǐng)域特定知識(shí)時(shí)，我們會(huì)考慮使用“Bing_Search”。

- Image_Captioner：此模塊為給定的圖像生成說明。通常，當(dāng)問題涉及圖像的語義理解，且元數(shù)據(jù)中的“has_image”字段為真時(shí)，我們會(huì)考慮使用“Image_Captioner”。

- Text_Detector：此模塊檢測給定圖像中的文本。通常，當(dāng)問題涉及展開圖像中的文本（如圖表、表格、地圖等）時(shí)，且元數(shù)據(jù)中的“has_image”字段為真時(shí)，我們會(huì)考慮使用“Text_Detector”。

- Knowledge_Retrieval：此模塊檢索作為提示的背景知識(shí)以解決給定問題。通常，當(dāng)背景知識(shí)有助于指導(dǎo)解決方案時(shí)，我們會(huì)考慮使用“Knowledge_Retrieval”。

- Solution_Generator：此模塊基于提供的信息生成問題的詳細(xì)解決方案。通常，“Solution_Generator”會(huì)整合來自“Query_Generator”、“Bing_Search”、“Image_Captioner”、“Text_Detector”和“Knowledge_Retrieval”的信息。

- Answer_Generator：此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常是預(yù)測流水線中的最后一個(gè)模塊。

以下是將問題映射到模塊的一些示例。

## 上下文示例

問題：比較每個(gè)樣本中粒子的平均動(dòng)能。哪個(gè)樣本的溫度更高？

上下文：下圖顯示了兩個(gè)相同封閉、剛性容器中的純氣體樣本。每個(gè)彩色球代表一個(gè)氣體粒子。兩個(gè)樣本的粒子數(shù)量相同。

選項(xiàng)： (A) 都不是；樣本的溫度相同 (B) 樣本A (C) 樣本B

元數(shù)據(jù)：‘pid’: 19, ‘has_image’: True, ‘grade’: 8, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘粒子運(yùn)動(dòng)和能量’, ‘skill’: ‘識(shí)別粒子運(yùn)動(dòng)如何影響溫度和壓力’

模塊：["Text_Detector", "Knowledge_Retrieval", "Solution_Generator", "Answer_Generator"]）

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表9：為TabMWP任務(wù)構(gòu)建的規(guī)劃器模型提示。類似地，提示包括說明、上下文示例和測試示例。

（翻譯：

規(guī)劃器模型說明

給定一個(gè)問題和一組模塊，確定可以順序執(zhí)行以解決問題的模塊序列。

模塊定義如下：

- Program_Generator：此模塊生成可以解決給定問題的Python程序。它接收問題和可能的上下文，生成一個(gè)可以由“Program_Executor”模塊執(zhí)行的程序。通常，當(dāng)問題和上下文涉及復(fù)雜計(jì)算（如多個(gè)數(shù)字的算術(shù)運(yùn)算）或復(fù)雜邏輯操作（如“if-else”語句）時(shí)，我們會(huì)考慮使用“Program_Generator”。

- Program_Verifier：此模塊驗(yàn)證“Program_Generator”生成的程序是否有效且無錯(cuò)誤。它檢查語法錯(cuò)誤、邏輯錯(cuò)誤和程序執(zhí)行過程中可能出現(xiàn)的其他潛在問題。

- Program_Executor：此模塊執(zhí)行“Program_Generator”生成的程序，并生成可以由其他模塊（如“Question_Answering”）進(jìn)一步處理的輸出。

- Row_Lookup：此模塊返回僅保留與問題相關(guān)行的簡化表格。它接收問題和表格，并返回簡化后的表格。如果所有行都相關(guān)或行數(shù)少于或等于三行，則返回原始表格。通常，當(dāng)表格涉及超過三行且問題只需要少量行來回答時(shí)，我們會(huì)考慮使用“Row_Lookup”。

- Column_Lookup：此模塊返回僅保留與問題相關(guān)列的簡化表格。它接收問題和表格，并返回簡化后的表格。如果所有列都相關(guān)或列數(shù)只有兩列，則返回原始表格。通常，當(dāng)表格涉及超過兩列且問題只需要少量列來回答時(shí)，我們會(huì)考慮使用“Column_Lookup”。

- Table_Verbalizer：此模塊將表格轉(zhuǎn)換為易于下游模塊（如“Program_Generator”、“Solution_Generator”、“Question_Answering”）理解的描述。通常，當(dāng)表格涉及少量行和列且是特定領(lǐng)域的（如莖葉圖、函數(shù)表等）時(shí)，我們會(huì)考慮使用“Table_Verbalizer”。

- Knowledge_Retrieval：此模塊為給定的問題和表格檢索特定領(lǐng)域的知識(shí)。通常，當(dāng)問題和表格涉及特定領(lǐng)域的知識(shí)（如莖葉圖、函數(shù)表、稅務(wù)表等）時(shí)，我們會(huì)考慮使用“Knowledge_Retrieval”。

- Solution_Generator：此模塊基于提供的信息生成問題的詳細(xì)解決方案。通常，當(dāng)問題和表格涉及簡單計(jì)算（如單個(gè)數(shù)字的算術(shù)運(yùn)算）時(shí)，我們會(huì)使用“Solution_Generator”。

- Answer_Generator：此模塊從解決方案或執(zhí)行結(jié)果中提取最終答案的簡短形式。此模塊通常在“Solution_Generator”或“Program_Executor”模塊之后使用。

以下是將問題映射到模塊的一些示例。

## 上下文示例

表格：

| designer watch | $8,141 |

| designer coat | $6,391 |

問題：設(shè)計(jì)師手表比設(shè)計(jì)師大衣貴多少？（單位：$）

模塊：["Program_Generator", "Program_Verifier", "Program_Executor", "Answer_Generator"]）

Chameleon：使用大型語言模型的即插即用組合推理 -AI.x社區(qū)

表10：為ScienceQA任務(wù)構(gòu)建的“知識(shí)檢索”模塊提示。

（翻譯：

### 說明

閱讀以下問題，并生成背景知識(shí)作為上下文信息，以幫助回答問題。

### 上下文示例

問題：這三個(gè)物體有什么共同的屬性？

選項(xiàng)：(A) 硬 (B) 軟 (C) 黃

元數(shù)據(jù)：‘pid’: 43, ‘has_image’: True, ‘grade’: 4, ‘subject’: ‘自然科學(xué)’, ‘topic’: ‘物理’, ‘category’: ‘材料’, ‘skill’: ‘比較物體的屬性’

圖像中檢測到的文本：['手帕', '拖鞋', '休閑套裝']

知識(shí)：

- 這個(gè)問題是關(guān)于比較三個(gè)物體的屬性：手帕、拖鞋和休閑套裝。

- 這些物體與物理學(xué)主題和比較物體屬性的技能相關(guān)。

- 物體的屬性可以包括物理特征，如顏色、質(zhì)地、形狀、大小、重量和材料。）

Lu P, Peng B, Cheng H, et al. Chameleon: Plug-and-play compositional reasoning with large language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

1University of California, Los Angeles

2Microsoft Research, Redmond

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ，作者：AIRoobt

原文鏈接：??????https://mp.weixin.qq.com/s/K7J6zWaFYYZW_zHO9Y-aew???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

【LLM】 CuMo: 使用協(xié)同再利用的混合專家模型來擴(kuò)展多模態(tài)大型語言模型

sbf_2000 ? 5183瀏覽 ? 0回復(fù)
即插即用！“一模型雙任務(wù)” | Face-Adapter:超越基于GAN和Diffusion的最新方法

angel ? 7146瀏覽 ? 0回復(fù)
即插即用，快速適配！港大FlashST：簡單通用的智慧交通時(shí)空預(yù)測模型 | ICML 2024

duhorse ? 3249瀏覽 ? 0回復(fù)
多模態(tài)大型語言模型（MLLM）綜述

AIRoobt ? 7581瀏覽 ? 0回復(fù)
檢索增強(qiáng)型多模態(tài)思維鏈推理用于大型語言模型

AIRoobt ? 5080瀏覽 ? 0回復(fù)
使用“反事實(shí)任務(wù)”評(píng)估大型語言模型

lintoms ? 4577瀏覽 ? 0回復(fù)
大型語言模型（LLM）的歷史與未來

51CTO內(nèi)容精選 ? 4968瀏覽 ? 0回復(fù)
簡潔思考：輸出長度對(duì)大型語言模型推理和成本的影響

sbf_2000 ? 5717瀏覽 ? 0回復(fù)
即插即用 | 時(shí)間編碼+LSTM+全局注意力

Tang_Lan ? 6180瀏覽 ? 0回復(fù)
大型語言模型的知識(shí)融合（ICLR2024）

AIRoobt ? 4229瀏覽 ? 0回復(fù)
騰訊&新加坡國立發(fā)布IFAdapter：即插即用，提升文生圖模型實(shí)例特征和位置生成準(zhǔn)確性

angel ? 4210瀏覽 ? 0回復(fù)
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)

Halo咯咯 ? 3949瀏覽 ? 0回復(fù)
微調(diào)大型語言模型（LLM）的五個(gè)技巧

51CTO內(nèi)容精選 ? 3972瀏覽 ? 0回復(fù)
圖上的推理：忠實(shí)且可解釋的大型語言模型推理（ICLR2024)

AIRoobt ? 4362瀏覽 ? 0回復(fù)
如何優(yōu)化大型語言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 3884瀏覽 ? 0回復(fù)
即插即用，無痛增強(qiáng)模型生成美感！字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制，光影、色彩全搞定

angel ? 3766瀏覽 ? 0回復(fù)
即插即用，無縫集成各種模型，港科大&螞蟻等發(fā)布Edicho：圖像編輯一致性最新成果！

angel ? 3838瀏覽 ? 0回復(fù)
即插即用！騰訊&港中文發(fā)布影視后期黑科技！VideoPainter：視頻編輯修復(fù)8項(xiàng)SOTA!

angel ? 4008瀏覽 ? 0回復(fù)
DyPRAG：即插即用動(dòng)態(tài)將上下文轉(zhuǎn)化為參數(shù)知識(shí)，有效緩解RAG幻覺

大模型自然語言處理 ? 3593瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DiffusionReward：通過獎(jiǎng)勵(lì)反饋學(xué)習(xí)增強(qiáng)盲臉修復(fù) 2025-05-30 06:37:39發(fā)布
MMIE：用于大型視覺語言模型的大規(guī)模多模態(tài)交錯(cuò)理解基準(zhǔn)（ICLR 2025） 2025-05-29 06:32:07發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：思維樹：利用大型語言模型深思熟慮地解決問題

下一篇：多模態(tài)大模型的構(gòu)成式思維鏈提示

社區(qū)精華內(nèi)容

目錄

<optgroup id="4wu8e"><li id="4wu8e"></li></optgroup>