LLM 推理新境界:多語言思考的力量

大家好,我是肆〇柒。我們在日常使用 LLM 進(jìn)行推理、思考做 Agent 設(shè)計的時候,是否有一種“刻板印象”,就是使用英文的 Prompt 來獲取更高的生成性能。然而,這幾天我看到一篇論文,也許它可以為我們帶來一些在設(shè)計 Agent 系統(tǒng)時,使用多語言進(jìn)行混合推理的新思路。這也許可以讓 AI Agent 系統(tǒng)的生成性能有更好的提升。這篇論文就是《Could Thinking Multilingually Empower LLM Reasoning?》。今天,就讓我們一同探索多語言思考如何成為 LLM 推理能力提升的鑰匙。下圖直觀地展示了多語言相對于單一語言“英語”的優(yōu)越性。

英語并不總是比其他語言更好。上圖是在人類翻譯的 GPQA和 MGSM數(shù)據(jù)集上的評估結(jié)果。紅色單元格表示高于英語的分?jǐn)?shù)。
研究方法
實(shí)驗(yàn)設(shè)計:精心搭建的測試舞臺
為了精準(zhǔn)評估多語言思考對 LLM 推理能力的影響,研究人員精心挑選了兩個具有代表性的推理任務(wù)數(shù)據(jù)集:GPQA(Google Proof-Q&A)和 MGSM(Mathematics for Grades 1-8)。GPQA 數(shù)據(jù)集聚焦于科學(xué)推理領(lǐng)域,涵蓋了天文學(xué)、生物學(xué)、化學(xué)、物理學(xué)等多個科學(xué)分支的復(fù)雜問題,要求模型具備扎實(shí)的科學(xué)知識儲備以及嚴(yán)謹(jǐn)?shù)倪壿嬐评砟芰?。MGSM 數(shù)據(jù)集則專注于數(shù)學(xué)推理,包含了從小學(xué)至初中的各類數(shù)學(xué)問題,從基礎(chǔ)算術(shù)運(yùn)算到復(fù)雜代數(shù)方程,全面考察模型對數(shù)學(xué)概念的理解與應(yīng)用能力。
這兩個數(shù)據(jù)集的強(qiáng)大之處在于,它們不僅內(nèi)容豐富、覆蓋面廣,而且支持 17 種不同語言,這為多語言推理實(shí)驗(yàn)提供了堅實(shí)的語料基礎(chǔ)。

對各種比較方法的輸入樣本的介紹,包括多語言、重復(fù)、釋義、重復(fù)混合和釋義混合
這些語言包括英語、中文、西班牙語、法語、德語、俄語、孟加拉語、日語、泰語、斯瓦希里語、阿拉伯語、韓語、塞爾維亞語、捷克語、匈牙利語、越南語和泰米爾語等,幾乎涵蓋了全球主要語言體系,確保了實(shí)驗(yàn)結(jié)果的多樣性和普適性。
模型選擇:各具特色的智能選手
實(shí)驗(yàn)選用了三種大型語言模型:Qwen2.5-72B、LLaMA3.1-70B 和 R1-Distill-LLaMA-70B。Qwen2.5-72B 是一位“語言巨匠”,擁有 720 億參數(shù),經(jīng)過海量多語言文本訓(xùn)練,能夠在不同語言風(fēng)格間自由切換,生成連貫且富有邏輯的文本,尤其擅長處理復(fù)雜的多語言寫作任務(wù);LLaMA3.1-70B 則是一位“深度思考者”,具備 700 億參數(shù),專為多輪對話和復(fù)雜推理設(shè)計,能夠在長時間的對話中保持對上下文的精準(zhǔn)把握,逐步剖析問題本質(zhì),是推理任務(wù)的佼佼者;R1-Distill-LLaMA-70B 是一位“高效能專家”,通過先進(jìn)的蒸餾技術(shù)優(yōu)化了原始 LLaMA 模型,在保留強(qiáng)大推理能力的同時,大幅提升了運(yùn)算效率,能夠在資源受限的環(huán)境中快速響應(yīng)多語言推理需求。
選擇這三種模型的原因在于它們在多語言處理方面的獨(dú)特優(yōu)勢和互補(bǔ)特性。Qwen2.5-72B 的廣泛語言適應(yīng)性、LLaMA3.1-70B 的深度對話推理能力以及 R1-Distill-LLaMA-70B 的高效性能,使得實(shí)驗(yàn)?zāi)軌驈牟煌嵌热婵疾於嗾Z言思考對 LLM 推理能力的提升效果,為研究提供了多維度的參考依據(jù)。
評估指標(biāo):精準(zhǔn)衡量的標(biāo)尺
為了科學(xué)評估多語言推理性能,研究人員選用了 Acc@k 和 Vote@k 兩個核心指標(biāo)。Acc@k(存在概率)表示在生成的 k 個答案中至少有一個是正確答案的概率。例如,當(dāng) k=4 時,Acc@4 能直觀反映在 4 個候選答案中存在正確答案的可能性;而當(dāng) k=17 時,Acc@17 則能展現(xiàn)多語言推理在大量答案中篩選出正確答案的綜合能力。
Vote@k(多數(shù)投票準(zhǔn)確率)則考察通過簡單多數(shù)投票機(jī)制從 k 個候選答案中選出最終答案的準(zhǔn)確性。這一指標(biāo)關(guān)注不同語言答案之間的相互驗(yàn)證和協(xié)同效果,例如,當(dāng)多個語言答案指向同一結(jié)論時,投票機(jī)制能有效提升最終答案的可信度。
這些指標(biāo)從不同側(cè)面全面衡量多語言推理的性能,既關(guān)注正確答案的存在性,又重視最終答案的選擇準(zhǔn)確性,為實(shí)驗(yàn)結(jié)果提供了精準(zhǔn)的量化依據(jù)。
多語言推理性能優(yōu)勢
GPQA 任務(wù)結(jié)果:科學(xué)推理中的多語言力量
在 GPQA 數(shù)據(jù)集上,多語言推理展現(xiàn)了驚人的性能提升。以 Qwen2.5-72B 為例,當(dāng) k=4 時,多語言方法的 Acc@4 達(dá)到了 70.0%,相較于僅使用英語的重復(fù)(Repeat)方法的 65.9% 和改寫(Paraphrase)方法的 66.7%,分別提升了 4.1% 和 3.3%。這相當(dāng)于在每 100 個問題中,多語言推理能多提供 4-6 個正確答案,對于大規(guī)模知識問答應(yīng)用來說,這是一個巨大的進(jìn)步。
當(dāng) k=17 時,多語言方法的 Acc@17 進(jìn)一步飆升至 88.8%,而重復(fù)方法僅為 71.2%,改寫方法為 71.0%。這意味著在 17 個候選答案中,多語言推理有近九成的概率能確保至少一個正確答案的存在。這種性能提升并非偶然,而是多語言推理在科學(xué)推理任務(wù)中整合不同語言知識、互補(bǔ)錯誤的必然結(jié)果,為解決復(fù)雜科學(xué)問題提供了更可靠的保障。

與“重復(fù)”(Repeat)和“釋義”(Paraphrase)相比,“多語言”(Multilingual)展現(xiàn)了更高的性能上限。在人類翻譯的GPQA數(shù)據(jù)集上,三種模型在“多語言”、“釋義”和“重復(fù)”設(shè)置下的Acc@17得分情況如下
MGSM 任務(wù)結(jié)果:數(shù)學(xué)推理中的多語言智慧
在 MGSM 數(shù)據(jù)集上,多語言推理同樣表現(xiàn)卓越。R1-Distill-LLaMA-70B 在多語言方法下的 Acc@4 高達(dá) 92.8%,相較于僅使用英語的重復(fù)方法的 91.2% 和改寫方法的 91.6%,分別提升了 1.6% 和 1.2%。這看起來似乎提升幅度不大,但在數(shù)學(xué)推理這種對精準(zhǔn)度要求極高的任務(wù)中,每提升 1% 的準(zhǔn)確率都意味著模型能正確解決更多復(fù)雜問題,為教育、科研等領(lǐng)域的數(shù)學(xué)問題求解提供了更強(qiáng)大的支持。

在人類翻譯的GPQA數(shù)據(jù)集上,隨著語言數(shù)量或候選答案數(shù)量的增加,多語言(Multilingual)設(shè)置在k = 3之后的Acc@k指標(biāo)以不斷擴(kuò)大的優(yōu)勢超過了釋義(Paraphrase)和重復(fù)(Repeat)設(shè)置。對于Qwen2.5-72B,多語言、釋義和重復(fù)設(shè)置的最佳Acc@k(共17個)
關(guān)鍵發(fā)現(xiàn)
混合語言提升性能:多元智慧的碰撞
混合多種語言進(jìn)行推理之所以能提升性能,是因?yàn)椴煌Z言在不同問題上各具優(yōu)勢。例如,在 GPQA 數(shù)據(jù)集中,法語在描述生物學(xué)概念時可能更為精準(zhǔn),其術(shù)語表達(dá)和邏輯結(jié)構(gòu)與生物學(xué)術(shù)語高度契合;而在某些數(shù)學(xué)問題的表述中,西班牙語的簡潔句式和明確的語義指向性,能幫助模型快速抓住問題關(guān)鍵。
這就像一場多國專家的頭腦風(fēng)暴,當(dāng)一個語言模型在某個問題上陷入困境時,其他語言模型可能憑借其獨(dú)特的表達(dá)方式和文化背景,提供全新的視角和解決方案。例如,在一道涉及幾何證明的題目中,法語模型可能從公理體系的嚴(yán)謹(jǐn)性出發(fā),而中文模型則可能從直觀的空間想象角度切入,兩者結(jié)合,最終找到正確的證明路徑,大幅提高推理準(zhǔn)確率。

充分利用非英語語言可以提高上限。在人類翻譯的GPQA數(shù)據(jù)集上,使用Qwen2.5-72B模型時,所有可能的4候選組合的Acc@4分?jǐn)?shù)分布,以及在不同設(shè)置下的情況
少量語言的顯著提升:精挑細(xì)選的力量
實(shí)驗(yàn)發(fā)現(xiàn)僅使用 3-4 種語言即可獲得顯著的性能提升。在 GPQA 任務(wù)中,Qwen2.5-72B 模型在使用阿拉伯語、韓語、英語和匈牙利語這四種語言時,其推理性能相較于僅使用英語時提升了近 10 個百分點(diǎn)。這表明,并非語言數(shù)量越多越好,關(guān)鍵在于選擇合適語言組合。
這就像烹飪中的調(diào)味料搭配,只需幾種關(guān)鍵香料就能調(diào)出美味佳肴。在實(shí)際應(yīng)用中,這意味著我們無需引入大量語言組合,只需精心挑選幾種與任務(wù)高度相關(guān)的語言,就能讓 LLM 的推理能力實(shí)現(xiàn)質(zhì)的飛躍,既降低了計算資源消耗,又提高了推理效率。

多語言上界對語言組合的選擇具有魯棒性。在人類翻譯的GPQA數(shù)據(jù)集的多語言設(shè)置中,最佳、最差和隨機(jī)語言組合(組合)的平均準(zhǔn)確率(Acc)和Acc@4。盡管Acc會有所變化,但Acc@k的增益仍然很高
語言組合的魯棒性:穩(wěn)定可靠的性能表現(xiàn)
即使隨機(jī)選擇語言組合,平均性能也與最優(yōu)組合相近。在 GPQA 數(shù)據(jù)集上,隨機(jī)選擇 4 種語言進(jìn)行多語言推理時,模型的 Acc@4 平均值為 70.0%,而最優(yōu)組合的 Acc@4 為 74.3%,兩者差距僅為 4.3%。這表明多語言推理的性能提升對語言選擇具有一定的魯棒性。
這好比在一個實(shí)力均衡的團(tuán)隊中,無論怎樣挑選隊員,都能保持一定的戰(zhàn)斗力。例如,在處理一道涉及化學(xué)反應(yīng)的題目時,隨機(jī)選擇的四種語言模型可能在初始階段對某些反應(yīng)細(xì)節(jié)的描述存在差異,但隨著推理過程的推進(jìn),它們能相互補(bǔ)充,最終在多數(shù)投票機(jī)制下選出正確答案。這種魯棒性賦予了多語言推理方法更高的靈活性和可行性,讓我們在面對不同語言資源和應(yīng)用場景時,能夠更加從容地選擇語言組合,而不必?fù)?dān)心因語言選擇不當(dāng)而影響推理效果。

多語言上限不受問題翻譯質(zhì)量的影響。在多語言環(huán)境下,對人類翻譯和機(jī)器翻譯的GPQA數(shù)據(jù)集的所有可能的4種語言組合的Acc@4進(jìn)行了比較。數(shù)值和誤差條表示平均值、最大值和最小值分?jǐn)?shù)。
翻譯質(zhì)量的影響:機(jī)器翻譯的崛起
在人類翻譯和機(jī)器翻譯數(shù)據(jù)集上的多語言推理性能對比實(shí)驗(yàn)中,兩者之間的差異微乎其微。以 Qwen2.5-72B 模型為例,在 GPQA 數(shù)據(jù)集上,使用人類翻譯數(shù)據(jù)時多語言方法的 Acc@4 為 70.0%,而使用機(jī)器翻譯數(shù)據(jù)時 Acc@4 為 69.7%,兩者幾乎持平。
這就好比在一場接力賽中,無論是專業(yè)翻譯選手還是機(jī)器翻譯助手,都能將接力棒順利傳遞下去,激發(fā)多語言推理的潛力。機(jī)器翻譯的高效性和可擴(kuò)展性使其成為獲取多語言數(shù)據(jù)的有力工具,而實(shí)驗(yàn)結(jié)果證明了使用機(jī)器翻譯數(shù)據(jù)也能有效提升推理性能。這為大規(guī)模多語言應(yīng)用場景帶來了福音,尤其是在需要快速處理海量多語言文本的場景中,機(jī)器翻譯與多語言推理的結(jié)合將發(fā)揮巨大作用。
現(xiàn)有答案選擇策略的局限性
多數(shù)投票法的不足:語言數(shù)量增加的陷阱
多數(shù)投票法在多語言推理中的表現(xiàn)并不盡如人意。隨著語言數(shù)量的增加,投票性能并未穩(wěn)定增長,反而可能出現(xiàn)下降。在 GPQA 數(shù)據(jù)集上,當(dāng)語言數(shù)量從 4 增加到 17 時,Qwen2.5-72B 模型的 Vote@k 值從 53.0% 下降至 48.0%。這是因?yàn)槎嗾Z言優(yōu)勢往往只由少數(shù)語言帶來,而多數(shù)錯誤答案可能像雜草一樣干擾正確答案的勝出。
此外,投票準(zhǔn)確率對最優(yōu)語言組合較為敏感。在最優(yōu)語言組合下,多語言投票準(zhǔn)確率能達(dá)到 54.2%,而隨機(jī)語言組合的準(zhǔn)確率僅為 51.7%,相差 2.5 個百分點(diǎn)。這表明,若語言組合選擇不當(dāng),投票準(zhǔn)確率可能低于其他方法,限制了多語言推理性能的進(jìn)一步提升。

投票表現(xiàn)并不會隨著候選人數(shù)的增加而提高。在GPQA數(shù)據(jù)集上,隨著語言種類或候選人數(shù)量的增加,Qwen2.5-72B模型在釋義(Paraphrase)、重復(fù)(Repeat)和多語言(Multilingual,包括人類翻譯的多語言版本Multilingual-h和機(jī)器翻譯的多語言版本Multilingual-m)任務(wù)中的最佳Vote@k(共17個候選)表現(xiàn)
基于提示詞的選擇方法的局限:模型的“倔強(qiáng)”表現(xiàn)
基于提示詞的選擇方法,如語言約束、英語允許、問題翻譯等設(shè)置,在不同模型上的效果極不穩(wěn)定。例如,在提示模型僅使用非英語語言進(jìn)行推理時,Qwen2.5-72B 模型在 GPQA 數(shù)據(jù)集上的 Acc@4 僅為 59.2%,遠(yuǎn)低于未進(jìn)行語言約束時的 70.0%。這表明模型并未完全按照提示進(jìn)行語言選擇和答案生成,而是根據(jù)自身對問題的理解和語言偏好,選擇更熟悉的語言進(jìn)行推理。
這種不穩(wěn)定性使得基于提示的選擇方法難以在多語言推理中發(fā)揮預(yù)期效果。就像給一個擅長多國語言的人下達(dá)僅使用特定外語交流的指令,他仍可能因習(xí)慣或?qū)δ承┱Z言的熟悉程度,不自覺地切換到其他語言,導(dǎo)致無法準(zhǔn)確篩選出最優(yōu)答案。

不同的基于提示詞的設(shè)置在性能上幾乎沒有差異,且自我翻譯并不是關(guān)鍵設(shè)置。在英語GPQA數(shù)據(jù)集上,基于提示詞的選擇方法的Acc@4和Vote@4性能與Repeat和Paraphrase的隨機(jī)4項性能進(jìn)行了比較。其中,LC、EA和QT分別代表語言限制、英語許可和問題翻譯
LLM 作為評判者的缺陷:評判者的“偏見”困境
以 LLM 作為評判者來選擇答案的策略也存在明顯缺陷。除 R1-Distill-LLaMA-70B 外,其他模型的 LLM 作為評判者的表現(xiàn)并不理想。在 GPQA 數(shù)據(jù)集上,Qwen2.5-72B 模型的 LLM 評判準(zhǔn)確率僅為 48.0%,低于簡單的多數(shù)投票法(53.0%)。這就像讓一個對多語言不太熟悉的人來評判不同語言作品的優(yōu)劣,容易出現(xiàn)誤判。
進(jìn)一步分析發(fā)現(xiàn),模型在評判過程中存在語言偏見。例如,當(dāng)候選答案中存在英語和非英語答案時,模型更傾向于選擇英語答案,即使非英語答案可能更正確。這種偏見使得 LLM 作為評判者的策略難以充分發(fā)揮多語言推理的優(yōu)勢,還需要進(jìn)一步優(yōu)化和改進(jìn)。

作為Judge的大型語言模型(LLM)僅在使用R1-Distill-LLaMA-70B時表現(xiàn)出多語言優(yōu)勢,但這種表現(xiàn)并不令人滿意。在人類翻譯(Multilingual-h)和機(jī)器翻譯(Multilingual-m)的GPQA數(shù)據(jù)集上,作為Judge的大型語言模型的表現(xiàn)如下。星號(*)表示我們在每種設(shè)置中僅包括4次運(yùn)行,由于LLM評判的成本較高,因此僅使用了針對該數(shù)據(jù)集的最佳語言組合,所以結(jié)果與前面表格中的結(jié)果有所不同
多語言推理優(yōu)勢的原因分析
語言與問題難度的關(guān)聯(lián):精準(zhǔn)匹配的鑰匙
不同難度問題與不同語言性能之間存在著微妙的關(guān)聯(lián)。對于不同難度級別的問題,某些語言可能更適合模型進(jìn)行推理。在 GPQA 數(shù)據(jù)集中,簡單問題(如基礎(chǔ)科學(xué)常識)在英語上表現(xiàn)較好,因?yàn)橛⒄Z在科學(xué)文獻(xiàn)中占據(jù)主導(dǎo)地位,模型在英語科學(xué)文本訓(xùn)練中接觸了大量簡單問題的表述;而對于復(fù)雜問題(如涉及多學(xué)科交叉的推理問題),日語或韓語可能更能幫助模型挖掘出正確答案,因?yàn)檫@些語言在表達(dá)復(fù)雜邏輯和精細(xì)概念時具有獨(dú)特優(yōu)勢。
這種語言與問題難度的匹配關(guān)系,使得多語言推理能夠根據(jù)不同問題的難度,動態(tài)選擇最適合的語言進(jìn)行推理,從而提高整體準(zhǔn)確率。例如,面對一道涉及量子力學(xué)和哲學(xué)思辨的復(fù)雜科學(xué)問題,日語模型可能憑借其對復(fù)雜邏輯的嚴(yán)謹(jǐn)表達(dá),提供更清晰的推理路徑,而英語模型則可能在簡單問題上快速給出正確答案,兩者結(jié)合,為多語言推理的性能提升提供了有力支持。

語言在一定程度上與難度水平相匹配。在人類翻譯的 GPQA 數(shù)據(jù)集中,每種語言的準(zhǔn)確率按難度水平劃分,這些語言來自表現(xiàn)最佳的語言組合(最佳語言組合)。每個難度水平都有一種或多種優(yōu)勢語言
關(guān)鍵優(yōu)勢語言的存在:團(tuán)隊中的中流砥柱
通過少數(shù) - 多數(shù)重疊標(biāo)準(zhǔn)識別出的各模型在不同任務(wù)中的關(guān)鍵優(yōu)勢語言,以及不同模型之間的跨模型關(guān)鍵優(yōu)勢語言,進(jìn)一步揭示了多語言推理優(yōu)勢的根源。例如,在 GPQA 任務(wù)中,對于 Qwen2.5-72B 模型,日語、英語、法語和匈牙利語是其關(guān)鍵優(yōu)勢語言;而 LLaMA3.1-70B 模型的關(guān)鍵優(yōu)勢語言則為匈牙利語、英語、法語、俄語和德語。這些關(guān)鍵優(yōu)勢語言在多語言推理中對其他語言的錯誤具有補(bǔ)償作用,就像在團(tuán)隊中,關(guān)鍵成員能夠在關(guān)鍵時刻彌補(bǔ)其他成員的失誤,確保任務(wù)的成功。
跨模型的關(guān)鍵優(yōu)勢語言(如英語和法語在 GPQA 任務(wù)中的普遍優(yōu)勢)表明,某些語言在特定推理任務(wù)中具有更廣泛的適用性和穩(wěn)定性。它們的存在使得多語言推理能夠在多種語言中篩選出最優(yōu)答案,從而顯著提高 Acc@k 指標(biāo),為多語言推理的廣泛應(yīng)用奠定了堅實(shí)基礎(chǔ)。例如,在處理一道涉及歷史事件的科學(xué)推理題時,英語模型可能憑借豐富的歷史文獻(xiàn)資料提供背景信息,而法語模型則可能從獨(dú)特的文化視角補(bǔ)充關(guān)鍵細(xì)節(jié),兩者結(jié)合,最終得出正確結(jié)論。

每個模型都有一些關(guān)鍵優(yōu)勢語言,這些語言通常會在兩項任務(wù)中彌補(bǔ)其他語言的錯誤,并且這些優(yōu)勢語言在不同模型之間存在重疊。通過少數(shù)語言與多數(shù)語言的重疊來篩選出在正確回答問題時領(lǐng)先于少數(shù)或多數(shù)測試語言的關(guān)鍵優(yōu)勢語言(優(yōu)勢語言)
討論與總結(jié)
不同的語言訓(xùn)練數(shù)據(jù)的不同,勢必造成各語言的知識偏好的不同,而模型在跨語言推理時知識遷移并沒有那么絲滑。所以,這篇論文的研究在工程落地上,是具備現(xiàn)實(shí)參考價值的。
多語言推理的潛力與價值:開啟智能應(yīng)用新方式
綜合論文中的實(shí)驗(yàn)結(jié)果和分析,我們可以清晰地看到,多語言推理在提升 LLM 推理能力方面具有巨大的潛力。它能夠突破傳統(tǒng)僅使用英語推理的局限,為 LLM 在多語言環(huán)境中的應(yīng)用開辟了新的道路。通過合理的語言組合和優(yōu)化方法,多語言推理可以有效挖掘不同語言的優(yōu)勢,提高推理準(zhǔn)確率。
在跨語言知識問答領(lǐng)域,多語言推理能夠整合全球不同語言的知識資源,為用戶提供了一個全面、精準(zhǔn)的答案。例如,當(dāng)用戶詢問關(guān)于中國傳統(tǒng)醫(yī)學(xué)與西方醫(yī)學(xué)結(jié)合治療某一疾病的知識時,多語言推理模型可以同時檢索中文醫(yī)學(xué)古籍和英文現(xiàn)代醫(yī)學(xué)研究,融合兩種醫(yī)學(xué)體系的智慧,給出具有創(chuàng)新性的治療方案建議。在國際教育領(lǐng)域,多語言推理能夠?yàn)椴煌Z言背景的學(xué)生提供個性化的學(xué)習(xí)輔導(dǎo),幫助他們更好地理解課程內(nèi)容,跨越語言障礙,實(shí)現(xiàn)知識的全球共享。
基于現(xiàn)有研究中發(fā)現(xiàn)的多語言推理優(yōu)勢和面臨的問題,未來我們也許可以嘗試更有效的答案選擇策略,例如開發(fā)基于深度學(xué)習(xí)的智能選擇算法,讓模型能夠自動學(xué)習(xí)如何從多種語言答案中篩選出最優(yōu)答案。這種算法可以分析不同語言答案的語義相似性、邏輯連貫性以及與問題的相關(guān)性,逐步構(gòu)建智能篩選模型,提高答案選擇的準(zhǔn)確性。
還可以嘗試通過分析不同語言在不同任務(wù)中的表現(xiàn),制定出更具針對性的語言組合策略,提高投票性能的穩(wěn)定性和準(zhǔn)確性。例如,可以建立語言性能數(shù)據(jù)庫,記錄每種語言在各類推理任務(wù)中的歷史表現(xiàn),根據(jù)具體任務(wù)需求,快速匹配出最佳語言組合。
總之次論文為我們展示了多語言推理在 LLM 中的顯著性能提升潛力。盡管現(xiàn)有答案選擇策略存在局限性,但通過合理的語言組合和優(yōu)化方法,我們?nèi)钥捎行诰蚨嗾Z言推理的優(yōu)勢。這一研究為 LLM 在多語言推理領(lǐng)域的發(fā)展提供了新的思路和方法。當(dāng)我們在設(shè)計多 Agent 系統(tǒng)的時候,這也為我們提升 Agent 系統(tǒng)的推理性能,提供了新思路。
























