偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微調(diào)已死!「共識機制」實現(xiàn)提示詞自我進化,性能飆升

人工智能 新聞
團隊創(chuàng)新性地提出了「共識表決得分」這一進化指標,用于評估單個提示詞在成組工作時的性能潛力,同時采用海島算法提升組內(nèi)個體的多樣性。

當前,人工智能領(lǐng)域正經(jīng)歷一場由「模型微調(diào)」向「上下文工程」的范式轉(zhuǎn)變。

通過在輸入中引入更明確的指令和更豐富詳實的知識,「上下文工程」既無需投入高昂的訓(xùn)練成本,亦不依賴開源模型權(quán)重參數(shù),同時能夠為用戶和開發(fā)者提供更強的可解釋性,正逐漸成為構(gòu)建高性能、可擴展且具備自我改進能力的 AI 系統(tǒng)的核心范式。

正因如此,「微調(diào)已死」成為了AI領(lǐng)域近期廣泛認可的熱門話題。

斯坦福新論文:微調(diào)已死,自主上下文當立

這其中最具有代表性的是提詞適應(yīng)與優(yōu)化算法。該類方法(如Alpha Evolve和GEPA)通過不斷迭代優(yōu)化,得到一個最優(yōu)提示詞實際使用。

然而,單一提示詞的表達能力有限,往往難以全面嚴謹?shù)乇硎鰪?fù)雜任務(wù)的所有需求。

對于這一缺陷,多提示詞的相互協(xié)作是一個很自然的解決方案——單個提示詞可能無法處理特定輸入,但其他提示詞可以彌補這一方面的性能損失。

如果能基于多個提示詞生成的回答提取他們所達成的「共識」,AI系統(tǒng)就更有可能輸出正確答案。

基于這一思想,西湖大學(xué)MAPLE實驗室齊國君教授團隊提出了基于「共識機制」的提示詞組進化算法C-Evolve。

與既往僅優(yōu)化單一提示詞不同,C-Evolve旨在通過進化算法生成一組提示詞。該組提示詞在對輸入信息進行獨立處理后,通過提取所有輸出結(jié)果的共識,以實現(xiàn)最優(yōu)任務(wù)性能。

為實現(xiàn)這一目標,團隊創(chuàng)新性地提出了「共識表決得分」這一進化指標,用于評估單個提示詞在成組工作時的性能潛力,同時采用海島算法提升組內(nèi)個體的多樣性。

通過多提示詞共識機制所帶來的增益,C-Evolve能夠突破單一系統(tǒng)提示詞的性能局限,顯著提升系統(tǒng)整體性能。

具體下面來看。

共識機制

一個AI系統(tǒng)由一系列LLM調(diào)用模塊組成。

每個模塊包含系統(tǒng)提示詞

為了優(yōu)化這些提示詞,使任務(wù)上的性能指標最大化,團隊定義如下優(yōu)化問題:

其中x代表任務(wù)的一條實例數(shù)據(jù)輸入,m代表評測所需的其他標注。

共識機制由一組獨立、同功能的提示詞共同完成。

給定任務(wù)輸入x,每個個體首先分別處理得到結(jié)果。

然后,基于所有個體輸出,團隊利用一個共識提取器從中提取最終結(jié)果:

對于數(shù)學(xué)計算、客觀選擇等封閉回答類問題,團隊采用多數(shù)表決輸出高頻一致答案。

而對于開放式提問,團隊用LLM表決:通過大語言模型篩選出最具代表性的輸出結(jié)果,確保其能夠充分反映群體反饋中的主流意見。

尋找在共識機制下最優(yōu)的一組提示詞的優(yōu)化問題如下:

基于海島的多提示詞進化算法

為了獲得一組性能最佳的提示詞,團隊采用了基于海島的進化算法:在個相互獨立的海島內(nèi)并行迭代種群。

整個進化過程包含兩個階段:

1、基于個體獨立性能的預(yù)熱階段;

2、基于跨海島分組協(xié)作表現(xiàn)的共識進化階段。

兩階段均使用評估指標和度量數(shù)據(jù)集進行性能評估,同時另設(shè)反饋數(shù)據(jù)集,用于生成每個個體的詳細執(zhí)行記錄,作為額外的反饋信息輔助進化。

預(yù)熱階段

在此階段,團隊將個體獨立得分作為進化算法的適應(yīng)度評分。

每輪迭代中,每個海島首先依據(jù)島內(nèi)所有個體的適應(yīng)度采樣一個父個體。

隨后,將選中的父個體與其在上采樣數(shù)據(jù)得到的執(zhí)行反饋、在上測得的評估指標共同輸入至LLM,進化生成新個體。

每個島嶼的個體數(shù)量上限為。

如超出,算法將淘汰在上表現(xiàn)最差的個體。

完整的預(yù)熱階段算法如下:

共識表決階段

此階段中,每個個體依據(jù)其組成提示組之后的性能作為進化的適應(yīng)度。

如圖所示,每個海島均生成一個新個體后,C-Evolve算法會構(gòu)建個提示組。

每個提示組從各島嶼i中分別采樣一個個體

而后,團隊基于共識機制測試這些組在上的評估性能。

△基于共識機制的多提示詞進化算法

基于組評估結(jié)果,團隊很自然地想到可以以組為單位直接淘汰表現(xiàn)最差組的所有成員個體。

然而,不同組間存在個體重疊,這種激進的淘汰策略將同時影響其他表現(xiàn)較優(yōu)的提示組。

為解決這一問題,團隊定義了每個個體Π的共識表決得分,通過計算包含個體Π的所有提示詞組的評估性能的平均值,團隊能量化評估該個體有多大潛力參與構(gòu)建一個好的提示詞組:

考慮到種群的動態(tài)變化,團隊采用指數(shù)平滑后的得分作為進化的適應(yīng)度評分,更新公式為:

此處,團隊特意避免直接計算個體參與的所有歷史提示詞組的平均性能。

這是因為早期采樣的提示詞組中的其他成員可能已被淘汰,這些過時結(jié)果無法真實反映個體在當前種群中的實際貢獻。

因此,采用EMA方法賦予最新采樣出的組更高權(quán)重,能有效抑制早期歷史結(jié)果對個體評估的影響。

△共識表決階段算法流程

提示詞性能飆升

實驗表明,C-Evolve同時適用于以Qwen3-8B為代表的開源模型和以GPT-4.1-mini為代表的閉源模型,并提升包括檢索問答、數(shù)學(xué)推理、指令遵從在內(nèi)的一系列任務(wù)性能。

從IFBench任務(wù)上的系統(tǒng)提示詞優(yōu)化過程示意圖可以看出,3個島會分別演化出關(guān)注不同側(cè)重點的提示詞,最終組成性能最好的提示詞組。

△IFBench任務(wù)提示詞組進化過程可視化圖

對訓(xùn)練過程中種群特征進行降維并可視化,也可以看出在共識表決進化階段,不同種群會顯著地朝著不同方向進化,這保證了組內(nèi)的多樣性和互補性。

△C-Evolve進化過程中提示詞種群分布

走向更高效的提示詞優(yōu)化

總而言之,這篇文章介紹了一種基于共識機制和進化算法的多提示詞優(yōu)化方法,C-Evolve。

通過系統(tǒng)性優(yōu)化和融合多提示詞的智能特征,該方法能夠有效突破單一系統(tǒng)提示詞的性能局限,無需參數(shù)微調(diào)即可實現(xiàn)算法效能的顯著提升。

在上下文工程日益彰顯其重要性的今天,如何通過更好地設(shè)計提示詞,挖掘諸如Claude、GPT等成熟商業(yè)LLM的模型能力,是一個具有極高實際意義的課題。

「共識機制」為提示詞優(yōu)化提供了全新的思路,通過模擬生物進化與群體協(xié)作的動態(tài)過程,不僅提升了提示詞的性能,還增強了模型在復(fù)雜任務(wù)中的適應(yīng)能力,有望進一步釋放大語言模型的潛力,推動智能系統(tǒng)向更高效、更自適應(yīng)的方向發(fā)展。

論文地址:https://arxiv.org/abs/2509.23331

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-11 18:05:23

AI智能體模型

2024-12-10 09:07:17

2025-10-13 09:03:00

2011-05-11 09:01:29

面向?qū)ο蠹夹g(shù)函數(shù)式語言

2011-01-07 10:18:28

RSSWeb

2023-02-06 07:37:29

Java編程語言

2022-09-15 10:44:42

SidecarIstioeBPFizer

2023-06-12 12:21:27

研究框架

2014-01-06 09:36:53

IT部門BYODBYOA

2024-02-05 13:09:00

AI數(shù)據(jù)

2012-02-20 10:12:09

Java

2025-07-31 02:00:00

智能體Agent人工超級智能

2024-12-19 17:07:31

2022-10-13 08:32:26

區(qū)塊鏈共識機制

2025-10-11 08:52:06

2015-08-31 10:59:22

2011-12-07 10:20:19

Email新聞

2021-01-19 10:58:15

漏洞管理漏洞數(shù)據(jù)泄露

2021-04-19 08:17:42

MesosKubernetesLinux

2025-09-15 09:10:09

點贊
收藏

51CTO技術(shù)棧公眾號