Mind Evolution:重塑 LLM 規(guī)劃與推理的 AI Agent 技術(shù)
大家好,我是肆〇柒。上個(gè)月,我發(fā)布了一篇關(guān)于 Google DeepMind 的 AlphaEvolve 的介紹文章,名為《進(jìn)化智能體 AlphaEvolve:科學(xué)發(fā)現(xiàn)與算法優(yōu)化的新引擎》。在寫“AlphaEvolve”文時(shí),我聯(lián)想到同樣是 Google DeepMind 的另外一篇論文“Mind Evolution”。 他們都是應(yīng)用在 Agent 上的核心算法類文章。所以我回顧了一下,認(rèn)為這兩篇可以結(jié)合起來看。
那么,今天,我們就來聊這項(xiàng)可以優(yōu)化大型語言模型(LLM)推理能力的技術(shù) —— Mind Evolution。在今年初,AI領(lǐng)域掀起了一股對(duì)推理時(shí)間擴(kuò)展(inference-time scaling)技術(shù)的探索熱潮。各大實(shí)驗(yàn)室紛紛投入大量資源,爭相發(fā)布各自的最新研究成果。行業(yè)會(huì)議中,相關(guān)話題的討論熱度也持續(xù)攀升,成為眾多專家和從業(yè)者關(guān)注的焦點(diǎn)。這是因?yàn)橥评頃r(shí)間擴(kuò)展技術(shù)是AI Agent運(yùn)行的核心基礎(chǔ),它直接關(guān)系到Agent在復(fù)雜環(huán)境中的決策效率和適應(yīng)能力。只有通過不斷優(yōu)化推理時(shí)間擴(kuò)展技術(shù),才能讓Agent更好地理解環(huán)境、做出精準(zhǔn)決策,并高效地完成任務(wù),從而推動(dòng)AI技術(shù)在更多領(lǐng)域的廣泛應(yīng)用和突破。
而 Google DeepMind 推出的 “心智進(jìn)化”(Mind Evolution)技術(shù),成為大型語言模型(LLM)在規(guī)劃和推理任務(wù)上性能提升的一個(gè)創(chuàng)新思路。
研究背景
推理時(shí)間擴(kuò)展技術(shù)的核心在于讓模型在生成答案的過程中有更多“思考”的機(jī)會(huì)。這種技術(shù)試圖通過允許模型生成多個(gè)候選答案,逐步審查和修正這些答案,從而探索不同的解決方案路徑。例如,傳統(tǒng)方法中,一個(gè)模型可能一次性生成一個(gè)旅行計(jì)劃,而推理時(shí)間擴(kuò)展技術(shù)則允許模型先生成多個(gè)旅行計(jì)劃的初稿,然后逐一檢查每個(gè)計(jì)劃是否符合預(yù)算、時(shí)間安排是否合理、是否覆蓋了所有用戶感興趣的景點(diǎn)等約束條件。如果某個(gè)計(jì)劃不符合要求,模型可以對(duì)其進(jìn)行修正,甚至重新生成新的計(jì)劃,直到找到最優(yōu)解。
這種技術(shù)的靈感來源于人類解決問題的過程。當(dāng)我們面臨一個(gè)復(fù)雜的任務(wù)時(shí),通常不會(huì)急于給出一個(gè)最終答案,而是會(huì)先思考多種可能的解決方案,然后逐一評(píng)估這些方案的可行性,并根據(jù)評(píng)估結(jié)果進(jìn)行調(diào)整。例如,在規(guī)劃一次旅行時(shí),我們可能會(huì)先列出幾個(gè)不同的行程安排,然后考慮每個(gè)行程的優(yōu)缺點(diǎn),比如時(shí)間是否充足、預(yù)算是否超支、是否能涵蓋所有想去的地方等。通過這種方式,我們可以逐步優(yōu)化行程,最終得到一個(gè)滿意的旅行計(jì)劃。
然而,以往的形式化方法在實(shí)際應(yīng)用中存在諸多局限性。以旅行規(guī)劃任務(wù)為例,用戶的需求往往是用自然語言描述的,比如“我希望這次旅行能去海邊,預(yù)算在 5000 元以內(nèi),時(shí)間盡量寬松一些”。要將這樣的自然語言描述轉(zhuǎn)化為形式化的符號(hào)表示,需要耗費(fèi)大量的人力和專業(yè)知識(shí)。研究人員需要仔細(xì)分析用戶的需求,將其分解為一個(gè)個(gè)具體的約束條件,比如“旅行目的地必須包含海邊城市”“總花費(fèi)不超過 5000 元”“每天的行程安排不超過 8 小時(shí)”等。這個(gè)過程不僅耗時(shí)耗力,而且很容易出現(xiàn)錯(cuò)誤或遺漏。例如,用戶可能沒有明確提到某個(gè)具體的約束條件,但這個(gè)條件對(duì)于生成一個(gè)滿意的旅行計(jì)劃卻是至關(guān)重要的。如果研究人員在形式化過程中忽略了這個(gè)條件,最終生成的旅行計(jì)劃可能就無法滿足用戶的真實(shí)需求。
研究者提出 Mind Evolution,正是為了解決這些問題。它無需對(duì)問題進(jìn)行形式化,而是直接在自然語言空間中優(yōu)化候選解。這種技術(shù)借鑒了自然選擇中的生物進(jìn)化過程,通過生成、重組和優(yōu)化候選解決方案,逐步逼近最優(yōu)解。例如,在旅行規(guī)劃任務(wù)中,Mind Evolution 可以直接根據(jù)用戶提供的自然語言描述生成多個(gè)旅行計(jì)劃的初稿,然后通過評(píng)估每個(gè)計(jì)劃的質(zhì)量,選擇質(zhì)量較高的計(jì)劃進(jìn)行重組和優(yōu)化,最終生成一個(gè)高質(zhì)量的旅行計(jì)劃。
Mind Evolution(心智進(jìn)化)是一種基于遺傳的進(jìn)化搜索策略,它在自然語言空間中運(yùn)行
上圖展示了Mind Evolution 如何針對(duì)旅行規(guī)劃任務(wù)將一個(gè)解候選群體進(jìn)化為更高質(zhì)量的候選解。候選群體通過一個(gè)迭代過程得到改進(jìn),在每次迭代中,使用一個(gè)大型語言模型(LLM)來重組和優(yōu)化候選解。
Mind Evolution 技術(shù)原理
核心概念與靈感來源
Mind Evolution 技術(shù)的核心是遺傳算法和搜索算法。遺傳算法是一種模擬生物進(jìn)化的優(yōu)化算法,它通過選擇、交叉和變異等操作,逐步優(yōu)化候選解的質(zhì)量。在 Mind Evolution 中,每個(gè)候選解都被視為一個(gè)“個(gè)體”,其質(zhì)量由適應(yīng)度函數(shù)來衡量。適應(yīng)度函數(shù)根據(jù)候選解的優(yōu)劣程度為其分配一個(gè)適應(yīng)度值,適應(yīng)度值越高,表示候選解越接近最優(yōu)解。例如,在旅行規(guī)劃任務(wù)中,適應(yīng)度函數(shù)可能會(huì)根據(jù)旅行計(jì)劃是否符合預(yù)算、時(shí)間安排是否合理、是否覆蓋了所有用戶感興趣的景點(diǎn)等因素來計(jì)算適應(yīng)度值。一個(gè)符合所有約束條件且行程安排合理的旅行計(jì)劃將獲得較高的適應(yīng)度值。
搜索算法則負(fù)責(zé)在自然語言空間中尋找候選解。它通過隨機(jī)生成初始解,然后逐步探索解空間,尋找更優(yōu)的解。在 Mind Evolution 中,搜索算法與遺傳算法相結(jié)合,既保證了搜索的多樣性,又提高了搜索的效率。例如,在旅行規(guī)劃任務(wù)中,搜索算法可以隨機(jī)生成多個(gè)初始旅行計(jì)劃,然后通過遺傳算法中的選擇、交叉和變異操作,逐步優(yōu)化這些計(jì)劃,最終找到一個(gè)高質(zhì)量的旅行計(jì)劃。
算法流程
種群初始化
種群初始化是 Mind Evolution 的第一步,它決定了整個(gè)進(jìn)化過程的起點(diǎn)。在旅行規(guī)劃任務(wù)中,種群初始化的過程如下:首先,根據(jù)用戶提供的旅行需求(如目的地、預(yù)算、時(shí)間等),LLM 生成一系列初始旅行計(jì)劃。這些初始計(jì)劃可能包含不同的行程安排、不同的景點(diǎn)選擇和不同的時(shí)間分配。
例如,一個(gè)初始計(jì)劃可能將第一天安排在海邊城市,第二天安排在歷史文化名城,而另一個(gè)初始計(jì)劃可能將兩天都安排在海邊城市,但增加了更多的水上活動(dòng)。這些不同的初始計(jì)劃構(gòu)成了初始種群,為后續(xù)的進(jìn)化過程提供了多樣化的候選解。從理論角度來看,種群初始化的目的是為了提供一個(gè)足夠多樣化的初始解集合,以便后續(xù)的進(jìn)化過程能夠在更廣泛的解空間中進(jìn)行探索。
根據(jù)遺傳算法的理論,初始種群的多樣性對(duì)于算法的全局搜索能力和收斂速度至關(guān)重要。如果初始種群過于單一,可能會(huì)導(dǎo)致算法過早收斂到局部最優(yōu)解,而無法找到全局最優(yōu)解。因此,研究人員需要在種群初始化階段引入足夠的隨機(jī)性,以確保初始種群中包含多種不同的解。同時(shí),為了提高算法的效率,初始種群的規(guī)模也需要根據(jù)任務(wù)的復(fù)雜度和計(jì)算資源的限制進(jìn)行合理選擇。例如,在一個(gè)簡單的 3 天旅行規(guī)劃任務(wù)中,種群規(guī)模可以設(shè)置為 50,而在一個(gè)復(fù)雜的 7 天旅行規(guī)劃任務(wù)中,種群規(guī)??梢栽O(shè)置為 100。
詳細(xì)的超參數(shù)設(shè)置可以參考下表。
Mind Evolution 中超參數(shù)的定義
上表中除非另有說明,本文中的提到的實(shí)驗(yàn)均使用默認(rèn)值。前四個(gè)超參數(shù)的乘積給出了生成的候選解的最大數(shù)量(默認(rèn)設(shè)置為800)。
適應(yīng)度評(píng)估
適應(yīng)度評(píng)估是 Mind Evolution 中的關(guān)鍵環(huán)節(jié),它決定了候選解的質(zhì)量。適應(yīng)度函數(shù)根據(jù)候選解的優(yōu)劣程度為其分配一個(gè)適應(yīng)度值,適應(yīng)度值越高,表示候選解越接近最優(yōu)解。在旅行規(guī)劃任務(wù)中,適應(yīng)度函數(shù)通常會(huì)考慮多個(gè)因素,如旅行計(jì)劃是否符合預(yù)算、時(shí)間安排是否合理、是否覆蓋了所有用戶感興趣的景點(diǎn)等。
例如,一個(gè)旅行計(jì)劃如果超出了預(yù)算,適應(yīng)度值會(huì)相應(yīng)降低;如果時(shí)間安排不合理,比如某個(gè)景點(diǎn)的停留時(shí)間過短或過長,適應(yīng)度值也會(huì)降低;如果旅行計(jì)劃沒有覆蓋用戶感興趣的景點(diǎn),適應(yīng)度值同樣會(huì)降低。從理論角度來看,適應(yīng)度函數(shù)的設(shè)計(jì)是遺傳算法中的一個(gè)關(guān)鍵問題。
由遺傳算法,適應(yīng)度函數(shù)不僅需要能夠準(zhǔn)確地評(píng)估候選解的質(zhì)量,還需要能夠?yàn)樗惴ㄌ峁┳銐虻乃阉鞣较蛐畔?。一個(gè)良好的適應(yīng)度函數(shù)應(yīng)該能夠清晰地反映候選解之間的優(yōu)劣關(guān)系,并且能夠引導(dǎo)算法向更優(yōu)解的方向進(jìn)行搜索。在 Mind Evolution 中,適應(yīng)度函數(shù)的設(shè)計(jì)需要綜合考慮任務(wù)的約束條件和目標(biāo)函數(shù),以確保算法能夠在自然語言空間中有效地進(jìn)行優(yōu)化。在旅行規(guī)劃任務(wù)中,適應(yīng)度函數(shù)可能會(huì)根據(jù)旅行計(jì)劃是否符合預(yù)算、時(shí)間安排是否合理、是否覆蓋了所有用戶感興趣的景點(diǎn)等因素來計(jì)算適應(yīng)度值。這種多維度的評(píng)估方式不僅能夠準(zhǔn)確地評(píng)估候選解的質(zhì)量,還能夠?yàn)樗惴ㄌ峁┴S富的搜索方向信息,從而提高算法的優(yōu)化效率。
除了適應(yīng)度值外,適應(yīng)度函數(shù)還會(huì)提供詳細(xì)的文本反饋,指出候選解中存在的問題和改進(jìn)方向。例如,對(duì)于一個(gè)超出預(yù)算的旅行計(jì)劃,適應(yīng)度函數(shù)可能會(huì)反饋:“該旅行計(jì)劃的總花費(fèi)為 6000 元,超出了預(yù)算 1000 元。建議減少在高檔酒店的住宿天數(shù),或者選擇更經(jīng)濟(jì)實(shí)惠的交通方式。” 這種文本反饋為 LLM 提供了明確的改進(jìn)方向,使其能夠在后續(xù)的進(jìn)化過程中對(duì)候選解進(jìn)行優(yōu)化。
這種反饋機(jī)制引出了 Mind Evolution 中另一個(gè)關(guān)鍵流程——Refinement through Critical Conversation (RCC),它通過模擬批判性對(duì)話來優(yōu)化候選解。具體來說,RCC 過程首先提出一個(gè)初始解決方案,然后對(duì)其進(jìn)行評(píng)估并接受來自評(píng)論者的反饋,之后由作者角色提出改進(jìn)后的方案。這個(gè)過程不斷迭代,直至方案達(dá)到滿意的質(zhì)量。比如下圖展示了 RCC 過程的運(yùn)作機(jī)制。
通過批判性對(duì)話(RCC)進(jìn)行細(xì)化的過程。首先提出一個(gè)初步解決方案,然后對(duì)其進(jìn)行評(píng)估并接受批評(píng)者的反饋,之后作者提出一個(gè)改進(jìn)后的解決方案,隨后該過程不斷迭代
在該過程中,初始解決方案被提出后,會(huì)經(jīng)歷評(píng)估和反饋環(huán)節(jié),評(píng)論者角色對(duì)方案進(jìn)行分析并指出問題所在。隨后,作者角色基于這些反饋提出改進(jìn)后的解決方案。這一迭代過程持續(xù)進(jìn)行,直至獲得高質(zhì)量的候選解。這種基于對(duì)話的優(yōu)化方式不僅提升了解決方案的質(zhì)量,還增強(qiáng)了模型對(duì)復(fù)雜任務(wù)的理解和應(yīng)對(duì)能力。
選擇操作
選擇操作是遺傳算法中的一個(gè)重要環(huán)節(jié),它決定了哪些候選解能夠進(jìn)入下一代。在 Mind Evolution 中,選擇操作通常采用輪盤賭選擇法。這種方法根據(jù)候選解的適應(yīng)度值,按照一定的概率選擇候選解進(jìn)入下一代。適應(yīng)度值越高的候選解,被選中的概率越高。
例如,在旅行規(guī)劃任務(wù)中,如果一個(gè)旅行計(jì)劃的適應(yīng)度值為 0.9,另一個(gè)旅行計(jì)劃的適應(yīng)度值為 0.7,那么第一個(gè)旅行計(jì)劃被選中的概率將高于第二個(gè)旅行計(jì)劃。從理論角度來看,選擇操作的目的是為了在保持種群多樣性的同時(shí),逐步提高種群的整體質(zhì)量。
從遺傳算法理論可知,選擇操作需要在選擇優(yōu)質(zhì)解和保持種群多樣性之間找到一個(gè)平衡。如果選擇操作過于偏向優(yōu)質(zhì)解,可能會(huì)導(dǎo)致種群過早收斂到局部最優(yōu)解,而無法找到全局最優(yōu)解;如果選擇操作過于偏向多樣性,可能會(huì)導(dǎo)致算法的優(yōu)化效率降低。因此,選擇操作需要根據(jù)任務(wù)的復(fù)雜度和種群的當(dāng)前狀態(tài),動(dòng)態(tài)調(diào)整選擇策略。在 Mind Evolution 中,輪盤賭選擇法是一種常用的選擇策略,它通過根據(jù)適應(yīng)度值分配選擇概率,既能夠優(yōu)先選擇優(yōu)質(zhì)解,又能夠給予低適應(yīng)度解一定的機(jī)會(huì),從而在保持種群多樣性的同時(shí),逐步提高種群的整體質(zhì)量。
然而,為了保持種群的多樣性,避免過早收斂到局部最優(yōu)解,選擇操作也會(huì)給予低適應(yīng)度解一定的機(jī)會(huì)。例如,即使一個(gè)旅行計(jì)劃的適應(yīng)度值較低,它仍然有一定的概率被選中進(jìn)入下一代。這樣可以確保種群中包含多種不同的解,為后續(xù)的進(jìn)化過程提供更多的可能性。
交叉與變異操作
交叉與變異操作是遺傳算法中的兩個(gè)重要操作,它們通過組合和改變候選解的特征,生成新的候選解。在 Mind Evolution 中,交叉操作通常通過選擇兩個(gè)或多個(gè)父代候選解,將它們的特征進(jìn)行組合,生成新的子代候選解。例如,在旅行規(guī)劃任務(wù)中,可以將一個(gè)父代旅行計(jì)劃中的景點(diǎn)選擇與另一個(gè)父代旅行計(jì)劃中的時(shí)間安排進(jìn)行組合,生成一個(gè)新的旅行計(jì)劃。這種組合方式可以產(chǎn)生新的解,這些解可能包含父代解的優(yōu)點(diǎn),從而提高種群的整體質(zhì)量。從理論角度來看,交叉操作的目的是為了通過組合不同候選解的特征,產(chǎn)生新的解,從而增加種群的多樣性。根據(jù)遺傳算法的理論,交叉操作能夠有效地探索解空間中的不同區(qū)域,找到更優(yōu)的解。在 Mind Evolution 中,交叉操作不僅能夠組合不同旅行計(jì)劃的優(yōu)點(diǎn),還能夠通過引入新的特征組合,生成具有創(chuàng)新性的旅行計(jì)劃。例如,通過將一個(gè)注重文化體驗(yàn)的旅行計(jì)劃與一個(gè)注重美食探索的旅行計(jì)劃進(jìn)行組合,可能會(huì)生成一個(gè)既包含文化深度游又包含美食探索的綜合旅行計(jì)劃,從而滿足用戶多樣化的需求。
變異操作則通過隨機(jī)改變候選解的某些特征,增加種群的多樣性。例如,在旅行規(guī)劃任務(wù)中,可以隨機(jī)改變某個(gè)旅行計(jì)劃中某個(gè)景點(diǎn)的停留時(shí)間,或者隨機(jī)更換某個(gè)景點(diǎn)。這種隨機(jī)性可以避免種群過早收斂到局部最優(yōu)解,為進(jìn)化過程提供更多的可能性。從理論角度來看,變異操作的目的是為了在種群中引入隨機(jī)性,從而避免算法陷入局部最優(yōu)解。根據(jù)遺傳算法的理論,變異操作能夠通過隨機(jī)改變候選解的特征,為算法提供新的搜索方向,增加算法的全局搜索能力。在 Mind Evolution 中,變異操作不僅能夠隨機(jī)改變旅行計(jì)劃中的某些細(xì)節(jié),還能夠通過引入新的特征變化,生成具有創(chuàng)新性的旅行計(jì)劃。例如,通過隨機(jī)改變某個(gè)景點(diǎn)的停留時(shí)間,可能會(huì)發(fā)現(xiàn)一個(gè)新的時(shí)間安排方式,使得旅行計(jì)劃更加合理,從而提高旅行計(jì)劃的質(zhì)量。
島嶼模型應(yīng)用
島嶼模型是 Mind Evolution 中的一個(gè)重要策略,它通過將種群劃分為多個(gè)子種群(島嶼),并讓這些子種群獨(dú)立進(jìn)化,來維持種群的多樣性。在旅行規(guī)劃任務(wù)中,每個(gè)島嶼可以專注于探索不同類型的旅行計(jì)劃。例如,一個(gè)島嶼可以專注于探索文化深度游類型的旅行計(jì)劃,另一個(gè)島嶼可以專注于探索美食探索游類型的旅行計(jì)劃。這些島嶼在獨(dú)立進(jìn)化過程中,會(huì)逐漸形成各自的特點(diǎn)和優(yōu)勢(shì)。從理論角度來看,島嶼模型的目的是為了在保持種群多樣性的同時(shí),提高算法的全局搜索能力和優(yōu)化效率。根據(jù)遺傳算法的理論,島嶼模型通過將種群劃分為多個(gè)子種群,每個(gè)子種群可以獨(dú)立地進(jìn)行進(jìn)化,從而避免了全局種群過早收斂到局部最優(yōu)解的問題。同時(shí),島嶼之間的遷移操作能夠促進(jìn)不同子種群之間的信息交流,加速全局最優(yōu)解的搜索進(jìn)程。在 Mind Evolution 中,島嶼模型不僅能夠維持種群的多樣性,還能夠通過周期性的遷移操作,將不同島嶼上的優(yōu)質(zhì)解進(jìn)行組合和優(yōu)化,從而提高種群的整體質(zhì)量。
在進(jìn)化過程中,島嶼之間會(huì)進(jìn)行周期性的遷移操作。一些在某個(gè)島嶼上表現(xiàn)優(yōu)異的旅行計(jì)劃會(huì)被遷移到其他島嶼,與其他島嶼的旅行計(jì)劃進(jìn)行交流和融合。這種遷移操作可以加速全局最優(yōu)解的搜索進(jìn)程。例如,一個(gè)在文化深度游島嶼上表現(xiàn)優(yōu)異的旅行計(jì)劃,可能會(huì)被遷移到美食探索游島嶼,與其他美食探索游類型的旅行計(jì)劃進(jìn)行組合,生成一個(gè)新的旅行計(jì)劃,這個(gè)新的旅行計(jì)劃可能既包含了文化深度游的優(yōu)點(diǎn),又包含了美食探索游的優(yōu)點(diǎn),從而提高了種群的整體質(zhì)量。
關(guān)鍵創(chuàng)新點(diǎn)
Mind Evolution 技術(shù)的關(guān)鍵創(chuàng)新點(diǎn)在于它無需對(duì)問題進(jìn)行形式化,而是直接在自然語言空間中優(yōu)化候選解。這種創(chuàng)新不僅降低了任務(wù)求解的門檻,還提高了模型在實(shí)際應(yīng)用中的適用性。例如,在旅行規(guī)劃任務(wù)中,用戶通常會(huì)用自然語言描述他們的需求和偏好,如“我希望這次旅行能去海邊,預(yù)算在 5000 元以內(nèi),時(shí)間盡量寬松一些”。這些需求和偏好很難用形式化的符號(hào)表示,但 Mind Evolution 可以直接在自然語言空間中理解和處理這些需求,生成高質(zhì)量的旅行計(jì)劃。這種創(chuàng)新的意義在于,它使得 LLM 能夠更廣泛地應(yīng)用于各類自然語言規(guī)劃任務(wù),而無需耗費(fèi)大量的人力和專業(yè)知識(shí)進(jìn)行任務(wù)形式化預(yù)處理。例如,在創(chuàng)意寫作任務(wù)中,用戶可能要求生成一首包含特定隱寫信息的詩歌。這種任務(wù)很難用形式化的符號(hào)表示,但 Mind Evolution 可以為用戶提供高質(zhì)量的解決方案。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
實(shí)驗(yàn)設(shè)置
測試基準(zhǔn)
TravelPlanner 基準(zhǔn)模擬了用戶根據(jù)自身偏好和約束條件規(guī)劃旅行的真實(shí)場景。在該基準(zhǔn)中,任務(wù)難度隨著旅行天數(shù)的增加和用戶提出約束條件的復(fù)雜度提升而遞增。例如,從簡單的 3 天城市短途旅行規(guī)劃,到復(fù)雜的 7 天跨國旅行規(guī)劃,涉及到多城市間交通銜接、不同貨幣預(yù)算換算、當(dāng)?shù)匚幕?xí)俗遵守等復(fù)雜因素。Natural Plan 基準(zhǔn)則涵蓋了 Trip Planning 和 Meeting Planning 任務(wù)。Trip Planning 任務(wù)聚焦于多城市旅行路線規(guī)劃,需滿足城市間航班直飛、停留天數(shù)符合用戶要求等約束;Meeting Planning 任務(wù)側(cè)重于會(huì)議安排,要在參會(huì)人員的時(shí)間表、會(huì)議地點(diǎn)、會(huì)議時(shí)長等約束下,盡可能安排更多的有效會(huì)議。而新提出的 StegPoet 基準(zhǔn)則別具一格,它要求 LLM 在創(chuàng)作詩歌、故事等創(chuàng)意文本時(shí),將特定的隱藏信息(如數(shù)字序列)通過特定編碼方式嵌入文本,同時(shí)保證文本的連貫性和藝術(shù)性,這一任務(wù)對(duì) LLM 的規(guī)劃能力和創(chuàng)意生成能力提出了全新挑戰(zhàn)。
模型選擇
Gemini 1.5 Flash 作為默認(rèn)的 LLM,憑借其快速的推理速度和較低的計(jì)算資源需求,成為實(shí)驗(yàn)的首選模型。它能在短時(shí)間內(nèi)生成大量候選解決方案,為 Mind Evolution 的進(jìn)化過程提供高效支撐。然而,面對(duì)一些極為復(fù)雜、資源消耗大的任務(wù)實(shí)例,Gemini 1.5 Flash 可能在有限的代數(shù)內(nèi)難以求解。此時(shí),兩階段方法應(yīng)運(yùn)而生,即當(dāng) Flash 模型無法在規(guī)定代數(shù)內(nèi)找到滿意解時(shí),會(huì)無縫切換至 Gemini 1.5 Pro 模型進(jìn)行深度攻堅(jiān)。Pro 模型憑借其更強(qiáng)大的生成能力和更精準(zhǔn)的推理性能,對(duì)遺留的復(fù)雜任務(wù)進(jìn)行深度探索和優(yōu)化,確保最終所有任務(wù)都能得到高質(zhì)量的解決方案。
基線方法對(duì)比
為全面評(píng)估 Mind Evolution 的性能,研究人員將其與 1-Pass、Best-of-N、Sequential Revision + 等基線方法進(jìn)行對(duì)比。1-Pass 方法如同 LLM 的 “直覺反應(yīng)”,直接一次性生成答案,不經(jīng)過任何迭代優(yōu)化,其優(yōu)點(diǎn)是速度快,但面對(duì)復(fù)雜任務(wù)時(shí),生成答案的質(zhì)量往往難以保證。Best-of-N 方法則通過大量獨(dú)立采樣,試圖在眾多候選答案中選取較優(yōu)解。雖然在一定程度上提高了答案質(zhì)量,但這種方法如同 “廣種薄收”,需要消耗大量計(jì)算資源生成海量候選答案,且無法對(duì)答案進(jìn)行針對(duì)性改進(jìn)。Sequential Revision + 方法在 Best-of-N 基礎(chǔ)上增加了多輪修訂環(huán)節(jié),對(duì)每個(gè)候選答案進(jìn)行逐步修正,但其修訂過程缺乏全局視角,難以對(duì)整個(gè)解進(jìn)行全面優(yōu)化。這些基線方法從不同角度為 Mind Evolution 的優(yōu)勢(shì)展現(xiàn)提供了參照系。
結(jié)果呈現(xiàn)與綜合分析
TravelPlanner 基準(zhǔn)
在 TravelPlanner 驗(yàn)證集上,Mind Evolution 取得了令人驚艷的 95.6% 成功率,而 1-Pass 方法僅達(dá)到 5.6%,Best-of-N 方法也只有 55.6%,Sequential Revision + 方法相對(duì)較好,但也只達(dá)到 82.8%。當(dāng)啟用兩階段方法后,Mind Evolution 更是實(shí)現(xiàn)了 100% 的成功率。深入分析不同難度級(jí)別下的表現(xiàn),在 3 天易難度旅行規(guī)劃任務(wù)中,各方法成功率相對(duì)接近,但隨著旅行天數(shù)增加至 5 天、7 天,任務(wù)難度攀升,Mind Evolution 的優(yōu)勢(shì)愈發(fā)凸顯。它憑借強(qiáng)大的搜索與迭代優(yōu)化能力,始終能在復(fù)雜的約束條件下,生成合理、高效的旅行計(jì)劃。例如,在一個(gè) 7 天跨國旅行規(guī)劃案例中,Mind Evolution 生成的計(jì)劃精準(zhǔn)銜接了多個(gè)城市的交通,合理分配了每天的游覽時(shí)間,既保證了用戶有充足時(shí)間參觀心儀景點(diǎn),又巧妙避免了時(shí)間沖突和預(yù)算超支問題。而基線方法生成的計(jì)劃要么因頻繁調(diào)整航班導(dǎo)致預(yù)算嚴(yán)重超支,要么因不合理安排行程使部分景點(diǎn)游覽時(shí)間過短,用戶體驗(yàn)大打折扣。在效率指標(biāo)方面,Mind Evolution 在保證高質(zhì)量解決方案的同時(shí),展現(xiàn)出較高的生成效率。其平均耗時(shí)和資源消耗(LLM 調(diào)用次數(shù)、生成的 Token 數(shù)量等)均優(yōu)于 Sequential Revision + 方法,且與 Best-of-N 方法相當(dāng),綜合性能優(yōu)勢(shì)十分明顯。
詳細(xì)的實(shí)驗(yàn)結(jié)果可以參考下表
在基準(zhǔn)自然語言規(guī)劃任務(wù)上的實(shí)驗(yàn)結(jié)果?!埃?pro)”表示兩階段的結(jié)果,在這一階段,使用Gemini 1.5 Pro來解決在使用Gemini 1.5 Flash進(jìn)行實(shí)驗(yàn)時(shí)未能解決的問題。大語言模型(LLM)調(diào)用次數(shù)、Tokens數(shù)量和API成本是基于驗(yàn)證集或測試問題集的平均值,并且在“(+pro)”實(shí)驗(yàn)中,它們僅針對(duì)剩余問題進(jìn)行計(jì)算。此外,實(shí)驗(yàn)還展示了OpenAI o1-preview的結(jié)果以供參考。
上表中展示了不同方法在 TravelPlanner 基準(zhǔn)上的表現(xiàn),包括成功率、LLM 調(diào)用次數(shù)、Token 數(shù)量以及 API 成本等指標(biāo)。
Natural Plan 基準(zhǔn)
在 Natural Plan 基準(zhǔn)的 Trip Planning 任務(wù)中,Mind Evolution 在驗(yàn)證集上達(dá)到了 96.2% 的成功率,遠(yuǎn)超 Best-of-N 方法的 77.2% 和 Sequential Revision + 方法的 74.4%。隨著旅行計(jì)劃中城市數(shù)量的增加,從 3 個(gè)城市到 10 個(gè)城市,Mind Evolution 與基線方法的差距逐漸拉大。在 10 城市旅行規(guī)劃案例中,Mind Evolution 生成的行程路線完美實(shí)現(xiàn)了城市間的航班直飛銜接,根據(jù)用戶對(duì)各城市的游覽重點(diǎn)需求,合理分配了停留天數(shù)。比如,用戶對(duì)城市 A 的歷史文化景點(diǎn)興趣濃厚,希望多花時(shí)間探索,而對(duì)城市 B 的現(xiàn)代商業(yè)景觀只是匆匆一瞥,Mind Evolution 生成的計(jì)劃精準(zhǔn)反映了這一需求,安排了 3 天游覽城市 A,僅 1 天打卡城市 B,整體旅行節(jié)奏把握得恰到好處。而基線方法生成的路線要么出現(xiàn)無法直飛的城市銜接錯(cuò)誤,要么對(duì)各城市的停留天數(shù)分配不合理,導(dǎo)致用戶重點(diǎn)游覽需求無法滿足。在 Meeting Planning 任務(wù)中,Mind Evolution 同樣表現(xiàn)出色,驗(yàn)證集成功率達(dá)到 85.0%,隨著參與會(huì)議人數(shù)從 2 人增加至 10 人,其優(yōu)勢(shì)依然穩(wěn)固。在 10 人會(huì)議安排案例中,Mind Evolution 生成的計(jì)劃巧妙避免了所有會(huì)議時(shí)間沖突,確保每位參會(huì)人員都有充足時(shí)間參與自己負(fù)責(zé)的會(huì)議,且會(huì)議時(shí)長安排合理,符合實(shí)際溝通需求。相比之下,基線方法生成的安排要么出現(xiàn)會(huì)議時(shí)間重疊,要么遺漏了部分重要參會(huì)人員,無法達(dá)到高效的會(huì)議組織效果。詳細(xì)的實(shí)驗(yàn)結(jié)果可以參考下圖
按訪問城市數(shù)量劃分的旅行規(guī)劃基準(zhǔn)測試在驗(yàn)證集上的成功率上圖展示了不同方法在 Trip Planning 基準(zhǔn)上的成功率隨城市數(shù)量的變化趨勢(shì)。
按會(huì)面人數(shù)劃分的會(huì)議規(guī)劃基準(zhǔn)測試在驗(yàn)證集上的成功率
上圖展示了不同方法在 Meeting Planning 基準(zhǔn)上的成功率隨參與人數(shù)的變化趨勢(shì)。
StegPoet 基準(zhǔn)
StegPoet 基準(zhǔn)作為創(chuàng)意寫作領(lǐng)域的全新挑戰(zhàn),考驗(yàn)著 LLM 在隱寫任務(wù)中的規(guī)劃與生成能力。在這個(gè)任務(wù)中,Mind Evolution 展現(xiàn)出了卓越的性能。例如,在一個(gè)要求將數(shù)字序列 [10,20,30,40,50,60,70,80,90,100,10,20] 隱寫為詩歌的任務(wù)中,Mind Evolution 生成了一首以兒童詩歌為主題的創(chuàng)意作品。詩歌中巧妙地將數(shù)字對(duì)應(yīng)的單詞(如 “rooster” 對(duì)應(yīng) 10,“flowers” 對(duì)應(yīng) 20 等)嵌入到詩句中,如 “I like to walk, I like to stride, With ROOSTER crows and FLOWERS by my side.”,不僅完整、準(zhǔn)確地隱寫了所有數(shù)字,而且詩歌整體連貫、富有童趣,完美契合兒童詩歌的風(fēng)格要求。反觀基線方法,1-Pass 方法生成的詩歌要么遺漏了部分?jǐn)?shù)字隱寫,要么詩句生硬拼湊,毫無藝術(shù)性可言;Best-of-N 方法雖生成了大量候選詩歌,但也僅有個(gè)別詩歌勉強(qiáng)完成數(shù)字隱寫,大部分存在語義不通順、風(fēng)格不符等問題;Sequential Revision + 方法在多輪修訂后,雖在一定程度上改善了詩歌質(zhì)量,但依舊無法像 Mind Evolution 那樣,在保證隱寫準(zhǔn)確性的基礎(chǔ)上,呈現(xiàn)出高質(zhì)量的文學(xué)創(chuàng)作。Mind Evolution 在該任務(wù)上的出色表現(xiàn),再次印證了其在復(fù)雜創(chuàng)意寫作任務(wù)中的強(qiáng)大實(shí)力。詳細(xì)的實(shí)驗(yàn)結(jié)果可以參考下表
StegPoet的實(shí)驗(yàn)結(jié)果。價(jià)格和token數(shù)量是按問題計(jì)算的平均值。所有結(jié)果均使用Gemini 1.5 Flash,除非標(biāo)注為(+pro),該部分使用Gemini 1.5 Pro解決在Flash運(yùn)行中未解決的問題上表展示了不同方法在 StegPoet 基準(zhǔn)上的成功率、Token 數(shù)量以及 API 成本等指標(biāo),見下表
StegPoet示例。展示了StegPoet問題實(shí)例的編碼示例(左側(cè))和正確的解決方案(右側(cè)),其中包含數(shù)字到單詞的密碼以及一首兒童詩歌風(fēng)格的詩。請(qǐng)注意,在這個(gè)實(shí)例中,|??| = 12。例子對(duì)代碼詞進(jìn)行了大寫處理,以便突出顯示它們
上表展示了 StegPoet 任務(wù)的一個(gè)示例,包括問題描述和正確的解決方案。
性能深度剖析
綜合來看,Mind Evolution 能夠在多個(gè)基準(zhǔn)測試中大幅優(yōu)于基線方法,關(guān)鍵在于它巧妙結(jié)合了廣泛搜索與深度搜索的優(yōu)勢(shì)。在廣泛搜索階段,通過隨機(jī)探索生成大量多樣化候選解,就像在黑暗中多方向散發(fā)光束,盡可能照亮更多潛在解區(qū)域;在深度搜索階段,利用 LLM 對(duì)候選解進(jìn)行精細(xì)迭代優(yōu)化,如同聚焦光束,在已發(fā)現(xiàn)的優(yōu)質(zhì)解區(qū)域深耕細(xì)作,逐步雕琢出最優(yōu)解。這種發(fā)散與聚合思維模式的完美契合,讓 Mind Evolution 在面對(duì)不同類型的規(guī)劃任務(wù)、不同難度級(jí)別挑戰(zhàn)時(shí),都能游刃有余地發(fā)揮出色性能。無論是旅行規(guī)劃中的多約束條件平衡,還是會(huì)議安排中的復(fù)雜時(shí)間表協(xié)調(diào),亦或是創(chuàng)意寫作中的隱寫信息與藝術(shù)性兼顧,Mind Evolution 均展現(xiàn)出強(qiáng)大的泛化能力,為實(shí)際應(yīng)用提供了高度可靠、廣泛適用的解決方案。
詳細(xì)的性能對(duì)比可以參考下圖
隨著候選解數(shù)量的增加,TravelPlanner的成功率和評(píng)估分?jǐn)?shù)
隨著候選方案數(shù)量的增加,行程規(guī)劃的成功率和評(píng)分情況
隨著候選方案數(shù)量的增加,會(huì)議計(jì)劃的成功率和評(píng)分
其中展示了不同方法在 TravelPlanner、Trip Planning 和 Meeting Planning 基準(zhǔn)上的成功率和評(píng)估分?jǐn)?shù)隨候選解數(shù)量的變化趨勢(shì)。
探討與啟示
與相關(guān)工作的對(duì)比
相比以往將進(jìn)化搜索與 LLM 結(jié)合但多聚焦于形式程序空間搜索的研究,Mind Evolution 在自然語言規(guī)劃等非形式化任務(wù)上的獨(dú)特優(yōu)勢(shì)尤為顯著。以往研究在形式程序空間中搜索,雖然在代碼生成等任務(wù)中取得了一定成果,但對(duì)于自然語言規(guī)劃這類任務(wù),往往因形式化過程(formalization process)的復(fù)雜性而難以施展拳腳。
例如,在旅行規(guī)劃任務(wù)中,傳統(tǒng)的形式化方法需要精確定義每個(gè)約束條件的數(shù)學(xué)表達(dá)式,如預(yù)算約束表示為 “總花費(fèi) ≤ 預(yù)算金額”,時(shí)間安排合理性表示為一系列時(shí)間區(qū)間不重疊的邏輯表達(dá)式等。然而,自然語言中豐富的語義信息和靈活的表達(dá)方式使得這種形式化過程難以自動(dòng)完成,且一旦用戶需求發(fā)生微小變化(如增加一個(gè)特殊景點(diǎn)參觀要求),形式化表達(dá)又需重新調(diào)整。而 Mind Evolution 技術(shù)則跳過了這一障礙,直接在自然語言空間中利用進(jìn)化搜索探索解決方案,就像在寬廣的海洋中自由航行,無需拘泥于固定的航道(形式化框架),為 LLM 在復(fù)雜任務(wù)中的應(yīng)用開辟了全新的廣闊天地。這種技術(shù)思路的轉(zhuǎn)變,不僅為 LLM 在自然語言規(guī)劃領(lǐng)域的發(fā)展提供了新方向,也促使整個(gè) AI 研究領(lǐng)域重新思考如何突破傳統(tǒng)方法局限,以更靈活、高效的方式解決實(shí)際問題。
對(duì) LLM 評(píng)估器依賴的思考
盡管 Mind Evolution 技術(shù)表現(xiàn)出色,但其對(duì)可編程評(píng)估器的依賴也不容忽視。目前,該技術(shù)依賴于人為設(shè)計(jì)的評(píng)估器來判斷候選解的質(zhì)量并提供反饋。這種評(píng)估器如同 LLM 的 “導(dǎo)師”,指引著進(jìn)化搜索的方向。然而,這種依賴也帶來了一定的局限性。一方面,設(shè)計(jì)高質(zhì)量的評(píng)估器需要深入理解具體任務(wù)的業(yè)務(wù)邏輯和目標(biāo),對(duì)于一些新興的、復(fù)雜的任務(wù)類型(如基于虛擬現(xiàn)實(shí)的沉浸式旅行規(guī)劃),開發(fā)精準(zhǔn)評(píng)估器存在較大難度;另一方面,評(píng)估器的主觀性可能會(huì)影響進(jìn)化結(jié)果。例如,在創(chuàng)意寫作任務(wù)中,不同評(píng)估器對(duì) “文學(xué)藝術(shù)性” 的定義可能存在差異,從而導(dǎo)致進(jìn)化出的文本風(fēng)格與用戶實(shí)際期望有所偏差。未來,降低對(duì)這種評(píng)估器的依賴程度,開發(fā)更具自適應(yīng)性、通用性的評(píng)估機(jī)制,成為 Mind Evolution 技術(shù)發(fā)展的重要方向。研究人員可探索利用強(qiáng)化學(xué)習(xí)技術(shù),讓 LLM 通過與環(huán)境的交互自主學(xué)習(xí)評(píng)估標(biāo)準(zhǔn);或者借助元學(xué)習(xí)方法,使 LLM 能夠快速適應(yīng)不同類型任務(wù)的評(píng)估需求,實(shí)現(xiàn)從 “他評(píng)” 到 “自評(píng)” 的跨越,為技術(shù)的廣泛應(yīng)用和持續(xù)發(fā)展提供更堅(jiān)實(shí)的支撐。
總結(jié):局限性與未來展望
局限性剖析
Mind Evolution 技術(shù)當(dāng)前的應(yīng)用范圍主要局限于可被程序評(píng)估且能提供有效反饋的自然語言規(guī)劃問題。這意味著,對(duì)于一些高度復(fù)雜、評(píng)估標(biāo)準(zhǔn)難以明確量化或程序化的任務(wù),如開放式創(chuàng)新寫作(無明確主題和風(fēng)格要求)、戰(zhàn)略決策規(guī)劃(涉及多維度抽象因素考量)等,該技術(shù)可能難以充分發(fā)揮優(yōu)勢(shì)。
以一部科幻小說的創(chuàng)意構(gòu)思為例,其評(píng)估標(biāo)準(zhǔn)可能涉及創(chuàng)意的獨(dú)特性、世界觀的合理性、情節(jié)的吸引力等眾多抽象維度,且這些維度之間的權(quán)重難以確定,現(xiàn)有的程序評(píng)估器難以對(duì)這類任務(wù)進(jìn)行精準(zhǔn)評(píng)估和反饋,從而限制了 Mind Evolution 在該領(lǐng)域的應(yīng)用效果(如果是生態(tài)平臺(tái)呢?)。此外,這個(gè)技術(shù)在處理大規(guī)模、實(shí)時(shí)性要求極高的任務(wù)時(shí),也可能面臨計(jì)算資源瓶頸。例如,在全球性實(shí)時(shí)物流規(guī)劃任務(wù)中,需要在短時(shí)間內(nèi)處理海量訂單數(shù)據(jù)、交通路況信息等,生成最優(yōu)物流配送方案,Mind Evolution 可能在計(jì)算效率上無法完全滿足實(shí)時(shí)性要求。
未來研究方向細(xì)化
針對(duì)通用 LLM 基評(píng)估器開發(fā)這一未來研究方向,研究人員可開展多維度的深入探索。首先,在自動(dòng)化理解任務(wù)需求方面,評(píng)估器需具備強(qiáng)大的自然語言處理能力,能夠自動(dòng)解析任務(wù)描述中的關(guān)鍵約束條件和目標(biāo)函數(shù)。例如,對(duì)于旅行規(guī)劃任務(wù),評(píng)估器應(yīng)能精準(zhǔn)識(shí)別用戶提及的預(yù)算范圍、偏好景點(diǎn)類型、旅行時(shí)長等約束信息,并將其轉(zhuǎn)化為內(nèi)部可處理的評(píng)估指標(biāo)。同時(shí),評(píng)估器要能夠根據(jù)不同領(lǐng)域任務(wù)特點(diǎn)進(jìn)行靈活調(diào)整和優(yōu)化。在旅行規(guī)劃領(lǐng)域,針對(duì)不同目的地特色(如海島度假、歷史古跡探索等)和用戶個(gè)性化偏好(如豪華享受型、經(jīng)濟(jì)實(shí)惠型),評(píng)估器應(yīng)動(dòng)態(tài)調(diào)整評(píng)估標(biāo)準(zhǔn)權(quán)重,如對(duì)于海島度假旅行,加大對(duì)海灘活動(dòng)安排合理性、海邊餐廳推薦精準(zhǔn)性的評(píng)估權(quán)重;在創(chuàng)意寫作領(lǐng)域,針對(duì)不同文體風(fēng)格(詩歌、散文、小說等)和主題要求(愛情、科幻、懸疑等),優(yōu)化隱寫信息嵌入方式和文本藝術(shù)性評(píng)估維度。在開發(fā)過程中,研究人員將面臨諸多挑戰(zhàn),比如,如何確保評(píng)估器在跨領(lǐng)域任務(wù)中的適應(yīng)性,避免因領(lǐng)域差異導(dǎo)致評(píng)估偏差;如何平衡評(píng)估精度與效率,通過優(yōu)化算法結(jié)構(gòu)和利用硬件加速技術(shù),在保證評(píng)估準(zhǔn)確性的同時(shí),減少計(jì)算資源消耗;以及如何實(shí)現(xiàn)評(píng)估器與現(xiàn)有 LLM 架構(gòu)的無縫集成,使兩者在訓(xùn)練和推理過程中協(xié)同工作,共同提升任務(wù)性能。
總之只,Mind Evolution 技術(shù)憑借其無需形式化解算器輔助、直接在自然語言空間中優(yōu)化候選解的創(chuàng)新優(yōu)勢(shì),在多個(gè)規(guī)劃任務(wù)基準(zhǔn)測試中展現(xiàn)出卓越性能,為 LLM 的推理能力提升帶來了突破。從旅行規(guī)劃到會(huì)議安排,從創(chuàng)意寫作出品,它所展現(xiàn)出的強(qiáng)大泛化能力和高效優(yōu)化性能,讓我們看到了 LLM 在實(shí)際應(yīng)用中的巨大潛力。