偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

智能體協(xié)作的力量:Anthropic 的「Research」多智能體實(shí)踐

人工智能
Anthropic 的 Research 功能利用多個(gè) Claude 智能體來更有效地探索復(fù)雜主題。他們分享了在構(gòu)建這一系統(tǒng)過程中遇到的工程挑戰(zhàn)以及從中汲取的經(jīng)驗(yàn)教訓(xùn)。

大家好,我是肆〇柒。在 AI 領(lǐng)域,多智能體系統(tǒng)正逐漸成為解決復(fù)雜任務(wù)的關(guān)鍵技術(shù)之一。昨天,我看到一篇出自 Anthropic 官網(wǎng) Engineering 板塊的博文,主要分享了Anthropic 在 Research 這個(gè)功能對(duì)于多智能體的工程實(shí)踐?,F(xiàn)在,我們就一起來了解一下它是如何憑借創(chuàng)新性的架構(gòu)和設(shè)計(jì),在處理復(fù)雜 Research 任務(wù)時(shí)展現(xiàn)出卓越的性能,以及其背后的技術(shù)邏輯。

多智能體系統(tǒng)的緣起與發(fā)展

在科研與探索的廣闊領(lǐng)域中,我們常常面臨開放性問題,這類問題的解決路徑錯(cuò)綜復(fù)雜,根本無(wú)法提前預(yù)設(shè)好每一步的行動(dòng)方案。傳統(tǒng)的單一流程在面對(duì)這種復(fù)雜性時(shí),往往顯得捉襟見肘,難以靈活應(yīng)對(duì)動(dòng)態(tài)變化的探索需求。無(wú)法為探索復(fù)雜主題硬編碼固定的路徑,因?yàn)樵撨^程本質(zhì)上具有動(dòng)態(tài)性和路徑依賴性。當(dāng)人們進(jìn)行研究時(shí),他們傾向于根據(jù)發(fā)現(xiàn)來不斷更新他們的想法或方法,并跟隨調(diào)查過程中出現(xiàn)的線索來調(diào)整方向。多智能體系統(tǒng)之所以能夠脫穎而出,正是因?yàn)樗邆淞烁叨鹊撵`活性和動(dòng)態(tài)性,能夠在Research過程中實(shí)時(shí)調(diào)整策略,重塑研究方向,從而完美契合研究過程的不確定性特點(diǎn)。

為了讓大家更直觀地理解多智能體系統(tǒng)的潛力,我們可以將目光投向人類社會(huì)智力發(fā)展的歷程。過去 10 萬(wàn)年間,個(gè)體人類的智力水平并沒有顯著提升,但人類社會(huì)在信息時(shí)代卻迎來了指數(shù)級(jí)的進(jìn)步。這一切的背后,是集體智能和協(xié)調(diào)能力的飛躍式發(fā)展。類比之下,多智能體系統(tǒng)在提升 AI 能力方面也展現(xiàn)出了巨大的潛力。它能夠彌補(bǔ)單個(gè)智能體的局限,通過多個(gè)智能體的協(xié)同合作,實(shí)現(xiàn)更高效的任務(wù)解決,讓 AI 在復(fù)雜任務(wù)面前也能游刃有余。

多智能體系統(tǒng)的架構(gòu)與優(yōu)勢(shì)

Anthropic 的多智能體 Research 系統(tǒng)采用了主智能體與子智能體的分工協(xié)作架構(gòu)。主智能體負(fù)責(zé)統(tǒng)籌全局,分析用戶查詢,制定策略,然后根據(jù)任務(wù)需求創(chuàng)建多個(gè)子智能體。這些子智能體各司其職,獨(dú)立處理不同任務(wù),通過并行處理實(shí)現(xiàn)信息的高效壓縮與探索。在這種架構(gòu)下,每個(gè)子智能體都有自己的工具、提示和探索路徑,它們相互獨(dú)立又相互補(bǔ)充,極大地減少了路徑依賴性,提升了調(diào)查的全面性和準(zhǔn)確性。

在內(nèi)部評(píng)估中,多智能體系統(tǒng)的性能表現(xiàn)令人興奮。以 Claude Opus 4 作為主智能體,Claude Sonnet 4 作為子智能體的組合,在內(nèi)部研究評(píng)估中,相較于單智能體 Claude Opus 4,性能提升了整整 90.2%。這一數(shù)據(jù)直觀地展現(xiàn)了多智能體系統(tǒng)的卓越性能。尤其是在涉及多個(gè)獨(dú)立方向同時(shí)探索的任務(wù)中,多智能體系統(tǒng)展現(xiàn)出了無(wú)可比擬的優(yōu)勢(shì)。

例如,當(dāng)需要識(shí)別信息技術(shù)領(lǐng)域標(biāo)準(zhǔn)普爾 500 強(qiáng)公司所有董事會(huì)成員時(shí),多智能體系統(tǒng)通過將任務(wù)分解為多個(gè)子任務(wù),分配給不同的子智能體并行處理,成功找到了正確答案,而單智能體系統(tǒng)則因緩慢的順序搜索而失敗。這種性能上的巨大差異,主要源于多智能體系統(tǒng)在信息處理和工具調(diào)用方面的顯著優(yōu)勢(shì)。

相比之下,多智能體系統(tǒng)與單智能體系統(tǒng)和傳統(tǒng) RAG 方法在查詢準(zhǔn)確度、信息覆蓋度、處理速度等方面存在明顯差異。多智能體系統(tǒng)能夠在處理復(fù)雜查詢時(shí),動(dòng)態(tài)調(diào)整搜索策略,根據(jù)新發(fā)現(xiàn)的信息不斷優(yōu)化方向,而單智能體系統(tǒng)和傳統(tǒng) RAG 方法則往往受限于線性、靜態(tài)的流程,難以在復(fù)雜任務(wù)中實(shí)現(xiàn)高效的信息挖掘和整合。

多智能體系統(tǒng)的成本與適用場(chǎng)景

多智能體系統(tǒng)在 token 使用量上的顯著增加不容忽視。在實(shí)際運(yùn)行中,智能體通常使用的 token 量是聊天交互的 4 倍,而多智能體系統(tǒng)更是高達(dá)聊天的 15 倍。這使得多智能體系統(tǒng)的經(jīng)濟(jì)可行性高度依賴于任務(wù)的價(jià)值。

高價(jià)值任務(wù),如需要大量并行化處理、信息超出單個(gè)上下文窗口、需要與多個(gè)復(fù)雜工具交互的任務(wù)場(chǎng)景,是 Research 多智能體系統(tǒng)的理想用武之地。例如,在進(jìn)行廣泛的信息收集和整合時(shí),多智能體系統(tǒng)能夠通過并行處理多個(gè)任務(wù),快速獲取和分析大量信息,從而為用戶提供了一個(gè)高效的解決方案。然而,像編碼任務(wù)這類涉及較少真正并行化任務(wù)的場(chǎng)景,目前還并非多智能體系統(tǒng)的最佳適用領(lǐng)域。

進(jìn)一步來說,多智能體系統(tǒng)在當(dāng)前的技術(shù)背景下,不太適用于所有智能體需要共享同一情境或智能體間存在眾多依賴關(guān)系的領(lǐng)域(注意:這一觀點(diǎn)應(yīng)是特指 Anthropic 的 Research 這款產(chǎn)品的多智能體架構(gòu),并非統(tǒng)指所有”多智能體“)。例如,大多數(shù)編碼任務(wù)相較于 Research 任務(wù),其并行化需求較少,而且 LLM 智能體在實(shí)時(shí)協(xié)調(diào)和委托其他智能體方面的能力還有待提升。這意味著在這些領(lǐng)域,多智能體系統(tǒng)可能無(wú)法充分發(fā)揮其優(yōu)勢(shì)。

架構(gòu)細(xì)節(jié)

多智能體架構(gòu)的運(yùn)作流程始于用戶提交查詢。主智能體首先對(duì)查詢進(jìn)行分析,制定出一套詳細(xì)的策略,然后根據(jù)任務(wù)需求創(chuàng)建多個(gè)子智能體。每個(gè)子智能體獨(dú)立執(zhí)行搜索任務(wù),搜索的本質(zhì)是壓縮,從龐大的語(yǔ)料庫(kù)中提煉見解。智能體使用搜索工具收集信息,并對(duì)工具結(jié)果進(jìn)行評(píng)估篩選,最終將收集到的信息返回給主智能體。

主智能體在整合這些信息后,會(huì)判斷是否需要進(jìn)一步深入研究(Deep Research)。如果需要,它會(huì)繼續(xù)創(chuàng)建新的子智能體或調(diào)整現(xiàn)有策略。一旦收集到足夠充分的信息,系統(tǒng)就會(huì)退出 Research 循環(huán),將所有研究成果傳遞給引用代理,處理文檔和研究報(bào)告,確保每一個(gè)結(jié)論都有據(jù)可循,都有明確的出處。最終,完整的帶有引用的研究結(jié)果將呈現(xiàn)給用戶。

主智能體在制定策略和創(chuàng)建子智能體時(shí),采用了基于關(guān)鍵詞和語(yǔ)義信息的綜合分析方法。它會(huì)提取用戶查詢中的關(guān)鍵詞,結(jié)合語(yǔ)義分析技術(shù),理解用戶的真實(shí)需求和意圖。然后,根據(jù)預(yù)先定義的規(guī)則和啟發(fā)式算法,確定需要?jiǎng)?chuàng)建的子智能體數(shù)量和類型。例如,如果查詢涉及多個(gè)不同領(lǐng)域的信息,主智能體可能會(huì)創(chuàng)建多個(gè)專注于不同領(lǐng)域的子智能體,以實(shí)現(xiàn)更精準(zhǔn)的信息收集。

子智能體在執(zhí)行任務(wù)時(shí),會(huì)根據(jù)主智能體分配的任務(wù)描述,選擇合適的搜索工具和參數(shù)。它們會(huì)參考任務(wù)類型和目標(biāo),確定合適的搜索關(guān)鍵詞和過濾條件。例如,在進(jìn)行公司董事會(huì)成員信息收集時(shí),子智能體可能會(huì)選擇使用專門的公司信息數(shù)據(jù)庫(kù)搜索工具,設(shè)置合適的關(guān)鍵詞和過濾條件,快速定位到目標(biāo)信息。同時(shí),子智能體會(huì)對(duì)搜索結(jié)果進(jìn)行質(zhì)量評(píng)估和相關(guān)性判斷,篩選出最符合任務(wù)需求的信息。

值得一提的是,主智能體在思考制定策略時(shí),會(huì)先將其計(jì)劃保存到內(nèi)存中,以保持上下文的連貫性。如果上下文窗口超過 200,000 tokens,它將被截?cái)?,而保存的?jì)劃可以防止信息丟失,確保任務(wù)能夠按計(jì)劃推進(jìn)。

為了幫助大家更好地理解這一復(fù)雜流程,我們可以參考多智能體架構(gòu)示意圖:

多智能體架構(gòu)在實(shí)際運(yùn)行中的示意圖

多智能體架構(gòu)在實(shí)際運(yùn)行中的示意圖

這張圖清晰地展示了用戶查詢從主智能體到子智能體的流轉(zhuǎn)過程,以及信息收集、評(píng)估和整合的路徑。通過這張圖,我們可以直觀地看到系統(tǒng)的關(guān)鍵環(huán)節(jié)和相互關(guān)系,從而對(duì)多智能體架構(gòu)的運(yùn)作機(jī)制有更深入的把握。

接下來,我們?cè)倏纯炊嘀悄荏w Research 系統(tǒng)完整工作流程圖:

多智能體研究系統(tǒng)完整工作流程圖

多智能體 Research 系統(tǒng)完整工作流程圖

從圖中可以看到,整個(gè)流程從用戶提交查詢開始,主智能體先進(jìn)行思考規(guī)劃,保存計(jì)劃到內(nèi)存,然后創(chuàng)建多個(gè)子智能體。每個(gè)子智能體獨(dú)立進(jìn)行網(wǎng)絡(luò)搜索,使用工具評(píng)估結(jié)果,再將結(jié)果返回給主智能體。主智能體整合這些信息后,決定是否需要進(jìn)一步研究,最后由引用代理處理引用,生成最終結(jié)果。

子智能體在評(píng)估工具結(jié)果時(shí),采用了交錯(cuò)思考的方式。這種思考模式使子智能體能夠更深入地分析結(jié)果的質(zhì)量,判斷其與任務(wù)的相關(guān)性,并在必要時(shí)調(diào)整下一步的行動(dòng)方向。

提示工程與智能體評(píng)估

多智能體系統(tǒng)與單智能體系統(tǒng)在提示工程上存在顯著差異,主要體現(xiàn)在協(xié)調(diào)復(fù)雜度的增加上。早期的智能體在實(shí)際運(yùn)行中出現(xiàn)了不少錯(cuò)誤,比如在簡(jiǎn)單查詢時(shí)生成過多的子智能體,進(jìn)行無(wú)休止的網(wǎng)絡(luò)搜索卻找不到不存在的資源,或者子智能體之間因過多的更新而相互干擾。為了解決這些問題,Anthropic 在提示工程中總結(jié)出了一系列關(guān)鍵原則。

1?? 換位思考至關(guān)重要。只有深入理解智能體的行為邏輯,才能精準(zhǔn)地優(yōu)化提示。我們可以通過模擬智能體的行為,觀察它們?cè)诓煌闆r下的表現(xiàn),從而發(fā)現(xiàn)問題所在。比如,智能體可能在已經(jīng)獲得足夠結(jié)果時(shí)繼續(xù)搜索,或者使用過于冗長(zhǎng)的搜索查詢。通過換位思考,我們能夠更準(zhǔn)確地把握智能體的行為模式,進(jìn)而做出有效的調(diào)整。

2?? 教導(dǎo)主智能體如何合理委托任務(wù)也是關(guān)鍵一環(huán)。主智能體需要將查詢分解成多個(gè)子任務(wù),并向子智能體提供清晰的任務(wù)描述。每個(gè)子智能體需要明確自己的目標(biāo)、輸出格式、可使用的工具和數(shù)據(jù)源,以及任務(wù)的邊界。如果任務(wù)描述模糊不清,子智能體就可能誤解任務(wù),重復(fù)工作,甚至遺漏關(guān)鍵信息。例如,早期的主智能體在分配任務(wù)時(shí),僅給出簡(jiǎn)單的指令,如 “研究半導(dǎo)體短缺”,導(dǎo)致子智能體的工作出現(xiàn)偏差,有的研究 2021 年汽車芯片危機(jī),有的則調(diào)查 2025 年供應(yīng)鏈現(xiàn)狀,缺乏有效的分工協(xié)作。

3?? 根據(jù)查詢的復(fù)雜性調(diào)整投入也是提升系統(tǒng)效率的重要手段。簡(jiǎn)單事實(shí)查詢可能只需要 1 個(gè)子智能體進(jìn)行 3 - 10 次工具調(diào)用,直接比較可能需要 2 - 4 個(gè)子智能體進(jìn)行 10 - 15 次調(diào)用,而復(fù)雜 Research 可能需要超過 10 個(gè)子智能體,且職責(zé)分工明確。通過在提示中嵌入這些明確的指導(dǎo)原則,主智能體能夠更高效地分配資源,避免在簡(jiǎn)單查詢上投入過多,這也是早期版本中常見的失敗模式。

4?? 工具設(shè)計(jì)與選擇同樣是提示工程中的關(guān)鍵環(huán)節(jié)。智能體與工具的接口設(shè)計(jì)至關(guān)重要,就像人機(jī)交互界面一樣。選擇合適的工具可以顯著提高效率,因?yàn)橛袝r(shí)它甚至是完成任務(wù)的必要條件。例如,如果智能體在尋找特定于 Slack 的背景信息時(shí)只進(jìn)行網(wǎng)絡(luò)搜索,那它從一開始就會(huì)陷入困境。在擁有 MCP 服務(wù)器為模型提供外部工具訪問權(quán)限的情況下,這個(gè)問題會(huì)更加復(fù)雜,因?yàn)橹悄荏w會(huì)遇到各種描述質(zhì)量參差不齊的工具。Anthropic 為智能體提供了明確的啟發(fā)式規(guī)則,比如先檢查所有可用工具,將工具的使用與用戶意圖相匹配,在需要廣泛外部探索時(shí)進(jìn)行網(wǎng)絡(luò)搜索,或者優(yōu)先選擇專用工具而非通用工具。糟糕的工具描述可能導(dǎo)致智能體完全誤入歧途,因此每個(gè)工具都需要有明確的目的和清晰的描述。

5?? 智能體的自我改進(jìn)能力也值得關(guān)注。Anthropic 發(fā)現(xiàn) Claude 4 模型在提示工程方面表現(xiàn)出色。當(dāng)給定一個(gè)提示和失敗模式時(shí),它們能夠診斷出智能體失敗的原因并提出改進(jìn)建議。Anthropic甚至創(chuàng)建了一個(gè)工具測(cè)試智能體,當(dāng)給定一個(gè)有缺陷的 MCP 工具時(shí),它會(huì)嘗試使用該工具,然后重寫工具描述以避免失敗。通過反復(fù)測(cè)試工具(幾十次),這個(gè)智能體發(fā)現(xiàn)了關(guān)鍵的細(xì)節(jié)和漏洞。這種改進(jìn)工具人體工程學(xué)的過程,使得后續(xù)使用新描述的智能體在任務(wù)完成時(shí)間上減少了 40%,因?yàn)樗鼈兡軌虮苊獯蠖鄶?shù)錯(cuò)誤。

6?? 在搜索策略方面,Anthropic提倡先寬泛后具體。專家型人類研究者通常會(huì)先對(duì)研究領(lǐng)域進(jìn)行廣泛探索,然后再深入到具體細(xì)節(jié)。Anthropic通過提示引導(dǎo)智能體采取這種策略,以避免它們一開始就使用過于冗長(zhǎng)、具體的查詢,導(dǎo)致返回的結(jié)果過少。相反,可以讓智能體從簡(jiǎn)短、寬泛的查詢開始,評(píng)估可用信息,然后逐步縮小搜索范圍。

7?? 引導(dǎo)智能體的思考過程也是提示工程的重要內(nèi)容。擴(kuò)展思考模式可以作為可控的草稿紙,讓 Claude 在思考過程中輸出更多的 token。主智能體利用這種思考模式來規(guī)劃其方法,評(píng)估哪些工具適合任務(wù),確定查詢的復(fù)雜性和子智能體數(shù)量,并定義每個(gè)子智能體的角色。測(cè)試表明,擴(kuò)展思考可以提高指令遵循、推理和效率。子智能體同樣會(huì)進(jìn)行規(guī)劃,然后在工具結(jié)果后使用交錯(cuò)的思考來評(píng)估質(zhì)量,識(shí)別差距,并完善下一次查詢。這使得子智能體能夠更有效地適應(yīng)各種任務(wù)。

8?? 并行工具調(diào)用是提升速度和性能的關(guān)鍵。復(fù)雜的任務(wù)通常需要探索多個(gè)來源。早期的智能體執(zhí)行順序搜索,速度之慢令人難以忍受。為了加速,Anthropic 引入了兩種并行化方式:(1)主智能體同時(shí)啟動(dòng) 3 - 5 個(gè)子智能體,而非順序啟動(dòng);(2)子智能體并行使用 3 個(gè)以上的工具。這些改進(jìn)使得復(fù)雜查詢的研究時(shí)間最多縮短了 90%,讓研究系統(tǒng)能夠在幾分鐘內(nèi)完成更多的工作,同時(shí)覆蓋比其他系統(tǒng)更多的信息。

在智能體評(píng)估方面,多智能體系統(tǒng)具有獨(dú)特性。與傳統(tǒng)評(píng)估方法不同,多智能體系統(tǒng)在相同的起點(diǎn)下,智能體可能會(huì)采取完全不同但同樣有效的路徑來達(dá)成目標(biāo)。因此,我們需要靈活的評(píng)估方法,既要確保智能體取得了正確的結(jié)果,又要驗(yàn)證它們遵循了合理的流程。 

建議從即時(shí)小樣本評(píng)估開始。在智能體開發(fā)的早期階段,少量的測(cè)試用例往往能顯著體現(xiàn)改進(jìn)效果。例如,一個(gè)簡(jiǎn)單的提示調(diào)整可能將成功率從 30% 提升到 80%。在這些情況下,僅需少量測(cè)試用例就能觀察到變化。通常會(huì)使用大約 20 個(gè)代表實(shí)際使用模式的查詢進(jìn)行測(cè)試,這經(jīng)常能清晰地顯示出更改的影響。許多團(tuán)隊(duì)因?yàn)檎J(rèn)為只有包含數(shù)百個(gè)測(cè)試用例的大規(guī)模評(píng)估才有用而推遲創(chuàng)建評(píng)估,但實(shí)際上,從小規(guī)模測(cè)試開始更為高效。

LLM 作為評(píng)判者在評(píng)估中發(fā)揮著重要作用。研究輸出通常是自由形式的文本,很少有單一的正確答案,因此很難通過程序進(jìn)行評(píng)估。LLM 天然適合對(duì)輸出進(jìn)行評(píng)分。Anthropic 使用了一個(gè) LLM 評(píng)判者,根據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)每個(gè)輸出進(jìn)行評(píng)估,包括

  • 事實(shí)準(zhǔn)確性(聲明是否與來源一致?)
  • 引用準(zhǔn)確性(引用的來源是否與聲明一致?)
  • 完整性(是否涵蓋了所有請(qǐng)求的方面?)
  • 來源質(zhì)量(是否優(yōu)先使用原始來源而非低質(zhì)量的次要來源?)
  • 工具效率(是否合理使用了正確的工具次數(shù)?)

Anthropic 嘗試了多個(gè)評(píng)判者來評(píng)估每個(gè)組件,但發(fā)現(xiàn)使用單個(gè) LLM 調(diào)用,通過單個(gè)提示輸出 0.0 - 1.0 分和通過 / 失敗等級(jí)的方法更為一致,也更符合人類判斷。當(dāng)評(píng)估用例確實(shí)有明確答案時(shí),這種方法特別有效,可以使用 LLM 評(píng)判者來簡(jiǎn)單檢查答案是否正確(例如,它是否準(zhǔn)確列出了研發(fā)預(yù)算排名前三的制藥公司?)。使用 LLM 作為評(píng)判者使我們能夠可擴(kuò)展地評(píng)估數(shù)百個(gè)輸出。

同時(shí),人類評(píng)估在發(fā)現(xiàn)自動(dòng)化評(píng)估遺漏的問題方面發(fā)揮著不可替代的作用。在測(cè)試智能體時(shí),人類測(cè)試者能夠發(fā)現(xiàn)自動(dòng)化評(píng)估所忽略的邊緣情況,例如在不尋常的查詢上編造答案、系統(tǒng)故障或微妙的來源選擇偏差。在Anthropic的案例中,人類測(cè)試者注意到早期的智能體傾向于選擇 SEO 優(yōu)化的內(nèi)容農(nóng)場(chǎng),而非像學(xué)術(shù) PDF 或個(gè)人博客這樣權(quán)威但排名較低的來源。在提示中添加來源質(zhì)量啟發(fā)式規(guī)則幫助解決了這個(gè)問題。即使在自動(dòng)化評(píng)估盛行的時(shí)代,手動(dòng)測(cè)試仍然是不可或缺的。

多智能體系統(tǒng)具有涌現(xiàn)行為,這些行為并非通過特定編程產(chǎn)生。例如,對(duì)主智能體的微小更改可能會(huì)不可預(yù)測(cè)地改變子智能體的行為。成功的關(guān)鍵在于理解交互模式,而不僅是單個(gè)智能體的行為。因此,為這些智能體編寫最佳提示并非僅是嚴(yán)格的指令,而是定義協(xié)作框架,明確分工、問題解決方法和努力預(yù)算。實(shí)現(xiàn)這一目標(biāo)依賴于精心的提示設(shè)計(jì)、工具設(shè)計(jì)、扎實(shí)的啟發(fā)式方法、可觀測(cè)性和緊密的反饋循環(huán)。

生產(chǎn)可靠性與工程挑戰(zhàn)

在傳統(tǒng)的軟件開發(fā)中,一個(gè)小小的錯(cuò)誤可能會(huì)破壞一個(gè)功能、降低性能或?qū)е峦C(jī)。而智能體系統(tǒng)則不同,即使是很小的改動(dòng)也可能引發(fā)巨大的行為變化,這使得為必須在長(zhǎng)流程中保持狀態(tài)的復(fù)雜智能體編寫代碼變得異常困難。

智能體是有狀態(tài)的,錯(cuò)誤會(huì)累積起來。智能體可能會(huì)運(yùn)行很長(zhǎng)時(shí)間,在多次工具調(diào)用中保持狀態(tài)。這意味著我們需要持久地執(zhí)行代碼,并在此過程中處理錯(cuò)誤。如果沒有有效的緩解措施,即使是小的系統(tǒng)故障也可能對(duì)智能體造成災(zāi)難性的后果。當(dāng)錯(cuò)誤發(fā)生時(shí),我們不能簡(jiǎn)單地從頭開始重啟:重啟成本高昂,對(duì)用戶來說也令人沮喪。相反,Anthropic構(gòu)建了能夠在錯(cuò)誤發(fā)生時(shí)從中斷處恢復(fù)的系統(tǒng)。并且還利用模型的智能來優(yōu)雅地處理問題:例如,當(dāng)某個(gè)工具出現(xiàn)故障時(shí),讓智能體知道并允許它適應(yīng)這一情況,這出奇地有效。Anthropic 將基于 Claude 構(gòu)建的 AI 智能體的適應(yīng)性與諸如重試邏輯和定期檢查點(diǎn)之類的確定性保障措施相結(jié)合。

調(diào)試智能體需要新的方法。智能體會(huì)做出動(dòng)態(tài)決策,在相同的提示下每次運(yùn)行都是非確定性的。這使得調(diào)試變得更加困難。例如,用戶會(huì)報(bào)告智能體 “找不到顯而易見的信息”,但我們卻無(wú)法知道原因。智能體是在使用糟糕的搜索查詢嗎?選擇了不好的來源嗎?遇到了工具故障嗎?為了診斷這些問題并系統(tǒng)地修復(fù)它們,Anthropic增加了完整的生產(chǎn)追蹤功能。除了標(biāo)準(zhǔn)的可觀測(cè)性,還要監(jiān)控智能體的決策模式和交互結(jié)構(gòu),所有這些都不會(huì)監(jiān)控單個(gè)對(duì)話的內(nèi)容,以維護(hù)用戶隱私。這種高級(jí)別的可觀測(cè)性幫助我們?cè)\斷根本原因,發(fā)現(xiàn)意外行為,并修復(fù)常見故障。

在部署時(shí),智能體系統(tǒng)的協(xié)調(diào)至關(guān)重要。智能體系統(tǒng)是一張由提示、工具和幾乎持續(xù)運(yùn)行的執(zhí)行邏輯組成的高度狀態(tài)化的網(wǎng)絡(luò)。這意味著,當(dāng)我們部署更新時(shí),智能體可能處于其流程的任何階段。因此,我們需要防止我們善意的代碼更改破壞現(xiàn)有的智能體。我們不能同時(shí)將所有智能體更新到新版本。相反,通過逐漸將流量從舊版本轉(zhuǎn)移到新版本(rainbow deployments),同時(shí)保持兩個(gè)版本同時(shí)運(yùn)行,這樣可以避免打擾正在運(yùn)行的智能體,實(shí)現(xiàn)版本的平滑過渡,在版本升級(jí)的同時(shí),給在線用戶最好的體驗(yàn)。

同步執(zhí)行會(huì)造成瓶頸。目前,Anthropic 的主智能體是同步執(zhí)行子智能體的,等待每組子智能體完成后再繼續(xù)。這簡(jiǎn)化了協(xié)調(diào),但在智能體之間的信息流動(dòng)中創(chuàng)造了瓶頸。例如,主智能體無(wú)法引導(dǎo)子智能體,子智能體之間無(wú)法協(xié)作,整個(gè)系統(tǒng)可能會(huì)因?yàn)榈却龁蝹€(gè)子智能體完成搜索而被阻塞。異步執(zhí)行(async)將允許更多的并行性,使智能體能夠同時(shí)工作,并在需要時(shí)創(chuàng)建新的子智能體。但異步性也增加了結(jié)果協(xié)調(diào)、狀態(tài)一致性和錯(cuò)誤傳播的挑戰(zhàn)。隨著模型能夠處理更長(zhǎng)、更復(fù)雜的任務(wù),可以預(yù)計(jì)性能提升將證明這些復(fù)雜性是值得的。

異步執(zhí)行可能帶來的挑戰(zhàn)包括:

  • 結(jié)果協(xié)調(diào) :在異步環(huán)境下,多個(gè)子智能體可能同時(shí)產(chǎn)生結(jié)果,如何確保這些結(jié)果能夠被正確地匯集和整合,是一個(gè)復(fù)雜的問題。需要設(shè)計(jì)有效的機(jī)制來管理結(jié)果的收集和處理順序,以防止結(jié)果沖突和數(shù)據(jù)不一致。
  • 狀態(tài)一致性 :當(dāng)多個(gè)子智能體異步執(zhí)行時(shí),它們共享的狀態(tài)可能會(huì)不斷變化。確保所有智能體在訪問和更新狀態(tài)時(shí)保持一致性,避免出現(xiàn)狀態(tài)的不連貫或錯(cuò)誤,需要采用諸如分布式鎖、版本控制等技術(shù)手段。
  • 錯(cuò)誤傳播 :在異步系統(tǒng)中,一個(gè)子智能體的錯(cuò)誤可能不會(huì)立即被發(fā)現(xiàn),從而影響整個(gè)系統(tǒng)的穩(wěn)定性。需要建立完善的錯(cuò)誤檢測(cè)和恢復(fù)機(jī)制,確保錯(cuò)誤能夠及時(shí)被捕獲和處理,防止錯(cuò)誤在系統(tǒng)中傳播和擴(kuò)大。

智能體系統(tǒng)的優(yōu)化技巧

在智能體最終狀態(tài)評(píng)估方面,對(duì)于在多輪對(duì)話或復(fù)雜任務(wù)中會(huì)修改持久狀態(tài)的智能體,Anthropic 采用聚焦于最終狀態(tài)的評(píng)估方法,而不是僅僅關(guān)注每一步驟的細(xì)節(jié)。這樣可以確保智能體能夠以不同的合理路徑達(dá)成既定目標(biāo),同時(shí)保障結(jié)果的準(zhǔn)確性。例如,在涉及信息收集與整合的任務(wù)中,可以評(píng)估智能體是否成功獲取并整合了所有關(guān)鍵信息,形成完整且準(zhǔn)確的輸出。

在長(zhǎng)期對(duì)話管理中,智能體會(huì)通過總結(jié)已完成的工作階段,將關(guān)鍵信息存儲(chǔ)于外部記憶中。當(dāng)上下文窗口接近限制時(shí),智能體會(huì)創(chuàng)建新的子智能體,這些子智能體會(huì)帶著干凈的上下文開始工作,同時(shí)通過精心的交接保持對(duì)話的連貫性。此外,智能體可以從記憶中檢索存儲(chǔ)的上下文,例如研究計(jì)劃,而不會(huì)因達(dá)到上下文限制而丟失先前的工作成果。這種分布式方法既防止了上下文溢出,又保持了對(duì)話的連貫性。

子智能體的輸出優(yōu)化機(jī)制也值得注意。為了避免信息在多級(jí)傳遞中的損耗,子智能體會(huì)直接將結(jié)構(gòu)化的結(jié)果(如代碼、報(bào)告、數(shù)據(jù)可視化等)存儲(chǔ)于外部系統(tǒng),并向主智能體傳遞輕量級(jí)的引用。例如,在代碼生成任務(wù)中,子智能體會(huì)將完整的代碼保存到外部存儲(chǔ)中,并向主智能體提供一個(gè)引用,這樣主智能體就能便捷地獲取完整的代碼,而無(wú)需在對(duì)話歷史中傳遞大量的代碼文本,從而提升了信息傳遞的準(zhǔn)確性和效率,同時(shí)減少了 token 開銷。

總結(jié)

多智能體系統(tǒng)在解決復(fù)雜任務(wù)方面展現(xiàn)出了巨大的潛力。從 Anthropic 的實(shí)踐來看,從原型到生產(chǎn)系統(tǒng)的轉(zhuǎn)變充滿了挑戰(zhàn)。智能體系統(tǒng)的動(dòng)態(tài)性和復(fù)雜性要求我們?cè)诳煽啃浴⑿阅艿确矫孢M(jìn)行綜合考量,確保系統(tǒng)能夠穩(wěn)定運(yùn)行并提供高質(zhì)量的服務(wù)。

許多用戶已經(jīng)從多智能體研究系統(tǒng)中受益。例如,有用戶表示 Claude 幫助他們發(fā)現(xiàn)了未曾考慮過的商業(yè)機(jī)會(huì),順利地導(dǎo)航復(fù)雜的醫(yī)療選項(xiàng),快速解決了棘手的技術(shù)故障,并通過挖掘他們自己無(wú)法找到的研究聯(lián)系,節(jié)省了數(shù)天的工作時(shí)間。這些實(shí)際反饋充分證明了多智能體研究系統(tǒng)在不同領(lǐng)域的價(jià)值。

這是一張 Clio 嵌入式圖表,展示了當(dāng)下人們使用研究功能最普遍的幾種方式。其中,排名前幾位的使用案例類別分別是:跨專業(yè)領(lǐng)域開發(fā)軟件系統(tǒng)(占比 10%)、開發(fā)及優(yōu)化專業(yè)和技術(shù)內(nèi)容(占比 8%)、制定業(yè)務(wù)增長(zhǎng)及創(chuàng)收策略(占比 8%)、協(xié)助開展學(xué)術(shù)研究以及開發(fā)教育資源(占比 7%),以及對(duì)人物、地點(diǎn)或組織的相關(guān)信息進(jìn)行調(diào)研和核實(shí)(占比 5%)

今年4月份的時(shí)候,我在覺察流社群聊到過,目前Deep Research類應(yīng)用,是LLM比較成熟的落地場(chǎng)景,并且很適合在企業(yè)內(nèi)應(yīng)用。這篇來自 Anthropic 在 Research 的多智能體實(shí)踐探索,為我們提供了一個(gè)生動(dòng)的案例,展示了如何通過精心設(shè)計(jì)的架構(gòu)和優(yōu)化策略,讓多個(gè)智能體協(xié)同合作,攻克復(fù)雜任務(wù)。從主智能體與子智能體的分工協(xié)作,到提示工程的精細(xì)打磨,再到生產(chǎn)可靠性保障的全方位考量,這篇分享不可謂不細(xì)致。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-03 06:12:03

2025-06-16 08:39:00

2025-04-07 02:00:00

2025-06-03 09:08:00

2023-11-30 16:34:18

2024-08-20 09:30:00

GenAI智能體

2025-05-20 08:00:45

2025-06-30 05:30:00

2024-04-26 12:37:57

AI訓(xùn)練

2025-05-26 10:03:42

2024-02-29 14:29:53

物聯(lián)網(wǎng)IIoT智能工業(yè)

2023-10-17 10:20:23

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-05-12 09:04:00

2025-01-14 14:20:47

2025-05-12 08:19:13

2020-09-24 16:24:50

物聯(lián)網(wǎng)人工智能技術(shù)

2021-07-07 10:42:00

智慧城市智能路燈物聯(lián)網(wǎng)

2022-11-06 16:07:56

人工智能數(shù)據(jù)驗(yàn)證工具

2025-05-26 09:49:59

多模態(tài)智能體RAG
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)