多智能體架構(gòu)大論戰(zhàn):當(dāng)AI巨頭意見(jiàn)分歧時(shí),該相信誰(shuí)?
我最近看到一個(gè)很有意思的現(xiàn)象,說(shuō)實(shí)話,這在AI圈還挺少見(jiàn)的。
兩個(gè)頂級(jí)AI公司,Anthropic和Cognition,在同一個(gè)技術(shù)問(wèn)題上給出了完全相反的答案。而且不是普通的小分歧,是那種根本性的、關(guān)乎整個(gè)技術(shù)路線的大分歧。
什么問(wèn)題這么有爭(zhēng)議?多智能體架構(gòu)。簡(jiǎn)單說(shuō)就是讓多個(gè)AI智能體協(xié)同工作,還是讓單個(gè)智能體獨(dú)自完成任務(wù)。
你想想,這就像兩個(gè)頂級(jí)廚師,一個(gè)堅(jiān)持說(shuō)做大餐必須要團(tuán)隊(duì)協(xié)作,每個(gè)人負(fù)責(zé)不同的菜;另一個(gè)堅(jiān)持說(shuō)只有一個(gè)主廚獨(dú)自完成,才能保證口味的一致性。
爭(zhēng)論的核心在于"可靠性"這個(gè)關(guān)鍵詞。
Cognition的負(fù)責(zé)人Walden發(fā)了一篇博客叫《Don't Build Multi-Agents》,開門見(jiàn)山地警告大家:別搞多智能體,這玩意兒很脆弱!
Cognition認(rèn)為多智能體架構(gòu)非常脆弱,關(guān)鍵的失敗點(diǎn)在于子智能體可能誤解任務(wù)并產(chǎn)生不一致的結(jié)果,導(dǎo)致最終的智能體難以整合這些誤解。
他們的邏輯很直接:當(dāng)你讓一個(gè)主智能體把"做Flappy Bird游戲"的任務(wù)分給兩個(gè)子智能體,一個(gè)負(fù)責(zé)背景,一個(gè)負(fù)責(zé)小鳥,結(jié)果可能是——背景做成了超級(jí)馬里奧風(fēng)格,小鳥完全不像游戲素材。最后主智能體拿到這兩個(gè)"誤解",怎么整合?
但Anthropic完全不這么看。他們不僅在用多智能體,還專門寫了一篇技術(shù)博客來(lái)"炫耀"他們的多智能體研究系統(tǒng)有多牛。
數(shù)據(jù)顯示90.2%的性能提升,這意味著多智能體系統(tǒng)在復(fù)雜研究任務(wù)上幾乎是單智能體的兩倍效果。
Anthropic的核心觀點(diǎn)是:多智能體系統(tǒng)是擴(kuò)展性能的關(guān)鍵方式。特別是對(duì)于那些信息量超出單個(gè)上下文窗口、需要大量并行化處理的任務(wù)。
搜索的本質(zhì)是壓縮:從龐大的語(yǔ)料庫(kù)中提煉洞察。子智能體通過(guò)并行操作,各自在獨(dú)立的上下文窗口中探索問(wèn)題的不同方面,然后為主研究智能體壓縮最重要的信息。
聽(tīng)起來(lái)很有道理吧?但成本也很現(xiàn)實(shí):多智能體系統(tǒng)消耗的token是普通聊天的15倍。
那問(wèn)題來(lái)了,誰(shuí)對(duì)誰(shuí)錯(cuò)?
我的判斷是,他們其實(shí)都對(duì),只是適用場(chǎng)景完全不同。
Cognition做的是Devin,一個(gè)編程智能體。編程任務(wù)有個(gè)特點(diǎn):上下文依賴性極強(qiáng)。你改一行代碼,可能影響整個(gè)項(xiàng)目的邏輯。在這種情況下,讓多個(gè)智能體并行工作,確實(shí)容易出現(xiàn)不一致的問(wèn)題。
而Anthropic的Research功能,處理的是研究類任務(wù)。比如"分析AI代理公司在2025年的發(fā)展趨勢(shì)",這種任務(wù)天然就可以拆分成獨(dú)立的子任務(wù):市場(chǎng)分析、技術(shù)趨勢(shì)、投資動(dòng)向等等。各個(gè)子任務(wù)之間關(guān)聯(lián)性不強(qiáng),正好適合并行處理。
但這背后還有更深層的考量。
Cognition強(qiáng)調(diào)的"上下文工程",其實(shí)是在解決一個(gè)根本性問(wèn)題:如何保證智能體的決策一致性。他們提出兩個(gè)核心原則:
1. 共享上下文 - 不只是消息,要共享完整的智能體執(zhí)行軌跡
2. 動(dòng)作承載隱含決策 - 沖突的決策會(huì)帶來(lái)糟糕的結(jié)果
說(shuō)白了,就是害怕"雞同鴨講"。
而Anthropic的解決方案更工程化:
? 用"協(xié)調(diào)者-工作者"模式,主智能體負(fù)責(zé)總體協(xié)調(diào)
? 給子智能體提供詳細(xì)的任務(wù)描述,包括目標(biāo)、輸出格式、工具指南
? 用"內(nèi)存"機(jī)制持久化上下文,防止重要信息丟失
最有趣的是token消耗的問(wèn)題。
Anthropic很坦誠(chéng):智能體比普通聊天多用4倍token,多智能體系統(tǒng)多用15倍。但他們的邏輯是,在他們的分析中,token使用量本身就能解釋80%的性能差異。
多智能體系統(tǒng)的核心價(jià)值在于幫助花費(fèi)足夠的token來(lái)解決問(wèn)題。最新的Claude模型在token使用上有很大的效率倍增效果。
這就像是說(shuō),錢不是問(wèn)題,關(guān)鍵是花錢要花得值。
但Cognition顯然不這么看。他們更關(guān)心的是在資源約束下的可靠性。畢竟,做一個(gè)編程任務(wù),用戶不希望系統(tǒng)"燒錢"卻給出錯(cuò)誤代碼。
這個(gè)爭(zhēng)論對(duì)我們有什么啟發(fā)?
首先,別迷信大公司的技術(shù)選擇。即使是頂級(jí)AI公司,面對(duì)同一個(gè)技術(shù)問(wèn)題,也可能得出完全相反的結(jié)論。關(guān)鍵是理解背后的場(chǎng)景和約束。
其次,技術(shù)架構(gòu)沒(méi)有絕對(duì)的對(duì)錯(cuò),只有適合不適合。如果你在做需要嚴(yán)格一致性的任務(wù)(比如代碼生成、金融交易),單智能體可能更可靠。如果你在做可以并行化的開放性任務(wù)(比如市場(chǎng)研究、內(nèi)容創(chuàng)作),多智能體可能更高效。
最后,這個(gè)爭(zhēng)論本身就很有價(jià)值。它提醒我們,AI Agent的架構(gòu)設(shè)計(jì)還遠(yuǎn)沒(méi)有成熟,還有很大的探索空間。
與其糾結(jié)誰(shuí)對(duì)誰(shuí)錯(cuò),不如想想自己的具體需求。
畢竟,最好的架構(gòu)不是最先進(jìn)的,而是最適合你的問(wèn)題的。正如Anthropic在文章最后說(shuō)的:構(gòu)建AI智能體時(shí),最后一公里往往成為大部分的旅程。
我因看見(jiàn)技術(shù)的分歧而激動(dòng)如大海。這說(shuō)明我們還在一個(gè)充滿可能性的時(shí)代。