從Manus到Gemini,首輪Agent競(jìng)賽中有哪些關(guān)鍵信號(hào)?
嘿,大家好!這里是一個(gè)專(zhuān)注于前沿AI和智能體的頻道~
Manus 可能會(huì)成為一個(gè)導(dǎo)火索,引爆Agent的競(jìng)爭(zhēng)。
在過(guò)去的幾個(gè)月里,頭部AI公司紛紛發(fā)布了自己的“智能體”產(chǎn)品。
目前來(lái)看,各家Agent產(chǎn)品各有側(cè)重,但我們開(kāi)始看到兩條截然不同的技術(shù)路線(xiàn):一類(lèi)是基于工作流的“偽Agent”(如爆火但是很多人說(shuō)的沒(méi)有護(hù)城河的Manus (該觀點(diǎn)不代表作者觀點(diǎn))),它們本質(zhì)上是將LLM和工具通過(guò)預(yù)定義代碼路徑進(jìn)行編排;另一類(lèi)是基于端到端訓(xùn)練的“真Agent”(如DeepResearch和Gemini 2.0 Flash Thinking的各種衍生Agent應(yīng)用),它們能夠動(dòng)態(tài)指導(dǎo)自己的處理過(guò)程和工具使用,保持對(duì)任務(wù)完成方式的控制權(quán)。
當(dāng)然整體上,我們還處于端到端訓(xùn)練Agent的早期階段,這場(chǎng)以智能體為核心的第二幕AI競(jìng)爭(zhēng)才剛剛開(kāi)始。Agent技術(shù)仍在快速迭代,而這可能將重塑整個(gè)AI應(yīng)用格局。
1.“模型即產(chǎn)品”將成為Agent時(shí)代的主導(dǎo)范式
當(dāng)前AI行業(yè)正經(jīng)歷一場(chǎng)范式轉(zhuǎn)變:從“模型即基礎(chǔ)設(shè)施”到“模型即產(chǎn)品”。大廠逐漸將模型本身打造成端到端的產(chǎn)品,而非僅僅作為應(yīng)用層的基礎(chǔ)設(shè)施。
這一轉(zhuǎn)變由幾個(gè)關(guān)鍵因素推動(dòng):
- 泛化性擴(kuò)展遇到瓶頸:正如GPT-4.5所展示的,模型能力增長(zhǎng)呈線(xiàn)性,而計(jì)算成本卻呈指數(shù)級(jí)增長(zhǎng),即使是OpenAI也難以負(fù)擔(dān)
- 端到端訓(xùn)練效果超出預(yù)期:強(qiáng)化學(xué)習(xí)與推理的結(jié)合使模型突然擅長(zhǎng)特定任務(wù),這既不是機(jī)器學(xué)習(xí),也不是基礎(chǔ)模型,而是一種全新的范式
- 推理成本大幅下降:最近DeepSeek的優(yōu)化意味著全球現(xiàn)有GPU足以支持地球上每個(gè)人每天使用1萬(wàn)token的前沿模型
在這種范式下,大模型提供商不再滿(mǎn)足于簡(jiǎn)單銷(xiāo)售token,而是向價(jià)值鏈上游移動(dòng),將模型打造成直接面向特定場(chǎng)景的產(chǎn)品。OpenAI的DeepResearch和Anthropic的Claude 3.7 Sonnet就是這一趨勢(shì)的典型例子。
藏老師的神級(jí)prompt,讓任意文本直接變成酷炫的html頁(yè)面。claude 3.7 sonnet就是掌管SVG的神!Gemini 2.0語(yǔ)言模型原生的圖生成,體驗(yàn)一天之后,仿佛還看不到邊界。。。
2.工作流Agent與端到端Agent的本質(zhì)區(qū)別
目前市場(chǎng)上的Agent產(chǎn)品可以明確區(qū)分為兩類(lèi):
工作流Agent(如Manus AI):
這類(lèi)產(chǎn)品本質(zhì)上是LLM與工具的編排系統(tǒng),通過(guò)預(yù)定義的代碼路徑和提示詞引導(dǎo)模型。雖然短期內(nèi)見(jiàn)效快,但很容易遇到問(wèn)題:硬編碼的規(guī)則無(wú)法擴(kuò)展,在復(fù)雜場(chǎng)景中表現(xiàn)不佳。表現(xiàn)出:
- 無(wú)法有效規(guī)劃,容易陷入死角
- 記憶能力有限,難以維持10分鐘以上的任務(wù)
- 長(zhǎng)期行動(dòng)效率低下,錯(cuò)誤會(huì)累積放大
端到端訓(xùn)練Agent(如DeepResearch):
這類(lèi)產(chǎn)品通過(guò)端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,模型能夠動(dòng)態(tài)指導(dǎo)自己的處理過(guò)程。OpenAI的DeepResearch就是“一個(gè)新形式的研究語(yǔ)言模型,專(zhuān)門(mén)設(shè)計(jì)用來(lái)執(zhí)行端到端的搜索任務(wù)”。它不依賴(lài)外部調(diào)用或編排,而是通過(guò)強(qiáng)化學(xué)習(xí)習(xí)得了搜索、點(diǎn)擊、滾動(dòng)和解釋文件的核心能力。
真正的Agent需要具備:
- 搜索和規(guī)劃能力
- 有效記憶和狀態(tài)管理
- 長(zhǎng)期行動(dòng)的可靠性
3.Google與OpenAI展示了不同的Agent發(fā)展路線(xiàn)
通過(guò)比較Google的Gemini 2.0 Flash Thinking和OpenAI的DeepResearch,我們可以看到兩種不同的Agent發(fā)展思路:
- Google的多模態(tài)融合路線(xiàn):
Gemini 2.0 Flash不僅在推理能力上有所提升,更在多模態(tài)應(yīng)用上取得突破。它能同時(shí)理解和生成文本與圖像,支持文本+圖像生成、對(duì)話(huà)式圖像編輯等功能。Google還通過(guò)Deep Research功能、應(yīng)用連接(YouTube、日歷、地圖等)和個(gè)性化功能,構(gòu)建了一個(gè)面向普通用戶(hù)的Agent生態(tài)。
- OpenAI的專(zhuān)精特化路線(xiàn):
OpenAI選擇針對(duì)特定場(chǎng)景打造專(zhuān)精的Agent模型。DeepResearch專(zhuān)注于網(wǎng)絡(luò)搜索和文檔整理,通過(guò)端到端強(qiáng)化學(xué)習(xí)訓(xùn)練,使模型能夠自主規(guī)劃搜索策略,交叉引用多個(gè)來(lái)源。這種專(zhuān)精策略使其在特定領(lǐng)域表現(xiàn)更為出色。
4.端到端訓(xùn)練將成為Agent的主流形態(tài)
從長(zhǎng)期來(lái)看,端到端訓(xùn)練的Agent將逐漸成為主流,因?yàn)樗螦gent的本質(zhì)形態(tài):模型能夠在循環(huán)中自主處理問(wèn)題,具有更高的上限。
以包含4個(gè)子任務(wù)的串聯(lián)任務(wù)為例:
- 工作流Agent:即使每個(gè)子任務(wù)成功率為95%,整體成功率也僅為81%
- 端到端Agent:通過(guò)高質(zhì)量數(shù)據(jù)+強(qiáng)化學(xué)習(xí),有望將整體成功率提升至95%
未來(lái)可能會(huì)出現(xiàn)以下趨勢(shì):
- 頂級(jí)Agent的工程代碼將極其簡(jiǎn)潔:背后是超高質(zhì)量的訓(xùn)練數(shù)據(jù)和極致的端到端強(qiáng)化訓(xùn)練,所有if-else和工作流選擇由模型自身完成
- 通用Agent更可能由基礎(chǔ)模型公司推出:如OpenAI、Anthropic、DeepSeek等擁有強(qiáng)大基模和強(qiáng)化學(xué)習(xí)工程師的公司更具優(yōu)勢(shì)
- 垂直領(lǐng)域Agent將成為創(chuàng)業(yè)公司的機(jī)會(huì):專(zhuān)注特定行業(yè)或應(yīng)用場(chǎng)景,通過(guò)深度優(yōu)化實(shí)現(xiàn)差異化競(jìng)爭(zhēng)
最后
Manus雖然當(dāng)前waitlist 才200萬(wàn),但考慮到訪(fǎng)問(wèn)權(quán)限限制和邀請(qǐng)碼等負(fù)面因素的影響,這一數(shù)據(jù)相較于其熱度而言并不算特別驚人。
回到Anthropic的定義:LLM Agent是能“動(dòng)態(tài)指導(dǎo)自己的處理過(guò)程和工具使用,保持對(duì)任務(wù)完成方式的控制權(quán)”。
工作流Agent vs 端到端Agent, 這個(gè)短期看起來(lái)就跟去年的長(zhǎng)上下文模型 vs RAG 爭(zhēng)議一致,并不會(huì)有明確的結(jié)論。
scaling vs finetuning, scaling能讓模型的上限更高,但是finetuning能更快的適應(yīng)到特定場(chǎng)景。
