模型吞噬代碼,Agent重構(gòu)世界:當(dāng)AI Agent與模型協(xié)同進(jìn)化
大家好,我是肆〇柒。AI 圈的進(jìn)化速度之快,已是不爭(zhēng)的事實(shí)。去年,MCP(模型上下文協(xié)議)發(fā)布,隨后 AI Coding 賽道愈發(fā)熱鬧,Cursor、Cline、Devin、MGX 等產(chǎn)品層出不窮。春節(jié)前夕,各模型廠商扎堆發(fā)布新模型,DeepSeek-R1 的問(wèn)世更是讓全球?yàn)橹徽稹=?,通用智能體 Manus 的發(fā)布又引發(fā)了不小的熱議。類(lèi)似的消息數(shù)不勝數(shù),這都是近三四個(gè)月發(fā)生的事情,信息飽和度極高。用群友的一句話來(lái)形容再恰當(dāng)不過(guò):“物理方一日,智能已千年”。
在此,有個(gè)顯而易見(jiàn)的結(jié)論是:一個(gè)協(xié)議能否成為標(biāo)準(zhǔn),取決于共識(shí)。比如W3C HTTP協(xié)議,能成為業(yè)界標(biāo)準(zhǔn),原因就是在行業(yè)協(xié)會(huì)牽頭下有廣泛共識(shí),并見(jiàn)真實(shí)落地和深度的用戶滲透率。所以,MCP能不能成為協(xié)議標(biāo)準(zhǔn),取決于大家對(duì)它的共識(shí)程度,而這個(gè)共識(shí),不僅僅來(lái)自于創(chuàng)業(yè)公司,開(kāi)發(fā)者群體,還要來(lái)自于商業(yè)巨頭,甚至是政體。
說(shuō)到共識(shí),我曾在社群里聊到過(guò),行業(yè)巨頭通常不會(huì)給自己找一個(gè)能扼住自己咽喉的上游。那么如何看待國(guó)內(nèi)這兩個(gè)頭部地圖應(yīng)用的動(dòng)作呢?
原因在于它們本身具有工具屬性,且有開(kāi)放平臺(tái)API為開(kāi)發(fā)者提供服務(wù)。所以多一個(gè)MCP,只是從開(kāi)放平臺(tái)角度多了一個(gè)智能應(yīng)用的用戶渠道,對(duì)它們自身市場(chǎng)和競(jìng)爭(zhēng)格局是有益的。況且,如果老二先入,老大不跟,就可能錯(cuò)失市場(chǎng),所以我們才看到百度地圖和高德地圖相繼宣布開(kāi)放MCP Server。由此,也許可以得到一個(gè)觀點(diǎn):一個(gè)具有行業(yè)地位,但沒(méi)有絕對(duì)壟斷性領(lǐng)先優(yōu)勢(shì)的平臺(tái)或應(yīng)用,要特別警惕在AI時(shí)代被競(jìng)爭(zhēng)對(duì)手通過(guò)AI Agent等智能形態(tài)的應(yīng)用彎道超越。
AI Agent 戰(zhàn)略?
對(duì)于Agent戰(zhàn)略,工具類(lèi)應(yīng)用,容易跟進(jìn),但平臺(tái)類(lèi)的卻要自己想清楚,因?yàn)樗婕暗疆a(chǎn)業(yè)生態(tài)。多數(shù)2C服務(wù)類(lèi)平臺(tái),應(yīng)該不會(huì)情愿工具化自己,因?yàn)檫@會(huì)使整個(gè)業(yè)務(wù)模式改變,用戶體驗(yàn)發(fā)生劇變,流量走向也會(huì)完全不一樣。比如電商,想象一下,如果引入Agent電商,業(yè)務(wù)模式將發(fā)生天翻地覆的變化。在這樣的平臺(tái)場(chǎng)景下,如果AI Agent滲透,就要看Agent的代理當(dāng)方向是什么,它代理了誰(shuí)——是平臺(tái)?還是個(gè)人?
- 如果代理的是平臺(tái),Agent可以實(shí)時(shí)感知用戶需求,為客服提供更精準(zhǔn)的購(gòu)買(mǎi)服務(wù)支持;
- 如果代理的是個(gè)人,Agent可以作為個(gè)人的購(gòu)物助手,在成本預(yù)算、功能性要求的前提下,對(duì)商品進(jìn)行比價(jià)、功能性分析、社交評(píng)價(jià)洞察,從而為用戶實(shí)現(xiàn)購(gòu)買(mǎi)評(píng)估。
以上兩點(diǎn)只是非常粗糙的假想,只為給大家提供一個(gè)思考的種子。我們可以看到,在這樣的場(chǎng)景下,無(wú)論AI Agent代理的是個(gè)人還是平臺(tái),都具有非常大的商業(yè)想象空間。
AI Agent 代理平臺(tái)
如果Agent代理的是平臺(tái),其主要作用是作為平臺(tái)與用戶之間的中介,實(shí)時(shí)感知用戶需求,為平臺(tái)的客服、商品推薦、流量分配等提供更精準(zhǔn)的支持。也許可以是:
- 客服支持Agent代理平臺(tái)時(shí),能實(shí)時(shí)感知用戶需求,提前為客服提供精準(zhǔn)信息。比如用戶瀏覽商品時(shí),Agent可預(yù)測(cè)其可能的咨詢內(nèi)容(如商品詳情、尺碼、退換貨政策等),提前推送給客服,讓客服快速響應(yīng),提升服務(wù)效率和用戶滿意度。
- 商品推薦與流量分配Agent可分析用戶實(shí)時(shí)行為和偏好,為平臺(tái)推薦系統(tǒng)提供精準(zhǔn)用戶畫(huà)像,優(yōu)化商品推薦策略。平臺(tái)據(jù)此將用戶感興趣的商品精準(zhǔn)展示,提高曝光率和轉(zhuǎn)化率。同時(shí),Agent還能優(yōu)化流量分配,引導(dǎo)流量到更符合用戶需求的商品和商家頁(yè)面,提升平臺(tái)運(yùn)營(yíng)效率。
- 廣告投放與營(yíng)銷(xiāo)Agent為平臺(tái)廣告投放提供精準(zhǔn)依據(jù),分析用戶實(shí)時(shí)需求和興趣,將相關(guān)廣告精準(zhǔn)推送給用戶,提高點(diǎn)擊率和轉(zhuǎn)化率。此外,Agent還能根據(jù)用戶行為數(shù)據(jù),為平臺(tái)制定個(gè)性化營(yíng)銷(xiāo)策略,如優(yōu)惠券發(fā)放、限時(shí)折扣推薦等,吸引更多用戶購(gòu)買(mǎi)商品。
- 平臺(tái)運(yùn)營(yíng)與管理Agent作為平臺(tái)的智能助手,實(shí)時(shí)監(jiān)測(cè)流量、用戶活躍度、商品庫(kù)存等信息,為平臺(tái)提供運(yùn)營(yíng)建議。如發(fā)現(xiàn)商品庫(kù)存不足提醒補(bǔ)貨,發(fā)現(xiàn)頁(yè)面用戶流失率高則分析原因并提優(yōu)化建議,還能協(xié)助平臺(tái)進(jìn)行數(shù)據(jù)分析和報(bào)告生成,為決策提供支持。
- 平臺(tái)與商家合作Agent幫助平臺(tái)管理與商家的合作,提供商家銷(xiāo)售數(shù)據(jù)、用戶評(píng)價(jià)、庫(kù)存等信息,評(píng)估商家表現(xiàn)和合作價(jià)值。同時(shí),為商家提供平臺(tái)運(yùn)營(yíng)規(guī)則、用戶需求等信息,幫助其適應(yīng)平臺(tái)環(huán)境、提高銷(xiāo)售業(yè)績(jī),使平臺(tái)與商家合作更順暢高效。
所以,AI Agent如果代理的方向是平臺(tái),主要可以通過(guò)實(shí)時(shí)感知用戶需求,為平臺(tái)的運(yùn)營(yíng)、客服、商品推薦、廣告投放等提供更精準(zhǔn)的支持,從而提升平臺(tái)的整體效率和用戶體驗(yàn)。
AI Agent 代理個(gè)人
從平臺(tái)的角度來(lái)看,引入Agent戰(zhàn)略,尤其是當(dāng)Agent代理的是個(gè)人時(shí),用戶的自主性會(huì)大大增強(qiáng)。用戶不再只是被動(dòng)地接受平臺(tái)推送的商品信息,而是通過(guò)Agent主動(dòng)篩選和分析,找到最適合自己的產(chǎn)品。這可能會(huì)導(dǎo)致平臺(tái)原有的流量分配機(jī)制失效,那些原本依靠廣告投放和平臺(tái)推薦獲得曝光的商家,可能會(huì)發(fā)現(xiàn)自己的產(chǎn)品難以進(jìn)入用戶的視野,除非它們真的具有足夠的競(jìng)爭(zhēng)力。
對(duì)于廣告業(yè)務(wù)而言,這無(wú)疑是一個(gè)巨大的挑戰(zhàn)。廣告的精準(zhǔn)投放一直是平臺(tái)廣告業(yè)務(wù)的核心優(yōu)勢(shì),但如果Agent能夠根據(jù)用戶的個(gè)性化需求進(jìn)行商品篩選,那么廣告的展示機(jī)會(huì)可能會(huì)被大幅壓縮。平臺(tái)需要重新思考廣告的投放策略,如何在Agent的過(guò)濾機(jī)制下,讓廣告能夠真正觸達(dá)有需求的用戶,而不是被一概屏蔽。這可能需要平臺(tái)與廣告主共同探索新的合作模式,比如基于Agent反饋的精準(zhǔn)廣告推薦,或者開(kāi)發(fā)新的廣告產(chǎn)品,以適應(yīng)這種新的用戶交互方式。
新商品和新商家的曝光問(wèn)題也尤為關(guān)鍵。在一個(gè)成熟的電商平臺(tái)上,新商品和新商家往往需要借助平臺(tái)的推薦系統(tǒng)來(lái)獲得初始流量,從而逐漸積累口碑和銷(xiāo)量。但如果Agent主要依據(jù)歷史數(shù)據(jù)和用戶評(píng)價(jià)來(lái)篩選商品,新商品和新商家可能會(huì)因?yàn)槿狈ψ銐虻臄?shù)據(jù)支持而被邊緣化。這不僅會(huì)影響平臺(tái)的創(chuàng)新活力,也可能導(dǎo)致平臺(tái)的商品種類(lèi)逐漸固化。平臺(tái)需要找到一種平衡,既要利用Agent提升用戶體驗(yàn),又要為新商品和新商家提供公平的曝光機(jī)會(huì),比如通過(guò)設(shè)置專門(mén)的新品推薦區(qū)域,或者為新商家提供一定的初始流量扶持。
用戶購(gòu)買(mǎi)決策的變化也可能會(huì)對(duì)平臺(tái)的商業(yè)模式產(chǎn)生深遠(yuǎn)影響。如果用戶越來(lái)越依賴Agent進(jìn)行購(gòu)買(mǎi)評(píng)估,那么平臺(tái)的角色可能會(huì)從一個(gè)商品展示和交易的場(chǎng)所,逐漸轉(zhuǎn)變?yōu)橐粋€(gè)提供決策支持和服務(wù)的平臺(tái)。這意味著平臺(tái)需要更加注重?cái)?shù)據(jù)的準(zhǔn)確性和可靠性,以及Agent的智能水平和服務(wù)質(zhì)量。同時(shí),平臺(tái)也需要重新思考如何與用戶建立更深層次的連接,因?yàn)橛脩魧?duì)商品的購(gòu)買(mǎi)決策不再僅僅基于平臺(tái)的推薦,而是基于Agent提供的綜合評(píng)估。
甚至,想象的再大膽一點(diǎn),平臺(tái)還在嗎?Agent是否有可能撇開(kāi)現(xiàn)有供應(yīng)鏈,通過(guò)廠商提供的Agent協(xié)議來(lái)直連廠商Agent?通過(guò)類(lèi)似ANP這樣的協(xié)議,實(shí)現(xiàn)AI之間的協(xié)作與對(duì)話。
想清楚了?
那么,我們真的考慮清楚了嗎?如果平臺(tái)倉(cāng)促實(shí)施Agent戰(zhàn)略,會(huì)對(duì)平臺(tái)生態(tài)產(chǎn)生怎樣的沖擊?廣告業(yè)務(wù)該如何開(kāi)展?新商品、新商家如何獲得曝光機(jī)會(huì)?用戶是否只能購(gòu)買(mǎi)到口碑良好的老品牌產(chǎn)品?品牌創(chuàng)新、產(chǎn)品創(chuàng)新怎么辦?如果真的按照這種方式落地,2B或2C的模式是否還能繼續(xù)存在?用群友的話來(lái)說(shuō),是不是只剩下“to human”和“to AI”的模式了,“to B”和“to C”不再有明確的界限了?
當(dāng)社區(qū)群里討論“Agent電商”時(shí),一位伙伴的發(fā)言讓我心中一震:“說(shuō)不定電商行業(yè)正在經(jīng)歷數(shù)字版的《三體》危機(jī)——不知道什么時(shí)候會(huì)被二向箔降維打擊。”這種思考源于一個(gè)根本矛盾:傳統(tǒng)電商遵循的是“人找貨”的搜索邏輯,而AI Agent電商則是“意圖即服務(wù)”的穿透邏輯。試想這樣一個(gè)場(chǎng)景:用戶說(shuō)“想給喜歡露營(yíng)的男友選個(gè)實(shí)用又不失格調(diào)的生日禮物”,AI Agent也許可以同時(shí)調(diào)用電商供應(yīng)鏈數(shù)據(jù)、小紅書(shū)的場(chǎng)景化推薦、閑魚(yú)的保值率分析,最終生成包含采購(gòu)建議、包裝方案、賀卡文案的完整解決方案。
這無(wú)疑直接動(dòng)搖了平臺(tái)經(jīng)濟(jì)的根基——當(dāng)交易發(fā)生在Agent之間,流量入口、廣告模式、傭金體系等都將被重構(gòu)。所以,另外一個(gè)伙伴感嘆道:“既怕Agent不來(lái),又怕Agent亂來(lái)?!?/span>
這是一個(gè)天翻地覆的變化,其中蘊(yùn)含的故事和腦洞非常多。然而,我們不再對(duì)可能的場(chǎng)景問(wèn)題展開(kāi)更寬泛的探討。但從以上推演來(lái)看,或許大家可以理解為什么一些平臺(tái)型巨頭還沒(méi)有迅速行動(dòng)。在我看來(lái),并非他們看不到其中的機(jī)遇和挑戰(zhàn),而是需要思考的問(wèn)題實(shí)在太多,這件事并不簡(jiǎn)單,必須謹(jǐn)慎思考,否則可能會(huì)引發(fā)一系列不可控的連鎖反應(yīng),甚至對(duì)整個(gè)平臺(tái),乃至對(duì)行業(yè)的長(zhǎng)期發(fā)展造成負(fù)面影響。
子彈再飛一會(huì),或者等待鯰魚(yú)到來(lái)。
「這些商業(yè)動(dòng)作背后,暗含著AI時(shí)代更底層的技術(shù)邏輯:當(dāng)MCP這類(lèi)協(xié)議試圖連接萬(wàn)物時(shí),必須存在一個(gè)能統(tǒng)籌全局的「調(diào)度中樞」。這就如同智能手機(jī)普及需要iOS/Android作為支撐,AI智能體生態(tài)的繁榮,同樣需要屬于這個(gè)時(shí)代的『操作系統(tǒng)』——而這正是Agent與Workflow架構(gòu)正在扮演的角色,AI 時(shí)代的智能生態(tài)基座?!?/span>
AI時(shí)代的智能生態(tài)基座
關(guān)于Agent前兩天有一篇文章,被社區(qū)伙伴轉(zhuǎn)發(fā)——
“萬(wàn)字探討Agent發(fā)展真方向:模型即產(chǎn)品,Agent的未來(lái)要靠模型而不是Workflow”——發(fā)表于《機(jī)智流》鏈接:https://mp.weixin.qq.com/s/em5UGArBECNa9Tt6GN1wqQ
上面這篇文章的核心觀點(diǎn)是:
未來(lái)AI智能體的發(fā)展方向?qū)⒁蕾囉谀P捅旧?,而非工作流(Workflow)。觀點(diǎn)提出者認(rèn)為,通過(guò)強(qiáng)化學(xué)習(xí)(RL)與推理(Reasoning)結(jié)合的模型,能夠自主掌控任務(wù)執(zhí)行全過(guò)程,包括動(dòng)態(tài)規(guī)劃搜索策略和主動(dòng)調(diào)整工具使用等,從而顛覆目前的應(yīng)用層生態(tài)。文章強(qiáng)調(diào)“模型即產(chǎn)品”,并指出未來(lái)閉源AI大模型提供商將停止提供API服務(wù),轉(zhuǎn)而直接提供模型作為產(chǎn)品。
模型即產(chǎn)品?即一切?
坦白講,這個(gè)觀點(diǎn)不可謂不激進(jìn)。甚至從觀點(diǎn)提出者的職業(yè)背景來(lái)看,觀點(diǎn)中有事實(shí),但也極具陣營(yíng)色彩。
的確,從目前的一些現(xiàn)象來(lái)觀察,模型的進(jìn)化非常的迅速,從中美最具代表性的推理模型來(lái)看,GPT-o1發(fā)布于9月中旬,DeepSeek-R1則發(fā)布于今年的1月20日,相差4個(gè)月。而DeepSeek-R1的出現(xiàn),其實(shí)是全民使用reason model的時(shí)刻,因?yàn)樗黄占傲恕?/span>
這代表了什么?從細(xì)節(jié)應(yīng)用的角度,通用模型比如GPT-4o,或者DeepSeek-V3,當(dāng)這類(lèi)模型需要做文本推理的時(shí)候,需要用到CoT結(jié)構(gòu)的Prompt來(lái)實(shí)現(xiàn);而諸如DeepSeek-R1這樣的Reason model,并不需要CoT技巧,你會(huì)說(shuō)話就可以,有問(wèn)題直接問(wèn),模型通過(guò)訓(xùn)練以后已經(jīng)實(shí)現(xiàn)了自主思維鏈的推理。
所以,這可以有一個(gè)感知,即:軟件吞噬世界,模型吞噬軟件。
技術(shù)演進(jìn)的底層邏輯
似乎,模型正在吞噬上層應(yīng)用。但,模型在進(jìn)化的同時(shí),Agent、Workflow架構(gòu)也在進(jìn)化。如果從技術(shù)演進(jìn)的底層邏輯稍作拆解,或許可以總結(jié)如下:
1. 工具價(jià)值
“過(guò)渡形態(tài)”與“生態(tài)基座”存在本質(zhì)區(qū)別,Workflow這種編排形式并非過(guò)渡形態(tài)(人類(lèi)社會(huì)至今仍未淘汰工作流、工序的概念)。應(yīng)這樣看待:類(lèi)似Dify、Coze的工具并非拐杖,而是AI時(shí)代的Kubernetes?;仡橝WS發(fā)展史,當(dāng)EC2計(jì)算力足夠強(qiáng)大時(shí),人們反而更需要容器編排系統(tǒng)。大模型越強(qiáng)大,工作流引擎的價(jià)值就越凸顯,因?yàn)槠湫杞鉀Q復(fù)雜任務(wù)的資源調(diào)度問(wèn)題。這正如CPU越強(qiáng)大越需要操作系統(tǒng),大模型越強(qiáng)大,跨模型協(xié)作就越需要工作流編排。所以即使未來(lái)Dify、Coze不復(fù)存在,也應(yīng)有其他組織拓?fù)湫问絹?lái)整合AI能力(想想function calling,若無(wú)程序向模型返回調(diào)用結(jié)果,模型將一無(wú)所知,這其實(shí)是一種簡(jiǎn)單的交互協(xié)作)。
2. 智能進(jìn)化的一點(diǎn)理解
GPT-4的token上下文窗口從4k擴(kuò)展到128k,但人類(lèi)仍在使用Notion、飛書(shū)。原因在于認(rèn)知科學(xué)告訴我們,智能體需分層處理信息。工作流本質(zhì)上類(lèi)似于神經(jīng)網(wǎng)絡(luò)的“外置緩存”,這是進(jìn)化的必然,而非技術(shù)妥協(xié)。
3. 工程化規(guī)律
如今,幾乎所有的技術(shù)革命都遵循“原始能力→抽象工具→垂直場(chǎng)景”的路徑。例如,目前的Prompt Engineering雖原始,但未來(lái)或許會(huì)出現(xiàn)“工作流架構(gòu)師”這一新工種。就像移動(dòng)互聯(lián)網(wǎng)初期人人做APP,如今則需要Flutter這樣的跨平臺(tái)方案,類(lèi)似Dify、Coze的工具使用者,也在為AI時(shí)代的開(kāi)發(fā)生態(tài)構(gòu)建護(hù)城河。
生態(tài)基座?AIOS?
基于以上分析,我們可以看到:
- 工作流的價(jià)值,絕不僅僅是作為完成任務(wù)的工具,它更像是AI生態(tài)的基座,支撐著整個(gè)智能體的運(yùn)行。沒(méi)有工作流的協(xié)調(diào),大模型就像強(qiáng)大的單兵作戰(zhàn)單位,缺乏統(tǒng)一的指揮和調(diào)度,難以形成合力。
- 工作流的存在,使得智能體能夠在復(fù)雜的任務(wù)中靈活調(diào)度資源,動(dòng)態(tài)調(diào)整策略,從而更高效、穩(wěn)健地完成任務(wù)。
- 工作流有其獨(dú)特的生態(tài)位,也許它正在向著AI時(shí)代的Windows進(jìn)化。OpenAI等大廠已在發(fā)布Workflow Builder,這不僅是技術(shù)趨勢(shì)的體現(xiàn),更是生態(tài)卡位戰(zhàn)的重要一步。
我們也許可以將模型視為“大腦”,Agent視為“肢體”,兩者應(yīng)該是協(xié)同進(jìn)化的整體。大模型的強(qiáng)大會(huì)提升Agent的能力天花板,但工作流、智能體拓?fù)涞拇嬖谑侵悄荏w協(xié)作的需求。就像計(jì)算機(jī)的發(fā)展歷程一樣,從早期的大型機(jī)到個(gè)人電腦,再到云計(jì)算,每個(gè)階段都需要操作系統(tǒng)來(lái)協(xié)調(diào)硬件和軟件資源。在AI時(shí)代,工作流、智能體拓?fù)渚褪悄莻€(gè)不可或缺的“操作系統(tǒng)”,它不僅協(xié)調(diào)著不同模型之間的協(xié)作,還為智能體提供了與現(xiàn)實(shí)世界交互的接口。
所以,由于AI強(qiáng)大模型的存在,模型上層的智能體框架、工作流框架等應(yīng)用層盡管很薄,但它是“四肢”;模型很強(qiáng),因?yàn)樗恰按竽X”。如果泛概念的來(lái)看智能體,應(yīng)該是Model+Agent,而ANP、MCP結(jié)合泛化的智能體(Model+Agent)則是AI Society。
「但這樣的『操作系統(tǒng)』能否真正運(yùn)轉(zhuǎn),最終取決于『計(jì)算引擎』的效能——就像Windows的流暢度依賴CPU性能,Agent架構(gòu)的實(shí)用性必然受制于模型的核心能力。當(dāng)我們?yōu)锳gent的生態(tài)愿景興奮時(shí),一個(gè)更根本的問(wèn)題浮現(xiàn):當(dāng)前模型的推理能力,真的足以支撐這場(chǎng)智能革命嗎?」
既然,上面提到了關(guān)于增強(qiáng)模型能力的話題,那我們就再多聊聊關(guān)于模型能力。
模型能力:“知識(shí)”與“方法”的雙重挑戰(zhàn)
近期,有一篇文章,是關(guān)于斯坦福大學(xué)的研究
“為什么Qwen能自我改進(jìn)推理,Llama卻不行?斯坦福找到了原理”——發(fā)表于《機(jī)器之心》鏈接:https://mp.weixin.qq.com/s/OvS61OrDp6rB-R5ELg48Aw
上面這篇文章的核心闡述的是:
斯坦福大學(xué)的研究揭示了Qwen和Llama在自我改進(jìn)推理能力上的差異。Qwen表現(xiàn)出更強(qiáng)的自我改進(jìn)能力,而Llama則提升有限。研究發(fā)現(xiàn),Qwen自然地表現(xiàn)出關(guān)鍵的認(rèn)知行為,如驗(yàn)證(系統(tǒng)錯(cuò)誤檢查)、回溯(放棄失敗的方法)、子目標(biāo)設(shè)定(將問(wèn)題分解為可管理的步驟)和逆向思考(從期望結(jié)果推理到初始輸入),而Llama缺乏這些行為。這些行為是有效利用額外計(jì)算資源和時(shí)間進(jìn)行自我改進(jìn)的基礎(chǔ)。通過(guò)有針對(duì)性的干預(yù),如用包含這些行為的人工合成推理軌跡引導(dǎo)Llama,或調(diào)整預(yù)訓(xùn)練數(shù)據(jù)以強(qiáng)調(diào)這些行為,可以顯著提升Llama的自我改進(jìn)能力。這表明,模型的初始推理行為與其自我改進(jìn)能力密切相關(guān),認(rèn)知行為的存在比結(jié)果的正確性更重要。
我之所以會(huì)關(guān)注到這篇文章,1.是因?yàn)樯鐓^(qū)伙伴的推薦。2.是因?yàn)樗c我對(duì)Qwen模型的認(rèn)知相符合。
Dense 模型瓶頸了?
在去年 Qwen2.5 發(fā)布以后,為了應(yīng)用的需要,我特意在本地私有化部署,跑了Qwen2和Qwen2.5的7B模型的基準(zhǔn)評(píng)測(cè)。見(jiàn)下表。
Benchmark | Qw2-7B | Qw2.5-7B | Recovery |
Overall | 63.09 | 67.60 | 107.15% |
Exam | 72.38 | 72.38 | 100.00% |
Language | 54.25 | 53.97 | 99.49% |
Knowledge | 42.92 | 44.95 | 104.74% |
Understanding | 70.52 | 71.18 | 100.94% |
Coding | 77.44 | 83.54 | 107.88% |
Reasoning | 66.99 | 72.46 | 108.17% |
Instruct_Follow | 57.12 | 74.73 | 132.82% |
--------- 學(xué)科 Exam ------------------ | |||
ceval | 81.60 | 78.52 | 96.23% |
agieval | 56.27 | 58.01 | 103.09% |
mmlu | 70.87 | 74.19 | 104.68% |
cmmlu | 80.77 | 78.78 | 97.54% |
--------- 語(yǔ)言 Language -------------- | |||
WiC | 56.90 | 55.8 | 98.07% |
WSC | 64.42 | 70.19 | 108.96% |
afqmc-dev | 71.39 | 70.64 | 98.95% |
tydiqa-goldp | 24.28 | 19.26 | 79.32% |
--------- 知識(shí) Knowledge ------------- | |||
BoolQ | 85.75 | 84.92 | 99.03% |
GPQA_diamond | 21.21 | 31.82 | 150.02% |
nq | 21.80 | 18.12 | 83.12% |
--------- 理解 Understanding --------- | |||
C3 | 92.16 | 91.51 | 99.29% |
race-middle | 89.83 | 91.09 | 101.40% |
race-high | 86.96 | 86.62 | 99.61% |
lcsts | 13.13 | 15.51 | 118.13% |
--------- 代碼 Coding ---------------- | |||
openai_humaneval | 77.44 | 83.54 | 107.88% |
--------- 推理 Reasoning ------------- | |||
ocnli | 57.22 | 54.81 | 95.79% |
COPA | 99.00 | 96 | 96.97% |
math | 29.68 | 54.12 | 182.35% |
gsm8k(0-shot-CoT) | 83.70 | 87.26 | 104.25% |
bbh | 65.36 | 70.12 | 107.28% |
--------- 指令跟隨 Instruct Follow ---- | |||
IFEval(Prompt-level-strict-accuracy) | 52.13 | 70.79 | 135.80% |
IFEval(Inst-level-strict-accuracy) | 62.11 | 78.66 | 126.65% |
以上Benchmark表格,不用太關(guān)注細(xì)節(jié)指標(biāo)的含義,我點(diǎn)出幾點(diǎn)來(lái)看即可。
從整體來(lái)看,Qwen2.5的提升似乎只有7.15%,并不算高。然而,若深入分析細(xì)節(jié)基準(zhǔn)指標(biāo),就會(huì)發(fā)現(xiàn)千問(wèn)團(tuán)隊(duì)對(duì)
- 指令跟隨(132%)
- 高難度理解(118%)
- 高階知識(shí)(如博士知識(shí),150%)
- 數(shù)學(xué)(182%)
等方面進(jìn)行了非常有針對(duì)性的強(qiáng)化訓(xùn)練。因此,如果僅從平均整體角度來(lái)衡量,提升幅度看似不高。但若對(duì)用戶經(jīng)常使用的能力進(jìn)行加權(quán)計(jì)算,那么提升還是相當(dāng)可觀的。
根據(jù)千問(wèn)開(kāi)源模型的技術(shù)報(bào)告,Qwen2.5的訓(xùn)練數(shù)據(jù)是Qwen2訓(xùn)練數(shù)據(jù)的2倍。盡管訓(xùn)練數(shù)據(jù)量是上一版本的2倍,但Qwen2.5均值能力的提升并沒(méi)有達(dá)到相應(yīng)的倍率增長(zhǎng),這可能反映出了瓶頸問(wèn)題。不過(guò),由于用戶常用單項(xiàng)能力得到了增強(qiáng),所以從落地使用體感上,Qwen2.5體驗(yàn)不弱,這也體現(xiàn)了在訓(xùn)練過(guò)程中數(shù)據(jù)配方的博弈與取舍。雖然這是7B模型與上一版本的對(duì)比,但因?yàn)閿?shù)據(jù)同源,所以可以基本預(yù)測(cè)Dense模型72B的能力。
模型因果推理的基礎(chǔ)是什么?
讓我們重新聚焦于這篇文章的核心主題——《為什么Qwen能自我改進(jìn)推理,而Llama卻做不到?》。在之前提到的實(shí)測(cè)Benchmark中,我們可以著重關(guān)注一個(gè)關(guān)鍵指標(biāo)——Math。這一指標(biāo)對(duì)于衡量模型的因果推理能力有著至關(guān)重要的意義。
當(dāng)時(shí)在社群里,我提出了一種觀點(diǎn):Qwen在因果推理方面表現(xiàn)得比Llama出色,或許是因?yàn)樗谕评碇R(shí)儲(chǔ)備上本身就優(yōu)于Llama。然而,不同的Benchmark腳本即便評(píng)測(cè)的是相同的指標(biāo),也可能會(huì)因?yàn)镻rompt存在差異,從而導(dǎo)致最終的數(shù)據(jù)結(jié)果出現(xiàn)不一致的情況。鑒于此,為了確保測(cè)評(píng)結(jié)果的準(zhǔn)確性,有小伙伴專門(mén)找來(lái)了第三方的Benchmark對(duì)比表格,以此來(lái)保障在相同條件下進(jìn)行測(cè)評(píng)對(duì)比,具體情況如下:
這是我們?cè)谏缛褐杏懻搯?wèn)題時(shí)所貼的內(nèi)容,圖中我已經(jīng)劃出了個(gè)別項(xiàng)目。從圖中可以看出,與因果推理能力相關(guān)的各項(xiàng)指標(biāo)中,Qwen2.5幾乎都高于Llama。這一結(jié)果印證了上面所提斯坦福研究的結(jié)論。同時(shí)也進(jìn)一步證實(shí)了另一個(gè)認(rèn)知:
模型的因果推理能力取決于至少兩個(gè)方面,1.知識(shí)的廣度和深度2.推理方法的掌握,比如CoT,ToT,GoT等等
從這兩個(gè)角度來(lái)看,目前所有的推理模型幾乎都是以O(shè)1為起點(diǎn)進(jìn)行模仿,或者在此基礎(chǔ)上進(jìn)行二次創(chuàng)新,這應(yīng)該是一個(gè)行業(yè)共識(shí)。
那么我們來(lái)探討一下O1和R1的訓(xùn)練方法。它們都離不開(kāi)高質(zhì)量的推理類(lèi)數(shù)據(jù),通過(guò)強(qiáng)化學(xué)習(xí)或監(jiān)督微調(diào)(SFT)來(lái)進(jìn)行訓(xùn)練。那么這些訓(xùn)練究竟在訓(xùn)練什么呢?其實(shí)正是我之前提到的第二點(diǎn),即培養(yǎng)掌握推理方法的能力。至于第一點(diǎn)呢?O1并沒(méi)有解決,實(shí)際上,目前所有的推理模型都還沒(méi)有解決。大家主要是在第二點(diǎn)上,投入了更多的精力,進(jìn)行了大量的訓(xùn)練類(lèi)或Agent類(lèi)的工程工作。
那么目前來(lái)看,無(wú)論是o1還是現(xiàn)有的所有推理模型,它們所解決的只是推理方法這一“術(shù)”的層面的問(wèn)題,而并未觸及知識(shí)寬度和深度的壓縮這一“道”的層面的問(wèn)題(這也許是模型訓(xùn)練的瓶頸之一)。因此,因果推理如果缺乏充足的知識(shí)嵌入,僅憑借對(duì)推理方法的掌握,很快就會(huì)觸及到一個(gè)觸手可及的天花板。
這個(gè)道理其實(shí)很好理解。小學(xué)奧數(shù)競(jìng)賽題,小學(xué)生可以通過(guò)CoT(思維過(guò)程)來(lái)推理解答,但面對(duì)高中題目就無(wú)從下手了,原因就在于知識(shí)儲(chǔ)備不足。同理,博士如果只靠知識(shí)儲(chǔ)備,而沒(méi)有掌握有效的推理方法,也很難開(kāi)展學(xué)術(shù)研究,更別提發(fā)表論文了,甚至可能無(wú)法順利畢業(yè)。因?yàn)閷W(xué)術(shù)研究不僅需要豐富的知識(shí),更需要科學(xué)的推理方法,二者缺一不可。
再看DeepSeek這次的蒸餾模型,它堪稱一個(gè)絕佳范例。該蒸餾模型僅用800k數(shù)據(jù)進(jìn)行訓(xùn)練,這個(gè)數(shù)據(jù)量很小,然而查看論文中的benchmark,其效果卻出奇地好,這充分彰顯了技術(shù)的精妙之處。但為何DeepSeek會(huì)選擇Qwen和Llama架構(gòu)呢?不妨去Hugging Face的榜單上瞧瞧,頭部前50的模型中,大多基于這兩個(gè)架構(gòu),其中Qwen的占比或許更高,這本身就足以證明Qwen和Llama模型的卓越。倘若Dense模型的知識(shí)嵌入不夠充分,那么僅用800k數(shù)據(jù)的蒸餾訓(xùn)練,恐怕很難取得理想的推理效果。
簡(jiǎn)單總結(jié)一下,模型知識(shí)壓縮嵌入與推理方法的掌握同等重要。然而,目前全行業(yè)大多只在推理方法上投入了大量精力,因?yàn)檫@部分相對(duì)于已遇瓶頸的知識(shí)嵌入來(lái)講可優(yōu)化空間較大。而對(duì)于模型知識(shí)壓縮嵌入,卻總是以數(shù)據(jù)不足為由,遲遲沒(méi)有太多實(shí)質(zhì)性進(jìn)展,這無(wú)疑是一個(gè)需要解決的重大問(wèn)題。
所以,這么來(lái)看,僅憑模型訓(xùn)練這樣單一的手段,就要達(dá)到“模型即產(chǎn)品”,是容易觸及瓶頸的。
當(dāng)前AI發(fā)展面臨的核心命題,已從單一模型能力突破轉(zhuǎn)向系統(tǒng)工程創(chuàng)新。要構(gòu)建真正可落地的智能產(chǎn)品體系,必須突破"唯模型論"的局限,轉(zhuǎn)而采用多維度融合演進(jìn)策略:
- 在技術(shù)架構(gòu)層,構(gòu)建基于Agent集群拓?fù)浣Y(jié)構(gòu)的協(xié)同智能網(wǎng)絡(luò),通過(guò)工作流引擎實(shí)現(xiàn)復(fù)雜任務(wù)編排,使系統(tǒng)具備動(dòng)態(tài)適應(yīng)能力
- 在算法創(chuàng)新層,持續(xù)精進(jìn)核心算法,探索模型架構(gòu)的范式突破,保持基礎(chǔ)能力的代際優(yōu)勢(shì)
- 在社會(huì)技術(shù)系統(tǒng)層,設(shè)計(jì)符合人類(lèi)組織行為的交互范式,建立人機(jī)價(jià)值對(duì)齊機(jī)制
這種融合系統(tǒng)工程思維與社會(huì)技術(shù)系統(tǒng)視角的復(fù)合型智能架構(gòu),將推動(dòng)AI應(yīng)用從"功能模塊"向"生態(tài)體系"躍遷。當(dāng)模型能力的持續(xù)突破與多智能體協(xié)作網(wǎng)絡(luò)形成共振,輔以人類(lèi)反饋強(qiáng)化的人機(jī)協(xié)同機(jī)制,智能系統(tǒng)的進(jìn)化將進(jìn)入"飛輪效應(yīng)"通道,開(kāi)啟人機(jī)協(xié)同新范式的無(wú)限可能。
四、總結(jié)與期許
現(xiàn)在,我們站在此刻回望這四個(gè)月的AI浪潮,會(huì)發(fā)現(xiàn)這場(chǎng)變革呈現(xiàn)出兩個(gè)相互矛盾的演進(jìn)方向:一方面,模型能力以指數(shù)級(jí)速度突破認(rèn)知邊界;另一方面,行業(yè)生態(tài)卻仍在用線性思維構(gòu)建護(hù)城河(但變化已起)。這種矛盾恰恰揭示了AI發(fā)展的深層規(guī)律——技術(shù)革命永遠(yuǎn)快于社會(huì)變革,但最終必須通過(guò)社會(huì)系統(tǒng)的消化吸收才能創(chuàng)造真實(shí)價(jià)值。
生態(tài)重構(gòu):從零和博弈到共生進(jìn)化
百度地圖與高德的MCP Server支持,折射出工具類(lèi)應(yīng)用向"智能體基座"轉(zhuǎn)型的戰(zhàn)略選擇。這種選擇背后,是AI時(shí)代對(duì)傳統(tǒng)商業(yè)邏輯的顛覆性解構(gòu):當(dāng)服務(wù)被抽象為協(xié)議接口,當(dāng)用戶交互被重構(gòu)為智能體協(xié)作,舊有的流量霸權(quán)、平臺(tái)壟斷都將面臨范式性挑戰(zhàn)。
這要求企業(yè)必須具備"雙重進(jìn)化"能力——既要保持對(duì)核心技術(shù)的前沿探索,又要完成從"流量收割者"到"生態(tài)培育者"的角色轉(zhuǎn)換。
模型革命:知識(shí)壓縮與推理范式
斯坦福對(duì)Qwen的研究揭示了一個(gè)重要事實(shí):模型能力的突破本質(zhì)上是認(rèn)知科學(xué)的工程化實(shí)踐。我們驚嘆于DeepSeek-R1模型在因果推理上的飛躍時(shí),不應(yīng)忽視其背后長(zhǎng)達(dá)數(shù)月的訓(xùn)練數(shù)據(jù)配比優(yōu)化、強(qiáng)化學(xué)習(xí)策略迭代。未來(lái)的模型進(jìn)化必將呈現(xiàn)"知識(shí)嵌入-方法革新-場(chǎng)景驗(yàn)證"的三螺旋結(jié)構(gòu),這需要學(xué)界與產(chǎn)業(yè)界打破數(shù)據(jù)孤島,建立開(kāi)源協(xié)作的新型研發(fā)范式。
協(xié)議構(gòu)建:標(biāo)準(zhǔn)之爭(zhēng)背后的文明
當(dāng)前圍繞MCP、ANP的協(xié)議探討,本質(zhì)上是在智能時(shí)代構(gòu)建一種全新的連接與協(xié)同機(jī)制。協(xié)議標(biāo)準(zhǔn)不應(yīng)成為科技巨頭們爭(zhēng)奪主導(dǎo)權(quán)的戰(zhàn)場(chǎng),而應(yīng)成為連接人類(lèi)智能與機(jī)器智能的“認(rèn)知橋梁”。這要求開(kāi)發(fā)者社區(qū)保持清醒:真正的標(biāo)準(zhǔn)生命力不在于技術(shù)先進(jìn)性,而在于能否創(chuàng)造普惠價(jià)值。正如TCP/IP協(xié)議的成功源于其“簡(jiǎn)單而開(kāi)放”的設(shè)計(jì)哲學(xué),AI時(shí)代的協(xié)議更需要,足夠簡(jiǎn)單以包容復(fù)雜,足夠開(kāi)放以孕育可能。
未來(lái)圖景:在確定性中尋找創(chuàng)新的不確定
面對(duì)"物理方一日,智能已千年"的進(jìn)化速度,我們或許需要建立新的認(rèn)知坐標(biāo)系:
- 能力觀:擁抱"腦(模型)-手(Agent)-工具鏈(協(xié)議)"的協(xié)同進(jìn)化
- 生態(tài)觀:超越零和博弈思維,在開(kāi)放協(xié)議框架下構(gòu)建"價(jià)值網(wǎng)絡(luò)"
- 倫理觀:警惕技術(shù)達(dá)爾文主義,為智能進(jìn)化保留人文關(guān)懷的"減速帶"
站在這個(gè)充滿不確定性,又具有確定性的十字路口,我們既要有破釜沉舟擁抱變革的勇氣,也要保持"讓子彈再飛一會(huì)"的戰(zhàn)略定力。因?yàn)檎嬲闹悄芨锩?,從?lái)都不是某個(gè)技術(shù)參數(shù)的突破,而是整個(gè)人類(lèi)認(rèn)知系統(tǒng)、協(xié)作網(wǎng)絡(luò)、價(jià)值體系的范式遷移。或許我們終將明白:這場(chǎng)革命的終極目標(biāo),不是創(chuàng)造超越人類(lèi)的智能,而是讓人類(lèi)在智能進(jìn)化的浪潮中,重新發(fā)現(xiàn)自身的不可替代性。
我很喜歡大劉的《三體》。所以,正如《三體》中羅輯在黑暗森林中點(diǎn)燃篝火,AI時(shí)代的開(kāi)拓者們,正在用協(xié)議、模型、Agent編織新的文明圖騰。這圖騰或許終將模糊人與機(jī)器的邊界,但只要我們始終銘記"技術(shù)服務(wù)于人"的初心,這場(chǎng)AI智能的變局,終將會(huì)成為人類(lèi)文明史上最閃耀的躍遷時(shí)刻。
各位朋友,看過(guò)此文有什么感想?如有其他想法可以在評(píng)論區(qū)留言,我們聊聊。或者加入“覺(jué)察流”社區(qū)群,與群里的小伙伴一起學(xué)習(xí)、交流。加入方法,私信回復(fù)“入群”“加群”即可。
參考資料
- 社群聊天記錄