偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="bsdme"><pre id="bsdme"></pre></em>

<s id="bsdme"></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

模型吞噬代碼，Agent重構(gòu)世界：當(dāng)AI Agent與模型協(xié)同進化

作者：肆零柒 2025-05-29 09:57:38

“物理方一日，智能已千年?！?在AI時代的浪潮中，技術(shù)的進化速度令人驚嘆。短短幾個月內(nèi)，從MCP協(xié)議的發(fā)布到AI Agent的火爆，再到模型能力的飛速提升，每一步都在重塑我們的數(shù)字世界。今天，讓我們深入探討這些現(xiàn)象背后的邏輯，以及它們對商業(yè)、技術(shù)和社會的深遠(yuǎn)影響。

大家好，我是肆〇柒。AI 圈的進化速度之快，已是不爭的事實。去年，MCP（模型上下文協(xié)議）發(fā)布，隨后 AI Coding 賽道愈發(fā)熱鬧，Cursor、Cline、Devin、MGX 等產(chǎn)品層出不窮。春節(jié)前夕，各模型廠商扎堆發(fā)布新模型，DeepSeek-R1 的問世更是讓全球為之一震。近期，通用智能體 Manus 的發(fā)布又引發(fā)了不小的熱議。類似的消息數(shù)不勝數(shù)，這都是近三四個月發(fā)生的事情，信息飽和度極高。用群友的一句話來形容再恰當(dāng)不過：“物理方一日，智能已千年”。

在此，有個顯而易見的結(jié)論是：一個協(xié)議能否成為標(biāo)準(zhǔn)，取決于共識。比如W3C HTTP協(xié)議，能成為業(yè)界標(biāo)準(zhǔn)，原因就是在行業(yè)協(xié)會牽頭下有廣泛共識，并見真實落地和深度的用戶滲透率。所以，MCP能不能成為協(xié)議標(biāo)準(zhǔn)，取決于大家對它的共識程度，而這個共識，不僅僅來自于創(chuàng)業(yè)公司，開發(fā)者群體，還要來自于商業(yè)巨頭，甚至是政體。

說到共識，我曾在社群里聊到過，行業(yè)巨頭通常不會給自己找一個能扼住自己咽喉的上游。那么如何看待國內(nèi)這兩個頭部地圖應(yīng)用的動作呢？

原因在于它們本身具有工具屬性，且有開放平臺API為開發(fā)者提供服務(wù)。所以多一個MCP，只是從開放平臺角度多了一個智能應(yīng)用的用戶渠道，對它們自身市場和競爭格局是有益的。況且，如果老二先入，老大不跟，就可能錯失市場，所以我們才看到百度地圖和高德地圖相繼宣布開放MCP Server。由此，也許可以得到一個觀點：一個具有行業(yè)地位，但沒有絕對壟斷性領(lǐng)先優(yōu)勢的平臺或應(yīng)用，要特別警惕在AI時代被競爭對手通過AI Agent等智能形態(tài)的應(yīng)用彎道超越。

AI Agent 戰(zhàn)略？

對于Agent戰(zhàn)略，工具類應(yīng)用，容易跟進，但平臺類的卻要自己想清楚，因為它涉及到產(chǎn)業(yè)生態(tài)。多數(shù)2C服務(wù)類平臺，應(yīng)該不會情愿工具化自己，因為這會使整個業(yè)務(wù)模式改變，用戶體驗發(fā)生劇變，流量走向也會完全不一樣。比如電商，想象一下，如果引入Agent電商，業(yè)務(wù)模式將發(fā)生天翻地覆的變化。在這樣的平臺場景下，如果AI Agent滲透，就要看Agent的代理當(dāng)方向是什么，它代理了誰——是平臺？還是個人？

如果代理的是平臺，Agent可以實時感知用戶需求，為客服提供更精準(zhǔn)的購買服務(wù)支持；
如果代理的是個人，Agent可以作為個人的購物助手，在成本預(yù)算、功能性要求的前提下，對商品進行比價、功能性分析、社交評價洞察，從而為用戶實現(xiàn)購買評估。

以上兩點只是非常粗糙的假想，只為給大家提供一個思考的種子。我們可以看到，在這樣的場景下，無論AI Agent代理的是個人還是平臺，都具有非常大的商業(yè)想象空間。

AI Agent 代理平臺

如果Agent代理的是平臺，其主要作用是作為平臺與用戶之間的中介，實時感知用戶需求，為平臺的客服、商品推薦、流量分配等提供更精準(zhǔn)的支持。也許可以是：

客服支持Agent代理平臺時，能實時感知用戶需求，提前為客服提供精準(zhǔn)信息。比如用戶瀏覽商品時，Agent可預(yù)測其可能的咨詢內(nèi)容（如商品詳情、尺碼、退換貨政策等），提前推送給客服，讓客服快速響應(yīng)，提升服務(wù)效率和用戶滿意度。
商品推薦與流量分配Agent可分析用戶實時行為和偏好，為平臺推薦系統(tǒng)提供精準(zhǔn)用戶畫像，優(yōu)化商品推薦策略。平臺據(jù)此將用戶感興趣的商品精準(zhǔn)展示，提高曝光率和轉(zhuǎn)化率。同時，Agent還能優(yōu)化流量分配，引導(dǎo)流量到更符合用戶需求的商品和商家頁面，提升平臺運營效率。
廣告投放與營銷Agent為平臺廣告投放提供精準(zhǔn)依據(jù)，分析用戶實時需求和興趣，將相關(guān)廣告精準(zhǔn)推送給用戶，提高點擊率和轉(zhuǎn)化率。此外，Agent還能根據(jù)用戶行為數(shù)據(jù)，為平臺制定個性化營銷策略，如優(yōu)惠券發(fā)放、限時折扣推薦等，吸引更多用戶購買商品。
平臺運營與管理Agent作為平臺的智能助手，實時監(jiān)測流量、用戶活躍度、商品庫存等信息，為平臺提供運營建議。如發(fā)現(xiàn)商品庫存不足提醒補貨，發(fā)現(xiàn)頁面用戶流失率高則分析原因并提優(yōu)化建議，還能協(xié)助平臺進行數(shù)據(jù)分析和報告生成，為決策提供支持。
平臺與商家合作Agent幫助平臺管理與商家的合作，提供商家銷售數(shù)據(jù)、用戶評價、庫存等信息，評估商家表現(xiàn)和合作價值。同時，為商家提供平臺運營規(guī)則、用戶需求等信息，幫助其適應(yīng)平臺環(huán)境、提高銷售業(yè)績，使平臺與商家合作更順暢高效。

所以，AI Agent如果代理的方向是平臺，主要可以通過實時感知用戶需求，為平臺的運營、客服、商品推薦、廣告投放等提供更精準(zhǔn)的支持，從而提升平臺的整體效率和用戶體驗。

AI Agent 代理個人

從平臺的角度來看，引入Agent戰(zhàn)略，尤其是當(dāng)Agent代理的是個人時，用戶的自主性會大大增強。用戶不再只是被動地接受平臺推送的商品信息，而是通過Agent主動篩選和分析，找到最適合自己的產(chǎn)品。這可能會導(dǎo)致平臺原有的流量分配機制失效，那些原本依靠廣告投放和平臺推薦獲得曝光的商家，可能會發(fā)現(xiàn)自己的產(chǎn)品難以進入用戶的視野，除非它們真的具有足夠的競爭力。

對于廣告業(yè)務(wù)而言，這無疑是一個巨大的挑戰(zhàn)。廣告的精準(zhǔn)投放一直是平臺廣告業(yè)務(wù)的核心優(yōu)勢，但如果Agent能夠根據(jù)用戶的個性化需求進行商品篩選，那么廣告的展示機會可能會被大幅壓縮。平臺需要重新思考廣告的投放策略，如何在Agent的過濾機制下，讓廣告能夠真正觸達有需求的用戶，而不是被一概屏蔽。這可能需要平臺與廣告主共同探索新的合作模式，比如基于Agent反饋的精準(zhǔn)廣告推薦，或者開發(fā)新的廣告產(chǎn)品，以適應(yīng)這種新的用戶交互方式。

新商品和新商家的曝光問題也尤為關(guān)鍵。在一個成熟的電商平臺上，新商品和新商家往往需要借助平臺的推薦系統(tǒng)來獲得初始流量，從而逐漸積累口碑和銷量。但如果Agent主要依據(jù)歷史數(shù)據(jù)和用戶評價來篩選商品，新商品和新商家可能會因為缺乏足夠的數(shù)據(jù)支持而被邊緣化。這不僅會影響平臺的創(chuàng)新活力，也可能導(dǎo)致平臺的商品種類逐漸固化。平臺需要找到一種平衡，既要利用Agent提升用戶體驗，又要為新商品和新商家提供公平的曝光機會，比如通過設(shè)置專門的新品推薦區(qū)域，或者為新商家提供一定的初始流量扶持。

用戶購買決策的變化也可能會對平臺的商業(yè)模式產(chǎn)生深遠(yuǎn)影響。如果用戶越來越依賴Agent進行購買評估，那么平臺的角色可能會從一個商品展示和交易的場所，逐漸轉(zhuǎn)變?yōu)橐粋€提供決策支持和服務(wù)的平臺。這意味著平臺需要更加注重數(shù)據(jù)的準(zhǔn)確性和可靠性，以及Agent的智能水平和服務(wù)質(zhì)量。同時，平臺也需要重新思考如何與用戶建立更深層次的連接，因為用戶對商品的購買決策不再僅僅基于平臺的推薦，而是基于Agent提供的綜合評估。

甚至，想象的再大膽一點，平臺還在嗎？Agent是否有可能撇開現(xiàn)有供應(yīng)鏈，通過廠商提供的Agent協(xié)議來直連廠商Agent？通過類似ANP這樣的協(xié)議，實現(xiàn)AI之間的協(xié)作與對話。

想清楚了？

那么，我們真的考慮清楚了嗎？如果平臺倉促實施Agent戰(zhàn)略，會對平臺生態(tài)產(chǎn)生怎樣的沖擊？廣告業(yè)務(wù)該如何開展？新商品、新商家如何獲得曝光機會？用戶是否只能購買到口碑良好的老品牌產(chǎn)品？品牌創(chuàng)新、產(chǎn)品創(chuàng)新怎么辦？如果真的按照這種方式落地，2B或2C的模式是否還能繼續(xù)存在？用群友的話來說，是不是只剩下“to human”和“to AI”的模式了，“to B”和“to C”不再有明確的界限了？

當(dāng)社區(qū)群里討論“Agent電商”時，一位伙伴的發(fā)言讓我心中一震：“說不定電商行業(yè)正在經(jīng)歷數(shù)字版的《三體》危機——不知道什么時候會被二向箔降維打擊?！边@種思考源于一個根本矛盾：傳統(tǒng)電商遵循的是“人找貨”的搜索邏輯，而AI Agent電商則是“意圖即服務(wù)”的穿透邏輯。試想這樣一個場景：用戶說“想給喜歡露營的男友選個實用又不失格調(diào)的生日禮物”，AI Agent也許可以同時調(diào)用電商供應(yīng)鏈數(shù)據(jù)、小紅書的場景化推薦、閑魚的保值率分析，最終生成包含采購建議、包裝方案、賀卡文案的完整解決方案。

這無疑直接動搖了平臺經(jīng)濟的根基——當(dāng)交易發(fā)生在Agent之間，流量入口、廣告模式、傭金體系等都將被重構(gòu)。所以，另外一個伙伴感嘆道：“既怕Agent不來，又怕Agent亂來?！?/span>

這是一個天翻地覆的變化，其中蘊含的故事和腦洞非常多。然而，我們不再對可能的場景問題展開更寬泛的探討。但從以上推演來看，或許大家可以理解為什么一些平臺型巨頭還沒有迅速行動。在我看來，并非他們看不到其中的機遇和挑戰(zhàn)，而是需要思考的問題實在太多，這件事并不簡單，必須謹(jǐn)慎思考，否則可能會引發(fā)一系列不可控的連鎖反應(yīng)，甚至對整個平臺，乃至對行業(yè)的長期發(fā)展造成負(fù)面影響。

子彈再飛一會，或者等待鯰魚到來。

「這些商業(yè)動作背后，暗含著AI時代更底層的技術(shù)邏輯：當(dāng)MCP這類協(xié)議試圖連接萬物時，必須存在一個能統(tǒng)籌全局的「調(diào)度中樞」。這就如同智能手機普及需要iOS/Android作為支撐，AI智能體生態(tài)的繁榮，同樣需要屬于這個時代的『操作系統(tǒng)』——而這正是Agent與Workflow架構(gòu)正在扮演的角色，AI 時代的智能生態(tài)基座?！?/span>

AI時代的智能生態(tài)基座

關(guān)于Agent前兩天有一篇文章，被社區(qū)伙伴轉(zhuǎn)發(fā)——

“萬字探討Agent發(fā)展真方向：模型即產(chǎn)品，Agent的未來要靠模型而不是Workflow”——發(fā)表于《機智流》鏈接：https://mp.weixin.qq.com/s/em5UGArBECNa9Tt6GN1wqQ

上面這篇文章的核心觀點是：

未來AI智能體的發(fā)展方向?qū)⒁蕾囉谀Ｐ捅旧?，而非工作流（Workflow）。觀點提出者認(rèn)為，通過強化學(xué)習(xí)（RL）與推理（Reasoning）結(jié)合的模型，能夠自主掌控任務(wù)執(zhí)行全過程，包括動態(tài)規(guī)劃搜索策略和主動調(diào)整工具使用等，從而顛覆目前的應(yīng)用層生態(tài)。文章強調(diào)“模型即產(chǎn)品”，并指出未來閉源AI大模型提供商將停止提供API服務(wù)，轉(zhuǎn)而直接提供模型作為產(chǎn)品。

模型即產(chǎn)品？即一切？

坦白講，這個觀點不可謂不激進。甚至從觀點提出者的職業(yè)背景來看，觀點中有事實，但也極具陣營色彩。

的確，從目前的一些現(xiàn)象來觀察，模型的進化非常的迅速，從中美最具代表性的推理模型來看，GPT-o1發(fā)布于9月中旬，DeepSeek-R1則發(fā)布于今年的1月20日，相差4個月。而DeepSeek-R1的出現(xiàn)，其實是全民使用reason model的時刻，因為它被普及了。

這代表了什么？從細(xì)節(jié)應(yīng)用的角度，通用模型比如GPT-4o，或者DeepSeek-V3，當(dāng)這類模型需要做文本推理的時候，需要用到CoT結(jié)構(gòu)的Prompt來實現(xiàn)；而諸如DeepSeek-R1這樣的Reason model，并不需要CoT技巧，你會說話就可以，有問題直接問，模型通過訓(xùn)練以后已經(jīng)實現(xiàn)了自主思維鏈的推理。

所以，這可以有一個感知，即：軟件吞噬世界，模型吞噬軟件。

技術(shù)演進的底層邏輯

似乎，模型正在吞噬上層應(yīng)用。但，模型在進化的同時，Agent、Workflow架構(gòu)也在進化。如果從技術(shù)演進的底層邏輯稍作拆解，或許可以總結(jié)如下：

1. 工具價值

“過渡形態(tài)”與“生態(tài)基座”存在本質(zhì)區(qū)別，Workflow這種編排形式并非過渡形態(tài)（人類社會至今仍未淘汰工作流、工序的概念）。應(yīng)這樣看待：類似Dify、Coze的工具并非拐杖，而是AI時代的Kubernetes。回顧AWS發(fā)展史，當(dāng)EC2計算力足夠強大時，人們反而更需要容器編排系統(tǒng)。大模型越強大，工作流引擎的價值就越凸顯，因為其需解決復(fù)雜任務(wù)的資源調(diào)度問題。這正如CPU越強大越需要操作系統(tǒng)，大模型越強大，跨模型協(xié)作就越需要工作流編排。所以即使未來Dify、Coze不復(fù)存在，也應(yīng)有其他組織拓?fù)湫问絹碚螦I能力（想想function calling，若無程序向模型返回調(diào)用結(jié)果，模型將一無所知，這其實是一種簡單的交互協(xié)作）。

2. 智能進化的一點理解

GPT-4的token上下文窗口從4k擴展到128k，但人類仍在使用Notion、飛書。原因在于認(rèn)知科學(xué)告訴我們，智能體需分層處理信息。工作流本質(zhì)上類似于神經(jīng)網(wǎng)絡(luò)的“外置緩存”，這是進化的必然，而非技術(shù)妥協(xié)。

3. 工程化規(guī)律

如今，幾乎所有的技術(shù)革命都遵循“原始能力→抽象工具→垂直場景”的路徑。例如，目前的Prompt Engineering雖原始，但未來或許會出現(xiàn)“工作流架構(gòu)師”這一新工種。就像移動互聯(lián)網(wǎng)初期人人做APP，如今則需要Flutter這樣的跨平臺方案，類似Dify、Coze的工具使用者，也在為AI時代的開發(fā)生態(tài)構(gòu)建護城河。

生態(tài)基座？AIOS？

基于以上分析，我們可以看到：

工作流的價值，絕不僅僅是作為完成任務(wù)的工具，它更像是AI生態(tài)的基座，支撐著整個智能體的運行。沒有工作流的協(xié)調(diào)，大模型就像強大的單兵作戰(zhàn)單位，缺乏統(tǒng)一的指揮和調(diào)度，難以形成合力。
工作流的存在，使得智能體能夠在復(fù)雜的任務(wù)中靈活調(diào)度資源，動態(tài)調(diào)整策略，從而更高效、穩(wěn)健地完成任務(wù)。
工作流有其獨特的生態(tài)位，也許它正在向著AI時代的Windows進化。OpenAI等大廠已在發(fā)布Workflow Builder，這不僅是技術(shù)趨勢的體現(xiàn)，更是生態(tài)卡位戰(zhàn)的重要一步。

我們也許可以將模型視為“大腦”，Agent視為“肢體”，兩者應(yīng)該是協(xié)同進化的整體。大模型的強大會提升Agent的能力天花板，但工作流、智能體拓?fù)涞拇嬖谑侵悄荏w協(xié)作的需求。就像計算機的發(fā)展歷程一樣，從早期的大型機到個人電腦，再到云計算，每個階段都需要操作系統(tǒng)來協(xié)調(diào)硬件和軟件資源。在AI時代，工作流、智能體拓?fù)渚褪悄莻€不可或缺的“操作系統(tǒng)”，它不僅協(xié)調(diào)著不同模型之間的協(xié)作，還為智能體提供了與現(xiàn)實世界交互的接口。

所以，由于AI強大模型的存在，模型上層的智能體框架、工作流框架等應(yīng)用層盡管很薄，但它是“四肢”；模型很強，因為它是“大腦”。如果泛概念的來看智能體，應(yīng)該是Model+Agent，而ANP、MCP結(jié)合泛化的智能體（Model+Agent）則是AI Society。

「但這樣的『操作系統(tǒng)』能否真正運轉(zhuǎn)，最終取決于『計算引擎』的效能——就像Windows的流暢度依賴CPU性能，Agent架構(gòu)的實用性必然受制于模型的核心能力。當(dāng)我們?yōu)锳gent的生態(tài)愿景興奮時，一個更根本的問題浮現(xiàn)：當(dāng)前模型的推理能力，真的足以支撐這場智能革命嗎？」

既然，上面提到了關(guān)于增強模型能力的話題，那我們就再多聊聊關(guān)于模型能力。

模型能力：“知識”與“方法”的雙重挑戰(zhàn)

近期，有一篇文章，是關(guān)于斯坦福大學(xué)的研究

“為什么Qwen能自我改進推理，Llama卻不行？斯坦福找到了原理”——發(fā)表于《機器之心》鏈接：https://mp.weixin.qq.com/s/OvS61OrDp6rB-R5ELg48Aw

上面這篇文章的核心闡述的是：

斯坦福大學(xué)的研究揭示了Qwen和Llama在自我改進推理能力上的差異。Qwen表現(xiàn)出更強的自我改進能力，而Llama則提升有限。研究發(fā)現(xiàn)，Qwen自然地表現(xiàn)出關(guān)鍵的認(rèn)知行為，如驗證（系統(tǒng)錯誤檢查）、回溯（放棄失敗的方法）、子目標(biāo)設(shè)定（將問題分解為可管理的步驟）和逆向思考（從期望結(jié)果推理到初始輸入），而Llama缺乏這些行為。這些行為是有效利用額外計算資源和時間進行自我改進的基礎(chǔ)。通過有針對性的干預(yù)，如用包含這些行為的人工合成推理軌跡引導(dǎo)Llama，或調(diào)整預(yù)訓(xùn)練數(shù)據(jù)以強調(diào)這些行為，可以顯著提升Llama的自我改進能力。這表明，模型的初始推理行為與其自我改進能力密切相關(guān)，認(rèn)知行為的存在比結(jié)果的正確性更重要。

我之所以會關(guān)注到這篇文章，1.是因為社區(qū)伙伴的推薦。2.是因為它與我對Qwen模型的認(rèn)知相符合。

Dense 模型瓶頸了？

在去年 Qwen2.5 發(fā)布以后，為了應(yīng)用的需要，我特意在本地私有化部署，跑了Qwen2和Qwen2.5的7B模型的基準(zhǔn)評測。見下表。

Benchmark	Qw2-7B	Qw2.5-7B	Recovery
Overall	63.09	67.60	107.15%
Exam	72.38	72.38	100.00%
Language	54.25	53.97	99.49%
Knowledge	42.92	44.95	104.74%
Understanding	70.52	71.18	100.94%
Coding	77.44	83.54	107.88%
Reasoning	66.99	72.46	108.17%
Instruct_Follow	57.12	74.73	132.82%
--------- 學(xué)科 Exam ------------------
ceval	81.60	78.52	96.23%
agieval	56.27	58.01	103.09%
mmlu	70.87	74.19	104.68%
cmmlu	80.77	78.78	97.54%
--------- 語言 Language --------------
WiC	56.90	55.8	98.07%
WSC	64.42	70.19	108.96%
afqmc-dev	71.39	70.64	98.95%
tydiqa-goldp	24.28	19.26	79.32%
--------- 知識 Knowledge -------------
BoolQ	85.75	84.92	99.03%
GPQA_diamond	21.21	31.82	150.02%
nq	21.80	18.12	83.12%
--------- 理解 Understanding ---------
C3	92.16	91.51	99.29%
race-middle	89.83	91.09	101.40%
race-high	86.96	86.62	99.61%
lcsts	13.13	15.51	118.13%
--------- 代碼 Coding ----------------
openai_humaneval	77.44	83.54	107.88%
--------- 推理 Reasoning -------------
ocnli	57.22	54.81	95.79%
COPA	99.00	96	96.97%
math	29.68	54.12	182.35%
gsm8k(0-shot-CoT)	83.70	87.26	104.25%
bbh	65.36	70.12	107.28%
--------- 指令跟隨 Instruct Follow ----
IFEval(Prompt-level-strict-accuracy)	52.13	70.79	135.80%
IFEval(Inst-level-strict-accuracy)	62.11	78.66	126.65%

以上Benchmark表格，不用太關(guān)注細(xì)節(jié)指標(biāo)的含義，我點出幾點來看即可。

從整體來看，Qwen2.5的提升似乎只有7.15%，并不算高。然而，若深入分析細(xì)節(jié)基準(zhǔn)指標(biāo)，就會發(fā)現(xiàn)千問團隊對

指令跟隨（132%）
高難度理解（118%）
高階知識（如博士知識，150%）
數(shù)學(xué)（182%）

等方面進行了非常有針對性的強化訓(xùn)練。因此，如果僅從平均整體角度來衡量，提升幅度看似不高。但若對用戶經(jīng)常使用的能力進行加權(quán)計算，那么提升還是相當(dāng)可觀的。

根據(jù)千問開源模型的技術(shù)報告，Qwen2.5的訓(xùn)練數(shù)據(jù)是Qwen2訓(xùn)練數(shù)據(jù)的2倍。盡管訓(xùn)練數(shù)據(jù)量是上一版本的2倍，但Qwen2.5均值能力的提升并沒有達到相應(yīng)的倍率增長，這可能反映出了瓶頸問題。不過，由于用戶常用單項能力得到了增強，所以從落地使用體感上，Qwen2.5體驗不弱，這也體現(xiàn)了在訓(xùn)練過程中數(shù)據(jù)配方的博弈與取舍。雖然這是7B模型與上一版本的對比，但因為數(shù)據(jù)同源，所以可以基本預(yù)測Dense模型72B的能力。

模型因果推理的基礎(chǔ)是什么？

讓我們重新聚焦于這篇文章的核心主題——《為什么Qwen能自我改進推理，而Llama卻做不到？》。在之前提到的實測Benchmark中，我們可以著重關(guān)注一個關(guān)鍵指標(biāo)——Math。這一指標(biāo)對于衡量模型的因果推理能力有著至關(guān)重要的意義。

當(dāng)時在社群里，我提出了一種觀點：Qwen在因果推理方面表現(xiàn)得比Llama出色，或許是因為它在推理知識儲備上本身就優(yōu)于Llama。然而，不同的Benchmark腳本即便評測的是相同的指標(biāo)，也可能會因為Prompt存在差異，從而導(dǎo)致最終的數(shù)據(jù)結(jié)果出現(xiàn)不一致的情況。鑒于此，為了確保測評結(jié)果的準(zhǔn)確性，有小伙伴專門找來了第三方的Benchmark對比表格，以此來保障在相同條件下進行測評對比，具體情況如下：

這是我們在社群中討論問題時所貼的內(nèi)容，圖中我已經(jīng)劃出了個別項目。從圖中可以看出，與因果推理能力相關(guān)的各項指標(biāo)中，Qwen2.5幾乎都高于Llama。這一結(jié)果印證了上面所提斯坦福研究的結(jié)論。同時也進一步證實了另一個認(rèn)知：

模型的因果推理能力取決于至少兩個方面，1.知識的廣度和深度2.推理方法的掌握，比如CoT，ToT，GoT等等

從這兩個角度來看，目前所有的推理模型幾乎都是以O(shè)1為起點進行模仿，或者在此基礎(chǔ)上進行二次創(chuàng)新，這應(yīng)該是一個行業(yè)共識。

那么我們來探討一下O1和R1的訓(xùn)練方法。它們都離不開高質(zhì)量的推理類數(shù)據(jù)，通過強化學(xué)習(xí)或監(jiān)督微調(diào)（SFT）來進行訓(xùn)練。那么這些訓(xùn)練究竟在訓(xùn)練什么呢？其實正是我之前提到的第二點，即培養(yǎng)掌握推理方法的能力。至于第一點呢？O1并沒有解決，實際上，目前所有的推理模型都還沒有解決。大家主要是在第二點上，投入了更多的精力，進行了大量的訓(xùn)練類或Agent類的工程工作。

那么目前來看，無論是o1還是現(xiàn)有的所有推理模型，它們所解決的只是推理方法這一“術(shù)”的層面的問題，而并未觸及知識寬度和深度的壓縮這一“道”的層面的問題（這也許是模型訓(xùn)練的瓶頸之一）。因此，因果推理如果缺乏充足的知識嵌入，僅憑借對推理方法的掌握，很快就會觸及到一個觸手可及的天花板。

這個道理其實很好理解。小學(xué)奧數(shù)競賽題，小學(xué)生可以通過CoT（思維過程）來推理解答，但面對高中題目就無從下手了，原因就在于知識儲備不足。同理，博士如果只靠知識儲備，而沒有掌握有效的推理方法，也很難開展學(xué)術(shù)研究，更別提發(fā)表論文了，甚至可能無法順利畢業(yè)。因為學(xué)術(shù)研究不僅需要豐富的知識，更需要科學(xué)的推理方法，二者缺一不可。

再看DeepSeek這次的蒸餾模型，它堪稱一個絕佳范例。該蒸餾模型僅用800k數(shù)據(jù)進行訓(xùn)練，這個數(shù)據(jù)量很小，然而查看論文中的benchmark，其效果卻出奇地好，這充分彰顯了技術(shù)的精妙之處。但為何DeepSeek會選擇Qwen和Llama架構(gòu)呢？不妨去Hugging Face的榜單上瞧瞧，頭部前50的模型中，大多基于這兩個架構(gòu)，其中Qwen的占比或許更高，這本身就足以證明Qwen和Llama模型的卓越。倘若Dense模型的知識嵌入不夠充分，那么僅用800k數(shù)據(jù)的蒸餾訓(xùn)練，恐怕很難取得理想的推理效果。

簡單總結(jié)一下，模型知識壓縮嵌入與推理方法的掌握同等重要。然而，目前全行業(yè)大多只在推理方法上投入了大量精力，因為這部分相對于已遇瓶頸的知識嵌入來講可優(yōu)化空間較大。而對于模型知識壓縮嵌入，卻總是以數(shù)據(jù)不足為由，遲遲沒有太多實質(zhì)性進展，這無疑是一個需要解決的重大問題。

所以，這么來看，僅憑模型訓(xùn)練這樣單一的手段，就要達到“模型即產(chǎn)品”，是容易觸及瓶頸的。

當(dāng)前AI發(fā)展面臨的核心命題，已從單一模型能力突破轉(zhuǎn)向系統(tǒng)工程創(chuàng)新。要構(gòu)建真正可落地的智能產(chǎn)品體系，必須突破"唯模型論"的局限，轉(zhuǎn)而采用多維度融合演進策略：

在技術(shù)架構(gòu)層，構(gòu)建基于Agent集群拓?fù)浣Y(jié)構(gòu)的協(xié)同智能網(wǎng)絡(luò)，通過工作流引擎實現(xiàn)復(fù)雜任務(wù)編排，使系統(tǒng)具備動態(tài)適應(yīng)能力
在算法創(chuàng)新層，持續(xù)精進核心算法，探索模型架構(gòu)的范式突破，保持基礎(chǔ)能力的代際優(yōu)勢
在社會技術(shù)系統(tǒng)層，設(shè)計符合人類組織行為的交互范式，建立人機價值對齊機制

這種融合系統(tǒng)工程思維與社會技術(shù)系統(tǒng)視角的復(fù)合型智能架構(gòu)，將推動AI應(yīng)用從"功能模塊"向"生態(tài)體系"躍遷。當(dāng)模型能力的持續(xù)突破與多智能體協(xié)作網(wǎng)絡(luò)形成共振，輔以人類反饋強化的人機協(xié)同機制，智能系統(tǒng)的進化將進入"飛輪效應(yīng)"通道，開啟人機協(xié)同新范式的無限可能。

四、總結(jié)與期許

現(xiàn)在，我們站在此刻回望這四個月的AI浪潮，會發(fā)現(xiàn)這場變革呈現(xiàn)出兩個相互矛盾的演進方向：一方面，模型能力以指數(shù)級速度突破認(rèn)知邊界；另一方面，行業(yè)生態(tài)卻仍在用線性思維構(gòu)建護城河（但變化已起）。這種矛盾恰恰揭示了AI發(fā)展的深層規(guī)律——技術(shù)革命永遠(yuǎn)快于社會變革，但最終必須通過社會系統(tǒng)的消化吸收才能創(chuàng)造真實價值。

生態(tài)重構(gòu)：從零和博弈到共生進化

百度地圖與高德的MCP Server支持，折射出工具類應(yīng)用向"智能體基座"轉(zhuǎn)型的戰(zhàn)略選擇。這種選擇背后，是AI時代對傳統(tǒng)商業(yè)邏輯的顛覆性解構(gòu)：當(dāng)服務(wù)被抽象為協(xié)議接口，當(dāng)用戶交互被重構(gòu)為智能體協(xié)作，舊有的流量霸權(quán)、平臺壟斷都將面臨范式性挑戰(zhàn)。

這要求企業(yè)必須具備"雙重進化"能力——既要保持對核心技術(shù)的前沿探索，又要完成從"流量收割者"到"生態(tài)培育者"的角色轉(zhuǎn)換。

模型革命：知識壓縮與推理范式

斯坦福對Qwen的研究揭示了一個重要事實：模型能力的突破本質(zhì)上是認(rèn)知科學(xué)的工程化實踐。我們驚嘆于DeepSeek-R1模型在因果推理上的飛躍時，不應(yīng)忽視其背后長達數(shù)月的訓(xùn)練數(shù)據(jù)配比優(yōu)化、強化學(xué)習(xí)策略迭代。未來的模型進化必將呈現(xiàn)"知識嵌入-方法革新-場景驗證"的三螺旋結(jié)構(gòu)，這需要學(xué)界與產(chǎn)業(yè)界打破數(shù)據(jù)孤島，建立開源協(xié)作的新型研發(fā)范式。

協(xié)議構(gòu)建：標(biāo)準(zhǔn)之爭背后的文明

當(dāng)前圍繞MCP、ANP的協(xié)議探討，本質(zhì)上是在智能時代構(gòu)建一種全新的連接與協(xié)同機制。協(xié)議標(biāo)準(zhǔn)不應(yīng)成為科技巨頭們爭奪主導(dǎo)權(quán)的戰(zhàn)場，而應(yīng)成為連接人類智能與機器智能的“認(rèn)知橋梁”。這要求開發(fā)者社區(qū)保持清醒：真正的標(biāo)準(zhǔn)生命力不在于技術(shù)先進性，而在于能否創(chuàng)造普惠價值。正如TCP/IP協(xié)議的成功源于其“簡單而開放”的設(shè)計哲學(xué)，AI時代的協(xié)議更需要，足夠簡單以包容復(fù)雜，足夠開放以孕育可能。

未來圖景：在確定性中尋找創(chuàng)新的不確定

面對"物理方一日，智能已千年"的進化速度，我們或許需要建立新的認(rèn)知坐標(biāo)系：

能力觀：擁抱"腦（模型）-手（Agent）-工具鏈（協(xié)議）"的協(xié)同進化
生態(tài)觀：超越零和博弈思維，在開放協(xié)議框架下構(gòu)建"價值網(wǎng)絡(luò)"
倫理觀：警惕技術(shù)達爾文主義，為智能進化保留人文關(guān)懷的"減速帶"

站在這個充滿不確定性，又具有確定性的十字路口，我們既要有破釜沉舟擁抱變革的勇氣，也要保持"讓子彈再飛一會"的戰(zhàn)略定力。因為真正的智能革命，從來都不是某個技術(shù)參數(shù)的突破，而是整個人類認(rèn)知系統(tǒng)、協(xié)作網(wǎng)絡(luò)、價值體系的范式遷移?；蛟S我們終將明白：這場革命的終極目標(biāo)，不是創(chuàng)造超越人類的智能，而是讓人類在智能進化的浪潮中，重新發(fā)現(xiàn)自身的不可替代性。

我很喜歡大劉的《三體》。所以，正如《三體》中羅輯在黑暗森林中點燃篝火，AI時代的開拓者們，正在用協(xié)議、模型、Agent編織新的文明圖騰。這圖騰或許終將模糊人與機器的邊界，但只要我們始終銘記"技術(shù)服務(wù)于人"的初心，這場AI智能的變局，終將會成為人類文明史上最閃耀的躍遷時刻。

各位朋友，看過此文有什么感想？如有其他想法可以在評論區(qū)留言，我們聊聊?；蛘呒尤搿坝X察流”社區(qū)群，與群里的小伙伴一起學(xué)習(xí)、交流。加入方法，私信回復(fù)“入群”“加群”即可。

參考資料

社群聊天記錄

責(zé)任編輯：龐桂玉來源：覺察流

Agent AI Agent 大模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="0so5n"><td id="0so5n"></td></menuitem>

<thead id="0so5n"></thead>

<thead id="0so5n"><b id="0so5n"></b></thead>

<sup id="0so5n"></sup>