偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從AgentFounder看未來:智能體基礎模型的崛起與"持續(xù)預訓練"新范式

人工智能
通義實驗室提出“智能體持續(xù)預訓練”新范式,通過FAS/HAS數(shù)據(jù)合成與兩階段訓練,打造預對齊智能體基礎模型AgentFounder,在多基準超越閉源對手,標志智能體進入CPT時代。

大家好,我是肆〇柒。本文介紹的是一篇由阿里巴巴通義實驗室(Tongyi Lab, Alibaba Group)發(fā)布的研究——《Scaling Agents via Continual Pre-training》。這篇論文不僅推出了名為AgentFounder的新型智能體模型,更首次系統(tǒng)性地提出了“智能體持續(xù)預訓練”(Agentic CPT)這一全新范式,或將改變我們構建AI智能體的方式。本文是通義 Deepresearch 發(fā)布的系列研究之一。

在AI發(fā)展中,我們正見證一個關鍵的轉折點:大型語言模型(LLM)已從單純的對話系統(tǒng)進化為能夠自主調用工具、進行多步推理的智能體系統(tǒng)。然而,當這些模型嘗試執(zhí)行深度研究任務時,一個令人困惑的現(xiàn)象出現(xiàn)了——即便是最先進的開源模型,在復雜問題解決能力上仍遠遠落后于閉源競爭對手。OpenAI Deep Research在BrowseComp基準上達到51.5%的準確率,而領先的開源模型如DeepSeek-V3.1僅能取得30.0%的成績。這一差距背后,究竟隱藏著什么關鍵問題?最新研究《Scaling Agents via Continual Pre-training》為我們揭示了答案,并指明了未來智能體發(fā)展的新方向。

AgentFounder 與頂尖深度研究智能體的性能對比

一個時代的分水嶺——從"通用大模型"到"智能體基礎模型"

當前,后訓練方法(Supervised Fine-Tuning, SFT 和 Reinforcement Learning Fine-Tuning, RL)在構建深度研究智能體時持續(xù)表現(xiàn)不佳,尤其是開源實現(xiàn)。研究團隊通過深入分析,識別出問題的根本原因:缺乏強大的智能體基礎模型。當模型在后訓練階段被迫同時學習多種智能體行為并將其與專家演示對齊時,產生了根本性的優(yōu)化張力。

論文明確指出,深度研究智能體需要在廣闊的策略空間中導航,而SFT依賴于完整、高質量的軌跡數(shù)據(jù),難以實現(xiàn)全面覆蓋。同時,智能體軌跡本質上長而復雜,使得"正確行為"的精確定義充滿挑戰(zhàn)。根本矛盾在于:通用基礎模型缺乏智能體歸納偏置,迫使后訓練階段同時學習能力和對齊,導致內在優(yōu)化沖突。

這一發(fā)現(xiàn)標志著AI發(fā)展進入新階段——"智能體基礎模型"(Agentic Foundation Model)時代的開啟。真正的智能體不再僅僅是"聊天機器人",而是能自主規(guī)劃、決策、執(zhí)行復雜任務的可靠助手。AgentFounder的出現(xiàn),正是這一新范式的首次成功實踐。

范式轉移——"智能體持續(xù)預訓練"(Agentic CPT) 為何是必然?

研究團隊重新定義了智能體對齊訓練流程,在傳統(tǒng)預訓練和后訓練之間引入了"智能體持續(xù)預訓練"(Agentic Continual Pre-training, Agentic CPT)作為額外的擴展層。這一范式轉移的必要性源于當前技術瓶頸的深層本質。

 Agentic Training Pipeline

上圖:智能體訓練流程的范式轉變。Agentic CPT作為預訓練和后訓練之間的關鍵環(huán)節(jié),為模型提供智能體基礎能力

傳統(tǒng)方法面臨的核心挑戰(zhàn)在于,深度研究智能體需要在廣闊的策略空間中導航,而SFT依賴于完整、高質量的軌跡數(shù)據(jù),難以實現(xiàn)全面覆蓋。同時,智能體軌跡本質上長而復雜,使得"正確行為"的精確定義充滿挑戰(zhàn)。研究明確指出,通用基礎模型缺乏智能體歸納偏置,迫使后訓練階段同時學習能力和對齊,產生內在優(yōu)化沖突。

這一技術瓶頸在深度研究、自動化工作流等復雜場景下表現(xiàn)得尤為突出。瀏覽、搜索和推理類任務需要模型具備穩(wěn)健的多步規(guī)劃和工具調用能力,傳統(tǒng)方法難以滿足。正如論文所述,當擴展到智能體對齊時,當前的后訓練方法表現(xiàn)出有限的有效性。

Agentic CPT的引入,類似于當年BERT通過"預訓練+微調"范式統(tǒng)一NLP領域的革命性突破。它為構建高性能智能體提供了一種"新標準范式"——通過專門的預訓練階段培養(yǎng)模型的智能體能力,使基礎模型"預先對齊",從而為下游微調奠定堅實基礎。

AgentFounder的核心競爭力——系統(tǒng)性突破與可擴展路徑

AgentFounder的成功并非單一技術創(chuàng)新,而是數(shù)據(jù)合成、訓練策略、模型能力培養(yǎng)等多方面協(xié)同優(yōu)化的結果。研究團隊提出了兩個基本原則指導Agentic CPT的實施:首先,數(shù)據(jù)收集階段的種子數(shù)據(jù)源必須廣泛,不局限于單一領域;其次,訓練數(shù)據(jù)必須全面包含各種類型的智能體行為,防止模型模仿和記憶特定行為模式,從而損害其行為探索能力。

數(shù)據(jù)合成創(chuàng)新:FAS與HAS的協(xié)同價值

AgentFounder采用了一種系統(tǒng)性和可擴展的數(shù)據(jù)合成方法,包括一階動作合成(First-order Action Synthesis, FAS)和高階動作合成(Higher-order Action Synthesis, HAS)。這兩種方法共同構成了Agentic CPT的核心數(shù)據(jù)來源。

實體錨定開放世界知識記憶:FAS通過將連續(xù)更新的非結構化文本從各種來源轉換為開放世界記憶系統(tǒng),其中實體作為索引鍵映射到其相關的陳述性語句。不同于傳統(tǒng)知識圖譜的固定模式,F(xiàn)AS不關注實體間關系,而是通過重新表述增強相應知識語句的密度,保留時間標記、來源和原始風格特征等關鍵信息。例如,包含"2025年5月法國游客人數(shù)從3,793千增加到6月的4,222千"的網絡數(shù)據(jù)可以重新表述為:("法國","2025年6月,法國游客人數(shù)達到4,222千"),而非局限于"巴黎是法國首都"等傳統(tǒng)維基知識。通過從搜索結果和網絡訪問結果中持續(xù)更新,實體及其相應知識語句不斷擴展,形成內容更好地與互聯(lián)網信息分布對齊的活記憶系統(tǒng)。

基于可擴展信息源的多風格問答對生成

上圖:基于可擴展信息源的多風格問答生成。FAS通過實體錨定開放世界知識記憶系統(tǒng)生成多樣化問題

多風格問題合成示例:FAS基于實體錨定開放世界記憶生成多樣化問題,覆蓋事實檢索、數(shù)值計算、多跳推理和綜合任務。例如,以"巴黎"實體生成的復雜問題:

"在以城市命名的兩年一度航空航天市場上,該城市金字塔形前博物館在一場全球體育慶典期間記錄了高個位數(shù)百萬游客量,而在前一年,一場全市范圍的滋擾事件導致當局召集交通運營商,哪家買家下了一個完美平衡的承諾,其中確定訂單數(shù)量等于選擇權?"

這個問題從巴黎實體的三個不同新聞來源合成:(1)盧浮宮2024年記錄了870萬游客;(2)2023年巴黎的床蟲爆發(fā)引發(fā)政治爭議;(3)2025年巴黎航展上Airbus宣布的訂單。解決此類問題通常需要外部檢索,因為這些事實是近期且流動的。

FAS數(shù)據(jù)質量控制機制:FAS數(shù)據(jù)生成后,研究采用基于LLM的弱監(jiān)督過濾機制進行質量控制。該機制分析原始問題、生成軌跡和元數(shù)據(jù),產生二元接受/拒絕決策并提供詳細拒絕原因。過濾前,F(xiàn)AS生成的軌跡中正確與錯誤樣本比例均衡(50%/50%);經過過濾移除43.5%的問題樣本后,保留軌跡的準確率提升至82%。錯誤類型主要集中在內容不一致性(26.2%)、搜索必要性(6.9%)和邏輯不連續(xù)性(5.7%),而非工具調用格式問題(僅1.2%),這表明FAS能有效生成結構正確的規(guī)劃動作,但在語義對齊方面需要質量控制。雖然絕對正確數(shù)據(jù)比例略有下降(50%→46.3%),但保留樣本中82%的高準確率證明優(yōu)先考慮精度而非召回率對有效的智能體CPT至關重要。

FAS 過濾效果分析

上圖:FAS數(shù)據(jù)過濾效果分析。過濾機制顯著提升了數(shù)據(jù)質量,將保留軌跡的準確率從50%提升至82%

HAS的次優(yōu)軌跡重用機制:HAS通過"步驟級擴展"和"對比決策-行動合成"將單條軌跡擴展為決策空間。給定問題Q和智能體軌跡T={(S?, R?),...,(S?, R?)},其中S?表示第k步的"推理和工具調用",R?表示相應工具/環(huán)境響應,整個軌跡帶有二元判斷J∈{0,1}。HAS包含兩個組件:

(1) 步驟級擴展:對于任何步驟S?,將其條件上下文表示為C?=(Q, S?, R?,..., S???, R???)。無需實際工具執(zhí)行,使用LLM為上下文C?生成N個替代"思考和調用"候選:A?={S??1?,..., S????}。將原始步驟S????≡S?與這些候選合并,獲得N+1個可行步驟,然后隨機洗牌形成序列??,同時記錄原始步驟在序列中的位置n?。

(2) 對比決策-行動合成:將帶有擴展選項的軌跡轉換為漸進式決策過程。從問題Q開始,對每個步驟,明確模擬多選項選擇和決策過程。對于第k步,枚舉??中的每個選項,插入本地行動決策語句:"我將選擇選項n?",隨后立即跟上相應的實際響應R?。最后,附加判斷文本:"我的決定是{正確/不正確}"(對應J)。

這種合成策略規(guī)避了直接使用不確定步驟級獎勵的風險,同時使模型能夠從多樣化的推理路徑中學習,防止過度擬合特定軌跡模式。通過這種合成策略,先前未被充分利用的軌跡數(shù)據(jù)被轉化為豐富的訓練信號,顯著提高了智能體學習過程的樣本效率。

高階動作合成數(shù)據(jù)與原軌跡的對比

上圖:高階動作合成(HAS)將單條軌跡擴展為多選項決策過程,充分探索局部行動空間

兩階段訓練策略的關鍵價值

為了高效吸收這兩種合成的智能體數(shù)據(jù),研究團隊提出了漸進式的兩階段訓練策略:

  • 第一階段:主要利用FAS數(shù)據(jù)和短HAS數(shù)據(jù),上下文窗口為32K
  • 第二階段:專注于高質量HAS數(shù)據(jù),上下文長度擴展至128K

實驗結果(下表)清晰表明,這種漸進式訓練策略帶來了顯著提升——在BrowseComp-en上平均提升4.1%,在BrowseComp-zh上提升2.9%,在GAIA上提升2.9%。研究指出:"這些結果證實了學習完整長上下文智能體數(shù)據(jù)而非截斷序列的必要性。"

兩段式AgentFounder訓練策略的效果評估

上表:兩階段AgentFounder訓練策略的有效性評估。兩階段訓練在所有任務上均帶來一致的性能提升

資源限制使我們無法評估單階段訓練與擴展上下文長度(如128K)的情況,但此類方法將產生顯著更高的計算成本。兩階段策略在訓練效率和性能提升之間取得了良好平衡,為模型提供了逐步適應長上下文推理的機會。

模型架構優(yōu)化:MoE激活模式與訓練穩(wěn)定性

研究深入分析了AgentFounder模型內部工作機制,特別是MoE(Mixture of Experts)架構中的專家激活模式。研究發(fā)現(xiàn),經過CPT后,MoE架構中最終層的專家分布變得更加均衡,而非集中。這可能帶來更充分利用多個專家的益處,從而在后訓練階段實現(xiàn)更大的訓練穩(wěn)定性。它還有助于通過防止"死專家"現(xiàn)象(即不再被激活的專家)來減輕過擬合風險。

這一技術細節(jié)能增強模型的魯棒性,使AgentFounder在面對多樣化任務時能夠更有效地調動不同專家能力,是其作為"智能體基礎模型"的重要特征。

上圖:MoE激活模式對比分析。經過CPT后,模型最終層的專家分布變得更加均衡

工具使用能力:通用性與任務自適應性

AgentFounder展現(xiàn)出基于任務復雜度校準工具使用的能力,這一特性通過工具調用分布分析得到驗證:

上圖:工具調用分布比較。AgentFounder展現(xiàn)出基于任務復雜度校準工具使用的能力

AgentFounder展現(xiàn)出針對不同任務類型的自適應行為:

1. 復雜研究任務表現(xiàn)出密集的工具使用:BrowseComp-en和HLE顯示出重尾分布和高工具密度。BrowseComp-en需要大量調用來進行持續(xù)網絡瀏覽,而HLE的擴展模式反映了將復雜推理與搜索增強推理相結合的需求。

2. 結構化任務采用保守的工具使用:WebWalker的分布在低調用計數(shù)處急劇達到峰值,適用于高效的文本導航,而GAIA-text展現(xiàn)出適合具有明確解決方案路徑的明確定義問題的緊湊分布。

此外,研究還分析了工具調用次數(shù)與最終準確率的關系:

上圖:BrowseComp-en、BrowseComp-zh、GAIA和Xbench-DeepResearch上工具調用輪次的準確率分布

通過分析工具調用頻率與最終任務成功率的關系,發(fā)現(xiàn)三個關鍵趨勢:

1. 任務效率與規(guī)劃能力:工具調用輪次較少的任務通常獲得更高的最終準確率,表明模型在低輪次場景中更成功,這暗示了改進的規(guī)劃能力,允許更高效的任務完成。

2. 工具調用的必要性:當沒有進行工具調用時,準確率明顯下降(從81.3%降至66.7%),且相應樣本量非常小,表明模型從工具使用中顯著受益。

3. 復雜任務處理能力:即使對于超過40次工具調用的更具挑戰(zhàn)性案例,模型仍保持非平凡的成功率(平均準確率為17.5%),展示了其在復雜環(huán)境中進行深入研究的能力。

為評估模型的行為多樣性,研究進行了BrowseComp-en上的Pass@N評估。結果顯示,AgentFounder展現(xiàn)出良好的擴展特性:從31.5%的Pass@1提升至75.8%的Pass@16,獲得了+44.3個百分點的顯著提升。Pass@16到Pass@18之間僅有1.16%的微小提升,表明模型在一致性與多樣性之間達到了健康平衡。這一結果驗證了HAS方法在訓練中暴露模型于(N+1)×K潛在行動的有效性,成功保留了解決方案的多樣性。

Pass@N Scaling on BrowseComp-en

上圖:Pass@N擴展分析。AgentFounder展現(xiàn)出良好的行為多樣性,從Pass@1到Pass@16獲得+44.3個百分點的提升

技術驗證:訓練過程與收斂性

研究通過對比分析驗證了Agentic CPT如何有效緩解"雙重負擔問題":

 Training Loss Evolution Showing Superior Convergence

上圖:相同SFT語料庫上的損失收斂比較。AgentFounder模型相比基線展現(xiàn)出更優(yōu)的收斂性能

Agentic CPT顯著提升了微調效率。所有AgentFounder變體在各項指標上均實現(xiàn)明顯更低的損失值。雖然基線模型達到0.8656的最終損失,而表現(xiàn)最佳的AgentFounder-30B(315B)模型達到0.7953,這證明Agentic CPT有效賦予模型基礎能力,促進其適應下游智能體任務。隨著CPT數(shù)據(jù)量從FAS-only增加到315B標記,損失值逐步降低,驗證了將后訓練中的監(jiān)督信號重新組織為CPT格式可以加強模型的智能體基礎。

復雜問題解決能力展示

為了直觀展示AgentFounder的實際工作方式,論文提供了一個詳細案例。面對以下復雜問題:

"在以城市命名的兩年一度航空航天市場上,該城市金字塔形前博物館在一場全球體育慶典期間記錄了高個位數(shù)百萬游客量,而在前一年,一場全市范圍的滋擾事件導致當局召集交通運營商,哪家買家下了一個完美平衡的承諾,其中確定訂單數(shù)量等于選擇權?"

AgentFounder通過50步推理過程,逐步識別出問題指向:

  • 巴黎(航空航天市場以城市命名)
  • 盧浮宮(金字塔形前博物館,2024年奧運會期間記錄了高個位數(shù)百萬游客)
  • 2023年巴黎電動滑板車爭議(全市范圍滋擾事件)
  • Riyadh Air(在2025年巴黎航展上下了25架確定訂單和25個選擇權的完美平衡承諾)

這一過程展示了模型如何有效結合搜索、推理和信息整合能力解決高度模糊的問題,體現(xiàn)了AgentFounder在復雜研究任務中的卓越能力。

深遠影響

對開源生態(tài)的意義

AgentFounder在多個基準測試中展現(xiàn)出突破性表現(xiàn)。在HLE(Humanity's Last Exam)上,AgentFounder-30B以31.5%的成績成為首個突破30點閾值的開源模型,顯著超越所有報告的閉源深度研究產品,包括Gemini-2.5-Pro Deep Research、Kimi-Researcher和OpenAI Deep Research。在Frames基準測試中,AgentFounder-30B大幅超越所有開源和閉源模型,展示了其在多視角推理和一致信息合成方面的卓越能力。

這一成就證明,開源模型完全有能力在最前沿的智能體賽道上與閉源巨頭抗衡。研究團隊通過系統(tǒng)性方法,成功縮小了開源與閉源模型在智能體能力上的差距,為開源社區(qū)注入了新的活力。

對商業(yè)競爭格局的重塑

"智能體基礎模型"正成為新的競爭高地。研究揭示的scaling laws表明,持續(xù)增加訓練數(shù)據(jù)量(從0B到315B tokens)帶來了穩(wěn)定的性能提升(8.0%的總增益)。這一發(fā)現(xiàn)為未來投入提供了明確方向——大規(guī)模、高質量的智能體數(shù)據(jù)合成將成為核心競爭力。

上圖:智能體能力的擴展規(guī)律探索。模型規(guī)模和訓練數(shù)據(jù)量均與性能呈正相關,但Agentic CPT方法能更高效地利用模型容量

智能體能力的擴展規(guī)律顯示:

1. 對數(shù)擴展特性:訓練標記數(shù)量與性能之間的關系表現(xiàn)出對數(shù)特性,初始15B標記帶來最顯著的改進(3.8%),表明智能體行為可以通過有針對性的預訓練高效獲取。

2. 兩階段CPT的持續(xù)增益:具有128K上下文窗口的第二階段CPT在65B(比50B提高1.8%)和315B(比210B提高1.0%)處提供顯著增益,表明長上下文訓練能有效增強復雜推理能力,即使基礎擴展曲線接近飽和。

3. 大規(guī)模訓練的穩(wěn)健性:AgentFounder在整個315B標記預算中保持一致的性能改進,總增益達8.0%(從54.2%到62.2%),驗證了訓練方法在防止過早收斂方面的有效性。

同時,研究系統(tǒng)評估了不同規(guī)模模型(1B、4B和30B)在深度研究基準上的表現(xiàn),揭示了模型規(guī)模與智能體能力的明確關系:平均準確率從1B模型的20.4%提升至4B模型的32.7%,再進一步提升至30B模型的48.9%。這一結果表明,更大規(guī)模的模型具備更強的處理復雜智能體行為的能力,如有效工具使用和多步推理。值得注意的是,AgentFounder-30B(48.9%)甚至超過了參數(shù)規(guī)模更大的DeepSeek-V3.1(43.0%)和Kimi-K2(29.6%),這證明了Agentic CPT方法能更高效地利用模型容量。

上圖:模型規(guī)模擴展分析。從1B到30B參數(shù)的模型性能持續(xù)提升,且Agentic CPT方法能更高效地利用模型容量

此外,研究還評估了AgentFounder的通用工具使用能力。在ACEBench基準上,AgentFounder-30B以70.0%的成績超越了Qwen3-30B-A3B(67.2%),證明Agentic CPT框架不僅能提升深度研究能力,還能有效增強模型在更廣泛場景中的工具使用能力。這一發(fā)現(xiàn)表明,通過Agentic CPT構建的預對齊基礎模型具有發(fā)展成為通用智能體的潛力,為未來智能體技術的廣泛應用奠定了基礎。

上圖:ACEBench基準上的通用工具使用能力比較。AgentFounder展現(xiàn)出更強的通用工具使用能力

能力邊界與未來方向

研究也揭示了當前方法的局限性。實驗分析揭示了AgentFounder的能力邊界與未來方向。首先,模型在GAIA不同難度級別上表現(xiàn)差異顯著:在級別1任務上達到79.5%的Pass@1率,而在級別3任務上降至50.0%,表明任務復雜度對模型效能有顯著影響。

上圖:GAIA不同難度級別通過率。模型在Level 1任務上表現(xiàn)最佳(79.5% Pass@1),Level 3任務上顯著下降(50.0% Pass@1)

其次,在知識密集型任務(如HLE)上,AgentFounder的提升相對有限。分析表明,這類任務不僅需要成功檢索信息,還需要強大的推理能力來正確利用已檢索的知識。這為后續(xù)研究指明了方向——增強基礎模型的知識理解和推理能力。

此外,研究發(fā)現(xiàn)工具調用輪次與任務成功率呈非線性關系:任務效率與規(guī)劃能力密切相關,工具調用輪次較少的任務通常獲得更高的最終準確率;當沒有進行工具調用時,準確率明顯下降(從81.3%降至66.7%);即使對于超過40次工具調用的更具挑戰(zhàn)性案例,模型仍保持非平凡的成功率(平均準確率為17.5%)。這些發(fā)現(xiàn)為后續(xù)研究指明了明確方向——增強基礎模型的知識理解、推理能力和復雜任務規(guī)劃能力。

值得注意的是,智能體研究正向多智能體協(xié)作和多模態(tài)方向擴展。騰訊開源了Cognitive Kernel-Pro多智能體框架,利用DeepSeek-V3.1在WebWalkerQA基準上達到71.47%的準確率;阿里通義實驗室則開源了WebWatcher,作為首個多模態(tài)深度研究智能體。這些進展表明,Agentic CPT范式不僅適用于單智能體系統(tǒng),還可能擴展到更復雜的多智能體和多模態(tài)場景,為未來智能體技術的全面發(fā)展提供更廣闊的空間。

站在新范式的起點

AgentFounder不僅是一個強大的模型,更是"智能體持續(xù)預訓練"(Agentic CPT)新范式的成功實踐和有力證明。這一范式包含三大核心支柱:系統(tǒng)性數(shù)據(jù)合成方法(FAS/HAS)漸進式兩階段訓練策略、以及由此構建的預對齊智能體基礎模型

研究結果清晰表明,Agentic CPT能夠顯著提升各種后訓練方法的效果,平均提升5.75%-6.45%。這意味著,通過專門的預訓練階段培養(yǎng)模型的智能體能力,可以有效解決傳統(tǒng)方法中的優(yōu)化沖突問題,為智能體技術的規(guī)?;瘧娩伷降缆?。

未來,智能體AI的發(fā)展將不再局限于參數(shù)規(guī)模的競賽,而是更加注重數(shù)據(jù)合成能力、訓練范式創(chuàng)新和系統(tǒng)工程能力的綜合較量。構建下一代AI智能體,從構建強大的"智能體基礎模型"開始——這不僅是技術選擇,更是戰(zhàn)略必然。

正如研究團隊所展示的,當我們將目光從單純的后訓練優(yōu)化轉向基礎模型的智能體能力培養(yǎng)時,一個更強大、更可靠的智能體未來即將到來。在這個未來中,AI不再僅僅是回答問題的工具,而是能夠自主探索、推理和解決問題的真正智能伙伴。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-13 09:29:51

2025-08-19 09:10:00

AI模型智能體

2022-11-28 14:00:24

人工智能

2023-06-09 07:29:03

模型文本document

2022-09-28 09:21:15

PingCAPTiDBHTAP

2025-07-10 14:51:29

人工智能AI模型

2025-10-10 05:00:00

智能體LIMI大模型

2024-11-04 00:24:56

2025-06-12 08:08:00

自主式AIRPA自動化

2020-04-15 16:44:38

谷歌強化學習算法

2011-05-13 15:28:47

2025-09-24 08:53:10

2025-05-20 08:00:45

2023-10-25 09:50:07

自動駕駛訓練

2024-05-24 08:42:29

智能體訓練

2025-07-01 05:00:00

2025-10-28 02:22:00

2025-08-25 08:45:00

模型代碼開源
點贊
收藏

51CTO技術棧公眾號