螞蟻Ring-1T正式登場,萬億參數(shù)思考模型,數(shù)學能力對標IMO銀牌
螞蟻,又雙叒叕開源萬億大模型了!
短短十余天,接連三彈。
10 月 9 日凌晨,螞蟻官宣并開源通用語言大模型 Ling-1T ——迄今為止他們參數(shù)規(guī)模最大的語言模型。上線 HuggingFace 僅四天,下載量便突破千次。

Ling-1T開源,x網(wǎng)友也震驚于開源模型的體量。

reddit上也有熱烈討論。有分析認為,螞蟻的設計確實有讓推理變強的合理機制,比如活躍參數(shù)更多、前幾層全密集。
還沒等業(yè)內(nèi)緩過神來,10 月 14 日凌晨,萬億級思考模型 Ring-1T 又正式登場,這也是全球首個開源的萬億參數(shù)思考模型。
其實早在 9 月 30 日,螞蟻就已放出 Ring-1T-preview 版本。彼時,它便在多項榜單上嶄露頭角,展現(xiàn)出出色的自然語言推理與思考能力,也率先把開源思考模型的「天花板」推至萬億級。

Ring-1T-preview剛出來,就有蘋果工程師在自己的 M3 Ultra 上跑了起來。
此次正式發(fā)布,Ring-1T 完成了完整的訓練流程,包括繼續(xù)通過大規(guī)模可驗證獎勵強化學習(RLVR)進一步增強推理能力,并結合人類反饋強化學習(RLHF)提升通用表現(xiàn),模型整體能力更均衡。
在高難度 IMO 測試中,Ring-1T 接入多智能體框架 AWorld,首次嘗試便解出第1、3、4、5 題—— 4 題全對,達到 IMO 銀牌水平,成為首個在國際奧數(shù)賽題上取得獲獎級成績的開源系統(tǒng)。
領先的復雜推理能力,開源SOTA再刷新
三連開源,頻率之高令人矚目。那問題來了——
這次正式版 Ring-1T,到底有多強?
從最新公布的成績單來看,得益于完整強化學習訓練流程的加持,Ring-1T 在其預覽版的基礎上幾乎實現(xiàn)全面、顯著的性能提升。
在數(shù)學、編程、邏輯推理、專業(yè)知識與創(chuàng)意寫作等多維基準上全面開花,成績穩(wěn)居第一梯隊,多項測試直接達到開源 SOTA 水平,部分測試表現(xiàn)可比肩最強閉源模型。

為了檢驗模型是否能在最具挑戰(zhàn)性又最具實用價值的認知任務上達到全球頂尖水平,團隊選取了八個重要基準測試:數(shù)學競賽(AIME 25、HMMT 25)、代碼生成(LiveCodeBench、CodeForce-Elo)、邏輯推理(ARC-AGI-v1)、綜合榜單(Arena-Hard-v2)、健康醫(yī)療(HealthBench )以及創(chuàng)意寫作(CreativeWriting-v3)。
團隊選取了八個重要基準測試。參與對比的對手涵蓋主流開源模型與閉源 API:
- Ring-1T-preview
- Gemini-2.5-pro
- Deepseek-V3.1-Terminus-Thinking
- Qwen-235B-A22B-Thinking-2507
- GPT-5-Thinking( High )
結果顯示,與自己的 Preview 版本( Ring-1T-Preview )相比,Ring-1T 的性能提升幾乎覆蓋所有維度,整體能力更加均衡。
在ARC-AGI-v1、Arena-Hard-v2.0、HealthBench等涵蓋復雜推理與跨領域挑戰(zhàn)的高難度測試中,Ring-1T 表現(xiàn)尤為突出,推理穩(wěn)定性與跨領域適應力實現(xiàn)了顯著躍升。(硬剛復雜難題,挺實在的。)
部分任務上(CodeForces、LiveCodeBench、CreativeWriting-v3),Ring-1T 與早期版本持平甚至略有回落,但整體波動極小,說明系統(tǒng)在追求更廣泛平衡的同時,依然保持高水位表現(xiàn)。
橫向來看,Ring-1T 在多項測試中不僅全面領跑開源模型陣列,不少項目更是逼近閉源旗艦 GPT-5 表現(xiàn),展現(xiàn)出強大的綜合競爭力。
尤其在邏輯推理任務 ARC-AGI-v1上,Ring-1T 不僅刷新開源 SOTA,還顯著領先 Gemini-2.5-Pro,展現(xiàn)出超越業(yè)界頂級閉源模型的推理實力;雖然距離當前最強的 GPT-5-Thinking (High)仍有差距,但 Ring-1T 的表現(xiàn)非常接近。
在綜合能力測試 Arena-Hard-v2.0中,Ring-1T 僅落后GPT-5-Thinking(High)1分多,已躋身行業(yè)最頂尖梯隊。
為了更客觀評估 Ring-1T 的深度思考能力,螞蟻讓它去挑戰(zhàn)最新、尚無公開答案的頂級賽題—— IMO 2025 和 ICPC World Finals 2025(國際大學生程序設計競賽總決賽) 。結果,Ring-1T 在高強度數(shù)學與編程推理任務上,展現(xiàn)出接近頂級閉源模型的實力。
在 IMO 2025 中,6 道題中,它首輪就解出第 1、3、4、5 題,成績相當于人類銀牌水平。在難度極高的第 2 題上,經(jīng)過三次推理后也給出接近滿分的幾何證明。唯一未解的第 6 題,其最終答案與 Gemini 2.5 Pro 收斂一致。





在 ICPC World Finals 2025 中,Ring-1T 在三次嘗試內(nèi)成功解出5題(DFJKL),表現(xiàn)超越 Gemini-2.5-Pro(3題),逼近 GPT-5-Thinking(6題)。
總體來看,Ring-1T 已成長為可與閉源巨頭正面對話的選手,也是開源體系下閉源級性能的又一次實證。
一手實測
除了榜單數(shù)據(jù),團隊還展示了多個交互 Demo,讓外界得以直觀感受 Ring-1T 的推理與生成實力。我們也在第一時間體驗了 Ring-1T,去感受這款「萬億思考模型」在真實任務中的推理、創(chuàng)造與表達。
自從 Andrej Karpathy 帶火 vibe coding 概念后,開發(fā)者開始把更多的創(chuàng)意和直覺帶入AI編程過程中。這次,我們就先來測試一下 Ring-1T 的代碼能力。
我們輸入提示詞「生成一款簡單可玩的 Flappy Bird 小游戲」,Ring-1T 迅速生成了完整的游戲代碼,雖然畫風稍微抽象了點,但它成功實現(xiàn)了游戲的交互功能。

再比如讓 Ring-1T 生成一個簡單的貪吃蛇小游戲。
Ring-1T 能夠精準理解和應用復雜的邏輯要求,生成的游戲界面簡潔,貪吃蛇移動與生長的動畫絲滑,碰撞檢測、分數(shù)系統(tǒng)、開始與暫停等功能均可順利運行。

提示詞:生成一個簡單的貪吃蛇小游戲,要求包含以下功能:一個固定大小的網(wǎng)格,顯示蛇和食物;蛇在網(wǎng)格上移動,玩家可以使用箭頭鍵控制蛇的方向(上、下、左、右);每次蛇吃到食物后,蛇的長度增加,新的食物會出現(xiàn)在網(wǎng)格上的隨機位置;當蛇撞到自己的身體或邊界時,游戲結束,并顯示最終得分;每吃到一塊食物,分數(shù)增加,并顯示當前分數(shù);玩家可以開始和暫停游戲;蛇的移動應平滑,并顯示蛇頭和身體的不同部分;使用HTML、CSS和JavaScript實現(xiàn)游戲邏輯、動畫效果,并確保游戲在桌面和移動設備上流暢運行。
再比如讓它編寫一個 p5.js 腳本,模擬 25 個粒子在一個真空空間中的圓柱形容器內(nèi)彈跳。

提示詞:Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
再來看看它的邏輯推理能力。
提示詞:黑兔、灰兔和白兔三只兔子在賽跑。黑兔說:我跑的不是最快的,但比白兔快。請問誰跑的最快?誰跑的最慢?
這道推理題目相對簡單,Ring-1T 的回答也沒費多大勁,梳理題干信息、給出答案、驗證答案,一氣呵成。

提示詞:地鐵站內(nèi),一個女人大喊:「搶劫了!」罪犯拿著錢包跑的很快,保安追不到。經(jīng)過一系列的工作,找到了四個嫌疑人。探長過來時,甲在椅子上昏昏欲睡,乙冷得縮成一團,丙不安的四處張望,丁在原地跑步取暖,請問誰的嫌疑最大?
Ring-1T準確識別出不同嫌疑人的行為與情境,并經(jīng)過一系列推理,最終給出了正確答案。這種推理不僅依賴于對情境的理解,還考慮到了行為模式和心理狀態(tài)的微妙差異。

提示詞:在一個俱樂部里,只有老實人和騙子兩類成員,老實人說真話,騙子說假話。一天,該俱樂部的四名成員在聊天。
甲說:我是老實人
乙說:我們當中有兩個人是騙子
丙說:我們當中只有一個是騙子
丁說:我們四個都是騙子
誰一定是騙子?
這道邏輯題曲里拐彎,Ring-1T 頗費了些工夫,逐一分析四名成員的發(fā)言,并以表格的形式梳理出所有信息,最終得出正確答案。

此外,既然 Ring-1T 模型在數(shù)學競賽方面達到了開源 SOTA 水平,我們就用2025 年全國中學生數(shù)學奧林匹克競賽(預賽)中的一道題目考考它。
根據(jù)其思維鏈,我們發(fā)現(xiàn) Ring-1T 思路非常清晰,先回顧奇函數(shù)和偶函數(shù)的定義,然后根據(jù)這兩個條件列出方程,解出 f(x) 的表達式,最后準確求出最大值。

在創(chuàng)意寫作方面,Ring-1T 模型的發(fā)揮很是穩(wěn)定,尤其是講故事的能力相當能打。
正好最近在聽一些歷史方面的播客,我們讓它寫一篇播客文案,介紹蘇軾和章惇恩怨始末,為防止其胡說八道,還要求它引用相關的史實記載。
Ring-1T 能夠靈活地把歷史人物和事件融入生動的敘述中,生成的文案符合播客口語化風格,語言生動且具吸引力,甚至連音效都一一注明。

整體來說,Ring-1T是一款潛力很大的模型,在多個領域都展現(xiàn)出強大的實際應用價值。
在代碼生成上,模型能夠快速響應任務需求,生成符合邏輯的游戲代碼,并確保交互性和功能完整;其推理能力精準且高效,能夠理解復雜情境并給出合理解答;在創(chuàng)意寫作領域,模型能夠適應不同風格需求,生成引人入勝的內(nèi)容。
當然,Ring-1T仍存在一些不足,特別是在身份認知、中英文混雜和重復等問題上。這些問題影響了模型的穩(wěn)定性和一致性,未來的版本更新有望進一步優(yōu)化。
小漏洞能沉船?MoE大模型RL訓練的「棒冰」救場
歸根到底,數(shù)據(jù)背后體現(xiàn)的是強化學習算法 IcePop(「棒冰」) 與系統(tǒng)框架 ASystem 的深層合力。前者穩(wěn)住長周期RL的基本盤,后者保證萬億規(guī)模的工程落地。
研發(fā) Ring-1T 的最大硬骨頭在后訓練階段,尤其是大規(guī)模強化學習「調(diào)教」。MoE 模型的常見「暗礁」,是訓推不一致問題:
訓練端與推理端在算子精度或實現(xiàn)上存在微小差異,但在多層路由、長序列自回歸中被不斷放大。結果就是——看似「正常訓練」,實則已偏離策略,獎勵信號混亂,梯度崩壞,訓練翻車。
于是,IcePop 登場。
百靈大模型團隊直接「抬走」壞梯度。它通過「雙向截斷 + Masked Clipping」 雙重篩選機制,實時監(jiān)控每個 token 在訓推兩端的概率差異,當信號「溫度」過高或過低時立即打掩碼——拒學壞信號,只更新穩(wěn)定梯度。
不同于 TIS 的「調(diào)權繼續(xù)學」,IcePop 的策略是「寧可不學,也不能學錯」。它讓模型只吸收「干凈卡路里」,拒絕壞梯度輸入。
結果立竿見影。在長周期訓練下,GRPO 的訓推差異曲線一路飆升,而 IcePop 曲線穩(wěn)定、峰值顯著下降——仿佛給過熱的系統(tǒng)喂了一根「棒冰」。

標準GRPO在短程還能穩(wěn)住,但訓練百步后很快「高燒」,獎勵信號失真,梯度暴沖,訓練直接翻車。圖1:GRPO訓推差異隨著訓練成指數(shù)上升,Icepop較為平穩(wěn); 圖2:訓推差異最大值,GRPO隨著訓練上升非常明顯,Icepop維持在較低水位。
IcePop 不僅讓 MoE 模型在 AIME25 等復雜推理任務上成績更優(yōu),還讓模型輸出更穩(wěn)、更具多樣性,低概率 token 也有被探索的機會。
研究進一步發(fā)現(xiàn),被 IcePop 剔除的往往是高熵、高糾結的 token——正是最容易被訓推偏差污染的信號。IcePop 徹底切斷了壞梯度的「感染鏈」,讓訓練更加健康可靠。
幕后英雄 :自研RL框架,「拿捏」萬億規(guī)模訓練
要讓「棒冰」算法在超大規(guī)模訓練中穩(wěn)定、高速運行,離不開底層系統(tǒng)的支撐。為此,螞蟻自研了強化學習基礎框架 ASystem,解決硬件資源調(diào)度與效率瓶頸,為模型「自我調(diào)教」鋪平道路。
它采用 SingleController + SPMD 架構:上層有「大腦」統(tǒng)一策略,下層海量執(zhí)行單元并行推進,既保證訓練一致性,又釋放最大吞吐力。
在萬億參數(shù)的 MoE 訓練中,強化學習頻繁切換「訓練—推理」模式,顯存極易爆滿,權重交換又耗時。ASystem 通過顯存透明卸載與跨節(jié)點顯存池化技術,把零碎顯存整合成共享池,極大降低了 OOM 風險,讓訓練穩(wěn)定性獲得根本提升。
在權重交換與同步上,它用 GPU P2P直連 + 原地更新技術,繞過CPU中轉——就像兩艘船在海上直接交貨,不必再靠岸,權重因此能實現(xiàn)秒級交換,真正做到「零冗余切換」。
強化學習的另一瓶頸是獎勵評估。模型要通過試錯不斷學習,每次動作都要經(jīng)過評估與反饋。尤其在涉及執(zhí)行代碼或復雜邏輯的場景里,這些獎勵評估必須在安全沙箱環(huán)境中完成,而傳統(tǒng)沙箱啟動緩慢,往往成為訓練提速的最大拖尾。
ASystem 把大規(guī)模 Serverless Sandbox 直接接入強化學習回路,打造出混合獎勵平臺。沙箱可以毫秒級冷啟動,支持十余種語言環(huán)境即開即用,工具鏈隨取隨用。吞吐量能撐到 10K/s,評測不再卡脖子。
AI 的競爭,從來不只是「誰的模型更強」,而是路線進化之爭。
9 月,螞蟻用一場「開源風暴」將這場辯題推向高潮:百靈大模型團隊密集上線 7 款新品,平均每 4 天一個新模型;進入 10 月,又連發(fā)兩款。
更關鍵的是,螞蟻開源的不止是模型,還有讓模型能持續(xù)進化的底層能力。例如,ASystem 的強化學習框架 AReaL已在今年 3 月開源,讓社區(qū)能直接復用螞蟻在 RL 工程上的積累,加速強化學習研究與訓練創(chuàng)新。
對螞蟻而言,開源不僅是開放代碼,更是一條讓 AI 普惠落地的現(xiàn)實路徑。當這些能力被廣泛調(diào)用,AI 才能像電力與支付那樣——無感,卻又無處不在。




































