螞蟻萬億模型震撼開源!數(shù)學推理碾壓GPT,國產AI首次問鼎奧數(shù)銀牌

92.6分 vs 94.6分——當我看到螞蟻集團剛發(fā)布的Ring-1T模型在AIME25測試中的成績時,第一反應是有點不敢相信。一個國產開源模型,居然能在數(shù)學推理上逼近GPT-5的水平?
更震撼的是,這個叫Ring-1T的模型在模擬IMO(國際數(shù)學奧林匹克)近十年真題的測試中,正確率達到了銀牌選手平均水平的93%。要知道,IMO可是被譽為"數(shù)學天才搖籃"的頂級競賽,能在這里拿銀牌的,基本都是各國數(shù)學界的未來之星。

我特意去查了一下這個模型的技術細節(jié)。Ring-1T采用了萬億參數(shù)規(guī)模,但實際激活的只有約51B參數(shù),這種MoE(專家混合)架構讓它既有大模型的能力,又保持了相對高效的推理速度。
國產AI的"奧數(shù)銀牌"有多厲害?
說實話,剛開始我對這個"銀牌水平"也沒什么概念。后來仔細了解了一下,才發(fā)現(xiàn)這個成績有多震撼。
IMO每年只有大約600名選手參賽,代表的是全球100多個國家和地區(qū)的數(shù)學尖子生。能拿到銀牌,意味著在這600人中排進前40%左右。而Ring-1T能達到銀牌選手93%的正確率,基本上就是說它的數(shù)學推理能力已經超越了全球大部分的數(shù)學天才。
更有意思的是,Ring-1T在組合數(shù)學和不等式證明這兩個最難的題型上表現(xiàn)尤其突出。這些題目往往需要很強的邏輯推理能力和創(chuàng)新思維,不是簡單的公式套用就能解決的。
開源vs閉源:一場認知的較量
這里有個很有意思的對比。OpenAI的GPT-5、Google的Gemini這些頂級模型,基本都是閉源的,你只能通過API調用,看不到內部的技術細節(jié)。而螞蟻這次直接把Ring-1T開源了,代碼、模型權重、訓練數(shù)據全部公開。
從商業(yè)角度看,這確實有點"反直覺"。畢竟訓練一個萬億參數(shù)的模型,成本少說也得幾千萬美元。但從技術發(fā)展的角度,這種開源策略可能更有遠見。
全球開發(fā)者可以基于Ring-1T進行二次開發(fā),這意味著這個模型的能力會在無數(shù)人的貢獻下快速迭代和提升。
我想起了Linux和Android的發(fā)展歷程。正是因為開源,它們才能在短時間內聚集全球最優(yōu)秀的開發(fā)者,最終在各自領域占據主導地位。
技術細節(jié):萬億參數(shù)背后的巧思
Ring-1T的技術架構挺有意思的。它采用了Ling 2.0架構,前4層是密集結構,后76層是MoE結構,總共有256個專家模塊。
這種設計的好處是什么呢?簡單來說,就是讓模型既聰明又高效。萬億參數(shù)聽起來很嚇人,但實際推理時只激活51B參數(shù),這樣既保證了能力,又控制了計算成本。就像一個超級圖書館,雖然有無數(shù)本書,但你每次只需要找到最相關的那幾本就夠了。
更厲害的是,螞蟻還自研了一套叫"棒冰"(Icepop)的訓練方法,結合高效強化學習系統(tǒng)ASystem,專門針對推理能力進行了多階段訓練。這就解釋了為什么Ring-1T在數(shù)學推理上表現(xiàn)這么突出。
實測體驗:不只是數(shù)學天才
我看到有開發(fā)者已經開始測試Ring-1T了,發(fā)現(xiàn)它不只是在數(shù)學推理上厲害,在代碼生成、邏輯推理、創(chuàng)意寫作等方面也表現(xiàn)不錯。
比如讓它寫一個貪吃蛇小游戲,Ring-1T不僅能生成完整的代碼,還會主動優(yōu)化游戲邏輯,添加一些有趣的功能。在處理復雜的邏輯推理題時,它的思路也很清晰,不會像有些模型那樣繞來繞去。
當然,作為一個剛發(fā)布的模型,Ring-1T肯定還有一些不足。比如在某些需要大量背景知識的領域,它可能還不如GPT-4那么全面。但考慮到它是開源的,這些問題應該會在社區(qū)的貢獻下快速改善。
這意味著什么?
Ring-1T的發(fā)布,我覺得有幾個層面的意義。
首先,它證明了國產AI在技術上已經能夠與國際頂級模型正面競爭。92.6分 vs 94.6分,這個差距已經小到可以忽略不計了。
其次,開源策略可能會改變整個AI行業(yè)的競爭格局。當一個接近GPT-5水平的模型完全免費開放時,那些收費的閉源模型就必須提供更大的價值才能維持競爭力。
最后,對于開發(fā)者來說,這絕對是個好消息。不用再為了使用頂級AI能力而支付高昂的API費用,可以直接在本地部署和定制化開發(fā)。
不過話說回來,技術突破只是第一步。Ring-1T能不能真正在應用層面挑戰(zhàn)GPT-5,還要看它在實際使用中的表現(xiàn),以及社區(qū)的接受程度。
但至少現(xiàn)在,我們可以說:國產AI在數(shù)學推理這個最能體現(xiàn)"智能"的領域,已經站到了世界第一梯隊。這個銀牌,拿得挺有分量的。





































