偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從“更大”到“更聰明”:螞蟻集團(tuán)推出 Ling 2.0,大模型推理進(jìn)入“稀疏智能時代” 原創(chuàng)

發(fā)布于 2025-11-3 08:34
瀏覽
0收藏

在這個“模型越大越好”的時代,螞蟻集團(tuán)卻走出了一條反向思路——讓模型變得更聰明,而不是更臃腫。

最近,螞蟻集團(tuán)的 Inclusion AI 團(tuán)隊(duì)正式發(fā)布了 Ling 2.0 系列模型——一個以“推理優(yōu)先(Reasoning-First)”為核心設(shè)計(jì)理念的稀疏 MoE(Mixture of Experts)語言模型家族。它最大的特點(diǎn)是:參數(shù)總量可以從 160 億一路擴(kuò)展到 1 萬億,但每個 Token 的計(jì)算量幾乎不變。

聽起來有點(diǎn)像魔法?但這其實(shí)是一套非常系統(tǒng)的工程哲學(xué):每一次激活(Activation)都必須帶來推理能力的增強(qiáng)。

一、1/32 激活比例的 MoE 設(shè)計(jì):讓“大模型”變輕盈

在 Ling 2.0 的架構(gòu)中,核心是一個 稀疏專家混合層(Sparse MoE Layer)。

每一層都包含:

  • 256 個路由專家(Routed Experts)
  • 1 個共享專家(Shared Expert)。

每處理一個 Token 時,路由器會從 256 個專家中選擇 8 個激活,再加上始終開啟的共享專家,總共 9 個專家參與計(jì)算——這只占全部專家的 **約 3.5%**,也就是 1/32 的激活比例。

這種稀疏激活機(jī)制,讓模型在訓(xùn)練與推理時僅使用極小一部分網(wǎng)絡(luò),卻能保持完整的參數(shù)規(guī)模。 根據(jù)螞蟻團(tuán)隊(duì)的測試,相比等規(guī)模的稠密模型,Ling 2.0 的效率提升約 7 倍。

更關(guān)鍵的是,這種稀疏策略在 16B、100B 到 1T 三個版本中都能保持穩(wěn)定表現(xiàn):

模型版本

總參數(shù)量

每Token激活參數(shù)

激活比例

對應(yīng)稠密模型性能

Ling Mini 2.0

160 億

14 億

1/32

約等于 7B-8B

Ling Flash 2.0

1000 億

61 億

1/32

約等于 30B

Ling 1T

1 萬億

500 億

1/32

推理旗艦款

這意味著:在算力成本幾乎不增加的情況下,模型的推理與知識容量仍在穩(wěn)步增長。

二、Ling Scaling Laws:從“試出來”到“算出來”的架構(gòu)選擇

以往大模型架構(gòu)的選擇常常依賴反復(fù)實(shí)驗(yàn)和調(diào)參。 但螞蟻團(tuán)隊(duì)采用了更科學(xué)的路徑——通過“Ling Scaling Laws”自動推導(dǎo)出最優(yōu)設(shè)計(jì)。

他們建立了一個叫 “Ling 風(fēng)洞(Ling Wind Tunnel)” 的驗(yàn)證體系:

  • 先用一批小型 MoE 模型在相同數(shù)據(jù)和路由規(guī)則下訓(xùn)練;
  • 然后將結(jié)果擬合為冪律(Power Law);
  • 最終預(yù)測在更大規(guī)模下的損失、激活比例和專家平衡點(diǎn)。

結(jié)果顯示,1/32 激活比例、256 個路由專家 + 1 個共享專家的配置,在從 16B 到 1T 規(guī)模間都是最優(yōu)解。

這一方法論,讓團(tuán)隊(duì)無需“試錯式”地?zé)?GPU 集群,就能提前預(yù)測模型表現(xiàn),極大降低了超大規(guī)模模型的試驗(yàn)成本。

此外,Ling 2.0 的底層還引入了幾項(xiàng)穩(wěn)定機(jī)制:

  • Sigmoid 路由打分(Aux-Loss-Free Routing),避免額外損失函數(shù);
  • QK Norm 與部分 RoPE 結(jié)合,保持深層模型梯度穩(wěn)定;
  • MTP Loss(多任務(wù)預(yù)測損失),提高復(fù)雜推理時的魯棒性。

簡單來說,Ling 2.0 不只是“更大”,而是“更有規(guī)律地變大”。

三、從 4K 到 128K:推理與上下文的“雙螺旋進(jìn)化”

Ling 2.0 的訓(xùn)練管線同樣頗具匠心。

它不是一味地堆數(shù)據(jù),而是循序漸進(jìn)地將“推理能力”與“長上下文”結(jié)合

  1. 初期階段:以 4K 上下文訓(xùn)練,數(shù)據(jù)中數(shù)學(xué)與代碼類樣本逐步增加至語料庫的一半;
  2. 中期階段:選取 1500 億高質(zhì)量 Token,將上下文擴(kuò)展到 32K;
  3. 推理強(qiáng)化階段:注入 6000 億鏈?zhǔn)剿伎迹–oT)數(shù)據(jù);
  4. 最終階段:通過YaRN方法擴(kuò)展到 128K 上下文,同時保持短文本性能。

這種“早期引入推理、逐步拉長上下文”的策略,讓 Ling 系列在數(shù)學(xué)、代碼、邏輯推演等場景中表現(xiàn)異常穩(wěn)定。 相比許多后期才添加推理數(shù)據(jù)的模型,Ling 2.0 在深度思考能力上明顯更自然、更連貫。

四、分階段對齊:把“快答”與“深思”分開調(diào)教

在模型對齊(Alignment)環(huán)節(jié),螞蟻團(tuán)隊(duì)引入了一種獨(dú)特的“雙路徑”方案:

  1. 能力階段(Capability Pass): 使用“解耦微調(diào)(Decoupled Fine-Tuning)”策略,讓模型學(xué)會區(qū)分快速應(yīng)答與深度推理兩種模式;
  2. 演化鏈?zhǔn)剿伎迹‥vo-CoT): 自動擴(kuò)展并多樣化推理鏈,提升模型自我思考的覆蓋度;
  3. 偏好階段(Preference Pass): 在句子級別執(zhí)行群體競技獎勵(Group Arena Reward),以人類反饋優(yōu)化回答風(fēng)格與準(zhǔn)確性。

這種“分層對齊”的做法,使 Ling 2.0 在推理性能不犧牲的前提下,回答既高質(zhì)量又更貼近人類偏好。 特別是在數(shù)學(xué)推理、代碼生成、指令跟隨任務(wù)上,表現(xiàn)接近同級別閉源模型。

五、FP8 與異構(gòu)流水線:讓萬億參數(shù)不再是“天價游戲”

萬億規(guī)模模型的最大難題,不在算法,而在訓(xùn)練成本與硬件利用率。 螞蟻的工程團(tuán)隊(duì)在這里玩出了一整套系統(tǒng)級優(yōu)化:

  • FP8 低精度訓(xùn)練:在損失曲線僅略低于 BF16 的前提下,硬件利用率提升 15%;
  • 異構(gòu)流水線并行(Heterogeneous Pipeline Parallelism):在不同 GPU 上交錯執(zhí)行前向與反向計(jì)算,提升整體吞吐 40%;
  • Warmup Stable Merge:通過合并檢查點(diǎn)替代傳統(tǒng)學(xué)習(xí)率衰減,讓超大模型的穩(wěn)定訓(xùn)練成為可能。

這些系統(tǒng)堆疊,讓 1T 參數(shù)規(guī)模的訓(xùn)練真正“落地”。 也就是說,Ling 2.0 不只是一個模型,更是一套 “可復(fù)用的萬億級訓(xùn)練系統(tǒng)棧”。

六、結(jié)果與啟示:稀疏,不等于妥協(xié)

最終評測顯示:

  • Ling Mini 2.0(16B,總參數(shù))可匹敵 7B-8B 稠密模型;
  • Ling Flash 2.0(100B,總參數(shù))保持 1/32 激活,表現(xiàn)穩(wěn)定;
  • Ling 1T(1 萬億參數(shù))在 128K 上下文下展現(xiàn)出強(qiáng)大的邏輯與數(shù)學(xué)推理能力。

更關(guān)鍵的是——這些性能的提升并非來自增加算力,而是源自稀疏激活、科學(xué)架構(gòu)選擇和高效系統(tǒng)工程的協(xié)同作用。

螞蟻集團(tuán)的 Ling 2.0 向業(yè)界傳遞了一個清晰信號:

大模型不一定要更“密”,也可以更“聰明”。

未來,當(dāng)其他機(jī)構(gòu)還在比拼顯卡堆疊時,這類“固定稀疏+推理優(yōu)先”的架構(gòu),或許會成為更主流的道路。

從“更大”到“更聰明”:螞蟻集團(tuán)推出 Ling 2.0,大模型推理進(jìn)入“稀疏智能時代”-AI.x社區(qū)

結(jié)語:推理時代,模型不再靠堆料取勝

從 GPT 到 Claude,再到如今的 Ling 2.0,我們正在見證一個重要的轉(zhuǎn)折點(diǎn): 模型的競爭,不再是誰更大,而是誰更會“思考”。

Ling 2.0 的出現(xiàn),標(biāo)志著中國團(tuán)隊(duì)在超大模型工程、推理能力建模與訓(xùn)練體系化優(yōu)化上的全面突破。 它不僅是一個模型,更像是一個信號——未來的智能,不在算力極限,而在結(jié)構(gòu)智慧。

?本文轉(zhuǎn)載自????Halo咯咯???    作者:基咯咯

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦