偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于閃電注意力機制,創(chuàng)新高效開源大模型

人工智能 新聞
MiniMax開源了基于閃電注意力機制的專家混合模型Minimax。

從數(shù)學競賽、編程到自然語言處理,通過大規(guī)模的強化學習的模型正不斷提升其推理能力。但傳統(tǒng)的Transformer架構(gòu)由于其注意力機制的二次計算復雜度,在處理長文本和復雜推理任務(wù)時面臨著效率瓶頸。

盡管有研究提出了多種改進方法,如稀疏注意力、線性注意力等,但這些方法在大規(guī)模推理模型中的應(yīng)用效果尚未得到充分驗證,大多數(shù)領(lǐng)先的模型仍然依賴于傳統(tǒng)的注意力設(shè)計。

所以,MiniMax開源了基于閃電注意力機制的專家混合模型Minimax。

圖片

開源地址:https://github.com/MiniMax-AI/MiniMax-M1

在架構(gòu)方面,MiniMax-M1總參數(shù)為4560億,459億參數(shù)處于激活狀態(tài),包含32個專家。其注意力設(shè)計采用混合模式,每七個配備閃電注意力機制的Transnormer塊后跟隨一個帶有Softmax注意力的Transformer塊。

這種設(shè)計從理論上支持推理長度高效擴展至數(shù)十萬token,例如,在生成長度為10萬token時,相比DeepSeek R1僅消耗25%的FLOPs,顯著降低了計算成本。同時,模型原生支持100萬token的上下文長度,是DeepSeek R1的8倍,遠超當前所有開源權(quán)重的大型推理模型,為長文本處理和深度推理提供了基礎(chǔ)。

創(chuàng)新模塊方面,MiniMax-M1的核心突破體現(xiàn)在注意力機制和強化學習算法的優(yōu)化。閃電注意力機制作為線性注意力的一種I/O感知實現(xiàn),通過減少傳統(tǒng)softmax注意力的二次計算復雜度,實現(xiàn)了測試時計算的高效擴展。

該機制不僅在推理階段提升效率,還為強化學習訓練提供了天然優(yōu)勢,配合混合MoE架構(gòu),使得模型在處理長序列時的計算量增長更接近線性,而非傳統(tǒng)架構(gòu)的指數(shù)級增長。

圖片

另一關(guān)鍵創(chuàng)新是CISPO算法,這是一種專為提升強化學習效率設(shè)計的新型算法。CISPO放棄了信任區(qū)域約束,轉(zhuǎn)而對重要性采樣權(quán)重進行裁剪,確保所有token都能參與梯度計算,避免了傳統(tǒng)PPO/GRPO中因裁剪token更新導致的關(guān)鍵推理節(jié)點丟失問題。

例如,在基于Qwen2.5-32B模型的對照實驗中,CISPO相比DAPO實現(xiàn)了2倍的速度提升,且在相同訓練步數(shù)下性能優(yōu)于GRPO和DAPO,有效穩(wěn)定了訓練過程并加速了模型收斂。

在訓練框架上,MiniMax-M1結(jié)合混合注意力與CISPO算法,實現(xiàn)了高效的強化學習擴展。模型在512塊H800 GPU上僅用三周完成全RL訓練,租賃成本約53.47萬美元。

訓練數(shù)據(jù)涵蓋從傳統(tǒng)數(shù)學推理到基于沙盒的現(xiàn)實軟件工程環(huán)境等多元任務(wù),其中可驗證問題通過規(guī)則驗證,非可驗證問題則借助生成式獎勵模型提供反饋。此外,模型還通過持續(xù)預訓練和監(jiān)督微調(diào)強化基礎(chǔ)推理能力,注入鏈狀思維模式,為后續(xù)RL階段奠定基礎(chǔ)。

在處理長上下文訓練時,MiniMax-M1采用分階段平滑擴展上下文長度的策略,從32K逐步擴展至100萬token,解決了混合Lightning架構(gòu)下訓練長度激進擴展導致的梯度爆炸問題。同時,針對訓練與推理內(nèi)核的精度不匹配問題,通過將LM輸出頭精度提升至FP32,使訓練與推理概率的相關(guān)性從0.9左右提升至0.99以上,確保了獎勵增長的穩(wěn)定性。

圖片

針對優(yōu)化器超參數(shù)敏感性,調(diào)整AdamW的β?、β?和ε值,適應(yīng)模型訓練中梯度幅度跨度大、相鄰迭代梯度相關(guān)性弱的特點,避免了訓練不收斂的問題。

模型還引入基于token概率的重復檢測早期截斷機制,當連續(xù)3000個token的概率均高于0.99時終止生成,防止長序列生成中的重復循環(huán)導致模型不穩(wěn)定,提升了生成吞吐量。這些創(chuàng)新模塊的協(xié)同作用,使MiniMax-M1在復雜軟件工程、工具利用和長上下文任務(wù)中表現(xiàn)突出,成為下一代語言模型代理處理現(xiàn)實挑戰(zhàn)的堅實基礎(chǔ)。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-06-28 08:04:43

語言模型應(yīng)用

2024-12-09 00:00:10

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2024-12-17 14:39:16

2022-03-25 11:29:04

視覺算法美團

2018-08-26 22:25:36

自注意力機制神經(jīng)網(wǎng)絡(luò)算法

2024-04-03 14:31:08

大型語言模型PytorchGQA

2021-03-23 14:44:54

RDP攻擊漏洞

2025-02-25 10:21:15

2024-09-19 10:07:41

2025-08-04 09:31:49

2022-01-29 08:26:45

數(shù)據(jù)泄露數(shù)據(jù)安全

2025-08-11 06:17:54

2025-02-25 09:40:00

模型數(shù)據(jù)AI

2024-04-17 12:55:05

谷歌模型注意力

2025-10-22 08:52:23

2024-12-05 16:19:14

2025-09-29 18:51:01

2022-07-21 14:55:24

算力
點贊
收藏

51CTO技術(shù)棧公眾號