基于閃電注意力機(jī)制，創(chuàng)新高效開源大模型

2025-07-16 10:15:51

MiniMax開源了基于閃電注意力機(jī)制的專家混合模型Minimax。

從數(shù)學(xué)競賽、編程到自然語言處理，通過大規(guī)模的強(qiáng)化學(xué)習(xí)的模型正不斷提升其推理能力。但傳統(tǒng)的Transformer架構(gòu)由于其注意力機(jī)制的二次計(jì)算復(fù)雜度，在處理長文本和復(fù)雜推理任務(wù)時面臨著效率瓶頸。

盡管有研究提出了多種改進(jìn)方法，如稀疏注意力、線性注意力等，但這些方法在大規(guī)模推理模型中的應(yīng)用效果尚未得到充分驗(yàn)證，大多數(shù)領(lǐng)先的模型仍然依賴于傳統(tǒng)的注意力設(shè)計(jì)。

所以，MiniMax開源了基于閃電注意力機(jī)制的專家混合模型Minimax。

開源地址：https://github.com/MiniMax-AI/MiniMax-M1

在架構(gòu)方面，MiniMax-M1總參數(shù)為4560億，459億參數(shù)處于激活狀態(tài)，包含32個專家。其注意力設(shè)計(jì)采用混合模式，每七個配備閃電注意力機(jī)制的Transnormer塊后跟隨一個帶有Softmax注意力的Transformer塊。

這種設(shè)計(jì)從理論上支持推理長度高效擴(kuò)展至數(shù)十萬token，例如，在生成長度為10萬token時，相比DeepSeek R1僅消耗25%的FLOPs，顯著降低了計(jì)算成本。同時，模型原生支持100萬token的上下文長度，是DeepSeek R1的8倍，遠(yuǎn)超當(dāng)前所有開源權(quán)重的大型推理模型，為長文本處理和深度推理提供了基礎(chǔ)。

創(chuàng)新模塊方面，MiniMax-M1的核心突破體現(xiàn)在注意力機(jī)制和強(qiáng)化學(xué)習(xí)算法的優(yōu)化。閃電注意力機(jī)制作為線性注意力的一種I/O感知實(shí)現(xiàn)，通過減少傳統(tǒng)softmax注意力的二次計(jì)算復(fù)雜度，實(shí)現(xiàn)了測試時計(jì)算的高效擴(kuò)展。

該機(jī)制不僅在推理階段提升效率，還為強(qiáng)化學(xué)習(xí)訓(xùn)練提供了天然優(yōu)勢，配合混合MoE架構(gòu)，使得模型在處理長序列時的計(jì)算量增長更接近線性，而非傳統(tǒng)架構(gòu)的指數(shù)級增長。

另一關(guān)鍵創(chuàng)新是CISPO算法，這是一種專為提升強(qiáng)化學(xué)習(xí)效率設(shè)計(jì)的新型算法。CISPO放棄了信任區(qū)域約束，轉(zhuǎn)而對重要性采樣權(quán)重進(jìn)行裁剪，確保所有token都能參與梯度計(jì)算，避免了傳統(tǒng)PPO/GRPO中因裁剪token更新導(dǎo)致的關(guān)鍵推理節(jié)點(diǎn)丟失問題。

例如，在基于Qwen2.5-32B模型的對照實(shí)驗(yàn)中，CISPO相比DAPO實(shí)現(xiàn)了2倍的速度提升，且在相同訓(xùn)練步數(shù)下性能優(yōu)于GRPO和DAPO，有效穩(wěn)定了訓(xùn)練過程并加速了模型收斂。

在訓(xùn)練框架上，MiniMax-M1結(jié)合混合注意力與CISPO算法，實(shí)現(xiàn)了高效的強(qiáng)化學(xué)習(xí)擴(kuò)展。模型在512塊H800 GPU上僅用三周完成全RL訓(xùn)練，租賃成本約53.47萬美元。

訓(xùn)練數(shù)據(jù)涵蓋從傳統(tǒng)數(shù)學(xué)推理到基于沙盒的現(xiàn)實(shí)軟件工程環(huán)境等多元任務(wù)，其中可驗(yàn)證問題通過規(guī)則驗(yàn)證，非可驗(yàn)證問題則借助生成式獎勵模型提供反饋。此外，模型還通過持續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)強(qiáng)化基礎(chǔ)推理能力，注入鏈狀思維模式，為后續(xù)RL階段奠定基礎(chǔ)。

在處理長上下文訓(xùn)練時，MiniMax-M1采用分階段平滑擴(kuò)展上下文長度的策略，從32K逐步擴(kuò)展至100萬token，解決了混合Lightning架構(gòu)下訓(xùn)練長度激進(jìn)擴(kuò)展導(dǎo)致的梯度爆炸問題。同時，針對訓(xùn)練與推理內(nèi)核的精度不匹配問題，通過將LM輸出頭精度提升至FP32，使訓(xùn)練與推理概率的相關(guān)性從0.9左右提升至0.99以上，確保了獎勵增長的穩(wěn)定性。

針對優(yōu)化器超參數(shù)敏感性，調(diào)整AdamW的β?、β?和ε值，適應(yīng)模型訓(xùn)練中梯度幅度跨度大、相鄰迭代梯度相關(guān)性弱的特點(diǎn)，避免了訓(xùn)練不收斂的問題。

模型還引入基于token概率的重復(fù)檢測早期截?cái)鄼C(jī)制，當(dāng)連續(xù)3000個token的概率均高于0.99時終止生成，防止長序列生成中的重復(fù)循環(huán)導(dǎo)致模型不穩(wěn)定，提升了生成吞吐量。這些創(chuàng)新模塊的協(xié)同作用，使MiniMax-M1在復(fù)雜軟件工程、工具利用和長上下文任務(wù)中表現(xiàn)突出，成為下一代語言模型代理處理現(xiàn)實(shí)挑戰(zhàn)的堅(jiān)實(shí)基礎(chǔ)。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

AI 開源模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于閃電注意力機(jī)制，創(chuàng)新高效開源大模型