0.5B以小搏大拿下端側(cè)模型新SOTA:4090可跑,長(zhǎng)文本處理5倍常規(guī)加速丨清華&面壁開源
端側(cè)性價(jià)比之王,清華大學(xué)和面壁智能團(tuán)隊(duì)開源新模型——
MiniCPM 4,提供8B、0.5B兩種參數(shù)規(guī)模,僅使用同級(jí)別開源模型22%的訓(xùn)練開銷,就達(dá)到了同級(jí)別最優(yōu)性能。
MiniCPM4-8B是開源首個(gè)開源的原生稀疏模型,5%的極高稀疏度加持,讓長(zhǎng)文本、深思考在端側(cè)真正跑起來。
在MMLU、CEval、MATH500、HumanEval等基準(zhǔn)測(cè)試中,以僅22%的訓(xùn)練開銷,性能比肩 Qwen-3-8B,超越Gemma-3-12B。
MiniCPM4-0.5B在性能上,也展現(xiàn)出以小博大——在MMLU、CEval、BBH、HumanEval等基準(zhǔn)測(cè)試中,MiniCPM4.0 -0.5B性能超越同級(jí)的Qwen-3-0.6B、Llama 3.2、Gemma3,并通過原生QAT技術(shù)實(shí)現(xiàn)幾乎不掉點(diǎn)的int4量化以及600Token/s的極速推理速度。
在常見端側(cè)芯片,比如Jetson AGX Orin與RTX 4090上,MiniCPM 4可實(shí)現(xiàn)長(zhǎng)文本處理的5倍常規(guī)加速與極限場(chǎng)景下的百倍加速。
目前團(tuán)隊(duì)已公開發(fā)布技術(shù)報(bào)告,該模型在模型架構(gòu)、推理系統(tǒng)、數(shù)據(jù)治理與訓(xùn)練算法四個(gè)層面進(jìn)行了系統(tǒng)級(jí)創(chuàng)新。
以下是技術(shù)詳情。
模型架構(gòu):InfLLM v2原生稀疏注意力模型
隨著大語言模型在長(zhǎng)上下文處理(例如DeepResearch、倉(cāng)庫級(jí)代碼理解與生成)和深度思考能力方面的廣泛應(yīng)用,模型理解和生成長(zhǎng)序列的需求變得愈發(fā)重要。
然而,自注意力機(jī)制高昂的計(jì)算和存儲(chǔ)開銷為在端側(cè)設(shè)備上高效處理長(zhǎng)文檔帶來了重大挑戰(zhàn)。為此,MiniCPM4中采用了一種高效稀疏注意力架構(gòu),InfLLM v2,在保持模型性能的同時(shí)實(shí)現(xiàn)高效的長(zhǎng)上下文處理。
面向不斷增長(zhǎng)的高效處理長(zhǎng)序列的需求,當(dāng)前許多研究致力于設(shè)計(jì)免訓(xùn)練的稀疏注意力機(jī)制,以動(dòng)態(tài)選擇相關(guān)的上下文詞元進(jìn)行長(zhǎng)上下文處理。
然而,這些訓(xùn)練方法由于稀疏性不夠理想,只能應(yīng)用于預(yù)填充加速階段。
最近,Kimi MoBA和DeepSeek NSA在預(yù)訓(xùn)練階段應(yīng)用稀疏注意力來提升稀疏注意力模型的性能。但是,MoBA采用查詢塊設(shè)計(jì),無法在解碼階段實(shí)現(xiàn)加速。
此外,根據(jù)團(tuán)隊(duì)的觀察,相鄰詞元之間的相關(guān)上下文通常差異很大。因此,強(qiáng)制相鄰標(biāo)記共享相同上下文可能導(dǎo)致次優(yōu)性能,同時(shí)注意力的稀疏性也無法得到改善。NSA引入了三種不同的注意力組件來捕獲長(zhǎng)距離信息,但這些額外的注意力組件會(huì)增加參數(shù)量,導(dǎo)致短序列的計(jì)算開銷增加,并使預(yù)訓(xùn)練階段的鍵值存儲(chǔ)成本增加三倍。
為解決以上問題,基于稀疏注意力模型InfLLM,MiniCPM4設(shè)計(jì)了一種可訓(xùn)練的稀疏注意力InfLLM v2,以降低預(yù)填充和解碼階段的計(jì)算和內(nèi)存訪問成本。
InfLLM v2不會(huì)為注意力層引入額外參數(shù),并在短序列處理中使用原始稠密注意力機(jī)制,因此短序列的推理速度不會(huì)受到影響。
此外,InfLLM v2設(shè)計(jì)了一種高效的Top-K上下文塊選擇方法,相比NSA可減少60%上下文選擇過程中的計(jì)算成本。
具體而言,在2024年2月,清華大學(xué)就提出了InfLLM算法。
傳統(tǒng)稠密注意力計(jì)算過程,每個(gè)詞元都需要與過往所有詞元進(jìn)行逐一的相關(guān)性計(jì)算,帶來了巨大的計(jì)算與訪存開銷。
因此,為避免逐詞元的計(jì)算與訪問,InfLLM提出將上下文進(jìn)行分塊分區(qū)域處理。
注意力層進(jìn)行計(jì)算之前,對(duì)每個(gè)查詢?cè)~元逐塊地進(jìn)行上下文相關(guān)性計(jì)算,并選取少量最相關(guān)的上下文塊參與最終的注意力計(jì)算。即實(shí)現(xiàn)了注意力層的智能化選擇機(jī)制,只對(duì)最有相關(guān)性的重點(diǎn)區(qū)域進(jìn)行注意力計(jì)算“抽查”。
InfLLM是一種免訓(xùn)練的動(dòng)態(tài)稀疏注意力機(jī)制,能夠被應(yīng)用于所有的Transformer架構(gòu)模型中實(shí)現(xiàn)長(zhǎng)文本推理加速。
MiniCPM4中對(duì)InfLLM 算法進(jìn)行進(jìn)一步的改進(jìn),實(shí)現(xiàn)了稀疏度更高、能夠同時(shí)加速預(yù)填充與解碼階段的原生稀疏注意力機(jī)制 InfLLM v2:
1)更精準(zhǔn)的上下文塊選擇算法:
在InfLLM中,每個(gè)上下文塊由少量代表元構(gòu)成單一的語義表示。InfLLM v2引入了細(xì)粒度語義核的概念,每個(gè)上下文塊由多個(gè)細(xì)粒度語義核構(gòu)成。查詢?cè)~元與上下文塊的相關(guān)性分?jǐn)?shù)為查詢?cè)~元與該上下文塊中包含的所有語義核相關(guān)性分?jǐn)?shù)最大值。該方法使得模型能夠更精準(zhǔn)地選擇上下文塊。
2)更細(xì)粒度的查詢?cè)~元分組:
InfLLM在預(yù)填充階段將多個(gè)查詢?cè)~元分成一組,使該組內(nèi)所有查詢?cè)~元選擇相同的上下文塊進(jìn)行注意力計(jì)算。該方法會(huì)造成模型訓(xùn)練與推理的不統(tǒng)一。InfLLM v2中采用了更細(xì)粒度的查詢?cè)~元分組——要求Grouped Query Attention中每組查詢頭共享相同的上下文塊。該劃分在保證了底層算子高效實(shí)現(xiàn)的同時(shí),提升了模型上下文選擇的準(zhǔn)確性。
3)更高效的算子實(shí)現(xiàn):
為了InfLLM v2能夠在訓(xùn)練與推理過程中充分發(fā)揮其理論加速優(yōu)勢(shì),MiniCPM4開發(fā)并開源了InfLLM v2的高效訓(xùn)練與推理算子。同時(shí),為了能夠快速地選取TopK上下文塊,MiniCPM4中提出了一種高效的LogSumExp估計(jì)算法。相比于DeepSeek NSA算法,MiniCPM4中采用的TopK上下文選擇方法,能夠節(jié)省60%的計(jì)算開銷。
推理高效:端側(cè)高性能推理與部署框架
由于移動(dòng)設(shè)備和個(gè)人電腦等端側(cè)設(shè)備在計(jì)算和存儲(chǔ)容量方面存在嚴(yán)格限制,如何在有限的硬件資源下實(shí)現(xiàn)大語言模型的高效推理已成為關(guān)鍵技術(shù)挑戰(zhàn)。
為此,MiniCPM4中構(gòu)建了輕量化高效的CUDA推理框架CPM.cu與跨平臺(tái)部署框架ArkInfer。
CPM.cu:輕量化高效CUDA推理框架
為了能夠讓MiniCPM4充分釋放速度潛力,團(tuán)隊(duì)開發(fā)了一個(gè)專為端側(cè)NVIDIA芯片優(yōu)化的輕量化推理框架,CPM.cu。
除了靜態(tài)內(nèi)存管理和算子融合等基礎(chǔ)功能外,還實(shí)現(xiàn)了高效的投機(jī)采樣、前綴敏感的量化算法,并為InfLLM v2集成了高效的稀疏注意力算子。
FR-Spec:面向草稿模型的詞表剪枝
投機(jī)采樣是加速大模型推理速度的關(guān)鍵技術(shù)之一。
投機(jī)采樣采用“草稿-驗(yàn)證”的范式,由輕量化的草稿模型生成候選詞元序列,然后由目標(biāo)大模型并行驗(yàn)證。
通過設(shè)計(jì)針對(duì)樹狀投機(jī)采樣的高效注意力算子并實(shí)現(xiàn)驗(yàn)證過程的融合算子,團(tuán)隊(duì)極大優(yōu)化了投機(jī)采樣算法的速度。
基于該框架,團(tuán)隊(duì)發(fā)現(xiàn)端側(cè)模型投機(jī)采樣的效率瓶頸在于草稿模型的語言模型輸出頭。
為解決這一問題,他們提出了FR-Spec,通過基于詞元出現(xiàn)頻率對(duì)草稿模型的輸出詞表進(jìn)行剪枝,同時(shí)保留目標(biāo)模型的完整詞表以保持其生成正確性。
FR-Spec利用了自然語言中詞元頻率分布的長(zhǎng)尾特性——少數(shù)高頻詞元承載了絕大部分的語言信息。
通過將草稿模型的搜索范圍限定在按頻率排序的核心詞元子集內(nèi),F(xiàn)R-Spec成功將語言模型的輸出頭的計(jì)算開銷降低了75%,同時(shí)嚴(yán)格保證了驗(yàn)證過程的數(shù)學(xué)等價(jià)性和最終輸出分布的準(zhǔn)確性。
相比于原始模型,F(xiàn)R-Spec可以帶來2+倍的生成加速。
P-GPTQ:前綴敏感的模型訓(xùn)練后量化
隨著大模型參數(shù)規(guī)模的不斷擴(kuò)大,模型量化已成為實(shí)現(xiàn)端側(cè)部署的關(guān)鍵技術(shù)。
通過將模型參數(shù)與激活從高精度浮點(diǎn)數(shù)轉(zhuǎn)換為低精度整數(shù)表示,量化技術(shù)能夠顯著降低模型的存儲(chǔ)需求,使大模型能夠在資源受限的端側(cè)設(shè)備上高效運(yùn)行。
針對(duì)端側(cè)部署中權(quán)重和激活同時(shí)量化的需求,MiniCPM4開發(fā)了前綴感知的GPTQ(P-GPTQ)方法。
該方法基于一個(gè)關(guān)鍵觀察:大模型在初始詞元位置存在顯著的激活異常值,這些異常值不僅影響激活的量化質(zhì)量,還會(huì)在權(quán)重量化校準(zhǔn)過程中引入統(tǒng)計(jì)偏差。
P-GPTQ的核心思想是在量化過程的Hessian矩陣計(jì)算時(shí)排除初始詞元的干擾。
實(shí)證分析發(fā)現(xiàn),大模型初始位置的激活幅度比后續(xù)詞元大10倍,將嚴(yán)重影響協(xié)方差運(yùn)算。MiniCPM4采用位置感知的校準(zhǔn)策略,僅使用從第4個(gè)位置開始的穩(wěn)定詞元進(jìn)行量化參數(shù)計(jì)算,有效消除了初始詞元帶來的統(tǒng)計(jì)偏差。
該方法與現(xiàn)有量化技術(shù)(如Quarot旋轉(zhuǎn)方法和AWQ平滑方法)完全兼容,可無縫集成到現(xiàn)有量化流水線中。
實(shí)驗(yàn)結(jié)果表明,在INT4量化設(shè)置下,P-GPTQ相比其他量化方法取得了最優(yōu)性能,顯著減少了相對(duì)于FP16基線的性能退化。
投機(jī)采樣、量化算法、長(zhǎng)文本處理算法的有機(jī)融合
在MiniCPM4中,團(tuán)隊(duì)使用了多種加速算法。為了能夠使得投機(jī)采樣、量化、長(zhǎng)文本處理算法能夠有機(jī)融合,團(tuán)隊(duì)系統(tǒng)性地研究了加速算法的融合方法。
- 目標(biāo)模型量化:在前序的研究SpecMQuant中,團(tuán)隊(duì)發(fā)現(xiàn)量化會(huì)改變投機(jī)采樣的最優(yōu)配置策略。當(dāng)目標(biāo)模型使用W4A16量化后,由于內(nèi)存訪問瓶頸的緩解,驗(yàn)證時(shí)間相對(duì)于解碼時(shí)間的增長(zhǎng)更快,因此需要使用更少的草稿詞元來維持最佳的加速比。這一發(fā)現(xiàn)為量化模型的投機(jī)采樣提供了重要的配置指導(dǎo)。
- 草稿模型量化:團(tuán)隊(duì)進(jìn)一步對(duì)草稿模型應(yīng)用量化技術(shù),使草稿生成過程更加高效。針對(duì)傳統(tǒng)量化方法在草稿模型上導(dǎo)致接受率大幅下降的問題,采用了量化感知的后訓(xùn)練方法,成功保持了投機(jī)采樣過程的平均接受長(zhǎng)度。
- 長(zhǎng)上下文場(chǎng)景優(yōu)化:對(duì)于長(zhǎng)上下文應(yīng)用,實(shí)現(xiàn)了InfLLM v2稀疏注意力內(nèi)核來支持目標(biāo)模型的高效處理,并通過構(gòu)建局部注意力掩碼和位打包技術(shù)支持樹形草稿驗(yàn)證。同時(shí),為草稿模型引入滑動(dòng)窗口注意力機(jī)制,既最大程度減少了首詞元延遲的影響,又提高了草稿生成的準(zhǔn)確性,有效解決了長(zhǎng)上下文場(chǎng)景下的性能瓶頸。
ArkInfer:跨平臺(tái)部署系統(tǒng)
除了有限的計(jì)算資源挑戰(zhàn)外,端側(cè)芯片的碎片化是另一個(gè)重大障礙。
芯片碎片化要求每次發(fā)布新模型時(shí),都需要將模型適配到多個(gè)平臺(tái)和芯片類型,導(dǎo)致復(fù)雜的適配和部署過程,這帶來了巨大的工程工作量。
這一問題的核心在于解耦和高效的代碼復(fù)用:如何讓單一的技術(shù)開發(fā)和工程成果自動(dòng)應(yīng)用于多個(gè)平臺(tái)?
為了解決這些痛點(diǎn),團(tuán)隊(duì)提出了ArkInfer,一個(gè)新穎的跨平臺(tái)部署系統(tǒng)。ArkInfer旨在通過提供高效的推理速度并作為各種模型應(yīng)用的多功能跨平臺(tái)兼容層,來克服端側(cè)芯片的碎片化問題。
為此,團(tuán)隊(duì)引入了三個(gè)關(guān)鍵解決方案:
1)跨平臺(tái)兼容的架構(gòu)設(shè)計(jì);
2)可復(fù)用且高效的推測(cè)采樣與約束解碼方案;
3)可擴(kuò)展的模型庫前端。
跨平臺(tái)兼容的架構(gòu)設(shè)計(jì)
ArkInfer的架構(gòu)設(shè)計(jì)從根本上受到在碎片化的端側(cè)硬件環(huán)境中實(shí)現(xiàn)統(tǒng)一、高效部署需求的驅(qū)動(dòng)。為了支持如聯(lián)發(fā)科(MediaTek)、英偉達(dá)(Nvidia)、高通(Qualcomm)和瑞芯微(Rockchip)等多樣化平臺(tái)(每個(gè)平臺(tái)都有其原生推理框架,例如NeuroPilot、Genie、RK-LLM、TensorRT-LLM以及用于CPU的llama.cpp),ArkInfer將這些框架無縫集成為可適配的后端。
ArkInfer的核心實(shí)現(xiàn)了一個(gè)強(qiáng)大的抽象層。
該層包含一個(gè)適配器系統(tǒng),能夠規(guī)范化不同后端的各種API,為上層組件提供一致的接口。這確保了無論底層硬件或框架如何,都能實(shí)現(xiàn)無縫交互。通過統(tǒng)一的Tensor結(jié)構(gòu)進(jìn)一步簡(jiǎn)化了數(shù)據(jù)處理,該結(jié)構(gòu)封裝了不同的數(shù)據(jù)類型和維度,確保在整個(gè)系統(tǒng)中進(jìn)行一致的操作。對(duì)于LLM效率至關(guān)重要的KV緩存管理器,則智能地編排歷史狀態(tài)的存儲(chǔ)和檢索,優(yōu)化后續(xù)詞元的生成。
該架構(gòu)的核心組件是一個(gè)抽象執(zhí)行器接口,它管理所有模型相關(guān)流程的執(zhí)行,其輸入和輸出由基礎(chǔ)張量類型定義。這種設(shè)計(jì)一方面支持了執(zhí)行器粒度的異構(gòu)調(diào)度,使團(tuán)隊(duì)能夠充分利用多樣化的計(jì)算資源。
此外,通過追蹤執(zhí)行器的執(zhí)行過程,團(tuán)隊(duì)可以跟蹤數(shù)據(jù)和操作的流程,這極大地促進(jìn)了調(diào)試和性能分析,特別是對(duì)于端側(cè)適配中常見的痛點(diǎn)——關(guān)鍵階段精度對(duì)齊問題。
可復(fù)用且高效的推測(cè)采樣與約束解碼方案
高效的LLM推理技術(shù)通常分為三類:量化、稀疏性和加速自回歸過程。
前兩者(如GPTQ、MoE和InfLLM v2)通常與特定硬件或算子實(shí)現(xiàn)深度耦合,而像推測(cè)采樣(Speculative Decoding)和約束解碼(Constrained Decoding)這樣的加速技術(shù)則與底層硬件的耦合相對(duì)松散。
這種解耦使團(tuán)隊(duì)能夠在部署框架中僅做一次實(shí)現(xiàn),并在多種芯片架構(gòu)上啟用它們。
因此,ArkInfer集成了推測(cè)采樣和約束解碼功能。團(tuán)隊(duì)的設(shè)計(jì)理念核心是設(shè)計(jì)上的通用性,易于集成到現(xiàn)有的執(zhí)行后端中。集成了:
- 加速推測(cè)解碼(Accelerated Speculative Decoding):為了提升推理速度,ArkInfer集成了基于BiTA算法的高級(jí)推測(cè)解碼機(jī)制。選擇此技術(shù)是因?yàn)樗茉跓o需額外草稿模型或特殊架構(gòu)改動(dòng)的情況下顯著提升性能,簡(jiǎn)化了在資源受限的端側(cè)設(shè)備上的部署,同時(shí)保持高輸出質(zhì)量。
- 約束解碼(Constrained Decoding):為確保輸出符合特定格式(如JSON或SQL),ArkInfer采用了強(qiáng)大的約束解碼方法,利用了Guidance框架。選擇此方法是因?yàn)槠湓趶?qiáng)制執(zhí)行結(jié)構(gòu)遵從性和提供確定性響應(yīng)方面具有卓越能力,這對(duì)于需要結(jié)構(gòu)化或精確輸出的應(yīng)用至關(guān)重要。
可擴(kuò)展的模型庫前端
在端側(cè)設(shè)備上部署模型的一個(gè)關(guān)鍵障礙源于不同廠商模型文件的碎片化。不同的芯片制造商通常要求各自獨(dú)特的格式和要求,導(dǎo)致部署流程復(fù)雜且低效。
團(tuán)隊(duì)認(rèn)為,最優(yōu)的方法是維護(hù)一個(gè)集中式的模型庫,提供廣泛選擇的、預(yù)先適配好的模型。
為此,團(tuán)隊(duì)為ArkInfer設(shè)計(jì)了一個(gè)可擴(kuò)展的、跨平臺(tái)的前端。該接口允許用戶直接訪問和執(zhí)行團(tuán)隊(duì)模型庫中的各種模型,從而顯著簡(jiǎn)化了MiniCPM及其他模型在多樣化設(shè)備上的部署。
除了加速模型庫的增長(zhǎng)和維護(hù),還創(chuàng)建了一個(gè)自動(dòng)化模型轉(zhuǎn)換流水線。該系統(tǒng)能高效地將模型轉(zhuǎn)換為不同平臺(tái)所需的格式,極大地加速了團(tuán)隊(duì)模型庫的持續(xù)開發(fā)。
數(shù)據(jù)高效:高能力密度數(shù)據(jù)篩選與合成
隨著大模型的快速發(fā)展,數(shù)據(jù)質(zhì)量已成為提升模型性能的關(guān)鍵因素之一。
因此,為了能夠提升大模型的能力密度,團(tuán)隊(duì)開展了大量的數(shù)據(jù)工程,從而使得MiniCPM4能夠僅使用8T詞元就能夠達(dá)到與用了36T詞元的Qwen3相當(dāng)?shù)男Ч?/span>
UltraClean:高能力密度預(yù)訓(xùn)練數(shù)據(jù)篩選
當(dāng)前預(yù)訓(xùn)練數(shù)據(jù)的篩選方法可被分為兩類:
一類是基于規(guī)則的篩選,通過人為制定的規(guī)則來挑選出高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù),該方法覆蓋面有限,僅能夠過濾少量的低質(zhì)量樣本。一類是基于模型分類器的篩選,通過訓(xùn)練一個(gè)數(shù)據(jù)質(zhì)量分類器來對(duì)數(shù)據(jù)進(jìn)行篩選。
利用基于模型的分類器來過濾數(shù)據(jù)這類方法,面臨兩個(gè)主要挑戰(zhàn):
1)缺乏高效的數(shù)據(jù)驗(yàn)證策略,難以及時(shí)反饋數(shù)據(jù)質(zhì)量;
2)用于訓(xùn)練分類器的種子數(shù)據(jù)選擇缺乏明確標(biāo)準(zhǔn),嚴(yán)重依賴人工經(jīng)驗(yàn),引入主觀偏差。
為解決這些問題,MiniCPM4中提出了一種高知識(shí)密度數(shù)據(jù)的篩選方法。該方法中依賴高效的數(shù)據(jù)驗(yàn)證策略,旨在以最小的計(jì)算成本快速評(píng)估數(shù)據(jù)對(duì)大模型訓(xùn)練的實(shí)際影響。
基于此,團(tuán)隊(duì)基于高質(zhì)量種子數(shù)據(jù)應(yīng)有助于提升大模型性能的假設(shè),優(yōu)化了種子數(shù)據(jù)中正負(fù)樣本的選擇過程,并構(gòu)建了高效的數(shù)據(jù)過濾流程。
工作流程:
整體工作流程如上圖所示。團(tuán)隊(duì)首先應(yīng)用高效驗(yàn)證策略評(píng)估初始候選種子樣本池,選擇能顯著改善訓(xùn)練性能的高質(zhì)量數(shù)據(jù)作為分類器訓(xùn)練的正樣本種子。
同時(shí),從原始數(shù)據(jù)池中隨機(jī)抽取負(fù)樣本,構(gòu)建平衡的訓(xùn)練集,訓(xùn)練數(shù)據(jù)質(zhì)量分類器。
為了更高效地評(píng)估分類器的實(shí)際效果,還對(duì)其過濾結(jié)果應(yīng)用高效驗(yàn)證策略。
基于驗(yàn)證反饋,迭代更新高質(zhì)量種子池,動(dòng)態(tài)調(diào)整正負(fù)樣本比例,并微調(diào)分類器的訓(xùn)練超參數(shù),從而持續(xù)優(yōu)化數(shù)據(jù)過濾策略。只有在高效驗(yàn)證下表現(xiàn)穩(wěn)定可靠的分類器才會(huì)用于大規(guī)模數(shù)據(jù)過濾和后續(xù)模型訓(xùn)練。
高效驗(yàn)證策略:
在有限的詞元訓(xùn)練預(yù)算下,大模型訓(xùn)練中數(shù)據(jù)帶來的性能差異往往比較微小,而訓(xùn)練過程固有的不穩(wěn)定性也進(jìn)一步削弱了驗(yàn)證結(jié)果的可靠性。
有效的預(yù)訓(xùn)練數(shù)據(jù)驗(yàn)證通常需要至少100B詞元。在1B參數(shù)的大語言模型上訓(xùn)練100B詞元需要約1200個(gè)GPU小時(shí),相當(dāng)于64個(gè)GPU連續(xù)運(yùn)行近19小時(shí)。
如此高的計(jì)算成本使得在高質(zhì)量數(shù)據(jù)分類器的迭代開發(fā)過程中進(jìn)行高效驗(yàn)證變得不切實(shí)際。
為解決這一問題,團(tuán)隊(duì)提出了一種高效驗(yàn)證策略。
具體而言,他們訓(xùn)練一個(gè)10億參數(shù)的大模型,總計(jì)覆蓋1.1萬億詞元。這包括1T詞元的穩(wěn)定訓(xùn)練階段和額外100B詞元的退火訓(xùn)練階段。
在此基礎(chǔ)上,團(tuán)隊(duì)引入兩階段退火訓(xùn)練過程,首先使用原始數(shù)據(jù)進(jìn)行 90B 詞元的退火訓(xùn)練,并進(jìn)一步在10B詞元上進(jìn)行二階段退火訓(xùn)練。
二階段退火訓(xùn)練中30%的數(shù)據(jù)是待驗(yàn)證的新數(shù)據(jù),剩余70%使用原始的數(shù)據(jù)。與1200個(gè)GPU小時(shí)的完整訓(xùn)練成本相比,該策略將訓(xùn)練時(shí)間縮短至約110小時(shí)(即在32個(gè)GPU上少于3.5小時(shí)),顯著降低了計(jì)算需求,大幅提升了數(shù)據(jù)過濾流程的效率和可迭代性。
最終,利用該數(shù)據(jù)篩選策略,基于FineWeb數(shù)據(jù),篩選得到大規(guī)模高質(zhì)量數(shù)據(jù)UltraFineWeb,包含有1T+高質(zhì)量的中英文預(yù)訓(xùn)練語料。其中預(yù)訓(xùn)練結(jié)果對(duì)比如下圖所示。
基于UltraFineWeb訓(xùn)練得到的模型,能夠取得顯著的下游任務(wù)性能提升。
UltraChat-v2:高能力密度有監(jiān)督微調(diào)數(shù)據(jù)合成
為了全面提升大語言模型的核心能力,團(tuán)隊(duì)構(gòu)建了一個(gè)針對(duì)任務(wù)能力的數(shù)據(jù)合成框架。
該框架以核心能力維度為導(dǎo)向,系統(tǒng)性地生成涵蓋多元技能的高質(zhì)量問答數(shù)據(jù),為后訓(xùn)練階段提供更加精準(zhǔn)和結(jié)構(gòu)化的學(xué)習(xí)信號(hào)。
團(tuán)隊(duì)圍繞五個(gè)關(guān)鍵技能領(lǐng)域精心設(shè)計(jì)了合成數(shù)據(jù)生成流程:知識(shí)應(yīng)用、邏輯推理、指令遵循、長(zhǎng)上下文處理和工具使用。
每類數(shù)據(jù)都深度適配其目標(biāo)技能的輸入輸出特征和認(rèn)知要求,生成多樣化、任務(wù)驅(qū)動(dòng)且具備良好遷移性的訓(xùn)練樣本。
學(xué)習(xí)高效:多維度訓(xùn)練策略優(yōu)化
大模型的規(guī)模法則表明,模型性能隨著訓(xùn)練量的增加而提升。降低模型訓(xùn)練開銷,是持續(xù)推動(dòng)模型不斷Scaling的關(guān)鍵。
在MiniCPM4中,團(tuán)隊(duì)從預(yù)訓(xùn)練訓(xùn)練前開展超參實(shí)驗(yàn)、預(yù)訓(xùn)練中實(shí)現(xiàn)工程集成與優(yōu)化、后訓(xùn)練強(qiáng)化進(jìn)行框架效率優(yōu)化、后訓(xùn)練極致量化進(jìn)行存儲(chǔ)優(yōu)化四個(gè)方面,實(shí)現(xiàn)了大模型的訓(xùn)練高效。
ModelTunnel v2:更高效的預(yù)訓(xùn)練策略搜索
訓(xùn)練大語言模型需要巨大的計(jì)算成本,因此在最小化計(jì)算資源消耗的同時(shí)最大化模型性能成為一個(gè)關(guān)鍵挑戰(zhàn)。
在MiniCPM1模型訓(xùn)練中,團(tuán)隊(duì)基于Predictable Scaling技術(shù)構(gòu)建了第一版模型風(fēng)洞ModelTunnel。這使其能夠在小模型上搜索訓(xùn)練策略并將其遷移到大模型訓(xùn)練中,從而降低為大模型確定最優(yōu)訓(xùn)練配置的實(shí)驗(yàn)成本。
在MiniCPM4的訓(xùn)練過程中,團(tuán)隊(duì)復(fù)用了ModelTunnel中的相關(guān)配置,并開發(fā)了ModelTunnel v2,該版本在搜索精度與效率方面有所改進(jìn),并對(duì)搜索結(jié)果的有效性提供了系統(tǒng)性驗(yàn)證。
(1)更可靠的觀測(cè)指標(biāo):
在MiniCPM-1中,團(tuán)隊(duì)使用模型在開源預(yù)訓(xùn)練語料庫上的語言模型損失作為性能指標(biāo)。
然而,預(yù)訓(xùn)練數(shù)據(jù)集上的損失無法準(zhǔn)確反映模型在下游任務(wù)上的實(shí)際性能。由于涌現(xiàn)現(xiàn)象的存在,風(fēng)洞中訓(xùn)練的小模型參數(shù)量與數(shù)據(jù)量均有限,無法在下游任務(wù)上展現(xiàn)出非隨機(jī)的性能表現(xiàn)。
因此,團(tuán)隊(duì)構(gòu)建了ScalingBench評(píng)測(cè)集,建立了下游任務(wù)驗(yàn)證集上推理步驟與答案的條件損失,與下游任務(wù)性能之間的函數(shù)關(guān)系。因此該指標(biāo)能夠更準(zhǔn)確地預(yù)測(cè)模型的實(shí)際表現(xiàn)。
(2)搜索效果驗(yàn)證:
利用可預(yù)測(cè)縮放進(jìn)行超參數(shù)搜索是降低實(shí)驗(yàn)成本同時(shí)最大化模型性能的關(guān)鍵途徑,該方向近年來受到學(xué)術(shù)界與業(yè)界的廣泛關(guān)注。
相關(guān)研究主要分為基于架構(gòu)的超參數(shù)遷移和數(shù)據(jù)驅(qū)動(dòng)的超參數(shù)遷移兩類。
在MiniCPM系列模型中,團(tuán)隊(duì)采用μP架構(gòu),該方法允許超參數(shù)在不同模型規(guī)模間遷移。
在MiniCPM4 中,團(tuán)隊(duì)比較了μP架構(gòu)與數(shù)據(jù)驅(qū)動(dòng)的超參數(shù)遷移方法的性能差異。
實(shí)驗(yàn)結(jié)果顯示,兩種方法在最終模型的性能上沒有顯著差異,但數(shù)據(jù)驅(qū)動(dòng)的超參數(shù)遷移需要開展大量的搜索實(shí)驗(yàn),如StepLaw需要百萬的GPU機(jī)時(shí)進(jìn)行超參數(shù)搜索。而MiniCPM系列模型的架構(gòu),只需要32個(gè)GPU機(jī)時(shí)即可以搜索得到最優(yōu)參數(shù),大幅降低了超參數(shù)搜索的開銷。
Chunk-wise Rollout:負(fù)載均衡的強(qiáng)化學(xué)習(xí)
近期研究表明,強(qiáng)化學(xué)習(xí)可以增強(qiáng)大模型的深度推理能力。然而,直接將強(qiáng)化學(xué)習(xí)應(yīng)用于端側(cè)基座模型往往導(dǎo)致訓(xùn)練不穩(wěn)定和收斂緩慢。
因此,團(tuán)隊(duì)首先使用長(zhǎng)思維鏈數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行有監(jiān)督微調(diào)。這一步驟為模型提供了基本的推理能力,并為強(qiáng)化學(xué)習(xí)提供了更好的初始化。
隨后,他們繼續(xù)使用強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型性能。
考慮到強(qiáng)化學(xué)習(xí)算法極大受限于模型采樣生成的步驟,為了提高訓(xùn)練效率,團(tuán)隊(duì)精心篩選了訓(xùn)練數(shù)據(jù)并引入了分塊推理策略,通過優(yōu)化GPU利用率和減少計(jì)算浪費(fèi)顯著加速了強(qiáng)化學(xué)習(xí)過程。
為了減輕推理階段冗長(zhǎng)軌跡導(dǎo)致的推理吞吐量下降,團(tuán)隊(duì)提出了分塊推理策略以最大化計(jì)算資源利用率。該策略的工作流程包含三個(gè)步驟:
(1)策略模型為所有輸入樣本生成固定分塊長(zhǎng)度的軌跡。
(2)已完全完成或達(dá)到最大生成長(zhǎng)度的軌跡用于訓(xùn)練,對(duì)于未完成的軌跡,計(jì)算并存儲(chǔ)其對(duì)數(shù)概率以供后續(xù)重要性采樣使用。
(3)未完成的軌跡與下一批新輸入合并,然后流程返回步驟(1)。
通過采用這一策略,團(tuán)隊(duì)顯著提高了GPU利用率,有效減少了單次推理迭代中過長(zhǎng)輸出造成的計(jì)算浪費(fèi)。
實(shí)驗(yàn)結(jié)果表明,MiniCPM4中提出的分塊推理策略能夠節(jié)省70%的采樣時(shí)間,每個(gè)訓(xùn)練步耗費(fèi)的時(shí)間減少42%。
BitCPM:極致的三值量化
部署大模型面臨高計(jì)算和內(nèi)存需求的挑戰(zhàn)。模型量化通過降低參數(shù)精度來解決這一問題,實(shí)現(xiàn)高效推理并減少資源消耗。極低比特量化近期備受關(guān)注并展現(xiàn)出巨大潛力。
本文介紹了一種高效的量化感知訓(xùn)練方法來構(gòu)建三值模型BitCPM4,證明了將高精度大模型適配為極低比特版本的可行性。
團(tuán)隊(duì)訓(xùn)練了兩個(gè)規(guī)模的三值模型:BitCPM4-0.5B和1B參數(shù)模型,整個(gè)訓(xùn)練過程使用了350B 詞元。
實(shí)驗(yàn)結(jié)果顯示,在0.5B參數(shù)級(jí)別,BitCPM4-0.5B在知識(shí)相關(guān)任務(wù)上表現(xiàn)優(yōu)異,超過了Qwen3 0.6B全精模型;在1B參數(shù)級(jí)別,BitCPM4-1B的性能與2B參數(shù)模型相當(dāng)。
由于所需詞元數(shù)量?jī)H為同類方法的10%,證明了團(tuán)隊(duì)的方法能夠以更低訓(xùn)練成本提供具有競(jìng)爭(zhēng)力的結(jié)果。
核心性能表現(xiàn)
效率評(píng)測(cè)
為了能夠?qū)崿F(xiàn)極致的推理加速,在MiniCPM4中,團(tuán)隊(duì)構(gòu)建了稀疏注意力機(jī)制 InfLLM v2,使用了投機(jī)采樣算法 FR-Spec,提出了前綴敏感的量化算法,并搭建了自研的推理框架,從而實(shí)現(xiàn)在端側(cè)芯片上的極致提速。
為了驗(yàn)證團(tuán)隊(duì)所提出算法的有效性,在本節(jié)中,團(tuán)隊(duì)在兩款典型的端側(cè)芯片上測(cè)試模型的效率。
具體而言,選定了兩款端側(cè)芯片:Jetson AGX Orin 和 RTX 4090。其中前者被廣泛應(yīng)用于車載芯片、機(jī)器人等端側(cè)場(chǎng)景,而后者更多是PC場(chǎng)景下的計(jì)算設(shè)備。
評(píng)測(cè)結(jié)果如圖所示。團(tuán)隊(duì)評(píng)測(cè)了 Llama3-8B、GLM4-9B、Qwen3-8B和MiniCPM4在32K到128K序列上的吞吐速度。
從結(jié)果中可以觀察到:
推理加速顯著:相比同等參數(shù)規(guī)模的開源大語言模型,在預(yù)填充和解碼場(chǎng)景中都能實(shí)現(xiàn)一致的加速。
具體而言,相比Qwen3-8B,在Jetson AGX Orin上可以實(shí)現(xiàn)約7倍的解碼加速,證明InfLLM v2稀疏注意力機(jī)制在端側(cè)設(shè)備上具備極高實(shí)用價(jià)值。
序列越長(zhǎng),加速越強(qiáng):隨著文本長(zhǎng)度增加,團(tuán)隊(duì)模型的效率優(yōu)勢(shì)變得更加明顯。
這是由于稀疏注意力機(jī)制能夠有效降低長(zhǎng)文本計(jì)算與訪存開銷。隨著模型需要處理的文本長(zhǎng)度逐漸增加,傳統(tǒng)稠密注意力機(jī)制的訪存開銷快速增長(zhǎng),而 InfLLM v2需要訪問的上下文塊數(shù)量保持不變,只有語義核的表示會(huì)隨著序列長(zhǎng)度緩慢增長(zhǎng)。
因此,在長(zhǎng)序列處理中,MiniCPM4能夠始終高效地處理長(zhǎng)文本。
標(biāo)準(zhǔn)評(píng)測(cè)
團(tuán)隊(duì)在表1中展示了MiniCPM4與基線模型的評(píng)測(cè)結(jié)果。從結(jié)果中可以觀察到,MiniCPM4-0.5B和8B模型在各類任務(wù)中都取得了領(lǐng)先表現(xiàn)。
MiniCPM 4與其它開源大語言模型的評(píng)測(cè)結(jié)果:
性能領(lǐng)先:MiniCPM的兩款模型都在相近尺寸的模型中實(shí)現(xiàn)了最先進(jìn)的性能,這表明了團(tuán)隊(duì)訓(xùn)練方法的有效性。
MiniCPM的兩款模型都能夠超越部分參數(shù)量遠(yuǎn)超MiniCPM模型的開源大模型。例如,MiniCPM4-0.5B可以取得比Llama3.2-1B、Gemma3-1B更優(yōu)的性能,即使它們的參數(shù)規(guī)模是MiniCPM4的兩倍。MiniCPM4-8B也能夠超越Gemma3-12B和Phi4-14B。
這進(jìn)一步表明,利用高質(zhì)量的數(shù)據(jù)和高效的學(xué)習(xí)算法,MiniCPM4能夠取得優(yōu)異的性能。
訓(xùn)練效率高:相比于這些開源模型,MiniCPM4 能夠使用遠(yuǎn)低于它們的訓(xùn)練開銷,取得優(yōu)異的性能。
具體而言,MiniCPM4與Qwen3具有相當(dāng)?shù)男阅?,而Qwen3使用了36T詞元進(jìn)行訓(xùn)練,而MiniCPM4僅使用了8T詞元,只有Qwen3訓(xùn)練數(shù)據(jù)量的22%,這充分驗(yàn)證了Ultra-FineWeb數(shù)據(jù)篩選與Model Wind Tunnel v2訓(xùn)練優(yōu)化策略的有效性。
長(zhǎng)上下文評(píng)測(cè)
在MiniCPM4 中,團(tuán)隊(duì)使用稀疏注意力機(jī)制將上下文窗口擴(kuò)展到32K。
在本節(jié)中,團(tuán)隊(duì)評(píng)測(cè)MiniCPM4在長(zhǎng)序列理解任務(wù)上的表現(xiàn)。具體來說,團(tuán)隊(duì)遵循Ruler的方法,在大海撈針任務(wù)(RULER-NIAH)上評(píng)測(cè)其模型。應(yīng)用YaRN將MiniCPM4的上下文窗口擴(kuò)展到 128K,并在128K NIAH上評(píng)測(cè) MiniCPM4。
結(jié)果如圖所示。從結(jié)果中可以觀察到:
長(zhǎng)序列處理能力強(qiáng):MiniCPM4在長(zhǎng)序列上能夠取得令人滿意的性能,在大海撈針任務(wù)上達(dá)到100%的準(zhǔn)確率。并且對(duì)于每個(gè)詞元,MiniCPM4只需要模型關(guān)注6K上下文詞元,這意味著在128K上下文中,MiniCPM4的稀疏度僅為 5%。
上下文外推能力強(qiáng):MiniCPM4在上下文窗口外推方面具有良好的性能。即使團(tuán)隊(duì)只在32K上下文上預(yù)訓(xùn)練模型,MiniCPM4也能在4倍上下文長(zhǎng)度上達(dá)到100%的準(zhǔn)確率。
在后續(xù)章節(jié)中,團(tuán)隊(duì)將MiniCPM4應(yīng)用于調(diào)查報(bào)告生成任務(wù),該任務(wù)需要模型讀取和寫入長(zhǎng)文檔。MiniCPM4能夠取得比其他基線模型更好的性能,顯示了MiniCPM4在長(zhǎng)序列處理方面的有效性。
應(yīng)用和場(chǎng)景
得益于卓越的推理效率與模型能力,MiniCPM4在多個(gè)關(guān)鍵任務(wù)中展現(xiàn)出強(qiáng)大適應(yīng)性。團(tuán)隊(duì)重點(diǎn)展示兩個(gè)關(guān)鍵應(yīng)用:
可信的綜述生成(MiniCPM4-Survey):面向高質(zhì)量長(zhǎng)文檔理解與生成的典型任務(wù),驗(yàn)證了MiniCPM4在長(zhǎng)序列處理場(chǎng)景下的優(yōu)越性能。
MCP協(xié)議增強(qiáng)的工具調(diào)用(MiniCPM4-MCP):面向Agent智能體部署,強(qiáng)調(diào)模型與復(fù)雜工具鏈和環(huán)境的交互能力,適用于端側(cè)智能與實(shí)際任務(wù)執(zhí)行。
MiniCPM4-Survey:可信的綜述生成
在科研輔助場(chǎng)景中,自動(dòng)化生成高質(zhì)量綜述文獻(xiàn)是一項(xiàng)挑戰(zhàn)極大的任務(wù),需要模型具備出色的信息整合、結(jié)構(gòu)規(guī)劃和語言生成能力。
團(tuán)隊(duì)提出了基于MiniCPM4-8B構(gòu)建的SurveyAgent系統(tǒng),采用“規(guī)劃—檢索—寫作”三階段流程,高效生成結(jié)構(gòu)清晰、內(nèi)容可信的長(zhǎng)篇綜述。
團(tuán)隊(duì)構(gòu)建了包含規(guī)劃大綱、檢索關(guān)鍵詞、節(jié)級(jí)內(nèi)容等高質(zhì)量訓(xùn)練數(shù)據(jù),并設(shè)計(jì)了從監(jiān)督微調(diào)(SFT)到章節(jié)級(jí)、全局級(jí)強(qiáng)化學(xué)習(xí)(RL)的多階段訓(xùn)練策略,逐步提升模型的全局規(guī)劃性和細(xì)節(jié)深度。
同時(shí),團(tuán)隊(duì)還建立了一套完整的獎(jiǎng)勵(lì)系統(tǒng),從結(jié)構(gòu)合理性、內(nèi)容深度、新穎性、引用一致性等多個(gè)維度對(duì)模型能力進(jìn)行評(píng)估。
在SurveyEval測(cè)試集上的評(píng)測(cè)結(jié)果表明,MiniCPM4-Survey在內(nèi)容相關(guān)性、覆蓋度、深度和新穎性等方面的平均得分與OpenAI Deep Research持平,并在FactScore(事實(shí)一致性)上取得所有系統(tǒng)中的最高分,顯示其在本地部署、隱私保護(hù)和低成本條件下的長(zhǎng)文處理能力具備強(qiáng)大競(jìng)爭(zhēng)力。
下方表格展示了 MiniCPM4-Survey與基線模型的評(píng)測(cè)結(jié)果?!癎2FT”代表Gemini-2.0-Flash-Thinking,“WTR1-7B”表示W(wǎng)ebthinker-R1-7B。
由于Webthinker不包含引用功能,以及OpenAI Deep Research在導(dǎo)出結(jié)果時(shí)不提供引用,因此省略了對(duì)它們的FactScore評(píng)估。
注: 粗體數(shù)值表示每列中的最佳性能?!薄皸l目表示未對(duì)這些方法進(jìn)行Fact Score評(píng)估。
MiniCPM4-MCP:MCP協(xié)議增強(qiáng)的工具調(diào)用
大語言模型與外部工具的交互流程往往依賴人工構(gòu)造,缺乏統(tǒng)一標(biāo)準(zhǔn),導(dǎo)致智能體系統(tǒng)擴(kuò)展性差、復(fù)用成本高。
為應(yīng)對(duì)這一挑戰(zhàn),MCP(Model Context Protocol)提供了統(tǒng)一的模型-工具交互協(xié)議,允許語言模型在標(biāo)準(zhǔn)化框架下調(diào)用任意外部服務(wù)。
團(tuán)隊(duì)構(gòu)建了MiniCPM4-MCP模型,使其具備理解MCP協(xié)議、發(fā)現(xiàn)并調(diào)用各類工具、完成復(fù)雜任務(wù)鏈路的能力。
團(tuán)隊(duì)采用“正向生成 + 反向構(gòu)造 + 數(shù)據(jù)集轉(zhuǎn)換”的方式構(gòu)建訓(xùn)練數(shù)據(jù),涵蓋單工具調(diào)用、跨工具組合調(diào)用和多輪工具交互,共計(jì)約14萬條樣本,輔以人工與LLM雙重質(zhì)量審核。
團(tuán)隊(duì)還搭建了基于Docker的MCP工具調(diào)用環(huán)境,覆蓋辦公、出行、文件管理等多個(gè)真實(shí)服務(wù),配合客戶端進(jìn)行自動(dòng)測(cè)試與適配,確保模型訓(xùn)練數(shù)據(jù)與環(huán)境高度一致。
在人工標(biāo)注測(cè)試集上的評(píng)測(cè)結(jié)果顯示,MiniCPM4-MCP在函數(shù)名稱、參數(shù)名和參數(shù)值填充準(zhǔn)確率方面全面優(yōu)于 Qwen3-8B,并在多個(gè)服務(wù)器上逼近甚至超越GPT-4o,證明其具備通用、多樣的工具調(diào)用能力,是構(gòu)建智能體系統(tǒng)的理想基礎(chǔ)模型。
Github鏈接:https://github.com/openbmb/minicpm
技術(shù)報(bào)告鏈接:https://arxiv.org/pdf/2506.07900
Huggingface鏈接:https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
Model Scope鏈接:https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d