沉寂一個(gè)月,openPangu性能飆升8%!華為1B開源模型來了
在端側(cè) AI 這個(gè)熱門賽道,華為盤古大模型扔下了一顆 “重磅炸彈” 。
如今,云端大模型已經(jīng)能侃侃而談、答疑解惑。但如果這些 AI 大腦能被裝進(jìn)手機(jī)、攝像頭甚至無人機(jī),會帶來怎樣的變化?邊緣設(shè)備上部署強(qiáng)大的 AI 模型已成為產(chǎn)業(yè)智能升級的關(guān)鍵路徑。
然而,端側(cè)設(shè)備在算力、內(nèi)存和功耗方面的嚴(yán)格限制,與傳統(tǒng)超大模型的巨大計(jì)算需求形成了顯著矛盾。現(xiàn)有方案往往陷入兩難:要么采用性能羸弱的小模型,無法處理復(fù)雜任務(wù);要么試圖將云端大模型壓縮后硬塞進(jìn)端側(cè),結(jié)果精度嚴(yán)重下降或響應(yīng)緩慢,難以滿足實(shí)際應(yīng)用需求。
為了破解這一痛點(diǎn),華為近日發(fā)布了專為昇騰端側(cè)硬件打造的高性能語言模型 ——openPangu Embedded-1B。該模型雖然只有 10 億參數(shù),卻通過軟硬件協(xié)同設(shè)計(jì)顯著降低推理延遲、提升資源利用率,并采用多階段訓(xùn)練策略(包括從零預(yù)訓(xùn)練、課程學(xué)習(xí)式微調(diào)、離線 On-Policy 蒸餾、多源獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí))大幅增強(qiáng)各類任務(wù)表現(xiàn)。
得益于多階段訓(xùn)練與優(yōu)化,openPangu Embedded-1B 在十億參數(shù)的體量下實(shí)現(xiàn)了性能與效率的高度協(xié)同,成功將強(qiáng)大的大模型能力帶到了端側(cè)設(shè)備上,樹立了「小模型大能力」的新標(biāo)桿。
評測成績說明了一切,openPangu Embedded-1B 在多個(gè)權(quán)威基準(zhǔn)上表現(xiàn)亮眼,創(chuàng)下了 10 億參數(shù)級別模型的全新 SOTA 紀(jì)錄。
模型的整體平均分達(dá)到 63.90,不僅全面領(lǐng)先同類模型,甚至持平更大規(guī)模的 Qwen3-1.7B(63.69),充分體現(xiàn)了出色的參數(shù)效率。這表明,先進(jìn)的訓(xùn)練與對齊方法可以比單純擴(kuò)大模型規(guī)模更具成效。
在數(shù)學(xué)推理方面,openPangu Embedded-1B 經(jīng)過強(qiáng)化學(xué)習(xí)對齊后取得了高分,其中在 GSM8K 數(shù)學(xué)基準(zhǔn)上達(dá)到 82.76%,在 MATH 數(shù)學(xué)題集上達(dá)到 81.83%,均大幅領(lǐng)先同類模型。

圖:openPangu Embedded-1B 與其他模型在各項(xiàng)任務(wù)上的 0-shot 表現(xiàn)對比??梢钥吹?,該模型在語言理解、數(shù)學(xué)、推理和編程等任務(wù)上均展現(xiàn)出明顯優(yōu)勢,并顯著縮小了與更大模型之間的差距。
尤其值得關(guān)注的是,相比上個(gè)月開源的 openPangu Embedded-1B V1,V1.1 的平均分實(shí)現(xiàn)了 8% 以上的大幅躍升,這意味著開源盤古系列正在加速迭代升級。openPangu Embedded-1B 為資源受限的邊緣設(shè)備帶來了前所未有的智能水平,開辟了大模型端側(cè)應(yīng)用的新可能。
- 開源模型地址:https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1
 - 技術(shù)報(bào)告:https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1/blob/main/docs/openPangu-Embedded-1B-report.pdf
 
接下來,我們就一起揭曉這款模型背后的技術(shù) “秘密”。
軟硬件協(xié)同設(shè)計(jì):讓 10 億參數(shù)模型在端側(cè)高效奔跑
openPangu Embedded-1B 是一款擁有 10 億參數(shù)的自回歸 Transformer 模型,專為昇騰 AI 處理器的端側(cè)硬件平臺優(yōu)化設(shè)計(jì)。
團(tuán)隊(duì)通過精心的軟硬件協(xié)同,將模型架構(gòu)與芯片特性深度結(jié)合:針對目標(biāo)硬件的計(jì)算和內(nèi)存特點(diǎn),定制了合適的網(wǎng)絡(luò)寬度和深度等超參數(shù)。換言之,模型的隱藏層規(guī)模、前饋網(wǎng)絡(luò)維度等都與昇騰 Atlas 硬件的高效吞吐配置相匹配,確保每個(gè)計(jì)算單元都得到充分利用。
在資源受限的設(shè)備上,這種 “軟硬件協(xié)同” 的架構(gòu)設(shè)計(jì)在模型深度和推理效率間找到了理想平衡點(diǎn)。

圖:在昇騰 Atlas 200I A2 硬件上,openPangu Embedded-1B 的推理延遲低于同級別的大模型。上表對比了不同 1B 量級模型的首 token 生成延遲(TTFT)和每 token 生成延遲(TPOT)。
為了驗(yàn)證軟硬件協(xié)同設(shè)計(jì)的效果,團(tuán)隊(duì)將 openPangu Embedded-1B 與其他相近規(guī)模模型進(jìn)行了推理延遲基準(zhǔn)測試。結(jié)果顯示,在 Atlas 200I A2 硬件上,openPangu Embedded-1B 首字輸出延遲僅約 1.8 秒,后續(xù)每詞生成約 0.156 秒,而且 openPangu 精度相當(dāng)。
這一顯著的速度優(yōu)勢充分證明了軟硬件協(xié)同優(yōu)化在端側(cè)部署中的價(jià)值。
兩階段課程學(xué)習(xí):具備理性的快速響應(yīng)
為了讓小模型也具備 “理性思維”,openPangu Embedded-1B 在微調(diào)階段采用了課程學(xué)習(xí)式的 “兩段式” 訓(xùn)練,模擬人類專家先深思后速答的學(xué)習(xí)路徑。
團(tuán)隊(duì)精心設(shè)計(jì)了難度遞進(jìn)的雙階段訓(xùn)練課程,循序漸進(jìn)地塑造模型的推理能力:
- 構(gòu)建堅(jiān)實(shí)的 “推理地基”:第一階段,模型不追求響應(yīng)速度,只專注于理性推理能力。它學(xué)習(xí)了海量包含詳細(xì)推理過程的復(fù)雜問題解答示例,就像學(xué)生跟隨導(dǎo)師一步步學(xué)習(xí)解題思路,理解背后的原理邏輯,打下扎實(shí)的邏輯推理基礎(chǔ)。
 - 激發(fā)內(nèi)化的 “快速直覺”:第二階段,在模型具備強(qiáng)大的推理 “內(nèi)核” 后,訓(xùn)練策略切換為提供大量簡短的問答對,省略中間推理步驟。這好比學(xué)生掌握原理后開始練習(xí)快速作答,學(xué)會將深層思考內(nèi)化于心,外化于行,以盡可能直接、迅速地得出答案。
 
經(jīng)過這兩個(gè)階段循序漸進(jìn)的微調(diào),模型深層次的推理能力被成功激活,openPangu Embedded-1B 在通用任務(wù)上的表現(xiàn)也全面提升。
離線 On-Policy 知識蒸餾:師生協(xié)作的新范式
openPangu Embedded-1B 還進(jìn)一步引入了一種 “學(xué)生主導(dǎo),教師點(diǎn)撥” 的離線 On-Policy 知識蒸餾方法。不同于傳統(tǒng)由教師單向灌輸知識,這種方法更像智能輔導(dǎo):先讓 “小學(xué)生” 模型自主作答,再由 “大老師” 模型針對學(xué)生答案進(jìn)行有的放矢的指導(dǎo)。
蒸餾過程包括以下兩個(gè)核心步驟:
- 學(xué)生主導(dǎo)的自主探索:學(xué)生模型(1B)首先對訓(xùn)練問題自行生成答案,教師暫不介入,就像導(dǎo)師輔導(dǎo)前先讓學(xué)生獨(dú)立嘗試解題,以了解其思路。
 - 教師約束下的精準(zhǔn)點(diǎn)撥:隨后更大的教師模型登場,但它并非直接給出正確答案,而是基于學(xué)生輸出進(jìn)行預(yù)測,在學(xué)生能力范圍內(nèi)提供針對性的提示,極大縮小了師生認(rèn)知差距。
 
通過這種離線 On-Policy 蒸餾,教師指導(dǎo)數(shù)據(jù)的生成與學(xué)生模型的訓(xùn)練實(shí)現(xiàn)了解耦,流程高度靈活;同時(shí)方法實(shí)現(xiàn)上改動極少(僅需增加一個(gè)蒸餾損失項(xiàng)),卻令學(xué)生模型的準(zhǔn)確率和泛化能力大幅提升。
多源獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí):用反饋強(qiáng)化模型智慧
在大規(guī)模 RL 訓(xùn)練階段,團(tuán)隊(duì)開發(fā)了針對昇騰 NPU 集群的高效并行方案:通過容錯(cuò)同步調(diào)度和優(yōu)先級數(shù)據(jù)隊(duì)列最大限度利用上千加速卡資源,減少約 30% 的設(shè)備空閑;設(shè)計(jì)主機(jī) - 設(shè)備權(quán)重共享和 NPU 端推理優(yōu)化,使大規(guī)模強(qiáng)化學(xué)習(xí)在昇騰硬件上能夠高效穩(wěn)定運(yùn)行。
同時(shí)在算法上,團(tuán)隊(duì)對訓(xùn)練樣本進(jìn)行了難度篩選,過濾過易或過難的數(shù)據(jù),引入 “零優(yōu)勢” 掩碼忽略無效懲罰項(xiàng),進(jìn)一步保障了訓(xùn)練過程的穩(wěn)定高效。
為了指導(dǎo)模型自我提升,openPangu Embedded-1B 采用了多源獎(jiǎng)勵(lì)機(jī)制:針對數(shù)學(xué)、代碼等可自動驗(yàn)證的任務(wù)使用基于規(guī)則的獎(jiǎng)勵(lì),針對復(fù)雜開放任務(wù)則采用輕量級 LLM 模型來評估答案質(zhì)量。
獎(jiǎng)勵(lì)策略兼顧回答的正確性和格式規(guī)范,例如回答格式錯(cuò)誤會受到嚴(yán)厲懲罰,答案錯(cuò)誤但格式正確則扣減較小分值,而只有答案完全正確才能獲得正獎(jiǎng)勵(lì)。這套精心設(shè)計(jì)的獎(jiǎng)勵(lì)信號確保模型在強(qiáng)化學(xué)習(xí)階段獲得全面而準(zhǔn)確的反饋,不斷優(yōu)化自身能力。

圖:強(qiáng)化學(xué)習(xí)訓(xùn)練中,openPangu Embedded-1B 的平均獎(jiǎng)勵(lì)值和數(shù)學(xué)能力隨訓(xùn)練迭代穩(wěn)步提升。通過強(qiáng)化學(xué)習(xí)微調(diào),模型的數(shù)學(xué)推理能力實(shí)現(xiàn)了飛躍式增強(qiáng),而其他領(lǐng)域的性能也保持了穩(wěn)定。
展望:快慢思考融合的未來
在極致挖掘小模型端側(cè)潛能的同時(shí),openPangu 研發(fā)團(tuán)隊(duì)也在探索讓大模型的 “快思考” 和 “慢思考” 融為一體的新方向。目前,快慢思考模型往往面臨兩難:快速思考模式在復(fù)雜任務(wù)上力不從心,而慢思考模式應(yīng)對簡單問題又效率低下,難以兼顧速度與精度。
對此,團(tuán)隊(duì)提出了一種自適應(yīng)的快慢融合方案:在單一模型中同時(shí)提供快思考、慢思考和自動切換三種模式。模型可根據(jù)問題難度自動選擇:簡單問題快速作答,復(fù)雜問題深入推理后再作答,在保持接近慢思考模型精度的同時(shí),大幅提高了易答問題的推理效率。
據(jù)悉,openPangu-Embedded-7B 模型已應(yīng)用自適應(yīng)快慢融合策略,并在 7B 量級模型中取得了領(lǐng)先水平,其升級版本也將很快開源。
可以預(yù)見,隨著快思考 / 慢思考自適應(yīng)融合等技術(shù)的引入,更大規(guī)模的端側(cè)模型將同時(shí)實(shí)現(xiàn)高推理質(zhì)量和高響應(yīng)速度,為行業(yè)應(yīng)用帶來 “雙優(yōu)” 的 AI 能力。未來,隨著端側(cè) AI 加速向?qū)嵱没c普惠化邁進(jìn),算力受限設(shè)備也能享受云端級別的智能體驗(yàn)。















 
 
 








 
 
 
 