沉寂一個(gè)月，openPangu性能飆升8%！華為1B開源模型來了

2025-09-05 13:53:51

華為近日發(fā)布了專為昇騰端側(cè)硬件打造的高性能語言模型 ——openPangu Embedded-1B。

在端側(cè) AI 這個(gè)熱門賽道，華為盤古大模型扔下了一顆 “重磅炸彈” 。

如今，云端大模型已經(jīng)能侃侃而談、答疑解惑。但如果這些 AI 大腦能被裝進(jìn)手機(jī)、攝像頭甚至無人機(jī)，會帶來怎樣的變化？邊緣設(shè)備上部署強(qiáng)大的 AI 模型已成為產(chǎn)業(yè)智能升級的關(guān)鍵路徑。

然而，端側(cè)設(shè)備在算力、內(nèi)存和功耗方面的嚴(yán)格限制，與傳統(tǒng)超大模型的巨大計(jì)算需求形成了顯著矛盾。現(xiàn)有方案往往陷入兩難：要么采用性能羸弱的小模型，無法處理復(fù)雜任務(wù)；要么試圖將云端大模型壓縮后硬塞進(jìn)端側(cè)，結(jié)果精度嚴(yán)重下降或響應(yīng)緩慢，難以滿足實(shí)際應(yīng)用需求。

為了破解這一痛點(diǎn)，華為近日發(fā)布了專為昇騰端側(cè)硬件打造的高性能語言模型 ——openPangu Embedded-1B。該模型雖然只有 10 億參數(shù)，卻通過軟硬件協(xié)同設(shè)計(jì)顯著降低推理延遲、提升資源利用率，并采用多階段訓(xùn)練策略（包括從零預(yù)訓(xùn)練、課程學(xué)習(xí)式微調(diào)、離線 On-Policy 蒸餾、多源獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)）大幅增強(qiáng)各類任務(wù)表現(xiàn)。

得益于多階段訓(xùn)練與優(yōu)化，openPangu Embedded-1B 在十億參數(shù)的體量下實(shí)現(xiàn)了性能與效率的高度協(xié)同，成功將強(qiáng)大的大模型能力帶到了端側(cè)設(shè)備上，樹立了「小模型大能力」的新標(biāo)桿。

評測成績說明了一切，openPangu Embedded-1B 在多個(gè)權(quán)威基準(zhǔn)上表現(xiàn)亮眼，創(chuàng)下了 10 億參數(shù)級別模型的全新 SOTA 紀(jì)錄。

模型的整體平均分達(dá)到 63.90，不僅全面領(lǐng)先同類模型，甚至持平更大規(guī)模的 Qwen3-1.7B（63.69），充分體現(xiàn)了出色的參數(shù)效率。這表明，先進(jìn)的訓(xùn)練與對齊方法可以比單純擴(kuò)大模型規(guī)模更具成效。

在數(shù)學(xué)推理方面，openPangu Embedded-1B 經(jīng)過強(qiáng)化學(xué)習(xí)對齊后取得了高分，其中在 GSM8K 數(shù)學(xué)基準(zhǔn)上達(dá)到 82.76%，在 MATH 數(shù)學(xué)題集上達(dá)到 81.83%，均大幅領(lǐng)先同類模型。

圖：openPangu Embedded-1B 與其他模型在各項(xiàng)任務(wù)上的 0-shot 表現(xiàn)對比?？梢钥吹?，該模型在語言理解、數(shù)學(xué)、推理和編程等任務(wù)上均展現(xiàn)出明顯優(yōu)勢，并顯著縮小了與更大模型之間的差距。

尤其值得關(guān)注的是，相比上個(gè)月開源的 openPangu Embedded-1B V1，V1.1 的平均分實(shí)現(xiàn)了 8% 以上的大幅躍升，這意味著開源盤古系列正在加速迭代升級。openPangu Embedded-1B 為資源受限的邊緣設(shè)備帶來了前所未有的智能水平，開辟了大模型端側(cè)應(yīng)用的新可能。

開源模型地址：https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1
技術(shù)報(bào)告：https://gitcode.com/ascend-tribe/openPangu-Embedded-1B-v1.1/blob/main/docs/openPangu-Embedded-1B-report.pdf

接下來，我們就一起揭曉這款模型背后的技術(shù) “秘密”。

軟硬件協(xié)同設(shè)計(jì)：讓 10 億參數(shù)模型在端側(cè)高效奔跑

openPangu Embedded-1B 是一款擁有 10 億參數(shù)的自回歸 Transformer 模型，專為昇騰 AI 處理器的端側(cè)硬件平臺優(yōu)化設(shè)計(jì)。

團(tuán)隊(duì)通過精心的軟硬件協(xié)同，將模型架構(gòu)與芯片特性深度結(jié)合：針對目標(biāo)硬件的計(jì)算和內(nèi)存特點(diǎn)，定制了合適的網(wǎng)絡(luò)寬度和深度等超參數(shù)。換言之，模型的隱藏層規(guī)模、前饋網(wǎng)絡(luò)維度等都與昇騰 Atlas 硬件的高效吞吐配置相匹配，確保每個(gè)計(jì)算單元都得到充分利用。

在資源受限的設(shè)備上，這種 “軟硬件協(xié)同” 的架構(gòu)設(shè)計(jì)在模型深度和推理效率間找到了理想平衡點(diǎn)。

圖：在昇騰 Atlas 200I A2 硬件上，openPangu Embedded-1B 的推理延遲低于同級別的大模型。上表對比了不同 1B 量級模型的首 token 生成延遲（TTFT）和每 token 生成延遲（TPOT）。

為了驗(yàn)證軟硬件協(xié)同設(shè)計(jì)的效果，團(tuán)隊(duì)將 openPangu Embedded-1B 與其他相近規(guī)模模型進(jìn)行了推理延遲基準(zhǔn)測試。結(jié)果顯示，在 Atlas 200I A2 硬件上，openPangu Embedded-1B 首字輸出延遲僅約 1.8 秒，后續(xù)每詞生成約 0.156 秒，而且 openPangu 精度相當(dāng)。

這一顯著的速度優(yōu)勢充分證明了軟硬件協(xié)同優(yōu)化在端側(cè)部署中的價(jià)值。

兩階段課程學(xué)習(xí)：具備理性的快速響應(yīng)

為了讓小模型也具備 “理性思維”，openPangu Embedded-1B 在微調(diào)階段采用了課程學(xué)習(xí)式的 “兩段式” 訓(xùn)練，模擬人類專家先深思后速答的學(xué)習(xí)路徑。

團(tuán)隊(duì)精心設(shè)計(jì)了難度遞進(jìn)的雙階段訓(xùn)練課程，循序漸進(jìn)地塑造模型的推理能力：

構(gòu)建堅(jiān)實(shí)的 “推理地基”：第一階段，模型不追求響應(yīng)速度，只專注于理性推理能力。它學(xué)習(xí)了海量包含詳細(xì)推理過程的復(fù)雜問題解答示例，就像學(xué)生跟隨導(dǎo)師一步步學(xué)習(xí)解題思路，理解背后的原理邏輯，打下扎實(shí)的邏輯推理基礎(chǔ)。
激發(fā)內(nèi)化的 “快速直覺”：第二階段，在模型具備強(qiáng)大的推理 “內(nèi)核” 后，訓(xùn)練策略切換為提供大量簡短的問答對，省略中間推理步驟。這好比學(xué)生掌握原理后開始練習(xí)快速作答，學(xué)會將深層思考內(nèi)化于心，外化于行，以盡可能直接、迅速地得出答案。

經(jīng)過這兩個(gè)階段循序漸進(jìn)的微調(diào)，模型深層次的推理能力被成功激活，openPangu Embedded-1B 在通用任務(wù)上的表現(xiàn)也全面提升。

離線 On-Policy 知識蒸餾：師生協(xié)作的新范式

openPangu Embedded-1B 還進(jìn)一步引入了一種 “學(xué)生主導(dǎo)，教師點(diǎn)撥” 的離線 On-Policy 知識蒸餾方法。不同于傳統(tǒng)由教師單向灌輸知識，這種方法更像智能輔導(dǎo)：先讓 “小學(xué)生” 模型自主作答，再由 “大老師” 模型針對學(xué)生答案進(jìn)行有的放矢的指導(dǎo)。

蒸餾過程包括以下兩個(gè)核心步驟：

學(xué)生主導(dǎo)的自主探索：學(xué)生模型（1B）首先對訓(xùn)練問題自行生成答案，教師暫不介入，就像導(dǎo)師輔導(dǎo)前先讓學(xué)生獨(dú)立嘗試解題，以了解其思路。
教師約束下的精準(zhǔn)點(diǎn)撥：隨后更大的教師模型登場，但它并非直接給出正確答案，而是基于學(xué)生輸出進(jìn)行預(yù)測，在學(xué)生能力范圍內(nèi)提供針對性的提示，極大縮小了師生認(rèn)知差距。

通過這種離線 On-Policy 蒸餾，教師指導(dǎo)數(shù)據(jù)的生成與學(xué)生模型的訓(xùn)練實(shí)現(xiàn)了解耦，流程高度靈活；同時(shí)方法實(shí)現(xiàn)上改動極少（僅需增加一個(gè)蒸餾損失項(xiàng)），卻令學(xué)生模型的準(zhǔn)確率和泛化能力大幅提升。

多源獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)：用反饋強(qiáng)化模型智慧

在大規(guī)模 RL 訓(xùn)練階段，團(tuán)隊(duì)開發(fā)了針對昇騰 NPU 集群的高效并行方案：通過容錯(cuò)同步調(diào)度和優(yōu)先級數(shù)據(jù)隊(duì)列最大限度利用上千加速卡資源，減少約 30% 的設(shè)備空閑；設(shè)計(jì)主機(jī) - 設(shè)備權(quán)重共享和 NPU 端推理優(yōu)化，使大規(guī)模強(qiáng)化學(xué)習(xí)在昇騰硬件上能夠高效穩(wěn)定運(yùn)行。

同時(shí)在算法上，團(tuán)隊(duì)對訓(xùn)練樣本進(jìn)行了難度篩選，過濾過易或過難的數(shù)據(jù)，引入 “零優(yōu)勢” 掩碼忽略無效懲罰項(xiàng)，進(jìn)一步保障了訓(xùn)練過程的穩(wěn)定高效。

為了指導(dǎo)模型自我提升，openPangu Embedded-1B 采用了多源獎(jiǎng)勵(lì)機(jī)制：針對數(shù)學(xué)、代碼等可自動驗(yàn)證的任務(wù)使用基于規(guī)則的獎(jiǎng)勵(lì)，針對復(fù)雜開放任務(wù)則采用輕量級 LLM 模型來評估答案質(zhì)量。

獎(jiǎng)勵(lì)策略兼顧回答的正確性和格式規(guī)范，例如回答格式錯(cuò)誤會受到嚴(yán)厲懲罰，答案錯(cuò)誤但格式正確則扣減較小分值，而只有答案完全正確才能獲得正獎(jiǎng)勵(lì)。這套精心設(shè)計(jì)的獎(jiǎng)勵(lì)信號確保模型在強(qiáng)化學(xué)習(xí)階段獲得全面而準(zhǔn)確的反饋，不斷優(yōu)化自身能力。

圖：強(qiáng)化學(xué)習(xí)訓(xùn)練中，openPangu Embedded-1B 的平均獎(jiǎng)勵(lì)值和數(shù)學(xué)能力隨訓(xùn)練迭代穩(wěn)步提升。通過強(qiáng)化學(xué)習(xí)微調(diào)，模型的數(shù)學(xué)推理能力實(shí)現(xiàn)了飛躍式增強(qiáng)，而其他領(lǐng)域的性能也保持了穩(wěn)定。

展望：快慢思考融合的未來

在極致挖掘小模型端側(cè)潛能的同時(shí)，openPangu 研發(fā)團(tuán)隊(duì)也在探索讓大模型的 “快思考” 和 “慢思考” 融為一體的新方向。目前，快慢思考模型往往面臨兩難：快速思考模式在復(fù)雜任務(wù)上力不從心，而慢思考模式應(yīng)對簡單問題又效率低下，難以兼顧速度與精度。

對此，團(tuán)隊(duì)提出了一種自適應(yīng)的快慢融合方案：在單一模型中同時(shí)提供快思考、慢思考和自動切換三種模式。模型可根據(jù)問題難度自動選擇：簡單問題快速作答，復(fù)雜問題深入推理后再作答，在保持接近慢思考模型精度的同時(shí)，大幅提高了易答問題的推理效率。

據(jù)悉，openPangu-Embedded-7B 模型已應(yīng)用自適應(yīng)快慢融合策略，并在 7B 量級模型中取得了領(lǐng)先水平，其升級版本也將很快開源。

可以預(yù)見，隨著快思考 / 慢思考自適應(yīng)融合等技術(shù)的引入，更大規(guī)模的端側(cè)模型將同時(shí)實(shí)現(xiàn)高推理質(zhì)量和高響應(yīng)速度，為行業(yè)應(yīng)用帶來 “雙優(yōu)” 的 AI 能力。未來，隨著端側(cè) AI 加速向?qū)嵱没c普惠化邁進(jìn)，算力受限設(shè)備也能享受云端級別的智能體驗(yàn)。

責(zé)任編輯：張燕妮來源：機(jī)器之心