偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MoE那么大，幾段代碼就能穩(wěn)穩(wěn)推理 | 開源

2025-07-03 09:05:40

人工智能新聞

華為一個新項目，直接把推理超大規(guī)模MoE背后的架構(gòu)、技術(shù)和代碼，統(tǒng)統(tǒng)給開源了！

混合專家網(wǎng)絡(luò)模型架構(gòu)（MoE）已經(jīng)成為當(dāng)前大模型的一個主流架構(gòu)選擇，以最近開源的盤古Pro MoE為例，其基于MoGE架構(gòu)構(gòu)建的混合專家架構(gòu)，總參數(shù)量達(dá)720億，激活參數(shù)量為160億，專門針對昇騰硬件優(yōu)化，在性能與效率上表現(xiàn)突出。

盤古還實現(xiàn)了在推理時做到又快又穩(wěn)。

在技術(shù)特性上，盤古模型引入 “快思考” 和 “慢思考” 雙系統(tǒng)，可根據(jù)問題復(fù)雜度自動切換響應(yīng)模式，并在推理性能上實現(xiàn)突破——在昇騰800I A2上單卡推理吞吐性能達(dá)1148 tokens/s，經(jīng)投機(jī)加速技術(shù)可提升至1528 tokens/s，顯著優(yōu)于同等規(guī)模稠密模型。

那么讓盤古、DeepSeek、Qwen這些開源的MoE模型在昇騰硬件上推理，能夠達(dá)到易維護(hù)、高性能，并且全面開源的技術(shù)項目有沒有呢？

現(xiàn)在，這個問題似乎有了標(biāo)準(zhǔn)答案——

華為一個新項目，直接把推理超大規(guī)模MoE背后的架構(gòu)、技術(shù)和代碼，統(tǒng)統(tǒng)給開源了！

這個新開源項目名叫Omni-Infer，整體來看，它對于企業(yè)用戶來說是非常利好的。

例如它可以給企業(yè)提供PD分離部署方案，針對QPM進(jìn)行系統(tǒng)級優(yōu)化，還會分享大規(guī)模商用過程中硬件使用的“方法論”。

而且對于開發(fā)者和開源社區(qū)，華為這“一呼”也是起到了“百應(yīng)”的效果。

GitHub地址：https://github.com/FlagOpen/FlagScale/pull/630

北京智源研究院副院長兼總工程師林詠華表示：

北京智源研究院一直以來致力于人工智能開源生態(tài)建設(shè)，很高興看到Omni-infer項目開源，智源團(tuán)隊打造的面向多芯片的FlagScale框架也在第一時間接入了Omni-infer，期待后續(xù)有更多生態(tài)合作。

上海人工智能實驗室系統(tǒng)平臺中心負(fù)責(zé)人王輝認(rèn)為：

DeepLink致力于打造最開放兼容的人工智能計算體系，十分期待能與Omni-infer項目攜手，繁榮自主軟硬件協(xié)同開源社區(qū)、拓展生態(tài)版圖。

以及OpenI啟智社區(qū)運營中心主任余躍也給出了響應(yīng)：

OpenI啟智社區(qū)堅持創(chuàng)新為本，面向未來與Omni-Infer項目一起打造基于算力網(wǎng)的開源共創(chuàng)協(xié)作生態(tài)。

據(jù)了解，華為Omni-Infer社區(qū)的定位是 “加速套件+最佳實踐”，未來提供開箱即用能力，支持昇騰推理集群快速部署。

而對于這次Omni-Infer的開源，其實是華為兌現(xiàn)了一個月前在發(fā)布重磅技術(shù)報告之際所做出的承諾。

那么接下來，我們就來一同深入了解一下華為的Omni-Infer。

一個框架和一個套件

從整體來看，Omni-Infer可以拆成兩大塊來看：一個是推理框架，一個是推理加速套件。

從框架角度來看，Omni-Infer能和業(yè)界主流的開源大模型推理框架（如vLLM）完美兼容，就像不同品牌的零件可以組裝在同一臺機(jī)器上。

并且據(jù)了解，它的功能還將不斷擴(kuò)展，會持續(xù)為昇騰硬件平臺上的大模型推理提供更強大的支持（例如SGLang等主流開源LLM推理框架）。

值得一提的是，Omni-Infer是與vLLM/SGLang等等這些主流大模型推理開源框架是解耦的，獨立安裝。

這就意味著用戶只需維護(hù)vLLM等的主版本即可，大大降低了軟件版本維護(hù)的成本。

至于Omni-Infer的加速套件，若是用較為形象的比喻，它的“打開方式”是這樣的：

企業(yè)級的 “調(diào)度員”：它有一套智能的調(diào)度系統(tǒng)，就像交通警察指揮車輛一樣，能合理安排任務(wù)（xPyD調(diào)度）。而且支持大規(guī)模分布式部署，就像多個交通崗?fù)f(xié)同工作，不管任務(wù)量多大，都能保證最低的延遲，讓響應(yīng)更及時。
精準(zhǔn)的 “負(fù)載平衡器”：對于不同長度的任務(wù)序列，它在預(yù)填充和解碼這兩個關(guān)鍵階段都做了優(yōu)化。比如，就像快遞分揀中心針對不同大小的包裹采用不同的分揀策略，讓整個處理過程的吞吐量達(dá)到最大，同時還能保持低延遲。
MoE模型的 “專屬搭檔”：它對混合專家（MoE）模型特別友好，支持EP144/EP288等多種配置?？梢韵胂蟪梢粋€大型的 “專家團(tuán)隊”，每個專家負(fù)責(zé)不同的任務(wù)，它能讓這些專家高效協(xié)作。
智能的 “資源分配者”：具備分層非均勻冗余和近實時動態(tài)專家放置功能。就像在一個大型工廠里，根據(jù)實時的生產(chǎn)需求，動態(tài)調(diào)整各個生產(chǎn)線的工人分配，讓資源得到最充分的利用。
注意力機(jī)制的 “強化器”：專門為LLM、MLLM和MoE等模型優(yōu)化了注意力機(jī)制。這就好比給模型的 “注意力” 裝上了 “放大鏡”，讓它在處理信息時更聚焦、更高效，提升了模型的性能和可擴(kuò)展性。

如何“食用”？

在聊完Omni-Infer的特點之后，我們繼續(xù)來看下該如何去體驗。

首先對于它的使用環(huán)境是有一定的要求：

硬件：目前僅支持CloudMatrix384推理卡
操作系統(tǒng)：Linux Python: >=3.9, <= 3.11

其次在安裝方式上，目前僅支持通過Docker鏡像方式進(jìn)行安裝：

docker pull swr.cn-southwest-2.myhuaweicloud.com/omni-ai/omniinfer:202506272026

這個鏡像已預(yù)先集成所需的CANN及Torch-NPU依賴包，同時內(nèi)置可直接運行的Omni-Infer與vLLM工具包，開箱即可使用。

可以使用下面這個命令檢查是否可用：

pip list | grep omni_infer

以PD分離自動化部署（4機(jī)2P1D）為例，它的部署框架如下所示：

再接下來，只需文檔教程，僅少量代碼和步驟，即可完成安裝和部署：

整體來看，此次華為面向超大規(guī)模MoE開源的項目，是做到了簡單幾步就可以讓AI推理這事變得又快又穩(wěn)。

極致開源

Omni-Infer除了將此前《華為昇騰服務(wù)器 DeepSeek V3/R1 推理部署最佳實踐》技術(shù)報告中的關(guān)鍵技術(shù)開源出來之外，也同步進(jìn)行了更加專業(yè)的開源社區(qū)建設(shè)。

首先，在獨立的社區(qū)倉庫中，將社區(qū)治理、社區(qū)會議、社區(qū)活動、生態(tài)合作、代碼規(guī)范、設(shè)計文檔等社區(qū)信息全部開放出來，讓開發(fā)者能夠最直接深入的參與到社區(qū)發(fā)展中。

其次，參照業(yè)界主流大型開源社區(qū)的最佳實踐，采用開放的社區(qū)治理機(jī)制，通過項目管理委員會（Project Management Committee）和特別興趣小組（Special Interest Group）兩級機(jī)制，提供公正透明的討論與決策機(jī)制。

再次，針對業(yè)界同類開源項目大多存在的“一頭熱”的“被動適配”生態(tài)合作模式問題，Omni-Infer社區(qū)則采取了“主動適配”的社區(qū)構(gòu)筑路徑，尤其是主動擁抱國內(nèi)正在逐步成長的人工智能開源項目，讓生態(tài)真正實現(xiàn)多方共贏。

作為長期與業(yè)界幾大主流開源基金會（Linux基金會、OpenInfra基金會、Apache基金會等）保持緊密合作關(guān)系的社區(qū)團(tuán)隊，Omni-infer剛開源的首個活動就將參與OpenInfra基金會在蘇州的Meetup，感興趣的同學(xué)可以到現(xiàn)場交流，也順路可參加有特色的全球性開源社區(qū)的生日活動。

最后，所有相關(guān)的地址放下面了，感興趣的小伙伴可自取哦~

技術(shù)報告及可分析代碼包：https://gitcode.com/ascend-tribe/ascend-inference-cluster

源代碼開發(fā)協(xié)作：
https://gitee.com/omniai/omniinfer

社區(qū)治理、運作等內(nèi)容：
https://gitee.com/omniai/community

【其他托管平臺】

Github：
https://github.com/omni-ai-npu/omni-infer

OpenI啟智社區(qū)：
https://git.openi.org.cn/omni-ai/omni-infer

GitLink確實平臺：https://gitlink.org.cn/omni-ai/omniinfer

責(zé)任編輯：張燕妮來源：量子位

開源模型代碼

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="egxoz"></style>

<sub id="egxoz"><p id="egxoz"></p></sub>

<tr id="egxoz"><strike id="egxoz"></strike></tr>