偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

KTransformers入選計(jì)算機(jī)系統(tǒng)頂會(huì)、與主流框架合作,趨境&清華讓「異構(gòu)」成為推理新范式

人工智能 新聞
這是一個(gè)高性能異構(gòu)推理框架,專注于高效利用底層GPU、CPU、內(nèi)存等多樣化算力,讓大模型在更低算力、更靈活的硬件架構(gòu)上高效運(yùn)行。

全球AI基礎(chǔ)設(shè)施快速演進(jìn)的浪潮中,一個(gè)誕生自中國(guó)的開(kāi)源項(xiàng)目,正在被世界看見(jiàn)。

它就是KTransformers,由趨境科技與清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合研發(fā),聚焦大模型推理階段的系統(tǒng)創(chuàng)新。

這是一個(gè)高性能異構(gòu)推理框架,專注于高效利用底層GPU、CPU、內(nèi)存等多樣化算力,讓大模型在更低算力、更靈活的硬件架構(gòu)上高效運(yùn)行,項(xiàng)目論文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》入選了剛剛落幕的“計(jì)算機(jī)系統(tǒng)領(lǐng)域奧斯卡” SOSP 2025。

SOSP是計(jì)算機(jī)系統(tǒng)領(lǐng)域最具影響力的國(guó)際頂會(huì)之一。過(guò)去幾十年間,從虛擬化到分布式文件系統(tǒng),無(wú)數(shù)里程碑式的技術(shù)成果都曾首次亮相于此。

如今,KTransformers也在這個(gè)舞臺(tái)上獲得了全球系統(tǒng)學(xué)術(shù)界的最高背書(shū)。

幾乎在同一時(shí)間,KTransformers宣布與主流推理框架SGLang合作,雙方架構(gòu)合入同一分支。這次合作意味著全GPU推理與異構(gòu)推理的融合,推動(dòng)大模型推理架構(gòu)變得更加完善,將邁向更廣泛的產(chǎn)業(yè)落地。

在更遠(yuǎn)的未來(lái),它即將成為更多AI產(chǎn)品背后能跑得起大模型的底層路徑。

加入核心創(chuàng)新“專家延遲機(jī)制”,異構(gòu)架構(gòu)實(shí)現(xiàn)MoE模型高效推理

大模型推理領(lǐng)域,算力瓶頸正在成為全球技術(shù)界的核心問(wèn)題。

尤其是當(dāng)MoE(Mixture of Experts,專家混合)架構(gòu)成為主流后,這個(gè)瓶頸更顯突出。MoE模型以“稀疏激活”為特征,每次推理只會(huì)調(diào)用部分專家子網(wǎng)絡(luò),從而在不犧牲模型能力的前提下降低計(jì)算負(fù)擔(dān)。

問(wèn)題隨之而來(lái),如何高效調(diào)度這些專家從而避免資源浪費(fèi)與設(shè)備空轉(zhuǎn),成了產(chǎn)學(xué)研三界共同的新挑戰(zhàn)。

《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》正是在這一背景下誕生的。它提出了一條不同以往的道路:一套面向CPU+GPU異構(gòu)架構(gòu)的MoE推理系統(tǒng)方案,讓原本只能依賴昂貴多卡GPU的大模型,能在CPU參與的硬件環(huán)境中實(shí)現(xiàn)接近同等性能的推理體驗(yàn)。

KTransformers的初衷是通過(guò)創(chuàng)新的異構(gòu)推理的架構(gòu),充分釋放底層所有的硬件算力資源,優(yōu)化計(jì)算調(diào)度,擺脫對(duì)單一硬件的依賴,從而實(shí)現(xiàn)更普惠、更高效的大模型部署與應(yīng)用。

技術(shù)層面上,它通過(guò)一系列系統(tǒng)級(jí)創(chuàng)新,讓GPU負(fù)責(zé)注意力和主干網(wǎng)絡(luò)的高并行計(jì)算,CPU則承擔(dān)稀疏專家模塊的推理任務(wù),實(shí)現(xiàn)了高效的CPU+GPU協(xié)同執(zhí)行。

KTransformers的核心創(chuàng)新首先體現(xiàn)在底層算子優(yōu)化上。

通過(guò)針對(duì)Intel AMX指令集開(kāi)發(fā)的高吞吐計(jì)算核,結(jié)合自定義的tile-aware內(nèi)存布局,KTransformers在單路Xeon上實(shí)現(xiàn)了PyTorch實(shí)現(xiàn)近4倍的提速,極大釋放了CPU在專家計(jì)算中的性能。至此,CPU成為推動(dòng)系統(tǒng)吞吐提升的關(guān)鍵一環(huán)。

此外,KTransformers在異構(gòu)任務(wù)協(xié)調(diào)方面也進(jìn)行了系統(tǒng)性重構(gòu),為減少CPU與GPU之間的協(xié)調(diào)成本,KTransformers引入了NUMA感知張量并行和基于CUDA Graph的調(diào)度,以確保兩個(gè)設(shè)備以最小的同步延遲運(yùn)行。

值得一提的是,在論文中KTransformers還提出了另一個(gè)創(chuàng)新技術(shù)——Expert Deferral(專家延遲機(jī)制)。

傳統(tǒng)MoE推理嚴(yán)格遵循層級(jí)順序,GPU必須等待CPU完成專家計(jì)算后才能繼續(xù)下一步,這種串行依賴導(dǎo)致了大量性能浪費(fèi)。KTransformers打破了這一限制。

KTransformers研究團(tuán)隊(duì)發(fā)現(xiàn),Transformer模型的殘差連接具有一定的延遲容忍性,部分中間結(jié)果的計(jì)算并不需要嚴(yán)格同步完成。于是團(tuán)隊(duì)提出讓部分專家計(jì)算延遲執(zhí)行——也就是在GPU執(zhí)行注意力模塊時(shí),CPU專家仍在計(jì)算上一層結(jié)果,兩者并行推進(jìn)。

這樣就使得CPU與GPU的負(fù)載得以動(dòng)態(tài)重疊,模型吞吐提升約1.45倍,單卡decode速度最高超過(guò)30+ tokens/s,而模型精度變化低于0.5%,幾乎無(wú)損。

Expert Deferral是MoE推理異構(gòu)化落地的關(guān)鍵突破,真正讓CPU與GPU實(shí)現(xiàn)了平等協(xié)作。

得益于這些設(shè)計(jì),KTransformers能夠在一臺(tái)RTX 4080+雙路Xeon的單機(jī)環(huán)境中成功運(yùn)行DeepSeek-V3-671B模型,單路性能接近多卡GPU集群水準(zhǔn)。

推動(dòng)推理架構(gòu)融合,助力全球開(kāi)發(fā)者高效創(chuàng)新

到今天,論文的全部思想已被完整工程化,衍生為開(kāi)源系統(tǒng)KTransformers。

這其實(shí)是推理生態(tài)流變分化的一個(gè)具象化體現(xiàn):一邊是以SGLang為代表的高吞吐、高并發(fā)全GPU路線;另一邊,則是仍在探索中的讓CPU與GPU協(xié)同工作的異構(gòu)路線,嘗試用更靈活、成本更低的方式支持大模型運(yùn)行。

KTransformers正是后者的代表之一。

KTransformers與SGLang的合作,是雙方基于各自推理引擎能力展開(kāi)深度對(duì)接,聯(lián)合推動(dòng)大模型推理向更高性能、更低成本的方向演進(jìn)。

SGLang,全稱Structured Generation Language,是一種專為大型語(yǔ)言模型(LLM)和視覺(jué)語(yǔ)言模型(VLM)設(shè)計(jì)的高效推理與服務(wù)框架,它通過(guò)聯(lián)合設(shè)計(jì)前端語(yǔ)言和后端運(yùn)行時(shí)來(lái)提升模型推理的速度和靈活性。

由于在多輪對(duì)話、復(fù)雜任務(wù)規(guī)劃和結(jié)構(gòu)化輸出方面表現(xiàn)突出,在當(dāng)下的大模型推理框架生態(tài)中,SGLang成為了最主流、最具工程實(shí)用性的開(kāi)源推理引擎之一。

SGLang的優(yōu)勢(shì)在于通用性和工程落地能力,全GPU推理思路也更適用于高吞吐量高并發(fā)等需求,KTransformers作為算子庫(kù)合入SGLang之后,雙方互為補(bǔ)充,開(kāi)發(fā)者用戶可以直接獲得全GPU推理與異構(gòu)推理兩種能力,不再需要手動(dòng)集成、單獨(dú)調(diào)用。尤其是在GPU資源受限但本地CPU富余的場(chǎng)合,許多原本無(wú)法落地的模型都有了新的可行路徑。

例如通過(guò)KTransformers與SGLang合作實(shí)現(xiàn)的Multi-GPU+CPU混合推理能力,將更多專家放置在GPU上,這減少了帶寬瓶頸下的CPU內(nèi)存訪問(wèn),相對(duì)單GPU的場(chǎng)景極大提升吞吐量。

此次合作實(shí)現(xiàn)了異構(gòu)推理方案與主流推理框架的深度融合。這推動(dòng)了雙方底層架構(gòu)的協(xié)同進(jìn)化,使其邁向更成熟、更工程化的新階段;同時(shí)使開(kāi)發(fā)者能夠更便捷地調(diào)用各類模型,在硬件選擇上也更具靈活性。

KTransformers,想做的不止是“在本地跑得動(dòng)”

技術(shù)成果背后,是持續(xù)構(gòu)建生態(tài)的決心。

如今的KTransformers已成為一個(gè)被開(kāi)發(fā)者、廠商與開(kāi)源社區(qū)廣泛復(fù)用的共建式底層框架。

目前,其GitHub Star數(shù)已突破15.2K,成為全球Star數(shù)排名前列的大模型推理框架。

全球頭部開(kāi)源模型方,如Qwen、Kimi、智譜 AI等多個(gè)主流大模型,都在模型發(fā)布首日就推薦KTransformers作為推理引擎支持;其工程實(shí)踐與兼容性也被多家一體機(jī)產(chǎn)品線采納。

在這條異構(gòu)路線逐漸成型的過(guò)程中,趨境科技始終是最核心的推動(dòng)者之一。

在KTransformers的架構(gòu)設(shè)計(jì)、核心實(shí)現(xiàn)、算子優(yōu)化、框架適配以及社區(qū)維護(hù)等多個(gè)關(guān)鍵層面,趨境科技始終處于一線角色——

在與清華大學(xué)KVCache.AI團(tuán)隊(duì)聯(lián)合研發(fā)的基礎(chǔ)上,趨境負(fù)責(zé)了項(xiàng)目中的大量底層開(kāi)發(fā)、接口對(duì)接、系統(tǒng)調(diào)度和社區(qū)推廣工作。

這一次與SGLang的對(duì)接合作中,趨境科技也作為主要實(shí)現(xiàn)方與維護(hù)貢獻(xiàn)者,完成了從對(duì)接設(shè)計(jì)、功能聯(lián)調(diào),到主分支合入的全部工程閉環(huán)。

對(duì)趨境來(lái)說(shuō),KTransformers輸出的是一種價(jià)值理念的承載,更是一個(gè)更長(zhǎng)期的目標(biāo):

在大模型時(shí)代,需要有人站出來(lái)為推理基礎(chǔ)設(shè)施提供新的可能性。大模型落地不能只有精英算力路徑,也需要一條更廣譜的路線:以異構(gòu)協(xié)同釋放本地硬件的潛力,以開(kāi)源能力幫助更多團(tuán)隊(duì)和組織用得起、調(diào)得動(dòng)、融得進(jìn)自己的業(yè)務(wù)中。

正因此,趨境已經(jīng)與多個(gè)國(guó)產(chǎn)CPU、GPU硬件平臺(tái)合作,共同推進(jìn)全國(guó)產(chǎn)高性價(jià)比方案;為數(shù)十家行業(yè)開(kāi)發(fā)伙伴提供算力底座,逐步實(shí)現(xiàn)算力普惠,讓大模型真正能夠?yàn)闃I(yè)務(wù)所用。

今天的KTransformers,已經(jīng)讓大模型推理不再專屬于高端算力;未來(lái),趨境希望讓AI能力也不再專屬于少數(shù)企業(yè)。

Gossip time

KTransformers已經(jīng)可以在一張消費(fèi)級(jí)GPU上穩(wěn)定運(yùn)行千億參數(shù)大模型。那么,下一步呢?

給大家附上一個(gè)圈內(nèi)人最近才剛知道的小道消息:

研究團(tuán)隊(duì)好像已經(jīng)有人在內(nèi)部試水微調(diào)了。而且是在不擴(kuò)卡、不改架構(gòu)的前提下來(lái)做輕量調(diào)優(yōu)。

從KTransformer的設(shè)計(jì)思路來(lái)看,確實(shí)是順理成章的一步:

既然推理已經(jīng)解決了,那接下來(lái)的方向,不就是能跑也能調(diào)么。

大家期待的小手手可以隨時(shí)搓起來(lái)了哈!

論文鏈接:

https://madsys.cs.tsinghua.edu.cn/publication/ktransformers-unleashing-the-full-potential-of-cpu/gpu-hybrid-inference-for-moe-models/SOSP25-chen.pdf

技術(shù)細(xì)節(jié)詳見(jiàn)SGLang博客:

https://lmsys.org/blog/2025-10-22-KTransformers/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-29 09:13:00

2022-03-30 15:25:28

鏈接過(guò)程計(jì)算機(jī)系統(tǒng)程序

2014-04-10 09:40:51

System 360計(jì)算機(jī)計(jì)算機(jī)系統(tǒng)

2025-07-01 13:52:19

2018-07-05 09:25:07

系統(tǒng)存儲(chǔ)層次

2021-09-02 10:15:50

計(jì)算平臺(tái)MaxCompute 阿里云

2022-10-31 08:17:04

內(nèi)存計(jì)算機(jī)cpu

2025-05-29 03:00:00

混合推理模型LHRMAI

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機(jī)器學(xué)習(xí)

2012-09-12 09:59:26

云計(jì)算超級(jí)計(jì)算機(jī)數(shù)據(jù)中心

2020-10-15 14:23:30

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2012-06-20 10:40:36

量子計(jì)算機(jī)

2020-06-04 11:52:09

阿里云

2013-12-18 13:35:22

微軟頂新信息化

2023-09-07 11:16:15

GPU機(jī)器學(xué)習(xí)

2025-04-08 09:16:00

推理模型AI

2009-07-04 09:38:07

2024-08-13 14:00:00

AI訓(xùn)練

2020-06-19 10:33:16

阿里AIICML

2014-05-14 16:46:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)