史上最快AI芯片「Sohu」,速度10倍于B200,哈佛輟學(xué)生打造
大模型時(shí)代,全球都缺算力,買鏟子的英偉達(dá)市值被炒上了天。
現(xiàn)在,終于有一家公司帶著自己的 AI 芯片來(lái)叫板了。
今天凌晨,科技圈迎來(lái)了一個(gè)重要新聞。美國(guó)芯片創(chuàng)業(yè)公司 Etched 推出了自己的第一塊 AI 芯片 Sohu,它運(yùn)行大模型的速度比英偉達(dá) H100 要快 20 倍,比今年 3 月才推出的頂配芯片 B200 也要快上超過(guò) 10 倍。
一臺(tái) Sohu 的服務(wù)器運(yùn)行 Llama 70B 每秒可輸出超過(guò) 50 萬(wàn)個(gè) token,比 H100 服務(wù)器(23,000 個(gè) token / 秒)多 20 倍,比 B200 服務(wù)器(約 45,000 個(gè) token / 秒)多 10 倍。

Sohu 是世界第一款專用于 Transformer 計(jì)算的芯片,歷時(shí)兩年打造。
作為一塊 ASIC(專用集成電路),Sohu 把對(duì)于 transformer 架構(gòu)的優(yōu)化硬化在芯片中,無(wú)法運(yùn)行大多數(shù)「?jìng)鹘y(tǒng)」的 AI 模型:如為 Instagram 廣告提供支持的 DLRM、AlphaFold 2 等蛋白質(zhì)折疊模型或 Stable Diffusion 2 等較舊的圖像生成模型。我們也無(wú)法運(yùn)行 CNN、RNN 或 LSTM。
但另一方面,對(duì)于 transformer 來(lái)說(shuō),Sohu 就是有史以來(lái)最快的芯片,與其他產(chǎn)品之間是量級(jí)的區(qū)別。如今的每款主流 AI 產(chǎn)品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驅(qū)動(dòng)的。
最近一段時(shí)間,由于摩爾定律放緩,GPU 性能的提升很大程度上需要依賴于增加芯片面積和功耗。不論是英偉達(dá) B200、AMD MI300X 還是 Intel Gaudi 3,都不約而同的使用「二合一」的方式提升性能,功耗也翻倍了。

從 2022 年到 2025 年,AI 芯片的性能并沒有真正變得更好,而是變得更大了。
但如果大模型廣泛使用 Transformer 架構(gòu),追求專業(yè)化或許是提高性能的好方向。
作為一個(gè)新興領(lǐng)域,AI 模型的架構(gòu)過(guò)去變化很大。但自 GPT-2 以來(lái),最先進(jìn)的模型幾乎都在使用 Transformer,從 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自動(dòng)駕駛所需的模型。

Etched 給我們算了一筆賬:芯片項(xiàng)目的成本為 5000 萬(wàn)至 1 億美元,需要數(shù)年時(shí)間才能投入生產(chǎn)。另一方面,當(dāng)模型訓(xùn)練成本超過(guò) 10 億美元、推理成本超過(guò) 100 億美元時(shí),使用專用芯片是不可避免的。在這種產(chǎn)業(yè)規(guī)模下,1% 的改進(jìn)就能撬動(dòng)硬件架構(gòu)的更新。
速度超 H100 20 倍,F(xiàn)LOPS 利用率超 90%
作為世界上首款 transformer ASIC(應(yīng)用型專用集成電路)芯片,一臺(tái)集成了 8 塊 Sohu 的服務(wù)器可以匹敵 160 塊 H100 GPU。也即,Sohu 的運(yùn)行速度是 H100 的 20 多倍。
具體來(lái)講,通過(guò)專門化,Sohu 具備了前所未有的性能。一臺(tái)集成 8 塊 Sohu 芯片的服務(wù)器每秒可以處理 50 萬(wàn)的 Llama 7B tokens。
針對(duì) Llama 3 70B 的 FP8 精度基準(zhǔn)測(cè)試顯示:無(wú)稀疏性、8 倍模型并行、2048 輸入或 128 輸出長(zhǎng)度。
此外,對(duì)于 Llama、Stable Diffusion 3,Sohu 僅支持 transformer 推理。Sohu 支持了當(dāng)前谷歌、Meta、微軟、OpenAI、Anthropic 等各家的模型,未來(lái)還會(huì)適配模型調(diào)整。
由于 Sohu 僅能運(yùn)行一種算法,因此可以刪除絕大多數(shù)控制流邏輯,從而允許擁有更多數(shù)學(xué)塊。也因此,Sohu 實(shí)現(xiàn)了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 約為 30%。
Sohu 為何能輸出更多 FLOPS?
英偉達(dá) H200 支持 989 TFLOPS 的 FP16/BF16 計(jì)算能力,并且沒有稀疏性。這是當(dāng)前最先進(jìn)的芯片,而 2025 年推出的 GB200 將在計(jì)算能力上提升 25%,支持 1250 TFLOPS。
由于 GPU 的絕大部分區(qū)域都是可編程的,因此專注于 transformer 會(huì)容納更多的計(jì)算。這可以從第一性原理中證明:
構(gòu)建單個(gè) FP16/BF16/FP8 乘加電路需要 10000 個(gè)晶體管,這是所有矩陣數(shù)學(xué)的基石。H100 SXM 擁有 528 個(gè)張量核心,每個(gè)核心擁有 4× 8 × 16 FMA 電路。乘法告訴我們:H100 有 27 億個(gè)晶體管用于張量核心。
但是,H100 卻有 800 億個(gè)晶體管。這意味著 H100 GPU 上只有 3.3% 的晶體管用于矩陣乘法。這是英偉達(dá)和其他芯片廠商經(jīng)過(guò)深思熟慮的設(shè)計(jì)決定。如果你想支持所有類型的模型(CNN、LSTM、SSM 等),那么沒有比這更好的了。
而通過(guò)僅運(yùn)行 transformer,Etched 可以讓 Sohu 芯片輸出更多的 FLOPS,且需要降低精度或稀疏性。
內(nèi)存帶寬也不是瓶頸
實(shí)際上,對(duì)于像 Llama 3 這樣的模型,情況并非如此。
我們以英偉達(dá)和 AMD 的標(biāo)準(zhǔn)基準(zhǔn)為例:2048 個(gè)輸入 token 和 128 個(gè)輸出 token。大多數(shù) AI 產(chǎn)品的 prompt 更長(zhǎng),比如最新的 Claude 聊天機(jī)器人在系統(tǒng) prompt 中擁有 1000+tokens。
在 Sohu 上,推理是分 batch 運(yùn)行的。每個(gè) batch 都需要加載所有模型權(quán)重一次,并在 batch 的每個(gè) token 中重復(fù)使用。通常來(lái)說(shuō),LLM 輸入是計(jì)算密集型的,而 LLM 輸出是內(nèi)存密集型的。當(dāng)我們將輸入和輸出 token 與連續(xù) batch 結(jié)合時(shí),工作負(fù)載變成了高度計(jì)算密集型。
以下為 LLM 連續(xù) batching 處理的示例,這里運(yùn)行具有四個(gè)輸入 token 和四個(gè)輸出 token 的序列。每種顏色代表不同的序列。

我們可以擴(kuò)展相同的技巧,從而運(yùn)行具有 2048 個(gè)輸入 token 和 128 個(gè)輸出 token 的 Llama 3 70B。每個(gè) batch 中包含用于一個(gè)序列的 2048 個(gè)輸入 token,以及用于 127 個(gè)不同序列的 127 個(gè)輸出 token。
如果這樣做了,則每個(gè) batch 需要大約 (2048 + 127)×70B 參數(shù) × 每個(gè)參數(shù) 2 字節(jié) = 304 TFLOP,而僅需要加載 70B 參數(shù) × 每個(gè)參數(shù) 2 字節(jié) = 140 GB 的模型權(quán)重和大約 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 緩存權(quán)重。這比內(nèi)存帶寬需要的計(jì)算量多得多:H200 需要 6.8 PFLOPS 的計(jì)算才能最大化其內(nèi)存帶寬。這還是利用率為 100% 的情況,如果利用率僅為 30%,則需要 3 倍以上的內(nèi)存。
Sohu 擁有了更多的計(jì)算能力且利用率非常高, 因此可以運(yùn)行巨大的吞吐量,而不會(huì)出現(xiàn)內(nèi)存帶寬瓶頸。
軟件如何工作
在 GPU 和 TPU 上,軟件是一場(chǎng)噩夢(mèng)。處理任意 CUDA 和 PyTorch 代碼需要極其復(fù)雜的編譯器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在軟件上總共花費(fèi)了數(shù)十億美元,但收效甚微。
而 Sohu 只運(yùn)行 transformer,因此只需要為 transformer 編寫軟件。
大多數(shù)運(yùn)行開源或內(nèi)部模型的公司都使用特定于 transformer 的推理庫(kù),比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
這些框架非常僵化,雖然你可以進(jìn)行模型超參數(shù)調(diào)優(yōu),但實(shí)際上不支持更改底層模型代碼。但這沒關(guān)系,因?yàn)樗?transformer 模型都非常相似(甚至是文本 / 圖像 / 視頻模型),所以超參數(shù)調(diào)優(yōu)就是你真正需要的。
雖然 95% 的 AI 公司是這樣,但一些最大的 AI 實(shí)驗(yàn)室采用定制方式。他們有工程師團(tuán)隊(duì)來(lái)手動(dòng)調(diào)整 GPU 核心以實(shí)現(xiàn)更高的利用率,并進(jìn)行逆向工程以將寄存器對(duì)每個(gè)張量核心的延遲將至最低。
Etched 讓我們不需要再進(jìn)行逆向工程,他們的軟件(從驅(qū)動(dòng)程序、內(nèi)核到服務(wù)堆棧)都將是開源的。如果你想實(shí)現(xiàn)自定義 transformer 層,則內(nèi)核向?qū)Э梢宰杂傻剡@樣做。
創(chuàng)業(yè)團(tuán)隊(duì):哈佛輟學(xué)生領(lǐng)銜
Etched 的 CEO Gavin Uberti 告訴記者:「如果未來(lái) Transformer 不再是主流,那我們就會(huì)滅亡。但如果它繼續(xù)存在,我們就會(huì)成為有史以來(lái)最大的公司?!?/span>
打造 Sohu 芯片的 Etched 位于加州庫(kù)比蒂諾,公司成立僅兩年,目前團(tuán)隊(duì)只有 35 人,創(chuàng)始人是一對(duì)哈佛輟學(xué)生 Gavin Uberti(前 OctoML 和前 Xnor.ai 員工)和 Chris Zhu,他們與 Robert Wachen 和前賽普拉斯半導(dǎo)體公司首席技術(shù)官 Mark Ross 一起,一直致力于打造專用于 AI 大模型的芯片。

在 Sohu 芯片發(fā)布的同時(shí),Etched 也宣布已完成了 1.2 億美元的 A 輪融資,由 Primary Venture Partners 和 Positive Sum Ventures 共同領(lǐng)投。Etched 的總?cè)谫Y額已達(dá)到 1.2536 億美元,本輪融資的重要投資者包括 Peter Thiel、GitHub 首席執(zhí)行官 Thomas Dohmke、Cruise 聯(lián)合創(chuàng)始人 Kyle Vogt 和 Quora 聯(lián)合創(chuàng)始人 Charlie Cheever。
不過(guò)對(duì)于占據(jù)超過(guò) 80% AI 芯片市場(chǎng)份額的英偉達(dá)來(lái)說(shuō),1.2 億美元只相當(dāng)于它半天的收入。
「我們?nèi)绱伺d奮的原因,選擇輟學(xué)的原因,以及我們召集團(tuán)隊(duì),投身芯片項(xiàng)目的原因在于 —— 這是最重要的工作,」Etched 運(yùn)營(yíng)主管 Robert Wachen 說(shuō)道?!刚麄€(gè)技術(shù)的未來(lái)將取決于算力基礎(chǔ)設(shè)施能否實(shí)現(xiàn)大規(guī)模?!?/span>
Uberti 聲稱到目前為止,已有匿名客戶預(yù)訂了「數(shù)千萬(wàn)美元」的硬件,預(yù)計(jì)在今年三季度,Sohu 將推向市場(chǎng)。
未來(lái)真的如 Uberti 所說(shuō),只有在 Sohu 這樣的芯片上,視頻生成、音頻生成、具身智能等技術(shù)才能真正落地嗎?
































