偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不要自回歸!擴(kuò)散模型作者創(chuàng)業(yè),首個(gè)商業(yè)級(jí)擴(kuò)散LLM來(lái)了,編程秒出結(jié)果

人工智能 新聞
首個(gè)商業(yè)級(jí)擴(kuò)散大型語(yǔ)言模型(dLLM)來(lái)了!該模型名為 Mercury,其表現(xiàn)非常卓越,在英偉達(dá) H100 上能以每秒超過(guò) 1000 token 的速度運(yùn)行,同時(shí)性能也并不比現(xiàn)有的經(jīng)過(guò)速度優(yōu)化的 LLM 差。

當(dāng)前的 AI 領(lǐng)域,可以說(shuō) Transformer 與擴(kuò)散模型是最熱門的模型架構(gòu)。也因此,有不少研究團(tuán)隊(duì)都在嘗試將這兩種架構(gòu)融合到一起,以兩者之長(zhǎng)探索新一代的模型范式,比如我們之前報(bào)道過(guò)的 LLaDA。不過(guò),之前這些成果都還只是研究探索,并未真正實(shí)現(xiàn)大規(guī)模應(yīng)用。

今天凌晨,首個(gè)商業(yè)級(jí)擴(kuò)散大型語(yǔ)言模型(dLLM)來(lái)了!該模型名為 Mercury,其表現(xiàn)非常卓越,在英偉達(dá) H100 上能以每秒超過(guò) 1000 token 的速度運(yùn)行,同時(shí)性能也并不比現(xiàn)有的經(jīng)過(guò)速度優(yōu)化的 LLM 差。

image.png

下面是官方展示的一個(gè)對(duì)比示例。讓一個(gè)自回歸 LLM 與 Mercury 編寫一個(gè) LLM 推理函數(shù)。自回歸模型迭代了 75 次,而這個(gè) dLLM 卻僅迭代了 14 次就完成了任務(wù),速度要快得多。

打造 Mercury 系列模型的是一家創(chuàng)業(yè)公司,名為 Inception Labs,該公司的創(chuàng)始人之一 Stefano Ermon 實(shí)際上也正是擴(kuò)散模型(diffusion model)的發(fā)明者之一,同時(shí)他也是 FlashAttention 原始論文的作者之一。Aditya Grover 和 Volodymyr Kuleshov 皆博士畢業(yè)于斯坦福大學(xué),后分別在加利福尼亞大學(xué)洛杉磯分校和康乃爾大學(xué)任計(jì)算機(jī)科學(xué)教授。

image.png

Inception Labs 今天發(fā)布的 Mercury 具有巨大的性能和效率優(yōu)勢(shì),據(jù) Kuleshov 推文介紹,基于來(lái)自 MidJourney 和 Sora 等圖像和視頻生成系統(tǒng)的靈感,該公司為 Mercury 引入了一種新的語(yǔ)言生成方法。相比于現(xiàn)有的 LLM,這種方法的運(yùn)行效率顯著更高(速度更快、成本更低),并且還可將推理成本降低 10 倍。

性能表現(xiàn)上,Mercury 系列中的編程模型 Mercury Coder 可比肩 Claude Haiku 和 GPT4o-mini 等針對(duì)速度指標(biāo)優(yōu)化過(guò)的前沿模型。但是,它的硬件效率要高得多,因?yàn)樗褂昧死?GPU 的并行生成機(jī)制。這使得模型能以遠(yuǎn)遠(yuǎn)更快的速度和更低的成本運(yùn)行(可以在同樣的硬件上為更多用戶提供服務(wù))。

image.png

目前 Mercury Coder  已上線,可公開試用。該公司表示還可為企業(yè)用戶提供代碼和通用模型的 API 和內(nèi)部部署服務(wù)。

試用地址:https://chat.inceptionlabs.ai

如此高效且達(dá)到商業(yè)級(jí)的新型語(yǔ)言模型自然吸引了不少關(guān)注,著名 AI 研究科學(xué)家 Andrej Karpathy 發(fā)帖闡述了這項(xiàng)成果的意義。他表示,不同傳統(tǒng)的自回歸 LLM(即從左到右預(yù)測(cè) token),擴(kuò)散模型是一次性向所有方向進(jìn)行預(yù)測(cè) —— 從噪聲開始,逐漸去噪成 token 流。雖然之前的研究似乎表明文本好像更適合自回歸范式,而擴(kuò)散模型更適合圖像與視頻,但業(yè)界對(duì)此其實(shí)并沒(méi)有定論。而這項(xiàng)研究更進(jìn)一步表明,擴(kuò)散模型在文本模態(tài)上也具有極大的潛力。

sp_250227_104546.png下面我們就來(lái)看看 Mercury 究竟是怎么打造的及其實(shí)際表現(xiàn)。

讓擴(kuò)散模型驅(qū)動(dòng)下一代 LLM

當(dāng)前的 LLM 都是自回歸模型,也就是說(shuō)它們是從左到右生成文本,一次生成一個(gè) token。

這種生成過(guò)程本質(zhì)上是順序式的 —— 在生成某個(gè) token 之前,必須先生成它之前的所有文本。而每個(gè) token 的生成都需要評(píng)估一個(gè)包含數(shù)十億參數(shù)的神經(jīng)網(wǎng)絡(luò)。前沿的 LLM 公司正在研究通過(guò)測(cè)試時(shí)計(jì)算來(lái)提高模型的推理和糾錯(cuò)能力,但生成長(zhǎng)推理軌跡的代價(jià)是推理成本的急劇上升和更長(zhǎng)的延遲。為了使高質(zhì)量的 AI 解決方案真正普及,需要進(jìn)行范式轉(zhuǎn)變。

而擴(kuò)散模型提供了這樣的范式轉(zhuǎn)變。

擴(kuò)散模型的生成過(guò)程是「從粗到細(xì)」,即輸出是從純?cè)肼曢_始的,然后通過(guò)一系列「去噪」步驟逐步細(xì)化。

由于擴(kuò)散模型不受到僅考慮之前輸出的限制,因此它們?cè)谕评砗徒Y(jié)構(gòu)化響應(yīng)方面表現(xiàn)更好。而且,由于擴(kuò)散模型可以不斷細(xì)化其輸出,它們能夠糾正錯(cuò)誤和幻覺(jué)。因此,擴(kuò)散模型是當(dāng)前所有主要的視頻、圖像和音頻領(lǐng)域的生成式 AI 的基礎(chǔ),包括 Sora、Midjourney 和 Riffusion。然而,擴(kuò)散模型在文本和代碼等離散數(shù)據(jù)上的應(yīng)用從未成功過(guò)。而現(xiàn)在,情況變了。

Mercury Coder:每秒 1000+ Tokens

Mercury Coder 是 Inception Labs 向公眾開放的第一個(gè) dLLM。

它將 AI 能力推向了另一個(gè)高度:比當(dāng)前一代的語(yǔ)言模型快 5 到 10 倍,并能夠以低成本提供高質(zhì)量的響應(yīng)。

dLLM 作為典型自回歸 LLM 的直接替代品,其支持很多用例,包括 RAG、工具使用和智能體工作流。

其工作流程是這樣的,當(dāng)接收到查詢提示時(shí),它并不是逐 token 生成答案,而是以「從粗到細(xì)」的方式生成。對(duì)答案的改進(jìn)是由一個(gè)神經(jīng)網(wǎng)絡(luò)提供 —— 在文章示例中是一個(gè) Transformer 模型 —— 在大量數(shù)據(jù)上進(jìn)行了訓(xùn)練,并通過(guò)并行修改多個(gè) token 來(lái)提高答案的質(zhì)量。

Mercury Coder 性能非常出色,在標(biāo)準(zhǔn)編碼基準(zhǔn)測(cè)試中,Mercury Coder 超越了像 GPT-4o Mini 和 Claude 3.5 Haiku 這樣的自回歸模型,而這些模型專為速度進(jìn)行過(guò)優(yōu)化,同時(shí)速度還提高了多達(dá) 10 倍。

image.png

dLLM 的突出特點(diǎn)在于其速度。

即使是經(jīng)過(guò)速度優(yōu)化的自回歸模型最多也只能達(dá)到每秒 200 個(gè) token,但是該研究可以在商用的 NVIDIA H100 上以每秒超過(guò) 1000 個(gè) token 的速度提供服務(wù)。與一些前沿模型相比,這些模型的運(yùn)行速度可能還不到每秒 50 個(gè) token,dLLM 提供的加速超過(guò)了 20 倍。

dLLM 這樣的高吞吐量以前只能使用專門的硬件來(lái)實(shí)現(xiàn),比如 Groq、Cerebras 和 SambaNova?,F(xiàn)在算法改進(jìn)也跟上了硬件進(jìn)步,并且在更快的芯片上,加速效果會(huì)更加顯著。

下圖為 Mercury Coder 在 NVIDIA H100 上實(shí)現(xiàn)了每秒超過(guò) 1000 個(gè) token 的處理速度。這意味著即使在沒(méi)有使用專用芯片的情況下,dLLM 也能達(dá)到極快的生成速度!

image.png

速度比較;每秒輸出 token

image.png

Mercury Coder 能以極高的速度達(dá)到相當(dāng)高的編程指數(shù),注意這里僅有 Small 和 Mini 版的數(shù)據(jù)

除了速度,Mercury 的代碼補(bǔ)全功能也非常出色。在 Copilot Arena 上進(jìn)行基準(zhǔn)測(cè)試時(shí),Mercury Coder Mini 并列第二,超過(guò)了 GPT-4o Mini 和 Gemini-1.5-Flash 等模型性能,甚至超過(guò)了 GPT-4o 等更大的模型。同時(shí),它也是速度最快的模型,比 GPT-4o Mini 快約 4 倍。

機(jī)器之心也做了一些簡(jiǎn)單的嘗試,速度果真是超級(jí)快!

提示詞:Write a solar system simulator that rotates(寫一個(gè)旋轉(zhuǎn)的太陽(yáng)系模擬器)

可以看到,Mercury Coder 幾乎眨眼之間就完成了所有代碼的編寫,并還附贈(zèng)了相關(guān)說(shuō)明。

未編輯的實(shí)測(cè)速度

運(yùn)行看看效果,有一個(gè) RED 參數(shù)未定義的報(bào)錯(cuò),簡(jiǎn)單修正后即可運(yùn)行。可以說(shuō)是超出預(yù)料了。

雖然目前 Inception Labs 只發(fā)布了 Mercury Coder 模型,但著實(shí)讓人開始期待起來(lái)了呢。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-25 09:04:12

2024-04-26 12:51:48

2025-06-11 09:21:28

2025-05-30 15:54:16

模型AI生成

2025-04-22 15:34:08

視頻生成AI

2024-12-23 13:30:00

2025-05-27 09:00:00

2025-04-07 08:50:00

模型AI數(shù)據(jù)

2024-11-12 13:10:49

2024-05-10 07:58:03

2025-06-04 13:55:03

AI模型技術(shù)

2023-12-03 22:51:35

谷歌論文

2025-06-10 09:18:53

2025-05-27 15:28:11

模型訓(xùn)練AI

2024-04-17 13:22:55

人工智能

2024-10-23 14:04:24

2023-12-20 14:54:29

谷歌Gen-2視頻

2022-01-05 09:27:24

讀擴(kuò)散寫擴(kuò)散feed

2025-04-22 09:17:00

模型生成開源

2024-01-07 20:20:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)