偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了! 原創(chuàng)

發(fā)布于 2025-7-9 13:52
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

一秒鐘輸出高達 1100 tokens!

昨天,一款專為編碼場景設(shè)計的“相當(dāng)另類”的模型成功出圈了。

等等黨,這次終于不用再苦等了~

令人萬萬沒想到的是,一直在圖像/視頻領(lǐng)域炙手可熱的 Diffusion 模型也可以用到編程模型上來。這可以說是對以 Transformer 模型架構(gòu)為主的 LLM 圈的一次“地基式”的革命。

關(guān)鍵是,速度提升了 5-10 倍的同時,編碼的性能測試分數(shù)并沒有犧牲掉,反而取得了讓開發(fā)者眼前一亮的成績。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

這款神器名為 Mercury Coder,是由大洋彼岸硅谷的一家 AI 初創(chuàng)公司 Inception Labs 研發(fā)的。它不僅準(zhǔn)確率與 GPT?4o Mini、Claude 3.5 Haiku 等自回歸模型相當(dāng)。

而且在 Copilot Arena 測評中,Mercury 速度第一,質(zhì)量名列第二,僅次于 GPT?4o 等模型。

多說一嘴,這么好的產(chǎn)品不再只是學(xué)術(shù)成果,已經(jīng)成功實現(xiàn)商用了。

可以說非常的驚艷!

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

1.LLM底層范式變天:擴散機制進入語言領(lǐng)域

眾所周知,過去擴散模型專注圖像生成,現(xiàn)在終于有團隊成功將其移植到 LLM 世界(而且實現(xiàn)了商用)。

這就意味大語言模型取得了兩種突破:

  • 不再受限于“一次就生成一個token”的方式,而是能并行預(yù)測token(速度提升 5–10 倍,簡直是一種顛覆)
  • 允許模型“整體優(yōu)化”“多token感知”,有助于提升上下文一致性與邏輯連貫性

而這兩點,可以說對于業(yè)界來說一直都是很大的挑戰(zhàn)。這尤其在代碼生成、數(shù)學(xué)推理、結(jié)構(gòu)化填空等場景中尤其重要。

嘗鮮入口為大家找到了:

  • API 地址:platform.inceptionlabs.ai
  • 試玩地址:chat.inceptionlabs.ai

2.怎么做到的?技術(shù)細節(jié)公開了

至于具體的技術(shù)細節(jié)?由 Inception Labs 的多位核心研究者聯(lián)合署名發(fā)表的論文《Mercury:基于擴散機制的超高速大語言模型》也給出了解釋。

與以往的擴散方法不同,這種新框架有兩個特點——(1)在Transformer 架構(gòu)內(nèi)部運行;(2)能夠在多個位置同時進行語言建模。

下面就訓(xùn)練、推理、優(yōu)化方面簡單介紹一下,對于這塊細節(jié)不太“感冒”的朋友可以直接看下一部分。

在訓(xùn)練方面,其實思路依舊是基于傳統(tǒng)擴散模型的思路(噪聲注入 + 重建),即:

使用一個前向擴散過程將原始數(shù)據(jù)擾亂(加噪),再通過反向去噪模型逐步恢復(fù)原始數(shù)據(jù)。

不過不同之處在于,該方法在所有位置的 denoising 是并行進行的,這意味著:

模型可以一次性預(yù)測多個 token,而不是像傳統(tǒng) LLM 那樣一個一個地生成。

這種方法被稱為多時間步擴散語言建模,同時團隊成員還在在語言域上做了定制。

推理方面——

盡管訓(xùn)練是并行進行的,推理過程仍然是序列化的,但不同于標(biāo)準(zhǔn)的自回歸 LLM:

  • 在推理時,采用一種被稱為“批次采樣(batchwise sampling)”的策略;
  • 每一步可以預(yù)測多個 token,然后用這些 token 更新序列;
  • 然后下一步繼續(xù)生成后續(xù) token;
  • 這個過程實際上是一個自回歸的擴散采樣機制。

這種方式允許兼顧:上下文感知的序列生成能力和批量生成的速度優(yōu)勢

簡言之:訓(xùn)練時是并行的,推理時是快步自回歸的。

第三,在輸出token的質(zhì)量方面,團隊還設(shè)計了一種從粗到細(Coarse-to-Fine)的采樣機制,以提升推理質(zhì)量和效率:。

  • 在初始階段,快速生成多個 token 的初步版本;
  • 然后模型根據(jù)已有上下文和這些 token 的質(zhì)量打分,挑出需要進一步“細化”的 token;
  • 在隨后的步驟中,模型只對這些 token 進行再生成或修復(fù)。

這樣做的好處就是,既避免了對所有 token 反復(fù)采樣的成本,同時保證了整體輸出的連貫性和準(zhǔn)確性。

這種策略類似于圖像生成中的“refinement step”,事實證明,這種方法現(xiàn)在也可以應(yīng)用到了 token 級別的語言生成上。

此外,工程優(yōu)化方面也做了很多工作。比如對 Transformer 這個骨干架構(gòu),同樣在多個方面做了優(yōu)化以支持擴散機制和高性能推理。

首先是,建模增強——

  • 引入了時間嵌入(time embeddings):將每個 token 的“擴散時間步”編碼輸入模型;
  • 修改了 attention mask 和位置編碼,使其支持同時多個 token 的解碼推理。

其次,是推理系統(tǒng)層優(yōu)化。

  • 構(gòu)建了專用的高吞吐推理引擎(用于部署);
  • 支持高效的 GPU 批處理、內(nèi)存分頁和流式解碼;
  • 推理引擎支持OpenAI API 兼容接口,方便接入現(xiàn)有系統(tǒng);
  • 可選動態(tài)參數(shù),允許用戶在響應(yīng)速度和生成質(zhì)量之間權(quán)衡。

省流版,直接看下表。


環(huán)節(jié)



描述


訓(xùn)練


多 token 并行去噪;非自回歸的語言建模訓(xùn)練


推理


自回歸式擴散采樣;每步生成多個 token,快速推進


質(zhì)量控制


coarse-to-fine 策略,提升效率與輸出一致性


架構(gòu)優(yōu)化


改進 Transformer 支持擴散;系統(tǒng)層優(yōu)化支持高吞吐


3.快到飛起,專為編程場景設(shè)計

這款編碼神器,速度實在一絕,用快到“飛起”都不能形容,小編認為這是火箭的速度!

小編試著輸入了一個動畫模擬的 prompt,結(jié)果還沒眨眼,就出了效果了。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

目前 Mercury Coder,專門針對 編程場景做出了優(yōu)化,目前分為兩個版本:Mini 和 Small。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

在測試中,兩款版本的速度優(yōu)勢顯著:

在 NVIDIA H100 GPU 上的測試中(由第三方 Artificial Analysis 評估):

  • Mercury Coder Mini:1109 token/s,比所有開源模型表現(xiàn)更好,且速度快 8 倍以上
  • Mercury Coder Small:737 token/s,性能接近 Claude 3.5 Haiku 與 Gemini 2.0 Flash,但推理速度更快。

正如開頭所介紹的,這兩個模型:在速度上不僅比當(dāng)前最強的“快模型”平均快 10 倍,同時還保持了與主流模型相當(dāng)?shù)妮敵鲑|(zhì)量。

可以說,Mercury 模型顯著推動了“延遲-準(zhǔn)確率”的帕累托邊界。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

比如,在 LLM 代碼助手競技場Copilot Arena 中:

  • Mercury Coder 是目前最快的模型;
  • 在質(zhì)量排名中位居第二,說明性能并非以犧牲質(zhì)量為代價。

4.多編程語言、多任務(wù)實測表現(xiàn)強勁

團隊還展示了 Mercury Coder 在多種編程語言和實際應(yīng)用場景下的 benchmark 表現(xiàn)。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

團隊還測試了 6 種語言的代碼生成能力(C++、Java、JS、PHP、Bash、TS),Mercury 模型整體優(yōu)于大多數(shù)開源模型,并在 Java、JavaScript 上有極強競爭力。

值得一提的是,測試模型在以下任務(wù)的補全能力時,也都取得第一的水平:

  • 單行缺失(FIM Single-Line):考察補全代碼中間缺失片段的能力
  • 隨機范圍輕缺失(Random-Span-Light)

說明 Mercury 已經(jīng)在 代碼補全任務(wù)中為 SOTA 水準(zhǔn),優(yōu)于所有參評模型,包含GPT-4o-mini、Codestral。

免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

至于,模型可擴展性方面,團隊表示:雖然目前只有 Mini 和 Small 兩個版本,但他們觀察到——Small 在所有基準(zhǔn)上都優(yōu)于 Mini,這說明:diffusion 架構(gòu)可擴展性良好,未來值得進一步擴大模型規(guī)模。

5.網(wǎng)友驚到了:太快了,革命性壓力給到CI系統(tǒng)

這么快的編寫速度,著實驚人。以至于網(wǎng)友驚呼:壓力不再是編碼,而是測試端!

Hacker News 上底下的大佬們看到這樣的神器,紛紛表示:太快了,但測試和CI 跟不上這樣的速度!

AI 寫得再快,測試通不過還是白搭。Mercury 的快,不僅對「推理延遲」提出挑戰(zhàn),對整個 CI 流程提出了革命性壓力。

網(wǎng)友 mike_hearn 表示:


LLM 代理越來越強了,但問題是:測試仍然慢得驚人

,這會讓速度優(yōu)勢毫無意義。即使 AI 代碼寫得比人快 100 倍,但如果每次提交(PR)都要等一小時測試,就毫無用處。


免費!快Claude十倍!一秒1000個token!硅谷創(chuàng)業(yè)公司新推編程神器炸翻了!-AI.x社區(qū)圖片

他還指出:

  • 大多數(shù)團隊早就被 CI 速度卡住了;
  • Mercury 生成的代碼質(zhì)量不錯,但更重要的問題是:「我們?nèi)绾巫寽y試執(zhí)行速度匹配生成速度?

關(guān)于這一點,網(wǎng)友 refulgentis 提出:

測試延遲不是只靠加機器解決。我的 Android Wear 構(gòu)建最短也要 52 分鐘,有時超過 3 小時。

xemdetia也表達了類似的觀點——

CI 測試失敗很多時候不是代碼問題,而是:

  • GitHub rate limit;
  • 第三方 SAST 工具超時;
  • Artifactory 掛了;
  • 本地測過但 CI 環(huán)境 flaky。

這一點非常現(xiàn)實:LLM 編碼速度的“外部瓶頸”不在模型,而在落地流程:

  • Mercury 的每秒千 tokens 意味著它能每分鐘寫好幾個 PR;
  • 但現(xiàn)實世界的 CI/CD,仍然像堵車的十字路口。

當(dāng)然,也有網(wǎng)友思考如何嘗試解決這個問題:是否可以用“云 + Spot 實例”優(yōu)化 CI?

可以用云的 spot 實例來快速彈性擴展測試節(jié)點,CI 成本會降低不少。

但這種方案很快就引發(fā)了另一個問題:企業(yè)隱私安全問題。

很多公司因為 IP(知識產(chǎn)權(quán))敏感,不敢把 CI 放到云上。

對于此,小編不得不說,Vibe Coding 氣候已成,下一步無疑就是 Vibe testing!

6.寫在最后:開胃菜已上,大餐還在后頭

下面提一些小編的思考。

首先,是不得不佩服這家 Inception?Labs 創(chuàng)業(yè)公司。

其一是他們團隊把Diffusion 模型進入 LLM 核心戰(zhàn)場:將擴散模型進入語言建模,且直接對標(biāo)主流 Transformer 的 token-by-token 推理方式,這非常具有顛覆性。

其二,通過推理速度的突破和工程優(yōu)化,能快速把基礎(chǔ)研究實現(xiàn)產(chǎn)業(yè)落地著實。在保質(zhì)的前提下提升 10 倍速度,就意味著運行成本和響應(yīng)延遲都大幅降低,非常契合“落地場景”(如 Copilot 這類編碼助手、實時對話系統(tǒng))。

第二點,這種基于擴散模型的編程模型,只是開胃菜。雖然目前只是在編程垂類上做實驗,但若這種架構(gòu)能擴展到通用語言模型領(lǐng)域,可能將挑戰(zhàn) GPT 系列的主導(dǎo)地位。

第三點,通過評論區(qū)網(wǎng)友的反饋,可以預(yù)判:Vibe Testing 勢必將成為下一個火熱賽道。

對此,大家如何看待這樣一款超高速編程產(chǎn)品呢?

參考鏈接:

??https://arxiv.org/pdf/2506.17298??

??https://news.ycombinator.com/item?id=44489690??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦