偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

修Bug效率提升10倍!網(wǎng)友:我見過最接近AI工程師的開源模型;Kimi新開源編程模型斬獲最高成績!字節(jié)Trae猛跟進創(chuàng)新高

原創(chuàng) 精選
人工智能
什么意思?它不僅超過了 GPT-4、Claude Sonnet 這類收費模型,甚至甚至直接“暴打”了所有其他開源代碼助手,包括那些“宣傳很猛”的家伙。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

今年開年以來,AI編程賽道是徹底燃爆了,各種產(chǎn)品此起彼伏,讓人目不暇接。

想了想,收費的產(chǎn)品的都不在少數(shù)。 

好巧不巧,小編幾天前發(fā)現(xiàn)了一款中國開源免費的 AI 編程助手,一度讓老外都為之種草。

先來讓他看一下令其“倒吸一口冷氣”的基準(zhǔn)測試成績:60.4%。在全球最硬核的代碼評測「SWE-bench Verified」上,做到了60.4% 解決率。(一般的數(shù)字也就是20~30%左右)

什么意思?

它不僅超過了 GPT-4、Claude Sonnet 這類收費模型,甚至甚至直接“暴打”了所有其他開源代碼助手,包括那些“宣傳很猛”的家伙。

圖片圖片

開源地址:https://github.com/MoonshotAI/Kimi-Dev

打破開源紀錄

一位混跡AI圈多年的資深人員甚至將其稱為“改變游戲規(guī)則”的模型、“簡直讓自己睡不著覺!”

大多數(shù)AI編程工具,本質(zhì)上只是高級版的自動補全,要么寫錯代碼,要么給你制造更多麻煩。

科普一下,SWE-bench Verified 的難度有多難?

事實上,這是一個專為評估代碼大模型真實軟件工程能力而設(shè)計的高質(zhì)量基準(zhǔn)測試,它是由麻省理工學(xué)院(MIT)、微軟研究院等機構(gòu)的研究者提出。

SWE-bench Verified 測試是從原始 SWE-bench 數(shù)據(jù)集中篩選出的一個高可信度子集,其中每一道題目都經(jīng)過人工驗證,確保以下幾點:

  1. 問題(Issue)是明確且真實的: 來自 GitHub 上實際的開源項目問題;
  2. 代碼修復(fù)是確切的: 有明確的 PR(pull request)修復(fù),并已被合并;
  3. 修復(fù)是可執(zhí)行驗證的: 提供測試用例,模型修復(fù)后能通過這些測試。

它是通過真實的開源項目中提取任務(wù),考驗AI的代碼生成和修復(fù)能力,因此被視為目前最難的編程基準(zhǔn)測試之一。

簡單說,大部分模型在這個測試上表現(xiàn)都很慘——哪怕是每月幾百美元的收費模型也難以突破50%。

而這款免費的中國模型,輕松打破紀錄。Kimi-Dev-72B 在 SWE-bench Verified 上達到了 60.4% 的解決率。

這位資深人士透露:

之前最強的開源模型:SWE-bench Verified 測試成績約為 40%。而 Kimi-Dev-72B 的分數(shù)竟然達到了 60.4%,提升超過了 50% ,以 AI 的發(fā)展速度來說,這就像是從騎自行車一下?lián)Q成了開法拉利。

這還沒完,就連昂貴的閉源大模型表現(xiàn)也不及:

  • Claude:約 50%
  • GPT-4:約 55%
  • Kimi-Dev:60.4%(而且免費?。?/li>

當(dāng)然,目前唯一能打敗它的,只有 Google 的 Gemini2.5 Pro 和 Anthropic 的 Claude Opus —— 但這兩個模型重度使用每月可能要花上好幾百美元。

所以說對于開發(fā)界而言,這款開源、沒有訂閱費、沒有使用上限、沒有鎖功能,性能還能如此能打的 KimiDev 實屬難得!

圖片圖片

一個真實案例:兩分鐘 VS 四小時

分數(shù)這么高,實際使用如何呢?

這里小編有搜到一個用戶案例。

三天前,我遇到一個客戶緊急狀況。他們的電商網(wǎng)站結(jié)賬流程崩了——用戶可以加購,但無法付款,導(dǎo)致訂單流失、客戶投訴不斷。

我的開發(fā)者查了四個小時,100美元一小時,一共燒掉400刀,問題還是沒解決。

我一怒之下,把代碼扔給了 Kimi-Dev。

兩分鐘——沒錯,120秒內(nèi),它就找到了問題:支付流程中存在競態(tài)條件(race condition)。不僅定位準(zhǔn)確,它還自動寫了完美的修復(fù)方案,并補上了防止復(fù)發(fā)的測試代碼。

兩分鐘對比四小時——不僅高效,更是徹底顛覆了“修Bug”的成本結(jié)構(gòu)。

與眾不同:它到底怎么做到的?

大多數(shù)AI編程工具,只是“猜下一個詞”的高級自動補全。你一停頓,它就亂猜一通,出錯后還得你手動去修。

Kimi-Dev 完全不同,它采用了一種“雙腦架構(gòu)”:

圖像圖像

第一腦:偵探型大腦(定位)

它先完成“文件定位”工作。它不會像其他模型一樣亂改一通,而是先讀Bug報告、分析代碼結(jié)構(gòu),搞清楚問題出在哪個文件、哪個函數(shù)、哪一行。

這一點很特別,其他模型往往是散彈式打鳥。

第二腦:外科手術(shù)大腦(修復(fù))

定位好之后,第二個大腦負責(zé)實際修復(fù)。這部分才是神來之筆——它不只是修眼前的問題,而是考慮邊界條件、系統(tǒng)整體影響,并生成能直接上線的代碼。

兩個大腦協(xié)同工作:一個找問題,一個解決問題,還會互相校驗彼此的工作。就像你擁有一位高級工程師 + QA測試專家的組合。

為什么它訓(xùn)練得這么強?

此外,Kimi-Dev 還有一個黑魔法,即它的訓(xùn)練方式。

眾所周知,不少模型都是從網(wǎng)絡(luò)上搜集到的天南海北的代碼,質(zhì)量良莠不齊。

而 Kimi-Dev 這次走的是實戰(zhàn)派路線。它的訓(xùn)練方式是:

在Docker容器中用強化學(xué)習(xí)訓(xùn)練,讓它在真實環(huán)境中編寫和調(diào)試代碼。他們丟給它各種真實項目、真實Bug,只有在修復(fù)完全成功時才給予獎勵。

所以它每一次建議的修復(fù)方案,都已經(jīng)在數(shù)百萬次的實戰(zhàn)場景中被驗證過。你丟給它的Bug,它八成已經(jīng)見過類似的。

它是由 Moonshot AI 發(fā)布的一個大語言模型衍生版本,全名叫 Kimi-Dev-72B。

Reddit 熱帖一出,社區(qū)炸了:難道過擬合了? 3090 顯卡上成功跑通

在 Reddit 上,關(guān)于 Kimi-Dev 的討論火得一塌糊涂。我們整理了三大核心情緒:

一類是驚訝:“它居然贏了 Qwen 3?”

“沒想到一個 finetune 模型,居然超越了 235B 的 Qwen3?!薄狜MidAirRunner

再一類是懷疑:“是不是過擬合 SWE-bench?”

“感覺只在特定基準(zhǔn)上表現(xiàn)好,日常應(yīng)用可能一般?!薄狜NewtMurky

當(dāng)然更多的還是真香黨:“能跑起來我就試,趕緊來 GGUF!”

不少人已經(jīng)上傳了 Q4_K、Q6_K 等量化版本,開始自己跑測試。有人甚至在雙 3090 顯卡上成功跑通,還放出了配置文件和推理速度。

圖片

也有用戶實測:在 Web 項目、SQL 查詢、API 生成任務(wù)上表現(xiàn)不錯。

圖片

不過有一個小缺點,則是:目前英文表現(xiàn)比中文穩(wěn)定,中文項目的兼容性還有待增強。

對企業(yè)意味著什么?

前面提到的那位網(wǎng)友,Nguyen 表示:我已經(jīng)在我的團隊全面部署它。

而且結(jié)果非??鋸垼?/p>

  • 修Bug效率提升10倍
  • 代碼質(zhì)量更高
  • 工程師不再被問題卡幾個小時
  • 更重要的是:他們重新享受寫代碼的樂趣了

更關(guān)鍵的是:它徹底打破了收費軟件的技術(shù)壁壘。以前想用高質(zhì)量AI編碼助手,得砸錢買服務(wù)、請高級程序員。現(xiàn)在?一個創(chuàng)業(yè)者 + 一臺筆記本,就能做出同樣質(zhì)量的產(chǎn)品。

安裝方面,可以說非常簡單。只需要留足大約 50G 的空間。

  • 從 GitHub 或 HuggingFace 下載模型,完全免費
  • 可本地運行,代碼不會上傳到任何服務(wù)器
  • 即使沒有高配電腦也能搞:用 Runpod 或 Vast.ai 按小時租GPU,一天不到5美元

另外多提一嘴,本地運行的模型的好處,對于企業(yè)而言非常重要,尤其對于做私有算法、敏感系統(tǒng)的公司來說,這一定是剛需。

提高效果的小技巧:描述的越清楚,效果越好

使用Kimi-Dev,就像跟高級程序員解釋問題一樣。你解釋得越清楚,修復(fù)效果越精準(zhǔn)。

所以,別說:“我代碼壞了?!?/p>

要說:“這個Python腳本讀取CSV文件并計算B列平均值時,在遇到空值單元格時報了KeyError異常。”

切記:只有提供足夠上下文,它就能像手術(shù)刀一樣精準(zhǔn)處理。

后記

就在小編寫完這篇文章不到 1 個小時,令人吃驚地是,另一款國產(chǎn) AI 產(chǎn)品刷新了這個分數(shù)。

在近期的 SWE-bench Verified 排行榜上,TRAE Agent 拿到了 75.2% 的求解率分數(shù),而且也開源了。

圖片圖片

只能說,編程大模型的競賽程度,絲毫不輸去年的通用大模型。
Kimi 和字節(jié)真的是一對勁敵!
且讓子彈盡情地飛吧!
責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-03-21 15:06:10

模型字節(jié)跳動框架

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2025-07-16 10:15:51

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2019-06-10 00:45:01

谷歌開源圖像識別

2022-12-23 10:50:20

模型開源

2024-11-02 10:28:03

2022-12-13 08:45:01

3F傾聽模型

2023-05-16 20:47:38

2022-07-15 09:25:01

AI制藥

2024-11-01 20:25:28

2020-02-24 10:51:25

微軟開源Windows

2013-11-06 09:55:04

2025-07-17 08:14:22

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2025-05-06 09:03:00

2023-11-03 14:37:59

AI 模型開源

2025-06-19 08:02:13

2021-09-17 13:05:55

模型人工智能框架

2024-02-22 09:30:15

Gemma開源模型谷歌
點贊
收藏

51CTO技術(shù)棧公眾號