Kimi K2:開(kāi)源智能體模型的巔峰之作 原創(chuàng)
Moonshot最近推出新型開(kāi)源智能體模型 Kimi K2,該模型總參數(shù)高達(dá)1萬(wàn)億個(gè),并擁有320億個(gè)專家混合(MoE)架構(gòu)。Kimi K2有兩種變體,在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色。它具有預(yù)訓(xùn)練和訓(xùn)練后兩種學(xué)習(xí)方法,還能學(xué)習(xí)采用工具。Kimi K2的大多數(shù)功能免費(fèi)使用,其響應(yīng)速度快、功能豐富,為通用人工智能系統(tǒng)的開(kāi)發(fā)和應(yīng)用鋪平了道路。
今年早些時(shí)候,一些開(kāi)源模型在生成式人工智能(GenAI)領(lǐng)域中涌現(xiàn)。雖然DeepSeek占據(jù)了大部分頭條新聞,但Kimi K1.55也是其中的佼佼者。該模型相當(dāng)出色。7個(gè)月后,Moonshot公司攜其新型開(kāi)源智能體模型Kimi K2卷土重來(lái)。Kimi K2的總參數(shù)達(dá)到1萬(wàn)億個(gè),并且擁有320億個(gè)激活的專家混合(MoE)架構(gòu),其性能十分出色。
如上所述,Kimi K2是一款強(qiáng)大的新型開(kāi)源模型,旨在處理復(fù)雜任務(wù)。憑借其先進(jìn)的架構(gòu)和智能決策能力,它不僅能對(duì)提示做出響應(yīng),還能采取實(shí)際行動(dòng)。從編程到數(shù)據(jù)分析,它旨在讓每個(gè)人都能使用高級(jí)人工智能工具。
Kimi K2有兩種變體:
- Kimi-K2-Base:這是一款功能強(qiáng)大的基礎(chǔ)模型,適用于需要全面定制和微調(diào)功能的研究人員和開(kāi)發(fā)人員。
- Kimi-K2-Instruct:這是一款經(jīng)過(guò)訓(xùn)練的指令遵循模型,適用于通用聊天和快速響應(yīng)級(jí)別的智能體任務(wù)。
基準(zhǔn)測(cè)試和性能?
Kimi K2在以下基準(zhǔn)測(cè)試中提供了更先進(jìn)和開(kāi)源的領(lǐng)先結(jié)果:
- SWE-bench驗(yàn)證:65.8%的單次嘗試準(zhǔn)確率
- SWE-bench多語(yǔ)言數(shù)據(jù)集:47.3%(在測(cè)試模型中表現(xiàn)最佳)
- LiveCodeBench v6:53.7%
- OJBench:27.1%
- Tau2-bench(加權(quán)平均值):66.1%
- AceBench(英文):80.1%
- AIME 2025:49.5%
- GPQA-Diamond:75.1%
這些分?jǐn)?shù)凸顯了Kimi K2在智能體編程、工具使用和復(fù)雜STEM任務(wù)方面的優(yōu)勢(shì),其表現(xiàn)經(jīng)常超越或與Claude和GPT-4等專有模型相當(dāng)。
Kimi K2如何學(xué)習(xí)(預(yù)訓(xùn)練和后訓(xùn)練)??
想象一下,如果采用圖書(shū)館規(guī)模的大量書(shū)籍訓(xùn)練人工智能模型,這種學(xué)習(xí)方法稱為預(yù)訓(xùn)練。Kimi K2閱讀了15.5萬(wàn)億個(gè)詞元(token),是互聯(lián)網(wǎng)訓(xùn)練數(shù)量的許多倍。Kimi K2可以嘗試預(yù)測(cè)下一個(gè)單詞,檢查是否正確,并隨著時(shí)間的推移不斷改進(jìn)。閱讀的單詞越多,表現(xiàn)就越好。
但有一點(diǎn)需要注意,人工編寫的數(shù)據(jù)是有限的。因此,Kimi K2不僅通過(guò)閱讀進(jìn)行學(xué)習(xí),還會(huì)主動(dòng)學(xué)習(xí)。這種學(xué)習(xí)方法稱為后訓(xùn)練。它從自己創(chuàng)造的經(jīng)驗(yàn)中學(xué)習(xí),例如嘗試使用工具或完成任務(wù),并評(píng)估自己的表現(xiàn)。
為了確保在學(xué)習(xí)大量數(shù)據(jù)時(shí)不會(huì)出現(xiàn)混淆,Kimi K2使用了一種名為MuonClip的特殊優(yōu)化器。可以將它想象成為“訓(xùn)練教練”,負(fù)責(zé)保持平衡。其他模型在訓(xùn)練過(guò)程中有時(shí)會(huì)“崩潰”,這意味著它們的內(nèi)部數(shù)學(xué)運(yùn)算變得過(guò)于極端。MuonClip通過(guò)溫和地控制那些可能失控的部分(查詢/鍵矩陣),來(lái)防止這種情況發(fā)生,從而保持一切穩(wěn)定可靠運(yùn)行。
Kimi K2如何學(xué)習(xí)使用工具(像開(kāi)發(fā)者一樣)??
假設(shè)想讓人工智能助手預(yù)訂航班或編寫代碼。為此,它需要知道如何使用工具。Kimi K2通過(guò)模擬來(lái)學(xué)習(xí)使用這些工具。
其具體工作流程如下:
- 從一個(gè)目標(biāo)開(kāi)始(例如回答一個(gè)問(wèn)題)。
- 創(chuàng)建一個(gè)域(主題或環(huán)境)。
- 添加真實(shí)或模擬的工具。
- 構(gòu)建數(shù)百個(gè)嘗試使用工具完成任務(wù)的智能體。
- 模擬與這些智能體交互的用戶。
- 一位智能人工智能“裁判“檢查它們的工作,并過(guò)濾掉不良內(nèi)容。
這有助于Kimi K2在幫助真正的用戶之前練習(xí)數(shù)千種不同的工具使用場(chǎng)景。
Kimi K2也采用強(qiáng)化學(xué)習(xí),這就像學(xué)習(xí)一種游戲:正確操作就能得分。對(duì)于像數(shù)學(xué)或編程這樣的任務(wù),它可以檢查自己是否正確。但對(duì)于寫作或幫助用戶這樣的任務(wù),沒(méi)有“正確”的答案。所以Kimi K2充當(dāng)自己的評(píng)審者。它會(huì)評(píng)估自己的表現(xiàn),給自己反饋,并不斷從中學(xué)習(xí)。它還利用數(shù)學(xué)等有明確正確答案的任務(wù),來(lái)提高對(duì)模糊任務(wù)的評(píng)分能力。
如何訪問(wèn)??
可以通過(guò)幾種方式訪問(wèn)Kimi K2,這取決于使用者是普通用戶、開(kāi)發(fā)人員還是基礎(chǔ)設(shè)施運(yùn)營(yíng)人員:
在線使用Kimi K2
- 網(wǎng)站:???https://www.kimi.com/???
- 從模型選擇器中選擇Kimi K2(通常顯示為“Kimi-K2”或“K2”)
- 無(wú)需安裝;直接開(kāi)始聊天或上傳任務(wù)
通過(guò)API使用Kimi K2
- 訪問(wèn)Moonshot平臺(tái):??https://platform.moonshot.cn??
- API與OpenAI/Anthropic兼容
- 支持工具使用和智能體工作流程
- 包括端點(diǎn)聊天、文件工具和智能體編排等
- 在本地或自有服務(wù)器上運(yùn)行Kimi K2
- 模型權(quán)重:即將在??GitHub??和/或Hugging Face上開(kāi)源
推薦的推理引擎:
a. vLLM
b.SGLang
c.KTransformers
d.TensorRT-LLM
如果用戶正在進(jìn)行微調(diào)、研究或內(nèi)部擴(kuò)展,這是理想的選擇。
在下一節(jié)中,將使用該模型完成一些任務(wù),并進(jìn)行分析。
任務(wù)1:研究并撰寫報(bào)告?
提示:“根據(jù)生成式人工智能和智能體人工智能的最新趨勢(shì),請(qǐng)給我一份報(bào)告,說(shuō)明2025年哪些技能與營(yíng)銷、銀行、社交媒體、產(chǎn)品管理、軟件開(kāi)發(fā)、內(nèi)容、人力資源和制造業(yè)等領(lǐng)域的專業(yè)人士相關(guān)?!?/p>
輸出:?
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4
分析結(jié)果:?
研究部分做得很好,報(bào)告中使用的語(yǔ)言感覺(jué)很自然,整個(gè)對(duì)話都具有人情味。然而,它很難以PDF格式生成輸出。
任務(wù)2:預(yù)訂機(jī)票?
提示:“我們公司總部在印度德里,我將于今年8月參加??DataHack峰會(huì)??。你能介紹一下峰會(huì)的情況,并幫我找到最便宜的航班選項(xiàng)嗎?”
輸出:?
???https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4??
分析:?
活動(dòng)細(xì)節(jié)準(zhǔn)確無(wú)誤,提供的酒店和航班信息也非常準(zhǔn)確。這對(duì)行程規(guī)劃非常有幫助。最棒的是,這一切都是完全免費(fèi)的。
結(jié)論
Kimi K2回答問(wèn)題的方式令人印象深刻,感覺(jué)就像在和人類交流。Kimi K2與眾不同之處在于,其大多數(shù)高級(jí)功能都是免費(fèi)的,而不像Manus、Genspark或OpenAI的Operator等其他平臺(tái)需要付費(fèi)訂閱。Kimi K2響應(yīng)迅速,并且能夠處理各種任務(wù)的能力表明,它確實(shí)是一款強(qiáng)大的智能體模型。結(jié)合大規(guī)模訓(xùn)練、工具使用和自適應(yīng)智能,它為能夠思考、行動(dòng)和適應(yīng)的通用人工智能系統(tǒng)鋪平了道路。
無(wú)論是構(gòu)建編程智能體、進(jìn)行現(xiàn)實(shí)世界的數(shù)據(jù)科學(xué)研究,還是構(gòu)建下一代界面,Kimi K2都能提供強(qiáng)大的支持。
有關(guān)Kimi K2的常見(jiàn)問(wèn)題?
Q1: Kimi K2與其他開(kāi)源模型有何不同?
答:Kimi K2因其智能體的功能而脫穎而出,這意味著它可以使用工具采取行動(dòng),而不僅僅是生成文本。它也是少數(shù)具有混合專家架構(gòu)和開(kāi)源可用性的模型之一。
Q2:可以免費(fèi)使用Kimi K2嗎?
答:是的,Kimi K2的許多功能都可以通過(guò)其網(wǎng)站和應(yīng)用程序免費(fèi)獲得,而提供類似功能的其他平臺(tái)則需要收費(fèi)。
Q3:開(kāi)發(fā)人員可以使用Kimi K2做些什么?
答:開(kāi)發(fā)人員可以使用API將Kimi K2集成到他們的應(yīng)用程序中,在本地硬件上運(yùn)行,或者為自定義任務(wù)微調(diào)基本模型。它與vLLM和TensorRT-LLM等主要推理引擎兼容。
Q4:Kimi K2支持工具使用和編碼任務(wù)嗎?
答:當(dāng)然支持。Kimi K2可以執(zhí)行shell命令、編輯和部署代碼、構(gòu)建交互式網(wǎng)站,甚至可以使用游戲引擎。它針對(duì)工具交互和軟件開(kāi)發(fā)進(jìn)行了優(yōu)化。
原文標(biāo)題:??Kimi K2: The Most Powerful Open-Source Agentic Model??,作者:Nitika Sharma
