偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

碾壓DeepSeek V3!開源AI Agent專屬模型,1萬(wàn)億參數(shù)、工具使用能力超強(qiáng)

人工智能 新聞
為了教授模型復(fù)雜的工具使用能力,Kimi K2?開發(fā)了一個(gè)全面的管道,靈感來(lái)源于?ACEBench,能夠大規(guī)模模擬真實(shí)世界的工具使用場(chǎng)景。

國(guó)內(nèi)知名大模型平臺(tái)月之暗面(MoonshotAI)開源了最新模型Kimi-K2。

Kimi-K2是一個(gè)混合專家模型,總參數(shù)1萬(wàn)億,320億參數(shù)處于激活狀態(tài),訓(xùn)練數(shù)據(jù)高達(dá)15.5Ttoken,有基礎(chǔ)和微調(diào)兩種模型。

除了常規(guī)的問(wèn)答功能之外,Kimi-K2特意針對(duì)AIAgent進(jìn)行了大幅度優(yōu)化,非常擅長(zhǎng)使用各種工具,能幫助開發(fā)者打造特定不同領(lǐng)域的智能體。

圖片

開源地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根據(jù)月之暗面公布的測(cè)試數(shù)據(jù)顯示,Kimi-K2在SWE-bench的單次測(cè)試中達(dá)到了65.8分,碾壓了DeepSeek最新開源的V3-0324模型38.8分,以及OpenAI閉源模型GPT-4.1的54.6分。

在多語(yǔ)言測(cè)試中,Kimi-K2同樣以47.3的高分超過(guò)了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代碼測(cè)試中,Kimi-K2以53.7分超過(guò)了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有開閉源模型。

圖片

在工具使用方面,Kimi-K2同樣表現(xiàn)非常出色,以66.1的分?jǐn)?shù)再次超過(guò)了V3-0324、GPT-4.1;數(shù)學(xué)能力方面,Kimi-K2取得了49.5分,超過(guò)了V3-0324的46.7和GPT-4.1的37。

圖片

使用Kimi-K2打造的智能體來(lái)自動(dòng)分析一份超復(fù)雜的薪資。例如,利用2020–2025年的薪資數(shù)據(jù),檢驗(yàn)遠(yuǎn)程工作比例對(duì)薪資的影響,并確定這種影響在不同經(jīng)驗(yàn)水平初級(jí)、中級(jí)、高級(jí)、專家之間是否存在顯著差異。

也就是說(shuō),是否存在交互效應(yīng)。用統(tǒng)計(jì)證據(jù)和豐富的可視化圖表支撐你的分析。所有圖表需使用統(tǒng)一、協(xié)調(diào)的調(diào)色板,例如,柔和色調(diào)、低飽和度色調(diào)。

或者用智能體規(guī)劃一下酷玩樂(lè)隊(duì)2025年演唱會(huì)的行程。

當(dāng)然,Kimi-K2超強(qiáng)的代碼能力,畫一個(gè)球在六邊形中彈跳還是相當(dāng)輕松的。

在模型訓(xùn)練流程上,Kimi-K2進(jìn)行了獨(dú)特的技術(shù)創(chuàng)新。預(yù)訓(xùn)練是智能體智能的關(guān)鍵基礎(chǔ),由于人類數(shù)據(jù)有限,預(yù)訓(xùn)練期間的token效率成為AI縮放定律中的關(guān)鍵因素。

Kimi-K2采用了MuonClip優(yōu)化器,這是在Muon優(yōu)化器基礎(chǔ)上改進(jìn)而來(lái)的,通過(guò)qk-clip技術(shù)解決了訓(xùn)練中注意力logits爆炸的問(wèn)題,確保了大規(guī)模LLM訓(xùn)練的穩(wěn)定性,在15.5Ttoken上完成了預(yù)訓(xùn)練,且過(guò)程中沒有出現(xiàn)訓(xùn)練峰值。

圖片

此外,增強(qiáng)智能體能力主要來(lái)自兩個(gè)方面,一方面是大規(guī)模智能體數(shù)據(jù)合成,這一方式用于工具使用學(xué)習(xí),借鑒 ACEBench 開發(fā)了全面的管道,能夠模擬真實(shí)世界的工具使用場(chǎng)景,從而生成高質(zhì)量的訓(xùn)練數(shù)據(jù);另一方面是通用強(qiáng)化學(xué)習(xí),這解決了在具有可驗(yàn)證和不可驗(yàn)證獎(jiǎng)勵(lì)的任務(wù)上應(yīng)用 RL 的挑戰(zhàn),模型通過(guò)自我判斷機(jī)制為不可驗(yàn)證任務(wù)提供反饋,并利用可驗(yàn)證獎(jiǎng)勵(lì)不斷更新評(píng)判標(biāo)準(zhǔn)。

圖片

為了教授模型復(fù)雜的工具使用能力,Kimi K2 開發(fā)了一個(gè)全面的管道,靈感來(lái)源于 ACEBench,能夠大規(guī)模模擬真實(shí)世界的工具使用場(chǎng)景。該方法系統(tǒng)地演化了包含數(shù)千種工具的數(shù)百個(gè)領(lǐng)域,包括真實(shí)的MCP工具和合成工具,并生成了具有多樣化工具集的數(shù)百個(gè)智能體。

所有任務(wù)都基于評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)估,智能體與模擬環(huán)境和用戶智能體進(jìn)行交互,創(chuàng)建出真實(shí)的多輪工具使用場(chǎng)景。一個(gè) LLM 評(píng)委根據(jù)任務(wù)評(píng)分標(biāo)準(zhǔn)評(píng)估模擬結(jié)果,篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種可擴(kuò)展的管道生成了多樣化、高質(zhì)量的數(shù)據(jù),為大規(guī)模拒絕采樣和強(qiáng)化學(xué)習(xí)鋪平了道路。

通用強(qiáng)化學(xué)習(xí),將強(qiáng)化學(xué)習(xí)應(yīng)用于具有可驗(yàn)證和不可驗(yàn)證獎(jiǎng)勵(lì)的任務(wù)是一個(gè)關(guān)鍵挑戰(zhàn)。典型的可驗(yàn)證任務(wù)包括數(shù)學(xué)和競(jìng)賽編程,而撰寫研究報(bào)告通常被視為不可驗(yàn)證任務(wù)。Kimi K2 的通用強(qiáng)化學(xué)習(xí)系統(tǒng)采用自評(píng)判機(jī)制,模型充當(dāng)自己的批評(píng)者,為不可驗(yàn)證任務(wù)提供可擴(kuò)展的、基于評(píng)分標(biāo)準(zhǔn)的反饋。

同時(shí),使用具有可驗(yàn)證獎(jiǎng)勵(lì)的在線策略回放來(lái)持續(xù)更新批評(píng)者,使其能夠不斷提高對(duì)最新策略的評(píng)估準(zhǔn)確性。這可以看作是利用可驗(yàn)證獎(jiǎng)勵(lì)來(lái)改進(jìn)不可驗(yàn)證獎(jiǎng)勵(lì)估計(jì)的一種方式。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開放社區(qū)
相關(guān)推薦

2025-07-22 10:43:25

2025-05-16 08:58:09

2024-12-30 20:32:36

2025-09-08 09:06:16

2025-04-02 09:21:00

DeepSeekAI開源

2025-07-17 07:12:45

2025-03-26 10:38:40

2025-07-31 09:06:00

2024-12-30 09:25:00

數(shù)據(jù)訓(xùn)練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-10-22 00:00:00

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2025-04-07 07:00:00

2025-02-17 10:36:00

微軟開源模型

2025-02-13 08:30:00

2025-02-05 12:53:21

2025-05-16 09:02:00

2025-02-26 11:16:18

2025-08-04 08:51:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)