偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

碾壓DeepSeek V3！開源AI Agent專屬模型，1萬(wàn)億參數(shù)、工具使用能力超強(qiáng)

2025-07-14 09:23:45

人工智能新聞

為了教授模型復(fù)雜的工具使用能力，Kimi K2?開發(fā)了一個(gè)全面的管道，靈感來(lái)源于?ACEBench，能夠大規(guī)模模擬真實(shí)世界的工具使用場(chǎng)景。

國(guó)內(nèi)知名大模型平臺(tái)月之暗面（MoonshotAI）開源了最新模型Kimi-K2。

Kimi-K2是一個(gè)混合專家模型，總參數(shù)1萬(wàn)億，320億參數(shù)處于激活狀態(tài)，訓(xùn)練數(shù)據(jù)高達(dá)15.5Ttoken，有基礎(chǔ)和微調(diào)兩種模型。

除了常規(guī)的問(wèn)答功能之外，Kimi-K2特意針對(duì)AIAgent進(jìn)行了大幅度優(yōu)化，非常擅長(zhǎng)使用各種工具，能幫助開發(fā)者打造特定不同領(lǐng)域的智能體。

開源地址：https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根據(jù)月之暗面公布的測(cè)試數(shù)據(jù)顯示，Kimi-K2在SWE-bench的單次測(cè)試中達(dá)到了65.8分，碾壓了DeepSeek最新開源的V3-0324模型38.8分，以及OpenAI閉源模型GPT-4.1的54.6分。

在多語(yǔ)言測(cè)試中，Kimi-K2同樣以47.3的高分超過(guò)了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代碼測(cè)試中，Kimi-K2以53.7分超過(guò)了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有開閉源模型。

在工具使用方面，Kimi-K2同樣表現(xiàn)非常出色，以66.1的分?jǐn)?shù)再次超過(guò)了V3-0324、GPT-4.1；數(shù)學(xué)能力方面，Kimi-K2取得了49.5分，超過(guò)了V3-0324的46.7和GPT-4.1的37。

使用Kimi-K2打造的智能體來(lái)自動(dòng)分析一份超復(fù)雜的薪資。例如，利用2020–2025年的薪資數(shù)據(jù)，檢驗(yàn)遠(yuǎn)程工作比例對(duì)薪資的影響，并確定這種影響在不同經(jīng)驗(yàn)水平初級(jí)、中級(jí)、高級(jí)、專家之間是否存在顯著差異。

也就是說(shuō)，是否存在交互效應(yīng)。用統(tǒng)計(jì)證據(jù)和豐富的可視化圖表支撐你的分析。所有圖表需使用統(tǒng)一、協(xié)調(diào)的調(diào)色板，例如，柔和色調(diào)、低飽和度色調(diào)。

或者用智能體規(guī)劃一下酷玩樂(lè)隊(duì)2025年演唱會(huì)的行程。

當(dāng)然，Kimi-K2超強(qiáng)的代碼能力，畫一個(gè)球在六邊形中彈跳還是相當(dāng)輕松的。

在模型訓(xùn)練流程上，Kimi-K2進(jìn)行了獨(dú)特的技術(shù)創(chuàng)新。預(yù)訓(xùn)練是智能體智能的關(guān)鍵基礎(chǔ)，由于人類數(shù)據(jù)有限，預(yù)訓(xùn)練期間的token效率成為AI縮放定律中的關(guān)鍵因素。

Kimi-K2采用了MuonClip優(yōu)化器，這是在Muon優(yōu)化器基礎(chǔ)上改進(jìn)而來(lái)的，通過(guò)qk-clip技術(shù)解決了訓(xùn)練中注意力logits爆炸的問(wèn)題，確保了大規(guī)模LLM訓(xùn)練的穩(wěn)定性，在15.5Ttoken上完成了預(yù)訓(xùn)練，且過(guò)程中沒有出現(xiàn)訓(xùn)練峰值。

此外，增強(qiáng)智能體能力主要來(lái)自兩個(gè)方面，一方面是大規(guī)模智能體數(shù)據(jù)合成，這一方式用于工具使用學(xué)習(xí)，借鑒 ACEBench 開發(fā)了全面的管道，能夠模擬真實(shí)世界的工具使用場(chǎng)景，從而生成高質(zhì)量的訓(xùn)練數(shù)據(jù)；另一方面是通用強(qiáng)化學(xué)習(xí)，這解決了在具有可驗(yàn)證和不可驗(yàn)證獎(jiǎng)勵(lì)的任務(wù)上應(yīng)用 RL 的挑戰(zhàn)，模型通過(guò)自我判斷機(jī)制為不可驗(yàn)證任務(wù)提供反饋，并利用可驗(yàn)證獎(jiǎng)勵(lì)不斷更新評(píng)判標(biāo)準(zhǔn)。

為了教授模型復(fù)雜的工具使用能力，Kimi K2 開發(fā)了一個(gè)全面的管道，靈感來(lái)源于 ACEBench，能夠大規(guī)模模擬真實(shí)世界的工具使用場(chǎng)景。該方法系統(tǒng)地演化了包含數(shù)千種工具的數(shù)百個(gè)領(lǐng)域，包括真實(shí)的MCP工具和合成工具，并生成了具有多樣化工具集的數(shù)百個(gè)智能體。

所有任務(wù)都基于評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)估，智能體與模擬環(huán)境和用戶智能體進(jìn)行交互，創(chuàng)建出真實(shí)的多輪工具使用場(chǎng)景。一個(gè) LLM 評(píng)委根據(jù)任務(wù)評(píng)分標(biāo)準(zhǔn)評(píng)估模擬結(jié)果，篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種可擴(kuò)展的管道生成了多樣化、高質(zhì)量的數(shù)據(jù)，為大規(guī)模拒絕采樣和強(qiáng)化學(xué)習(xí)鋪平了道路。

通用強(qiáng)化學(xué)習(xí)，將強(qiáng)化學(xué)習(xí)應(yīng)用于具有可驗(yàn)證和不可驗(yàn)證獎(jiǎng)勵(lì)的任務(wù)是一個(gè)關(guān)鍵挑戰(zhàn)。典型的可驗(yàn)證任務(wù)包括數(shù)學(xué)和競(jìng)賽編程，而撰寫研究報(bào)告通常被視為不可驗(yàn)證任務(wù)。Kimi K2 的通用強(qiáng)化學(xué)習(xí)系統(tǒng)采用自評(píng)判機(jī)制，模型充當(dāng)自己的批評(píng)者，為不可驗(yàn)證任務(wù)提供可擴(kuò)展的、基于評(píng)分標(biāo)準(zhǔn)的反饋。

同時(shí)，使用具有可驗(yàn)證獎(jiǎng)勵(lì)的在線策略回放來(lái)持續(xù)更新批評(píng)者，使其能夠不斷提高對(duì)最新策略的評(píng)估準(zhǔn)確性。這可以看作是利用可驗(yàn)證獎(jiǎng)勵(lì)來(lái)改進(jìn)不可驗(yàn)證獎(jiǎng)勵(lì)估計(jì)的一種方式。

責(zé)任編輯：張燕妮來(lái)源： AIGC開放社區(qū)

開發(fā)AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="i0ips"><samp id="i0ips"></samp></pre>