偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="gtfzy"></style>

<sub id="gtfzy"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Kimi硬剛多模態(tài)滿血版o1，首曝訓(xùn)練細(xì)節(jié)！強(qiáng)化學(xué)習(xí)scaling新范式誕生

作者：新智元 2025-01-21 09:00:00

人工智能新聞

來(lái)了來(lái)了，月之暗面首個(gè)「滿血版o1」來(lái)了！這是除OpenAI之外，首次有多模態(tài)模型在數(shù)學(xué)和代碼能力上達(dá)到了滿血版o1的水平。

還記得嗎，AI大神Karpathy曾說(shuō)過(guò)，「英文是最熱門(mén)的編程語(yǔ)言」。

兩年后的現(xiàn)在，這個(gè)規(guī)則徹底要被顛覆了。

從今天起，中文很有可能成為全球最熱門(mén)的編程語(yǔ)言！

就在剛剛，Kimi發(fā)布了k1.5 多模態(tài)思考模型。這是繼去年 11 月他們發(fā)布 k0-math 數(shù)學(xué)模型，12月發(fā)布 k1 視覺(jué)思考模型之后，連續(xù)第三個(gè)月帶來(lái) k 系列強(qiáng)化學(xué)習(xí)模型的重磅升級(jí)。

Kimi k1.5的性能，如今已經(jīng)全面追上現(xiàn)役全球最強(qiáng)模型——OpenAI o1滿血版。

具體來(lái)說(shuō)，在Long CoT模式下，Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力，達(dá)到了長(zhǎng)思考SOTA模型OpenAI o1滿血版的水平。這也是全球范圍內(nèi)，首次有OpenAI之外的公司達(dá)到。

而在Short CoT模式下，Kimi k1.5大幅領(lǐng)先GPT-4o 和Claude 3.5的水平。

短COT模式下，數(shù)學(xué)成績(jī)顯著高于GPT-4o和Claude Sonnet 3.5

同時(shí)，月之暗面也大方公開(kāi)了這個(gè)滿血版o1水平的強(qiáng)化學(xué)習(xí)模型的訓(xùn)練技術(shù)細(xì)節(jié)。

簡(jiǎn)單出奇跡，首創(chuàng)long2short思維鏈

扒開(kāi)Kimi k1.5 25頁(yè)技術(shù)報(bào)告，可以清晰看到這款模型的技術(shù)創(chuàng)新之處。

當(dāng)前，基于下一個(gè)token預(yù)測(cè)的語(yǔ)言模型，在計(jì)算規(guī)模上的擴(kuò)展，已經(jīng)得到了有效證明。

但模型Scaling仍受限于可用的數(shù)據(jù)量，為此，Kimi團(tuán)隊(duì)創(chuàng)新性地?cái)U(kuò)展了強(qiáng)化學(xué)習(xí)（RL）的應(yīng)用，開(kāi)辟出一條全新的路徑。

它能夠讓LLM通過(guò)獎(jiǎng)勵(lì)機(jī)制進(jìn)行探索性學(xué)習(xí)，從而自主擴(kuò)展訓(xùn)練數(shù)據(jù)，從而實(shí)現(xiàn)計(jì)算規(guī)模有效擴(kuò)展。

論文地址：https://github.com/MoonshotAI/kimi-k1.5

以下，是k1.5設(shè)計(jì)和訓(xùn)練的四大關(guān)鍵要素：

1. 長(zhǎng)上下文擴(kuò)展

2. 改進(jìn)的策略優(yōu)化

3. 簡(jiǎn)化框架

4. 多模態(tài)

接下來(lái)，我們一起深挖一下這些技術(shù)細(xì)節(jié)吧。

短CoT模型的上下文壓縮

與業(yè)界普遍采用復(fù)雜技術(shù)做法不同，Kimi團(tuán)隊(duì)選擇了一條更為優(yōu)雅的技術(shù)路線——回歸第一性原理。

他們證明了，無(wú)需依賴蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)、過(guò)程獎(jiǎng)勵(lì)模型，也能讓模型取得卓越的性能。

如上所見(jiàn)，我們已經(jīng)看到了Kimi k1.5在多個(gè)權(quán)威基準(zhǔn)測(cè)試中，取得了顯著的突破。

那么，long2short是如何被實(shí)現(xiàn)的呢？

Kimi團(tuán)隊(duì)認(rèn)為，可以將長(zhǎng)CoT模型的推理先驗(yàn)轉(zhuǎn)移到短CoT模型中，從而即使在有限的測(cè)試Token預(yù)算下也能提高性能。

模型合并

將長(zhǎng)CoT模型和短CoT模型進(jìn)行合并，除了可以在泛化性上起到積極的作用，還可以提高Token的使用效率。

這種方法通過(guò)簡(jiǎn)單地平均兩個(gè)模型的權(quán)重，將一個(gè)長(zhǎng)CoT模型與一個(gè)短模型結(jié)合，得到一個(gè)新的模型，而無(wú)需進(jìn)行訓(xùn)練。

最短篩選采樣

由于模型對(duì)于同一問(wèn)題生成的響應(yīng)長(zhǎng)度變化很大，因此團(tuán)隊(duì)設(shè)計(jì)了一種最短篩選采樣方法。

也就是，先對(duì)同一問(wèn)題采樣n次，然后選擇最短的正確響應(yīng)進(jìn)行監(jiān)督微調(diào)。

DPO

利用長(zhǎng)CoT模型生成多個(gè)響應(yīng)樣本，然后選擇最短的正確解作為正樣本，并將較長(zhǎng)的響應(yīng)視為負(fù)樣本，包括正確但長(zhǎng)度是選定正樣本1.5倍的較長(zhǎng)響應(yīng)。

這些正負(fù)樣本對(duì)數(shù)據(jù)集形成了用于DPO訓(xùn)練的成對(duì)偏好數(shù)據(jù)。

long2short強(qiáng)化學(xué)習(xí)

在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)訓(xùn)練階段之后，團(tuán)隊(duì)選擇了一個(gè)在性能與Token使用效率之間提供最佳平衡的模型作為基礎(chǔ)模型，并進(jìn)行單獨(dú)的long2short強(qiáng)化學(xué)習(xí)訓(xùn)練階段。

在第二階段中，他們應(yīng)用了「長(zhǎng)度懲罰」，并顯著減少了最大展開(kāi)長(zhǎng)度，以進(jìn)一步懲罰可能正確但超出期望長(zhǎng)度的響應(yīng)。

強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施

Kimi k1.5系統(tǒng)設(shè)計(jì)了一種迭代同步的RL框架，旨在通過(guò)持續(xù)的學(xué)習(xí)與適應(yīng)來(lái)增強(qiáng)模型的推理能力。

該系統(tǒng)的一項(xiàng)關(guān)鍵創(chuàng)新是引入了部分回滾（Partial Rollout）技術(shù)，用于減少計(jì)算開(kāi)銷并優(yōu)化復(fù)雜推理軌跡的處理。

如下圖3a所示，RL訓(xùn)練系統(tǒng)通過(guò)迭代同步的方法運(yùn)行，每次迭代包含回滾階段和訓(xùn)練階段。

在回滾階段，由中央主控協(xié)調(diào)的回滾工作節(jié)點(diǎn)通過(guò)與模型交互生成回滾軌跡，這些軌跡是模型對(duì)各種輸入生成的響應(yīng)序列。在隨后的訓(xùn)練階段，訓(xùn)練工作節(jié)點(diǎn)訪問(wèn)這些經(jīng)驗(yàn)以更新模型的權(quán)重。

這個(gè)循環(huán)過(guò)程使模型能夠持續(xù)從其行為中學(xué)習(xí)，隨著時(shí)間的推移調(diào)整其策略以提升性能。

長(zhǎng)CoT強(qiáng)化學(xué)習(xí)的部分回滾技術(shù)

部分回滾（Partial Rollouts）能夠通過(guò)同時(shí)管理長(zhǎng)軌跡和短軌跡的回滾，有效地解決處理長(zhǎng)CoT特性時(shí)的資源分配和效率挑戰(zhàn)，進(jìn)而實(shí)現(xiàn)長(zhǎng)上下文強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的規(guī)模擴(kuò)展。

該技術(shù)設(shè)定了一個(gè)固定的輸出Token預(yù)算，對(duì)每個(gè)回滾軌跡的長(zhǎng)度進(jìn)行限制。如果某個(gè)軌跡在回滾階段超過(guò)了Token限制，其未完成部分被保存到重放緩沖區(qū)，并在后續(xù)迭代中繼續(xù)處理。

此外，由于回滾工作節(jié)點(diǎn)是異步運(yùn)行的，當(dāng)某些節(jié)點(diǎn)處理長(zhǎng)軌跡時(shí)，其他節(jié)點(diǎn)可以獨(dú)立地處理新的短回滾任務(wù)。

如圖3b所示，部分回滾系統(tǒng)通過(guò)在多次迭代中將長(zhǎng)響應(yīng)分解為多個(gè)片段來(lái)運(yùn)行，顯著降低了計(jì)算開(kāi)銷——系統(tǒng)無(wú)需一次性處理整個(gè)響應(yīng)，而是逐步處理和存儲(chǔ)片段，從而在保持快速迭代時(shí)間的同時(shí)生成更長(zhǎng)的響應(yīng)。

部分回滾的實(shí)現(xiàn)還提供了重復(fù)檢測(cè)功能。系統(tǒng)能夠識(shí)別生成內(nèi)容中的重復(fù)序列并提前終止，從而減少不必要的計(jì)算，同時(shí)保持輸出質(zhì)量。

訓(xùn)練與推理的混合部署

研究者提出了一種用于訓(xùn)練和推理任務(wù)的混合部署策略，該策略利用Kubernetes的Sidecar容器共享所有可用GPU，將兩種任務(wù)協(xié)同部署在同一個(gè)Pod中。這一策略的主要優(yōu)勢(shì)包括：

促進(jìn)了資源的高效共享與管理，避免了訓(xùn)練節(jié)點(diǎn)因等待推理節(jié)點(diǎn)而處于空閑狀態(tài)（當(dāng)兩者部署在不同節(jié)點(diǎn)時(shí)）
通過(guò)使用不同的部署鏡像，訓(xùn)練和推理可以獨(dú)立迭代，從而實(shí)現(xiàn)更好的性能
架構(gòu)并不限于vLLM，還可以方便地集成其他框架

如圖4所示，研究者在Megatron和vLLM的基礎(chǔ)上實(shí)現(xiàn)了這一混合部署框架，從訓(xùn)練到推理階段不到一分鐘的轉(zhuǎn)換時(shí)間，反向轉(zhuǎn)換則約為十秒鐘。

實(shí)驗(yàn)結(jié)果

由于k1.5是一個(gè)多模態(tài)模型，研究者對(duì)不同模態(tài)的各種基準(zhǔn)進(jìn)行了綜合評(píng)估。基準(zhǔn)測(cè)試主要包括以下三類：

Text Benchmark：MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark：HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark：MMMU, MATH-Vision, MathVista

k1.5長(zhǎng)CoT模型

Kimi的k1.5長(zhǎng)CoT模型通過(guò)長(zhǎng)CoT監(jiān)督微調(diào)和視覺(jué)-文本聯(lián)合強(qiáng)化學(xué)習(xí)，在長(zhǎng)距離推理上獲得了顯著的增強(qiáng)。

評(píng)估顯示，模型在長(zhǎng)上下文中的推理、理解和信息綜合能力方面有了顯著提升，標(biāo)志著多模態(tài)AI能力的顯著進(jìn)步。

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多種技術(shù)，包括傳統(tǒng)監(jiān)督微調(diào)方法、強(qiáng)化學(xué)習(xí)以及長(zhǎng)到短知識(shí)蒸餾。

如表3所示，k1.5短CoT模型在覆蓋多個(gè)領(lǐng)域的多項(xiàng)任務(wù)中表現(xiàn)出與領(lǐng)先的開(kāi)源和專有模型相當(dāng)或更優(yōu)的性能。

長(zhǎng)上下文Scaling

研究者使用一個(gè)中型模型，來(lái)研究結(jié)合LLM的強(qiáng)化學(xué)習(xí)的擴(kuò)展特性。如圖5所示，隨著訓(xùn)練的進(jìn)行，模型響應(yīng)長(zhǎng)度和性能準(zhǔn)確率同時(shí)增加。

尤其值得注意的是，在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中，響應(yīng)長(zhǎng)度的增長(zhǎng)更為陡峭，這表明模型在處理復(fù)雜問(wèn)題時(shí)學(xué)會(huì)生成更詳盡的解決方案。

圖6表明，模型輸出的上下文長(zhǎng)度與其問(wèn)題解決能力之間存在顯著的相關(guān)性。

最終，k1.5模型的運(yùn)行能支持128k上下文長(zhǎng)度，并在困難的推理基準(zhǔn)測(cè)試中持續(xù)取得改進(jìn)。

由長(zhǎng)到短

研究者重點(diǎn)研究了long2short問(wèn)題中的Token效率，特別是長(zhǎng)CoT模型如何提升短模型性能。

如圖7所示，提出的long2short強(qiáng)化學(xué)習(xí)算法在Token效率方面優(yōu)于其他方法（如DPO和模型合并）。

值得注意的是，k1.5系列的所有模型（用橙色標(biāo)記）在Token效率上都優(yōu)于其他模型（用藍(lán)色標(biāo)記）。

思考模型，進(jìn)入沖刺

可以看到，在多模態(tài)推理技術(shù)路線上，Kimi又進(jìn)了一步。

從2024年11月，他們首次推出的數(shù)學(xué)推理模型K0-math就展現(xiàn)出了在數(shù)學(xué)領(lǐng)域的領(lǐng)先性。

緊接著一個(gè)月后，K1視覺(jué)思考模型誕生，不僅繼承了K0-math的數(shù)學(xué)底蘊(yùn)，更突破性地解鎖了視覺(jué)理解能力。

這意味著，K1不僅「會(huì)算」，還能「會(huì)看」——通過(guò)理解圖片中的信息，并通過(guò)逐步推理得出答案。

如今，k1.5又繼續(xù)向前推進(jìn)了一步，在多個(gè)領(lǐng)域數(shù)理化、代碼、通用中，刷新了SOTA，甚至能夠媲美世界頂尖模型。

下一步，Kimi依舊會(huì)發(fā)力多模態(tài)推理，繼續(xù)迭代出能夠在更多模態(tài)、更多領(lǐng)域、具備更強(qiáng)通用能力的Kn系列的模型。

k1.5已經(jīng)帶來(lái)了諸多驚喜，還真是有點(diǎn)期待下一代模型的到來(lái)。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型代碼 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)