Kimi深夜炸場(chǎng):滿(mǎn)血版多模態(tài)o1級(jí)推理模型!OpenAI外全球首次!Jim Fan:同天兩款國(guó)產(chǎn)o1絕對(duì)不是巧合! 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
昨晚十點(diǎn),Kimi彈了條推送。
大晚上的,他們就這么波瀾不驚地發(fā)了一個(gè)SOTA 模型出來(lái)!
就是這個(gè)k1.5 多模態(tài)思考模型,性能實(shí)現(xiàn)有多逆天呢:
在 short-CoT 模式下, Kimi k1.5 的多項(xiàng)能力,大幅超越了全球范圍內(nèi)短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,領(lǐng)先達(dá)到 550%;在 long-CoT 模式下,Kimi k1.5 的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長(zhǎng)思考 SOTA 模型 OpenAI o1 滿(mǎn)血版的水平!
而且,這是Kimi首次發(fā)布訓(xùn)練報(bào)告《Kimi k1.5:借助大語(yǔ)言模型實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的 Scaling》,足足25頁(yè)。
圖片
k 1.5針對(duì)強(qiáng)化訓(xùn)練做了不少工作,尤其是讓k 1.5實(shí)現(xiàn)逆天短推理能力的Long2short技術(shù),讓很多技術(shù)者眼前一亮。這個(gè)報(bào)告真的可以說(shuō)有“壓箱底”的干貨,高效思維鏈也是被很多人認(rèn)為馬上要引領(lǐng)新風(fēng)潮了。
(github 鏈接:??https://github.com/MoonshotAI/Kimi-k1.5??)。
Kimi作為專(zhuān)注產(chǎn)品側(cè)的閉源模型,能主動(dòng)去做很多技術(shù)分享,真的很可貴。(點(diǎn)的就是越來(lái)越封閉的CloseAI)
再疊加上開(kāi)源頂流DeepSeek家也推出了推理模型——DeepSeek-R1,這下硅谷AI圈又得死磕著研究咱們的技術(shù)報(bào)告了。
圖片
說(shuō)回k 1.5,Kimi這次也是按慣例,一發(fā)測(cè)試報(bào)告就在C端產(chǎn)品上陸續(xù)上線,選這個(gè)模型切換就能使用k 1.5模型。
圖片
比較遺憾的是,目前被灰度到的小伙伴還很少,小編也沒(méi)能找到網(wǎng)友們的實(shí)測(cè)例子。
只能說(shuō)懷著期待再等一等!
圖片
1.k1.5到底有多強(qiáng)
作為SOTA 模型,Kimi k1.5 性能上相當(dāng)能打。
圖片
首先是短鏈思維鏈,也是k 1.5最大的看點(diǎn)。
短鏈思維鏈的核心,就是簡(jiǎn)單高效,讓模型生成一個(gè)概括性的中間推理步驟來(lái)幫助回答問(wèn)題。
k1.5 的數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,領(lǐng)先達(dá)到 550%,直接看圖:
圖片
除了視覺(jué)能力(Vision)上弱一點(diǎn),其他真的是很超前。
k 1.5的長(zhǎng)板夠長(zhǎng),其他做得也不弱。在長(zhǎng)鏈思維鏈模式下,Kimi k1.5 的數(shù)學(xué)、代碼、多模態(tài)推理能力,依然比肩了長(zhǎng)思考 SOTA 模型 OpenAI o1 正式版的水平。
長(zhǎng)鏈思維鏈專(zhuān)注的是復(fù)雜問(wèn)題,數(shù)學(xué)證明、復(fù)雜因果關(guān)系、推理等等……這些任務(wù)需要模型多想幾步,生成更豐富的邏輯推理鏈條。
看報(bào)告真的和OpenAI打得有來(lái)有回的。
圖片
而更有含金量的是:
這應(yīng)該是全球范圍內(nèi),OpenAI 之外的公司首次實(shí)現(xiàn) o1 正式版的多模態(tài)推理性能。
月之暗面 Kimi
二、SOTA之路:Kimi模型是如何訓(xùn)練出來(lái)的
我感覺(jué),Kimi在強(qiáng)化學(xué)習(xí)方面找到手感了!真的能說(shuō)一句越戰(zhàn)越勇。
去年 11 月他們發(fā)了 k0-math 數(shù)學(xué)模型,緊接著下個(gè)月又發(fā)了 k1 視覺(jué)思考模型。
再看年前他們發(fā)的k1.5 多模態(tài)思考模型,總覺(jué)得Kimi下了一盤(pán)很大的棋。
我們先說(shuō)說(shuō),Kimi官方給出的k 1.5的幾個(gè)關(guān)鍵詞,然后再詳細(xì)聊聊這次最大的創(chuàng)新技術(shù)Long2short。
1.1.5的關(guān)鍵詞
k 1.5的三個(gè)關(guān)鍵詞:長(zhǎng)上下文擴(kuò)展、改進(jìn)的策略?xún)?yōu)化、多模態(tài)能力。
圖片
- 長(zhǎng)上下文擴(kuò)展。Kimi 將 RL 的上下文窗口擴(kuò)展到 128k,并觀察到隨著上下文長(zhǎng)度的增加,性能持續(xù)提升。這背后的一個(gè)關(guān)鍵思想是,使用部分展開(kāi)(partial rollouts)來(lái)提高訓(xùn)練效率——即通過(guò)重用大量先前的軌跡來(lái)采樣新的軌跡,避免了從頭開(kāi)始重新生成新軌跡的成本。我們的觀察表明,上下文長(zhǎng)度是通過(guò) LLMs 持續(xù)擴(kuò)展RL的一個(gè)關(guān)鍵維度。
這項(xiàng)突破也意味著強(qiáng)化學(xué)習(xí),使得大模型向更復(fù)雜和長(zhǎng)時(shí)記憶任務(wù)又邁進(jìn)了一步。
- 改進(jìn)的策略?xún)?yōu)化。Kimi推導(dǎo)出了long-CoT的 RL 公式,并采用在線鏡像下降的變體進(jìn)行穩(wěn)健的策略?xún)?yōu)化。該算法通過(guò)我們的有效采樣策略、長(zhǎng)度懲罰和數(shù)據(jù)配方的優(yōu)化進(jìn)一步得到改進(jìn)。
- 多模態(tài)能力。我們的模型在文本和視覺(jué)數(shù)據(jù)上聯(lián)合訓(xùn)練,具有聯(lián)合推理兩種模態(tài)的能力。該模型數(shù)學(xué)能力出眾,但由于主要支持LaTeX等格式的文本輸入,依賴(lài)圖形理解能力的部分幾何圖形題則難以應(yīng)對(duì)。
2.long2short方法
k 1.5找到的long2short方法,絕對(duì)值得技術(shù)者學(xué)習(xí)。
這證明:Long-CoT模型的推理先驗(yàn)知識(shí)可以順利轉(zhuǎn)移到 Short-CoT 模型中。
這樣Short-CoT 模型不僅效果飛升,還不會(huì)像Long-CoT那樣燃燒如此多的token。
Kimi這個(gè)創(chuàng)新真的可以:利用 Long-CoT 技術(shù)來(lái)改進(jìn) Short-CoT 模型后,在短鏈思維推理方面取得了SOTA成績(jī)——例如,在AIME上達(dá)到60.8分,MATH500上達(dá)到94.6分,LiveCodeBench上達(dá)到47.3分——大幅超越了現(xiàn)有的短鏈思維模型,如GPT-4和Claude Sonnet 3.5(提升幅度高達(dá)550%)。
圖片
報(bào)告中還進(jìn)一步披露了Long-CoT改進(jìn)Short-CoT的實(shí)現(xiàn)方法。
引用《ChatGPT原理與實(shí)戰(zhàn)》作者對(duì)報(bào)告的分析,Kimi團(tuán)隊(duì)嘗試了模型合并、最短拒絕采樣、DPO、long2short強(qiáng)化學(xué)習(xí)多個(gè)方法。
這才煉成了如此優(yōu)秀的SOTA。
圖片
三、同天之內(nèi)兩家國(guó)產(chǎn)o1絕不是巧合
前腳,DeepSeek-R1 剛發(fā),作為高性能的 AI 推理模型,對(duì)標(biāo)的也是 OpenAI 的 o1 的正式版。
作為開(kāi)源模型,R1已經(jīng)開(kāi)源,模型權(quán)重可在 Hugging Face 上獲取。加上之前V3的驚艷,聲量非常大。
開(kāi)源地址:??https://huggingface.co/deepseek-ai/DeepSeek-R1??
英偉達(dá)大佬Jim Fan感嘆說(shuō),R1不止是開(kāi)放了模型,技術(shù)的共享也非常重要。
圖片
就這么你追我趕著,k 1.5也橫空出世了。
看來(lái),如Jim Fan此前預(yù)言的,2025強(qiáng)化學(xué)習(xí)要王者歸來(lái)了。
圖片
最后,Jim Fan還總結(jié)了一波兩個(gè)模型的不同之處,讓我們一起看看:
- DeepSeek 采用 AlphaZero 方法--純粹通過(guò) RL 引導(dǎo),無(wú)需人工輸入,即 "冷啟動(dòng)"。
- DeepSeek的權(quán)重是MIT許可的(思想領(lǐng)導(dǎo)力?。籏imi還沒(méi)有發(fā)布模型。
- Kimi在MathVista等基準(zhǔn)測(cè)試中顯示出強(qiáng)大的多模態(tài)性能(?。@些基準(zhǔn)測(cè)試要求對(duì)幾何、智商測(cè)試等有直觀的理解。
- Kimi 的論文中有大量關(guān)于系統(tǒng)設(shè)計(jì)的細(xì)節(jié):RL 基礎(chǔ)設(shè)施、混合集群、代碼沙箱、并行策略;以及學(xué)習(xí)細(xì)節(jié):長(zhǎng)上下文、CoT 壓縮、課程、抽樣策略、測(cè)試用例生成等!
發(fā)布k 1.5之后,Kimi發(fā)布了K系列的未來(lái)計(jì)劃。從k0-math 數(shù)學(xué)模型,到k1 視覺(jué)思考模型,再到k 1.5的多模態(tài)推理,感覺(jué)Kimi真的是在一路升級(jí)打怪。
期待2025年,更多的模型廠跟我們一些驚艷的新東西。
圖片
本文轉(zhuǎn)載自51CTO技術(shù)棧,作者:伊風(fēng)
