Kimi又上新!搶先實(shí)測視覺思考模型k1,甚至比o1更聰明
用強(qiáng)化學(xué)習(xí),改變大模型技術(shù)范式。
國產(chǎn)大模型,正在引領(lǐng) AI 技術(shù)新方向。
今天上午,月之暗面 Kimi 正式發(fā)布了視覺思考模型 k1,并已經(jīng)上線了最新版的網(wǎng)頁版以及安卓和 iOS APP。用戶只需要在對(duì)話框中輸入 @,然后選擇「Kimi 視覺思考版」即可開始自己的 AI 視覺推理之旅。這是繼上個(gè)月 k0-math 發(fā)布之后,Kimi 在推理模型上跨出的又一大步。
它是 Kimi 的首個(gè)視覺思考模型,在 k0-math 的基礎(chǔ)上,k1 的推理能力不僅大大提升,還突破了數(shù)學(xué)題的范圍,進(jìn)入了更廣闊的天地。
據(jù)介紹,k1 模型基于強(qiáng)化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測試中,初代 k1 模型的表現(xiàn)超過了全球標(biāo)桿模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。
此外,k1 的圖像理解能力還可以解決之前 kimi 數(shù)學(xué)推理模型 k0-math 無法解決的許多幾何圖形問題。在基礎(chǔ)教育各階段的幾何和圖形題專項(xiàng)基準(zhǔn)能力測試中,k1-preview 成績打平或超過了 OpenAl 的 o1 模型。
除了推理能力大幅提升,k1 的強(qiáng)大視覺能力也值得稱道。它可以識(shí)別各種真實(shí)的拍題場景,處理各種復(fù)雜的狀況,比如照片圖像不清晰、多題一起拍、手寫字跡干擾,甚至純手寫的題目。
更重要的是,k1 的強(qiáng)大推理能力與視覺能力還以一種端到端的方式組合到了一起,這意味著我們可以直接理解用戶輸入的圖片信息并進(jìn)行深度推理,而不像之前的多階段方法那樣容易出現(xiàn)信息丟失的問題。
這種視覺能力和推理能力的端到端有機(jī)結(jié)合范式帶來了顯著的收益,讓 k1 在真實(shí)應(yīng)用場景中的性能相比于 OpenAl 和 Anthropic 的視覺模型有了大幅提升:在仿真環(huán)境中的初級(jí)和高級(jí)的數(shù)學(xué)、物理、化學(xué)題目上,k1 的最低正確度分?jǐn)?shù)(38.7 / 高級(jí)物理)也顯著高于 OpenAl 和 Anthropic 的視覺模型的最高分?jǐn)?shù)(32.0 / 高級(jí)化學(xué))。
此外,k1 還展現(xiàn)出了其它一些涌現(xiàn)能力,包括古代文獻(xiàn)分析、梗圖理解、基于照片推斷地點(diǎn)等等。這些涌現(xiàn)能力大大提升了 k1 在日常生活中的實(shí)用性。
k1 的分?jǐn)?shù)表現(xiàn)著實(shí)不錯(cuò),實(shí)際表現(xiàn)如何呢?下面我們直接略過官方示例,親自動(dòng)手檢驗(yàn)一下 k1 的真實(shí)世界能力。
從做題到梗圖理解:k1 將強(qiáng)大視覺推理帶入日常生活
現(xiàn)在,我們?cè)谧钚掳媸謾C(jī) APP 或網(wǎng)頁版 Kimi+ 頁面上找到「Kimi 視覺思考版」,即可拍照或傳圖體驗(yàn)。
Round1: 數(shù)學(xué)題
我們?cè)诰W(wǎng)上找到了一個(gè)手寫的高中數(shù)學(xué)題來檢驗(yàn) Kimi k1 的視覺和數(shù)學(xué)推理能力。
圖源:YouTube 題中說題
龍飛鳳舞的手寫題目讓 k1 「費(fèi)了些功夫」,不過最終還是得到了正確答案:
有意思的是,k1 在解答這個(gè)數(shù)學(xué)題的過程中還展現(xiàn)出了一定的反思能力。
Round2: 物理題
我們又找了一道高一物理題。正確答案選 C。
k1 不僅可以用正確的方式完成任務(wù),還完整展示了推理思維鏈 CoT,讓我們不只看到答題結(jié)果,也能完整看到模型思索答案的全過程。
Round3:輔助學(xué)習(xí)化學(xué)
測了數(shù)學(xué)和物理題,化學(xué)自然也不能錯(cuò)過。這一次我們不暗示任何背景信息,直接給出圖示,看看 k1 的表現(xiàn)如何。
結(jié)果可以說是有點(diǎn)驚喜了。
k1 不僅很快分析指出這是一個(gè)化學(xué)反應(yīng)的圖示,而且還詳細(xì)地說明了該裝置的具體實(shí)驗(yàn)?zāi)康囊约皥D片中各種器皿和化學(xué)物質(zhì)的作用。而且對(duì)于我們的進(jìn)一步追問:「如果將稀鹽酸換成稀硫酸會(huì)發(fā)生什么?」k1 也給出了超出預(yù)期的解答 —— 它不僅說明了反應(yīng)過程和化學(xué)方程式,還指出了生成的硫酸鈣可能阻礙反應(yīng)充分完成的問題及相關(guān)原因。
我們還進(jìn)行一些稀奇古怪的測試。比如讓它識(shí)別不熟悉的瓜果蔬菜、解讀看不懂的梗圖以及分析古代文獻(xiàn)等。
Round4: 不熟悉的水果
下圖展示的奇葩水果名為刺角瓜,又被稱為非洲角瓜、火參果等。
把它「喂」給 k1 進(jìn)行識(shí)別。k1 很快就判斷出這是非洲角瓜,但又經(jīng)過一番反思,推翻之前的答案,最終猜出是火參果。
火參果和非洲角瓜本是同一種水果的不同稱呼,因此我們繼續(xù)提問:火參果是非洲角瓜嗎?
這次,k1 經(jīng)過 6 步推理和驗(yàn)證,終于給出正確答案。
Round5: 看不懂的梗圖
當(dāng)初蘋果推出 iPhone16 時(shí),網(wǎng)友拿這張梗圖來嘲諷蘋果創(chuàng)新「擠牙膏」,iPhone16 和 iPhone15 幾乎沒啥太大的區(qū)別。
k1 揣摩了這張梗圖背后的各種幽默元素,比如諷刺那些總是追求最新產(chǎn)品的人,即使這些新產(chǎn)品并不總是有顯著的改進(jìn);每年新產(chǎn)品發(fā)布時(shí)的代際差異;調(diào)侃人們對(duì)于品牌和型號(hào)的過度關(guān)注等。
對(duì)于微妙的諧音和雙關(guān)語梗,k1 也能相當(dāng)出色地把握。
k1 準(zhǔn)確地理解了這張圖背后多層趣味,比如通常推崇簡樸的僧人在喝與現(xiàn)代性密切關(guān)聯(lián)的咖啡所形成的反差感、咖啡因來自咖啡果以及佛教因果觀的微妙聯(lián)系。
Round6:古代文獻(xiàn)分析
此外,Kimi 官方還展示了一個(gè)非常有趣的涌現(xiàn)能力,即能夠識(shí)別和分析古老的科學(xué)手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我們?cè)谶@里找了一張《天工開物》中的圖片,再次檢驗(yàn)了它的這個(gè)能力。
此外,我們還讓其做了進(jìn)一步的原理解析。
實(shí)測下來,我們發(fā)現(xiàn),k1 的整體表現(xiàn)確實(shí)超出了我們的預(yù)期。另外,如果明確指示 k1「一步步地」執(zhí)行分析或推理,k1 往往能夠發(fā)揮自己的更大實(shí)力。感興趣的用戶在實(shí)際使用時(shí)可不要忘記這個(gè)小技巧。
大模型的下個(gè)方向:強(qiáng)化學(xué)習(xí) Scaling
當(dāng)前的 AI 領(lǐng)域中,有關(guān)大模型「Scaling Laws 終結(jié)」的觀點(diǎn)正在興起。上周五,OpenAI 前首席科學(xué)家 Ilya Sutskever 又喊出「預(yù)訓(xùn)練即將終結(jié),互聯(lián)網(wǎng)中的數(shù)據(jù)已被利用殆盡」,引發(fā)了人們的關(guān)注和思考。
大模型的未來應(yīng)該走哪個(gè)方向?現(xiàn)在或許已經(jīng)到了不得不做抉擇的分叉口。
在月之暗面看來,規(guī)模的擴(kuò)展是支撐 AI 技術(shù)在過去幾年里發(fā)展的重要因素,但 Scaling 并不只意味著模型的體量,現(xiàn)階段應(yīng)該尋找新的有效擴(kuò)展方向。
月之暗面選擇的方向是基于強(qiáng)化學(xué)習(xí)來擴(kuò)展。如果說大模型基本的預(yù)測下一 token 方式具有一定的局限性,只基于靜態(tài)數(shù)據(jù)集無法探索較復(fù)雜的任務(wù),那么加入強(qiáng)化學(xué)習(xí)的預(yù)測則可以在思考過程中生成更多數(shù)據(jù),并實(shí)現(xiàn)思考能力的提升。
從模型訓(xùn)練的角度看,k1 視覺思考模型的訓(xùn)練分為兩個(gè)階段:先通過預(yù)訓(xùn)練得到基礎(chǔ)模型,再在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。在強(qiáng)化學(xué)習(xí)規(guī)?;╯caling)上取得的突破,是 k1 取得行業(yè)領(lǐng)先成績的關(guān)鍵原因。
在數(shù)學(xué)這樣的場景中,新形態(tài)的 AI 模型可以通過不斷試錯(cuò)驗(yàn)證「積累經(jīng)驗(yàn)」,在不用和外界交互的情況下鍛煉思考能力。就像人類在遇到難題時(shí),先分析問題、探索不同的解決方案、嘗試各種方案、反思,不斷改進(jìn)策略的方式一樣,基于強(qiáng)化學(xué)習(xí)技術(shù)的新一代模型,通過激勵(lì)模型生成更詳細(xì)的推理步驟,可以形成高質(zhì)量的思維鏈 CoT,顯著提升了解決更復(fù)雜、更難任務(wù)的成功率。
基于強(qiáng)化學(xué)習(xí)的「思考模型」,未來或許還能給我們帶來更加強(qiáng)大的交互體驗(yàn)。