偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Kimi又上新!搶先實(shí)測視覺思考模型k1,甚至比o1更聰明

人工智能
據(jù)介紹,k1 模型基于強(qiáng)化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。

用強(qiáng)化學(xué)習(xí),改變大模型技術(shù)范式。

國產(chǎn)大模型,正在引領(lǐng) AI 技術(shù)新方向。

今天上午,月之暗面 Kimi 正式發(fā)布了視覺思考模型 k1,并已經(jīng)上線了最新版的網(wǎng)頁版以及安卓和 iOS APP。用戶只需要在對(duì)話框中輸入 @,然后選擇「Kimi 視覺思考版」即可開始自己的 AI 視覺推理之旅。這是繼上個(gè)月 k0-math 發(fā)布之后,Kimi 在推理模型上跨出的又一大步。

它是 Kimi 的首個(gè)視覺思考模型,在 k0-math 的基礎(chǔ)上,k1 的推理能力不僅大大提升,還突破了數(shù)學(xué)題的范圍,進(jìn)入了更廣闊的天地。

據(jù)介紹,k1 模型基于強(qiáng)化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測試中,初代 k1 模型的表現(xiàn)超過了全球標(biāo)桿模型 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

此外,k1 的圖像理解能力還可以解決之前 kimi 數(shù)學(xué)推理模型 k0-math 無法解決的許多幾何圖形問題。在基礎(chǔ)教育各階段的幾何和圖形題專項(xiàng)基準(zhǔn)能力測試中,k1-preview 成績打平或超過了 OpenAl 的 o1 模型。

除了推理能力大幅提升,k1 的強(qiáng)大視覺能力也值得稱道。它可以識(shí)別各種真實(shí)的拍題場景,處理各種復(fù)雜的狀況,比如照片圖像不清晰、多題一起拍、手寫字跡干擾,甚至純手寫的題目。

更重要的是,k1 的強(qiáng)大推理能力與視覺能力還以一種端到端的方式組合到了一起,這意味著我們可以直接理解用戶輸入的圖片信息并進(jìn)行深度推理,而不像之前的多階段方法那樣容易出現(xiàn)信息丟失的問題。

這種視覺能力和推理能力的端到端有機(jī)結(jié)合范式帶來了顯著的收益,讓 k1 在真實(shí)應(yīng)用場景中的性能相比于 OpenAl 和 Anthropic 的視覺模型有了大幅提升:在仿真環(huán)境中的初級(jí)和高級(jí)的數(shù)學(xué)、物理、化學(xué)題目上,k1 的最低正確度分?jǐn)?shù)(38.7 / 高級(jí)物理)也顯著高于 OpenAl 和 Anthropic 的視覺模型的最高分?jǐn)?shù)(32.0 / 高級(jí)化學(xué))。

此外,k1 還展現(xiàn)出了其它一些涌現(xiàn)能力,包括古代文獻(xiàn)分析、梗圖理解、基于照片推斷地點(diǎn)等等。這些涌現(xiàn)能力大大提升了 k1 在日常生活中的實(shí)用性。

k1 的分?jǐn)?shù)表現(xiàn)著實(shí)不錯(cuò),實(shí)際表現(xiàn)如何呢?下面我們直接略過官方示例,親自動(dòng)手檢驗(yàn)一下 k1 的真實(shí)世界能力。

從做題到梗圖理解:k1 將強(qiáng)大視覺推理帶入日常生活

現(xiàn)在,我們?cè)谧钚掳媸謾C(jī) APP 或網(wǎng)頁版 Kimi+ 頁面上找到「Kimi 視覺思考版」,即可拍照或傳圖體驗(yàn)。

Round1: 數(shù)學(xué)題

我們?cè)诰W(wǎng)上找到了一個(gè)手寫的高中數(shù)學(xué)題來檢驗(yàn) Kimi k1 的視覺和數(shù)學(xué)推理能力。

圖源:YouTube 題中說題

龍飛鳳舞的手寫題目讓 k1 「費(fèi)了些功夫」,不過最終還是得到了正確答案:

圖片

有意思的是,k1 在解答這個(gè)數(shù)學(xué)題的過程中還展現(xiàn)出了一定的反思能力。

Round2: 物理題

我們又找了一道高一物理題。正確答案選 C。

k1 不僅可以用正確的方式完成任務(wù),還完整展示了推理思維鏈 CoT,讓我們不只看到答題結(jié)果,也能完整看到模型思索答案的全過程。

Round3:輔助學(xué)習(xí)化學(xué)

測了數(shù)學(xué)和物理題,化學(xué)自然也不能錯(cuò)過。這一次我們不暗示任何背景信息,直接給出圖示,看看 k1 的表現(xiàn)如何。

結(jié)果可以說是有點(diǎn)驚喜了。

k1 不僅很快分析指出這是一個(gè)化學(xué)反應(yīng)的圖示,而且還詳細(xì)地說明了該裝置的具體實(shí)驗(yàn)?zāi)康囊约皥D片中各種器皿和化學(xué)物質(zhì)的作用。而且對(duì)于我們的進(jìn)一步追問:「如果將稀鹽酸換成稀硫酸會(huì)發(fā)生什么?」k1 也給出了超出預(yù)期的解答 —— 它不僅說明了反應(yīng)過程和化學(xué)方程式,還指出了生成的硫酸鈣可能阻礙反應(yīng)充分完成的問題及相關(guān)原因。

圖片

我們還進(jìn)行一些稀奇古怪的測試。比如讓它識(shí)別不熟悉的瓜果蔬菜、解讀看不懂的梗圖以及分析古代文獻(xiàn)等。

Round4: 不熟悉的水果

下圖展示的奇葩水果名為刺角瓜,又被稱為非洲角瓜、火參果等。

把它「喂」給 k1 進(jìn)行識(shí)別。k1 很快就判斷出這是非洲角瓜,但又經(jīng)過一番反思,推翻之前的答案,最終猜出是火參果。

火參果和非洲角瓜本是同一種水果的不同稱呼,因此我們繼續(xù)提問:火參果是非洲角瓜嗎?

這次,k1 經(jīng)過 6 步推理和驗(yàn)證,終于給出正確答案。

Round5: 看不懂的梗圖

當(dāng)初蘋果推出 iPhone16 時(shí),網(wǎng)友拿這張梗圖來嘲諷蘋果創(chuàng)新「擠牙膏」,iPhone16 和 iPhone15 幾乎沒啥太大的區(qū)別。

k1 揣摩了這張梗圖背后的各種幽默元素,比如諷刺那些總是追求最新產(chǎn)品的人,即使這些新產(chǎn)品并不總是有顯著的改進(jìn);每年新產(chǎn)品發(fā)布時(shí)的代際差異;調(diào)侃人們對(duì)于品牌和型號(hào)的過度關(guān)注等。

對(duì)于微妙的諧音和雙關(guān)語梗,k1 也能相當(dāng)出色地把握。

k1 準(zhǔn)確地理解了這張圖背后多層趣味,比如通常推崇簡樸的僧人在喝與現(xiàn)代性密切關(guān)聯(lián)的咖啡所形成的反差感、咖啡因來自咖啡果以及佛教因果觀的微妙聯(lián)系。

Round6:古代文獻(xiàn)分析

此外,Kimi 官方還展示了一個(gè)非常有趣的涌現(xiàn)能力,即能夠識(shí)別和分析古老的科學(xué)手稿。官方的示例中,k1 成功分析出了一份出自伽利略之手的手稿。我們?cè)谶@里找了一張《天工開物》中的圖片,再次檢驗(yàn)了它的這個(gè)能力。

此外,我們還讓其做了進(jìn)一步的原理解析。

圖片

實(shí)測下來,我們發(fā)現(xiàn),k1 的整體表現(xiàn)確實(shí)超出了我們的預(yù)期。另外,如果明確指示 k1「一步步地」執(zhí)行分析或推理,k1 往往能夠發(fā)揮自己的更大實(shí)力。感興趣的用戶在實(shí)際使用時(shí)可不要忘記這個(gè)小技巧。

大模型的下個(gè)方向:強(qiáng)化學(xué)習(xí) Scaling

當(dāng)前的 AI 領(lǐng)域中,有關(guān)大模型「Scaling Laws 終結(jié)」的觀點(diǎn)正在興起。上周五,OpenAI 前首席科學(xué)家 Ilya Sutskever 又喊出「預(yù)訓(xùn)練即將終結(jié),互聯(lián)網(wǎng)中的數(shù)據(jù)已被利用殆盡」,引發(fā)了人們的關(guān)注和思考。

大模型的未來應(yīng)該走哪個(gè)方向?現(xiàn)在或許已經(jīng)到了不得不做抉擇的分叉口。

在月之暗面看來,規(guī)模的擴(kuò)展是支撐 AI 技術(shù)在過去幾年里發(fā)展的重要因素,但 Scaling 并不只意味著模型的體量,現(xiàn)階段應(yīng)該尋找新的有效擴(kuò)展方向。

月之暗面選擇的方向是基于強(qiáng)化學(xué)習(xí)來擴(kuò)展。如果說大模型基本的預(yù)測下一 token 方式具有一定的局限性,只基于靜態(tài)數(shù)據(jù)集無法探索較復(fù)雜的任務(wù),那么加入強(qiáng)化學(xué)習(xí)的預(yù)測則可以在思考過程中生成更多數(shù)據(jù),并實(shí)現(xiàn)思考能力的提升。

從模型訓(xùn)練的角度看,k1 視覺思考模型的訓(xùn)練分為兩個(gè)階段:先通過預(yù)訓(xùn)練得到基礎(chǔ)模型,再在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。在強(qiáng)化學(xué)習(xí)規(guī)?;╯caling)上取得的突破,是 k1 取得行業(yè)領(lǐng)先成績的關(guān)鍵原因。

在數(shù)學(xué)這樣的場景中,新形態(tài)的 AI 模型可以通過不斷試錯(cuò)驗(yàn)證「積累經(jīng)驗(yàn)」,在不用和外界交互的情況下鍛煉思考能力。就像人類在遇到難題時(shí),先分析問題、探索不同的解決方案、嘗試各種方案、反思,不斷改進(jìn)策略的方式一樣,基于強(qiáng)化學(xué)習(xí)技術(shù)的新一代模型,通過激勵(lì)模型生成更詳細(xì)的推理步驟,可以形成高質(zhì)量的思維鏈 CoT,顯著提升了解決更復(fù)雜、更難任務(wù)的成功率。

基于強(qiáng)化學(xué)習(xí)的「思考模型」,未來或許還能給我們帶來更加強(qiáng)大的交互體驗(yàn)。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2024-12-16 12:42:04

Kimi模型AI

2014-10-24 10:53:09

浪潮K1

2024-10-05 00:00:00

2025-01-08 13:08:55

2024-09-13 10:06:21

2024-09-24 11:01:03

2024-11-29 13:57:38

2024-11-19 15:00:00

模型開源

2025-01-20 09:28:00

AI工具模型

2025-01-23 10:45:52

2024-10-05 12:00:00

2024-12-17 08:40:00

AI模型測試

2024-11-07 15:40:00

2025-01-21 09:00:00

2025-02-03 14:17:27

2025-02-20 09:11:28

2024-11-25 17:23:10

2024-12-05 10:16:14

2025-01-21 13:15:15

2024-12-20 08:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)