一文看懂多模態(tài)思維鏈DeepSeek V3“小版本升級”實(shí)測堪比V3.5，非推理模型也有“啊哈時(shí)刻”，7米甘蔗過2米門想通了

作者：量子位 2025-03-25 09:28:21

官方輕描淡寫只說是“小版本升級”，但很多人實(shí)測下來可一點(diǎn)也不小。

DeepSeek V3升級了，新版本V3-0324。

官方輕描淡寫只說是“小版本升級”，但很多人實(shí)測下來可一點(diǎn)也不小。

把流行的小球彈跳測試，提升難度到4維空間超立方體也沒問題。

天哪，如果這只是一個(gè)小更新，那我想象不出大更新會(huì)是什么樣子。

編程這塊，只需一句提示詞開發(fā)一個(gè)完整產(chǎn)品著陸頁，帶自適應(yīng)布局帶動(dòng)效，被評價(jià)為與Claude 3.7 Sonnet同一水平。

由于發(fā)布時(shí)間太短，還沒有正式測評結(jié)果，不過在開發(fā)者Xeophon的個(gè)人Benchmark上所有指標(biāo)都有大提升，成為該測試下最好的非推理模型。

DeepSeek-V3-0324并非推理模型，在回答之前不會(huì)給出思考過程，但依然遵循一定的思維方式分解問題。

走入死胡同的話，還表現(xiàn)出自主回到上一步重新思考的能力。

在“9.11和9.9那個(gè)大”、“Straberry有多少個(gè)r”已經(jīng)不成問題的今天，最新折磨AI的難題是“讓7米長的甘蔗通過2米高1米寬的門”。

在量子位的測試中，DeepSeek-V3-0324先是像它的前輩以及許多其他AI一樣碰壁。

碰壁之后開始重新思考題目本身的含義，后面依舊陷入誤區(qū)，但突然在中文解題過程中夾雜一句英語思考，類似DeepSeek-R1技術(shù)報(bào)告中的“啊哈時(shí)刻”。

等等，這似乎與之前的對角線方法相似，也許我遺漏了什么。

頓悟之后，突然就走上了正確的道路，注意到了題目中沒直接提到的隱藏條件。

雖然從計(jì)算過程看，還是沒理解到問題的本質(zhì)，但好歹得出了解決方案，還認(rèn)識到了自己的誤區(qū)。

像這樣的優(yōu)秀模型依舊免費(fèi)，依舊開源，權(quán)重文件已火速上線HuggingFace，使用最寬松的MIT協(xié)議。

所有權(quán)重文件加起來占硬盤空間約688GB，與初代v3保持一致，說明依然是671B參數(shù)的MoE模型，目前沒有更多技術(shù)細(xì)節(jié)，還需等待官方進(jìn)一步發(fā)布公告。

目前在官網(wǎng)和官方APP（關(guān)閉深度思考即可）、HuggingFace等渠道都能體驗(yàn)到v3-0324。

也可以到大模型競技場去與其他模型pk，不過投票結(jié)果還要等一段時(shí)間才能出來。

當(dāng)然最讓大家期待的還是，v3更新了，r2還會(huì)遠(yuǎn)嗎？

官網(wǎng)試玩：

HuggingFace：

責(zé)任編輯：張燕妮來源：量子位

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p