偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)

發(fā)布于 2025-8-29 07:11
瀏覽
0收藏

也許是最近開源模型太多(Qwen3、K2、Step3、GLM4.5等等),也許是大家等R2時間太久,DeepSeek 開源V3.1模型,竟然能被狂噴,這點我是沒有想到的。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

如果說是APP、客戶端,那沒辦法,畢竟DS的顯卡資源有限,我反正能理解。

API的話,就真不至于,因為DeepSeek-V3.1模型本身就開源,完全可以自己部署之前版本,或者用火山引擎、阿里百煉、硅基流動等等等云模型廠商的老版本API。

然后從昨晚到今天,也是看了不少帖子,褒貶不一。

跟不少人交流了一下使用體驗,還是那句話,不同人在不同任務下,體感很不同。

我昨天反正第一時間做了???評測??,在我的任務上沒有什么提高,

但是好友袋鼠帝在Tool Use上體驗是變好的,比V3穩(wěn)定很多。

看了牙醫(yī)、崔思莫的評測,說Coder上好了不少。

我覺得雖然V3.1沒達到我們的預期,但我們還是要對神保持敬仰,畢竟也沒說是R2、V3.5,只是升了0.1個版本。

反正我覺得核心還是現(xiàn)在開源大模型很多,Qwen3-2507、GLM4.5、K2、Step3等等,大家已經(jīng)變得比較挑剔了,我們已經(jīng)不是2024年的我們了。

我們這兩個月吃的太好。

當然還有就是我們對DeepSeek的期望太高了,也是等R2等的比較久了~

說回V3.1本身,Base模型已經(jīng)開源,但是Model Card還沒寫,不過通過Config文件和從測試,可以發(fā)現(xiàn)一些內(nèi)容,分享給大家~

??https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base??

模型是混合推理模型,這個應該是肯定得了,跟昨天模型還沒開源時,猜測一致。相當于把v3和r1合到了一起,跟初代Qwen3是一樣的。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

但是,我比較好奇,DS在訓練混合模型的時候是否有一些技巧,通過Qwen3-2507將推理和非推理分開來看,混合推理還是存在一些問題的。

但直覺中,混合推理的模型,應該是非推理效果會好,推理會差一點,有趨中情況,但是我也沒想通為啥Qwen3的非推理單獨訓練上限更好,猜測是因為混合訓練不充分。

所以這里就比較好奇DS在這個部分有什么奇技淫巧。

除了混合推理之外,V3.1的special token還多了search標記。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

我理解,加入search標記,應該是讓模型在聯(lián)網(wǎng)搜索時,不是一次性檢索,而是可以邊思考邊檢索,就是豆包的變向邊搜一樣。

在生成的內(nèi)容的過程中,會觸發(fā)搜索機制,從外部獲取更多的信息,以便于更好地回答。

不過,目前在客戶端,并沒有體現(xiàn),聯(lián)網(wǎng)搜索,依然是一次性搜索,不知道是不是還在適配,還是說后面會推出新的功能。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

不過,前段時間,DS在招搜索工程師,應該是要發(fā)力DeepResearch這一塊,不過暫時在整個產(chǎn)品上還沒有體現(xiàn)。

除了search標記,tool use部分也做了更新,變得更加簡潔,<|tool call begin|> + 函數(shù)名 + <|tool sep|> + 參數(shù)字符串 + <|tool call end|>,參數(shù)直接作為字符串傳遞。

所以在tool部分,v3.1應該也是專門訓練過,不過具體如何還需要自行測試,袋鼠帝說調(diào)用更穩(wěn)定~

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

通過測試還發(fā)現(xiàn)一點,也是我昨天帖子里提到的,think里的內(nèi)容,中英混雜會很多,之前R1只有在數(shù)學、代碼會出現(xiàn)中英混雜現(xiàn)象,而現(xiàn)在正常文本推理中也會出現(xiàn)。

找到一篇相關paper,The Impact of Language Mixing on Bilingual LLM Reasoning,結(jié)論是語言混雜可以增強推理能力。

但我覺得,感覺中英混雜可能也跟V3.1訓練不充分有關,當然純YY,這個問題后面有機會,再好好聊聊。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

我前面說了,從直覺上,混合推理的模型,推理會差一點,V3.1體現(xiàn)在think內(nèi)容相較于R1變短,如果按照test-time scaling來說,那整體效果變差似乎也是合理的。

當然,大部分人在說V3.1提升主要是Code,當然我之前測試的兩個例子R1和V3.1效果都不好,

但是在aider上,71.6%超過R1的71.4%,同時還是非推理模型第一,費用更低。

最近吃的太好了,要不然DeepSeek V3.1不能被噴成這樣!附V3.1的一些細節(jié)-AI.x社區(qū)

并且很多人表示,V3.1過了他們的一些測試。符合他們的預期,也是在code上更好提高一些,

畢竟K2、Qwen3-coder現(xiàn)在代碼能力提高的不是一星半點,但等一波橫測~

不可否認,改成V3.1這種混合模型,就不需要分開部署兩個模型,成本就會降低,同時現(xiàn)在V3.1也更穩(wěn)定。

我們不能忽略在系統(tǒng)層面的優(yōu)化。

最后我想說,V3.1,僅提高0.1個版本,也是DS的一次嘗試,嘗試混合推理、嘗試一些其他的小改進。

很多人說也許沒有R2了,但我覺得不好說,畢竟Qwen3新版本還是拆開的,那么就有一定的實驗結(jié)論,起碼暫時可能混合推理沒法達到分開效果的極限。

當然如果DS有黑科技另說,但我更傾向會分開。

就說這么多吧,這篇是有感而發(fā),再加上看到資料的一些匯總。

本文轉(zhuǎn)載自??NLP工作站??,作者:NLP工作站

已于2025-8-29 10:43:23修改
收藏
回復
舉報
回復
相關推薦