偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

推理性能直逼o1,DeepSeek再次出手,重點(diǎn):即將開(kāi)源

人工智能 新聞
DeepSeek 上線(xiàn)了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個(gè)多月的大模型霸主地位。

DeepSeek 又出手了,這次又是重磅炸彈。

昨晚,DeepSeek 上線(xiàn)了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接沖擊 OpenAI o1 保持了兩個(gè)多月的大模型霸主地位。

在美國(guó)數(shù)學(xué)競(jìng)賽(AMC)中難度等級(jí)最高的 AIME 以及全球頂級(jí)編程競(jìng)賽(codeforces)等權(quán)威評(píng)測(cè)中,DeepSeek-R1-Lite-Preview 模型已經(jīng)大幅超越了 GPT-4o 等頂尖模型,有三項(xiàng)成績(jī)還領(lǐng)先于 OpenAI o1-preview。

圖片

背后的秘訣,就是「深度思考」。

更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈、更長(zhǎng)的推理時(shí)間,能讓大模型的性能更強(qiáng),這在領(lǐng)域內(nèi)已經(jīng)是廣泛共識(shí)。這種模式其實(shí)非常像人類(lèi)大腦的深度思考。

與 OpenAI o1 有點(diǎn)不一樣的是,DeepSeek-R1-Lite-Preview 會(huì)在回復(fù)中展示「思路鏈」推理,也就是響應(yīng)查詢(xún)和輸入的不同鏈或「思路」,并解釋它在做什么以及為什么這樣做。

就像是解題時(shí),有人喜歡將每一步驟都詳盡地寫(xiě)在卷子上,而 DeepSeek-R1-Lite-Preview 更進(jìn)一步:把內(nèi)心 OS 也都寫(xiě)出來(lái)了。

DeepSeek 官方表示,DeepSeek R1 系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練,推理過(guò)程包含大量反思和驗(yàn)證,思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字。已經(jīng)發(fā)布的 DeepSeek-R1-Lite-Preview 使用的是一個(gè)較小的基座模型,尚未完全釋放長(zhǎng)思維鏈的潛力。

圖片

對(duì)于用戶(hù)的 Prompt,DeepSeek-R1-Lite-Preview 會(huì)有一個(gè)很長(zhǎng)的推理過(guò)程。如上圖中的紅色實(shí)線(xiàn)所示,模型所能達(dá)到的準(zhǔn)確率與所給定的推理長(zhǎng)度呈正相關(guān)。且相比于傳統(tǒng)的多次采樣 + 投票(Majority Voting),模型思維鏈長(zhǎng)度增加展現(xiàn)出了更高的效率。

最驚艷的是,發(fā)布即上線(xiàn):所有用戶(hù)均可通過(guò)官網(wǎng)開(kāi)啟與 DeepSeek-R1-Lite-Preview 的對(duì)話(huà),但注意要先在輸入框中打開(kāi)「深度思考」模式,每天限制 50 次使用。

圖片

體驗(yàn)地址:http://chat.deepseek.com/

不得不說(shuō),對(duì) o1 直接發(fā)起沖擊的 DeepSeek,著實(shí)讓國(guó)內(nèi) AI 社區(qū)振奮了一把:

圖片

圖源:https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前僅支持網(wǎng)頁(yè)使用,沒(méi)有發(fā)布完整代碼供獨(dú)立第三方分析或基準(zhǔn)測(cè)試,也沒(méi)有通過(guò) API 提供 DeepSeek-R1-Lite-Preview 以進(jìn)行同類(lèi)獨(dú)立測(cè)試,也沒(méi)有解釋 DeepSeek-R1-Lite-Preview 是如何訓(xùn)練或構(gòu)建的博客文章或技術(shù)論文,大家心中其實(shí)還有許多的「問(wèn)號(hào)」。

但 DeepSeek 已經(jīng)表示,正式版 DeepSeek-R1 模型會(huì)完全開(kāi)源,還會(huì)公開(kāi)技術(shù)報(bào)告,部署 API 服務(wù)

圖片

圖源:https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次,DeepSeek-V2 的開(kāi)源和 API 降價(jià),直接引發(fā)了國(guó)產(chǎn)大模型廠(chǎng)商的降價(jià)浪潮。同樣的力度再來(lái)一波,不知道大家如何頂住。

耐心等待的時(shí)間里,我們先來(lái)實(shí)測(cè)一下。

一手實(shí)測(cè)體驗(yàn)

與 OpenAI o1 相同的是,根據(jù)問(wèn)題的復(fù)雜程度,它也需要「思考」數(shù)十秒后再回答。

雖然有些過(guò)程中的思路在人類(lèi)看來(lái)可能毫無(wú)意義,甚至是錯(cuò)誤的,但據(jù)初步測(cè)評(píng),DeepSeek-R1-Lite-Preview 回復(fù)的最終整體準(zhǔn)確率還是比較高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻車(chē)過(guò)的問(wèn)題 —— 經(jīng)典陷阱題「Strawberry 這個(gè)詞中有多少個(gè)字母 R?」和「9.11 和 9.9 哪個(gè)更大?」。

有用戶(hù)在 DeepSeek Chat 上使用這些 Prompt 進(jìn)行測(cè)試,回復(fù)結(jié)果和思考用時(shí)情況如下:

圖片

Strawberry 這個(gè)詞中有多少個(gè)字母 R?用時(shí) 29 秒。

圖片

9.11 和 9.9 哪個(gè)更大?用時(shí) 9 秒。

不過(guò)在數(shù)草莓的問(wèn)題上,R1-Lite-Preview 有時(shí)也會(huì)困惑,數(shù)出「只有 2 個(gè) r」的答案:

圖片

機(jī)器之心也實(shí)測(cè)了一把,似乎對(duì)于中文,R1-Lite-Preview 的準(zhǔn)確率更高:

圖片

對(duì)于需要?jiǎng)幽X的問(wèn)題,R1-Lite-Preview 的表現(xiàn)也可圈可點(diǎn),比如它可以破解行測(cè)題的邏輯陷阱:

圖片

圖片

由 LeCun 提出的物理題:圓周上均勻分布了 7 根軸,每根軸上都有一個(gè)齒輪。每個(gè)齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號(hào),依次沿圓周排列。問(wèn)題是:如果齒輪 3 順時(shí)針旋轉(zhuǎn),問(wèn)齒輪 7 會(huì)沿什么方向旋轉(zhuǎn)?

圖片

得出解來(lái)十分絲滑:

圖片

接下來(lái),給 R1-Lite-Preview 上點(diǎn)強(qiáng)度,看看它能否笑對(duì)大學(xué)物理的噩夢(mèng):《電磁學(xué)千題解》。

圖片

在 34 秒內(nèi),它根據(jù)題意列出了對(duì)應(yīng)的公式,得到了正確答案:

圖片

至于 R1-Lite-Preview 被全球頂級(jí)編程競(jìng)賽(codeforces)等權(quán)威評(píng)測(cè)檢驗(yàn)過(guò)的代碼能力,讓它手撕大廠(chǎng)秋招級(jí)別的 Leetcode 經(jīng)典題「島嶼問(wèn)題」試一下:

圖片

圖片

運(yùn)行起來(lái)也沒(méi)大問(wèn)題。

然而,相比推理、物理和編程,R1-Lite-Preview 的數(shù)學(xué)能力可能沒(méi)那么讓人放心。

比如科技博主 @Transformer - 周問(wèn)了一道中學(xué)水平的數(shù)列題,只有 o1 和 o1mini 做對(duì)了,R1-Lite-Preview 沒(méi)想出關(guān)鍵的破題思路,而是「蒙」出了答案。

圖片

而對(duì)于最能考驗(yàn)人類(lèi)大腦的深度思考能力的 IMO 國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽試題,R1-Lite-Preview 的表現(xiàn)是這樣的:

圖片

這道代數(shù)題相當(dāng)難,全球僅有 5 個(gè)人全對(duì)。在長(zhǎng)達(dá) 162 秒的思考過(guò)程中,R1-Lite-Preview 洋洋灑灑地把解題思路寫(xiě)成了一篇小論文,可能它的老師也教過(guò) —— 把解題過(guò)程寫(xiě)上能得一半分。

圖片

圖片

令人遺憾的是,最終答案 c=1 是錯(cuò)的,正確答案如下:

圖片

而另一位「解題過(guò)程沒(méi)寫(xiě)全」的選手 OpenAI o1 卻給出了正確答案:

圖片

這說(shuō)明,DeepSeek-R1-Lite-Preview 仍有進(jìn)步空間,也更讓我們期待完整版模型的發(fā)布了。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-27 12:23:46

2025-03-19 10:10:43

2024-09-24 11:01:03

2025-08-04 08:40:00

2024-08-16 14:15:00

AI訓(xùn)練

2024-11-07 15:40:00

2024-12-09 13:40:26

2025-02-03 14:17:27

2025-09-03 10:02:19

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2025-01-23 14:53:15

2024-12-02 12:37:42

2025-03-10 08:10:00

AI研究安全

2024-10-17 14:05:34

2025-03-05 08:40:00

2024-01-08 13:33:00

數(shù)據(jù)訓(xùn)練

2025-04-21 09:07:00

2025-04-07 09:00:00

數(shù)據(jù)測(cè)試工具

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2024-09-29 13:07:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)