偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

推理性能直逼o1，DeepSeek再次出手，重點(diǎn)：即將開(kāi)源

作者：機(jī)器之心 2024-11-21 14:00:00

人工智能新聞

DeepSeek 上線(xiàn)了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接沖擊 OpenAI o1 保持了兩個(gè)多月的大模型霸主地位。

DeepSeek 又出手了，這次又是重磅炸彈。

昨晚，DeepSeek 上線(xiàn)了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接沖擊 OpenAI o1 保持了兩個(gè)多月的大模型霸主地位。

在美國(guó)數(shù)學(xué)競(jìng)賽（AMC）中難度等級(jí)最高的 AIME 以及全球頂級(jí)編程競(jìng)賽（codeforces）等權(quán)威評(píng)測(cè)中，DeepSeek-R1-Lite-Preview 模型已經(jīng)大幅超越了 GPT-4o 等頂尖模型，有三項(xiàng)成績(jī)還領(lǐng)先于 OpenAI o1-preview。

背后的秘訣，就是「深度思考」。

更多的強(qiáng)化學(xué)習(xí)、原生的思維鏈、更長(zhǎng)的推理時(shí)間，能讓大模型的性能更強(qiáng)，這在領(lǐng)域內(nèi)已經(jīng)是廣泛共識(shí)。這種模式其實(shí)非常像人類(lèi)大腦的深度思考。

與 OpenAI o1 有點(diǎn)不一樣的是，DeepSeek-R1-Lite-Preview 會(huì)在回復(fù)中展示「思路鏈」推理，也就是響應(yīng)查詢(xún)和輸入的不同鏈或「思路」，并解釋它在做什么以及為什么這樣做。

就像是解題時(shí)，有人喜歡將每一步驟都詳盡地寫(xiě)在卷子上，而 DeepSeek-R1-Lite-Preview 更進(jìn)一步：把內(nèi)心 OS 也都寫(xiě)出來(lái)了。

DeepSeek 官方表示，DeepSeek R1 系列模型使用強(qiáng)化學(xué)習(xí)訓(xùn)練，推理過(guò)程包含大量反思和驗(yàn)證，思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字。已經(jīng)發(fā)布的 DeepSeek-R1-Lite-Preview 使用的是一個(gè)較小的基座模型，尚未完全釋放長(zhǎng)思維鏈的潛力。

對(duì)于用戶(hù)的 Prompt，DeepSeek-R1-Lite-Preview 會(huì)有一個(gè)很長(zhǎng)的推理過(guò)程。如上圖中的紅色實(shí)線(xiàn)所示，模型所能達(dá)到的準(zhǔn)確率與所給定的推理長(zhǎng)度呈正相關(guān)。且相比于傳統(tǒng)的多次采樣 + 投票（Majority Voting），模型思維鏈長(zhǎng)度增加展現(xiàn)出了更高的效率。

最驚艷的是，發(fā)布即上線(xiàn)：所有用戶(hù)均可通過(guò)官網(wǎng)開(kāi)啟與 DeepSeek-R1-Lite-Preview 的對(duì)話(huà)，但注意要先在輸入框中打開(kāi)「深度思考」模式，每天限制 50 次使用。

體驗(yàn)地址：http://chat.deepseek.com/

不得不說(shuō)，對(duì) o1 直接發(fā)起沖擊的 DeepSeek，著實(shí)讓國(guó)內(nèi) AI 社區(qū)振奮了一把：

圖源：https://www.zhihu.com/question/4689435060/answer/36575793425

由于 DeepSeek-R1-Lite-Preview 目前僅支持網(wǎng)頁(yè)使用，沒(méi)有發(fā)布完整代碼供獨(dú)立第三方分析或基準(zhǔn)測(cè)試，也沒(méi)有通過(guò) API 提供 DeepSeek-R1-Lite-Preview 以進(jìn)行同類(lèi)獨(dú)立測(cè)試，也沒(méi)有解釋 DeepSeek-R1-Lite-Preview 是如何訓(xùn)練或構(gòu)建的博客文章或技術(shù)論文，大家心中其實(shí)還有許多的「問(wèn)號(hào)」。

但 DeepSeek 已經(jīng)表示，正式版 DeepSeek-R1 模型會(huì)完全開(kāi)源，還會(huì)公開(kāi)技術(shù)報(bào)告，部署 API 服務(wù)。

圖源：https://www.zhihu.com/question/4689435060/answer/36604051127

回想起上一次，DeepSeek-V2 的開(kāi)源和 API 降價(jià)，直接引發(fā)了國(guó)產(chǎn)大模型廠(chǎng)商的降價(jià)浪潮。同樣的力度再來(lái)一波，不知道大家如何頂住。

耐心等待的時(shí)間里，我們先來(lái)實(shí)測(cè)一下。

一手實(shí)測(cè)體驗(yàn)

與 OpenAI o1 相同的是，根據(jù)問(wèn)題的復(fù)雜程度，它也需要「思考」數(shù)十秒后再回答。

雖然有些過(guò)程中的思路在人類(lèi)看來(lái)可能毫無(wú)意義，甚至是錯(cuò)誤的，但據(jù)初步測(cè)評(píng)，DeepSeek-R1-Lite-Preview 回復(fù)的最終整體準(zhǔn)確率還是比較高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻車(chē)過(guò)的問(wèn)題 —— 經(jīng)典陷阱題「Strawberry 這個(gè)詞中有多少個(gè)字母 R？」和「9.11 和 9.9 哪個(gè)更大？」。

有用戶(hù)在 DeepSeek Chat 上使用這些 Prompt 進(jìn)行測(cè)試，回復(fù)結(jié)果和思考用時(shí)情況如下：

Strawberry 這個(gè)詞中有多少個(gè)字母 R？用時(shí) 29 秒。

9.11 和 9.9 哪個(gè)更大？用時(shí) 9 秒。

不過(guò)在數(shù)草莓的問(wèn)題上，R1-Lite-Preview 有時(shí)也會(huì)困惑，數(shù)出「只有 2 個(gè) r」的答案：

機(jī)器之心也實(shí)測(cè)了一把，似乎對(duì)于中文，R1-Lite-Preview 的準(zhǔn)確率更高：

對(duì)于需要?jiǎng)幽X的問(wèn)題，R1-Lite-Preview 的表現(xiàn)也可圈可點(diǎn)，比如它可以破解行測(cè)題的邏輯陷阱：

由 LeCun 提出的物理題：圓周上均勻分布了 7 根軸，每根軸上都有一個(gè)齒輪。每個(gè)齒輪都與其左邊和右邊的齒輪嚙合。齒輪從 1 到 7 編號(hào)，依次沿圓周排列。問(wèn)題是：如果齒輪 3 順時(shí)針旋轉(zhuǎn)，問(wèn)齒輪 7 會(huì)沿什么方向旋轉(zhuǎn)？

得出解來(lái)十分絲滑：

接下來(lái)，給 R1-Lite-Preview 上點(diǎn)強(qiáng)度，看看它能否笑對(duì)大學(xué)物理的噩夢(mèng)：《電磁學(xué)千題解》。

在 34 秒內(nèi)，它根據(jù)題意列出了對(duì)應(yīng)的公式，得到了正確答案：

至于 R1-Lite-Preview 被全球頂級(jí)編程競(jìng)賽（codeforces）等權(quán)威評(píng)測(cè)檢驗(yàn)過(guò)的代碼能力，讓它手撕大廠(chǎng)秋招級(jí)別的 Leetcode 經(jīng)典題「島嶼問(wèn)題」試一下：

運(yùn)行起來(lái)也沒(méi)大問(wèn)題。

然而，相比推理、物理和編程，R1-Lite-Preview 的數(shù)學(xué)能力可能沒(méi)那么讓人放心。

比如科技博主 @Transformer - 周問(wèn)了一道中學(xué)水平的數(shù)列題，只有 o1 和 o1mini 做對(duì)了，R1-Lite-Preview 沒(méi)想出關(guān)鍵的破題思路，而是「蒙」出了答案。

而對(duì)于最能考驗(yàn)人類(lèi)大腦的深度思考能力的 IMO 國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽試題，R1-Lite-Preview 的表現(xiàn)是這樣的：

這道代數(shù)題相當(dāng)難，全球僅有 5 個(gè)人全對(duì)。在長(zhǎng)達(dá) 162 秒的思考過(guò)程中，R1-Lite-Preview 洋洋灑灑地把解題思路寫(xiě)成了一篇小論文，可能它的老師也教過(guò) —— 把解題過(guò)程寫(xiě)上能得一半分。

令人遺憾的是，最終答案 c=1 是錯(cuò)的，正確答案如下：

而另一位「解題過(guò)程沒(méi)寫(xiě)全」的選手 OpenAI o1 卻給出了正確答案：

這說(shuō)明，DeepSeek-R1-Lite-Preview 仍有進(jìn)步空間，也更讓我們期待完整版模型的發(fā)布了。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<u id="fbyti"><rp id="fbyti"><option id="fbyti"></option></rp></u><u id="fbyti"></u>