偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek V3獲競(jìng)技場(chǎng)最強(qiáng)開(kāi)源認(rèn)證!與Claude 3.5 Sonnet對(duì)比實(shí)測(cè)來(lái)了

人工智能
國(guó)產(chǎn)之光DeepSeek V3競(jìng)技場(chǎng)排名新鮮出爐——優(yōu)于o1-mini(總榜第7),獲最強(qiáng)開(kāi)源模型認(rèn)證(也是唯一闖入前10的開(kāi)源模型)。

國(guó)產(chǎn)之光DeepSeek V3競(jìng)技場(chǎng)排名新鮮出爐——

優(yōu)于o1-mini(總榜第7),獲最強(qiáng)開(kāi)源模型認(rèn)證(也是唯一闖入前10的開(kāi)源模型)。

圖片

單項(xiàng)上,在困難提示、編程、數(shù)學(xué),寫(xiě)作等方面全面超越Claude 3.5 Sonnet

圖片

不過(guò),如果設(shè)置了風(fēng)格控制,Claude 3.5 Sonnet在理解困難提示方面還是要略勝一籌。

(風(fēng)格控制:剔除模型通過(guò)長(zhǎng)篇且格式良好的回復(fù)來(lái)迎合人類偏好)

圖片

由此也引發(fā)兩邊支持者激烈的爭(zhēng)論:

DeepSeek V3在實(shí)際編碼中真的比Claude 3.5 Sonnet強(qiáng)嗎?

圖片

帶著同款好奇,量子位&網(wǎng)友實(shí)測(cè)這就奉上。

實(shí)測(cè)DeepSeek V3和Sonnet 3.5

經(jīng)典腦筋急轉(zhuǎn)彎

第一關(guān)先來(lái)個(gè)開(kāi)胃小菜,一道經(jīng)典腦筋急轉(zhuǎn)彎考查模型理解能力。

小明的媽媽有三個(gè)孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正確。它先明確了題目要求,然后邏輯滿分找出了正確答案(甚至還有自我驗(yàn)證)

圖片

相比之下,Claude 3.5 Sonnet既正確又簡(jiǎn)潔。

圖片

當(dāng)然,考慮到腦筋急轉(zhuǎn)彎這種東西也受東西文化差異影響,我們?cè)賮?lái)一道。

why are people tired on April Fool’s Day? (為什么人們?cè)谟奕斯?jié)很累?)

答案一般是“Because they have just had a long March”。因?yàn)樗麄儎偠冗^(guò)了一個(gè)很長(zhǎng)的三月(行軍),March除了三月還有行軍的意思,這里考察對(duì)雙關(guān)的理解。

好嘛,DeepSeek V3果然歇菜了。從部分回答來(lái)看,它完全誤解了題目意圖,一本正經(jīng)地回答是因?yàn)槿藗兏械浇箲]、熬夜之類。

圖片

而Claude 3.5 Sonnet穩(wěn)穩(wěn)守住了主場(chǎng),也是輕輕松松get了雙關(guān)。

圖片

顯而易見(jiàn),Claude 3.5 Sonnet在第一關(guān)小試牛刀中全勝,而DeepSeek V3可能更偏向中文語(yǔ)境。

弱智吧邏輯陷阱+反轉(zhuǎn)詛咒

接下來(lái)難度升級(jí),利用弱智吧經(jīng)典陷阱來(lái)考查模型邏輯能力。

臺(tái)上一分鐘,臺(tái)下十年功,為何不在臺(tái)上練功?

很好,DeepSeek V3又掉線了,精準(zhǔn)踩進(jìn)人類陷阱。(正能量滿滿可還行)

圖片

不過(guò)別擔(dān)心,你的難兄難弟Claude 3.5 Sonnet來(lái)陪你了(doge)。

圖片

看來(lái)面對(duì)充滿心機(jī)的弱智吧問(wèn)題,二位選手都不在狀態(tài)。

Okk,不繼續(xù)在這上面為難二位了,下面來(lái)一道正兒八經(jīng)的“反轉(zhuǎn)詛咒”(即知道A是B卻不知道B是A)問(wèn)題。

而兩位選手都一次性答對(duì)了Mary Lee Pfeiffer(湯姆·克魯斯的母親)的兒子是誰(shuí)。

圖片
圖片

考研數(shù)學(xué)真題

下面進(jìn)入數(shù)學(xué)能力測(cè)試。比如這道考研數(shù)學(xué)真題,涉及的知識(shí)點(diǎn)是曲面積分、高斯定理等內(nèi)容:

圖片

直接上傳截圖,DeepSeek V3還是詳細(xì)按步驟解答,而且也做對(duì)了。

圖片

而Claude 3.5 Sonnet雖然看起來(lái)方法更簡(jiǎn)單,但最終答案錯(cuò)誤,功虧一簣。

圖片

編碼能力

重頭戲來(lái)了,最后來(lái)考查一下模型編碼能力。

剛好有位??網(wǎng)友拿DeepSeek V3和Claude Sonnet 3.5進(jìn)行了測(cè)試,在Scroll Hub中分別用它倆創(chuàng)建網(wǎng)站。

博主在測(cè)試之后,認(rèn)為DeepSeek V3完全勝出。

小結(jié)一下,從有限測(cè)試來(lái)看,DeepSeek V3貌似確實(shí)能和Claude Sonnet 3.5打得有來(lái)有回。

滿血版o1空降第一

BTW,隨著DeepSeek V3競(jìng)技場(chǎng)排名一起變動(dòng)的,還有OpenAI的o1模型。

估計(jì)是“雙十二”期間正式上線的滿血版o1,此次超越o1-preview 24分,空降總榜第一。

而且除了創(chuàng)意寫(xiě)作,各個(gè)單項(xiàng)都是第一。

圖片

所以,對(duì)于這幾家,大家在使用過(guò)程中感受如何呢??

競(jìng)技場(chǎng)試玩:https://lmarena.ai/。

參考鏈接:https://x.com/lmarena_ai/status/1873695386323566638。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2024-06-24 18:15:22

2025-03-25 09:48:22

2024-12-27 09:50:00

模型數(shù)據(jù)測(cè)試

2025-02-18 15:09:07

2024-07-29 15:37:17

AI訓(xùn)練

2025-02-28 09:00:00

2012-05-31 14:20:14

2024-07-24 12:40:44

2024-03-08 13:02:56

Claude 3GPT-4Opus

2024-08-08 13:03:46

2025-05-16 08:58:09

2025-04-07 09:35:00

Meta模型開(kāi)源

2025-02-17 12:24:43

2025-01-03 09:27:14

2024-06-21 09:58:38

2025-04-02 09:21:00

DeepSeekAI開(kāi)源

2025-05-09 09:02:00

2024-12-30 20:32:36

2024-03-27 15:37:24

2025-04-14 09:17:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)