DeepSeek V3獲競技場最強開源認證！與Claude 3.5 Sonnet對比實測來了

2024-12-31 12:35:46

人工智能

國產(chǎn)之光DeepSeek V3競技場排名新鮮出爐——優(yōu)于o1-mini（總榜第7），獲最強開源模型認證（也是唯一闖入前10的開源模型）。

國產(chǎn)之光DeepSeek V3競技場排名新鮮出爐——

優(yōu)于o1-mini（總榜第7），獲最強開源模型認證（也是唯一闖入前10的開源模型）。

單項上，在困難提示、編程、數(shù)學(xué)，寫作等方面全面超越Claude 3.5 Sonnet。

不過，如果設(shè)置了風(fēng)格控制，Claude 3.5 Sonnet在理解困難提示方面還是要略勝一籌。

（風(fēng)格控制：剔除模型通過長篇且格式良好的回復(fù)來迎合人類偏好）

由此也引發(fā)兩邊支持者激烈的爭論：

DeepSeek V3在實際編碼中真的比Claude 3.5 Sonnet強嗎？

帶著同款好奇，量子位&網(wǎng)友實測這就奉上。

實測DeepSeek V3和Sonnet 3.5

經(jīng)典腦筋急轉(zhuǎn)彎

第一關(guān)先來個開胃小菜，一道經(jīng)典腦筋急轉(zhuǎn)彎考查模型理解能力。

小明的媽媽有三個孩子，老大叫一明，老二叫二明，老三叫什么？

DeepSeek V3回答正確。它先明確了題目要求，然后邏輯滿分找出了正確答案（甚至還有自我驗證）。

相比之下，Claude 3.5 Sonnet既正確又簡潔。

當(dāng)然，考慮到腦筋急轉(zhuǎn)彎這種東西也受東西文化差異影響，我們再來一道。

why are people tired on April Fool’s Day? （為什么人們在愚人節(jié)很累？）
答案一般是“Because they have just had a long March”。因為他們剛度過了一個很長的三月(行軍)，March除了三月還有行軍的意思，這里考察對雙關(guān)的理解。

好嘛，DeepSeek V3果然歇菜了。從部分回答來看，它完全誤解了題目意圖，一本正經(jīng)地回答是因為人們感到焦慮、熬夜之類。