偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek R-1 能否解答這五道“刁鉆”AI 問題?

人工智能
如果你也想測(cè)測(cè)自己最常用的聊天機(jī)器人或語(yǔ)言模型,不妨嘗試以上 5 個(gè)問題,看它們是不是能準(zhǔn)確回答?;蛘撸绻氵€有更多讓 AI 容易出錯(cuò)的題目,歡迎在評(píng)論里分享,讓我們一起看看這些模型到底能走多遠(yuǎn)!

每當(dāng)有新的語(yǔ)言模型公開發(fā)布時(shí),我總會(huì)忍不住拿它來(lái)做一些看似簡(jiǎn)單、實(shí)則暗藏難點(diǎn)的小測(cè)試。我把這當(dāng)作給模型做“壓力測(cè)試”,用來(lái)檢驗(yàn)它們?cè)谶壿嬐评砩系降仔胁恍小?/span>

DeepSeek R-1 剛發(fā)布不久,就因?yàn)樗情_源、且推理能力強(qiáng)大而備受關(guān)注?;鶞?zhǔn)測(cè)試顯示,DeepSeek R-1 在很多場(chǎng)景下能與一些封閉的商業(yè)模型(比如 OpenAI 的 o1 或 Anthropic 的 Claude 3.5 Sonnet)相媲美,甚至表現(xiàn)更好。

既然 DeepSeek R-1 的推理能力如此被看好,我就想拿以下 5 個(gè)“刁鉆”問題考考它,看看它能不能順利通過:

  1. “strawberry” 這個(gè)單詞里有幾個(gè) “r”?
  2. 列出 5 個(gè)國(guó)家名稱,其中在第 3 個(gè)字母位置出現(xiàn)“A”。
  3. 比較 9.9 和 9.11,哪個(gè)更大?
  4. 0.1 + 0.2 等于多少?
  5. Alice 有四個(gè)兄弟,還另有一個(gè)姐妹。問:Alice 的兄弟共有幾個(gè)姐妹?

一起來(lái)看看 DeepSeek R-1 的表現(xiàn)如何!


1. “strawberry” 里有幾個(gè)字母 “r”?

當(dāng)初我測(cè) OpenAI 的早期模型(比如 GPT-4o)時(shí),發(fā)現(xiàn)它在這種簡(jiǎn)單的字母計(jì)數(shù)問題上有時(shí)會(huì)出錯(cuò)。乍一看,這類問題對(duì) AI 來(lái)說應(yīng)該很容易,但 AI 有時(shí)就是會(huì)犯一些莫名其妙的錯(cuò)誤。

我把同樣的問題拋給了 DeepSeek R-1,結(jié)果它的回答是正確的:?jiǎn)卧~ “strawberry” 一共包含 3 個(gè) “r”。雖然題目很簡(jiǎn)單,但能體現(xiàn)出模型對(duì)最基本的模式識(shí)別和文本處理是否扎實(shí)。

下面是deepseek的回答:

image.png


2. 列出 5 個(gè)國(guó)家,名字中第 3 個(gè)字母是 “A”

很多模型在這個(gè)問題上會(huì)陰溝翻船。比如,我之前用 GPT-4o 和 o1 的早期版本,得到的回答里常出現(xiàn) “Japan” 這類不符合要求的國(guó)家,因?yàn)樗鼈兒雎粤说?3 個(gè)字母實(shí)際是 “p” 而非 “a”。

測(cè)試 DeepSeek R-1 后,它輕松列出了 5 個(gè)符合條件的國(guó)家,沒有出錯(cuò)。值得一提的是,我后面又用最新版本的 o1(通過 ChatGPT)做同樣的測(cè)試,這次它也答對(duì)了,可見不斷更新的模型在修復(fù)之前的錯(cuò)誤。

下面是 DeepSeek的回答:

image.png


3. 誰(shuí)更大:9.9 還是 9.11?

這是另一個(gè)看似簡(jiǎn)單、卻能讓早期 GPT-4 版本“跌倒”的題目。很多人看到 9.9 和 9.11 可能會(huì)下意識(shí)被小數(shù)點(diǎn)后位數(shù)誤導(dǎo),尤其對(duì)于某些模型而言,它們初期不擅長(zhǎng)處理這類數(shù)字比較的問題。

DeepSeek R-1 在這個(gè)問題上表現(xiàn)不錯(cuò),給出了正確答案,并且還詳細(xì)解釋了為什么 9.11 小于 9.9(從數(shù)值大小比較,而不是把它當(dāng)做日期或版本號(hào)對(duì)比)。它甚至給出了一些示例,幫助你理解數(shù)值排序的原理。

image.png


4. 0.1 + 0.2 等于多少?

別小看這道加法題,不少 AI 模型都曾在這里犯錯(cuò)。浮點(diǎn)數(shù)在計(jì)算機(jī)內(nèi)部的二進(jìn)制表示并不精確,常常會(huì)出現(xiàn) 0.30000000000000004 之類的“經(jīng)典錯(cuò)誤”。

我用這個(gè)問題考 DeepSeek R-1,它給出的答案是 0.3,并沒有出現(xiàn)那些多余的浮點(diǎn)尾數(shù)。對(duì)于那些老是回答 0.30000000000000004 的模型來(lái)說,這道題是考察它們是否能識(shí)別并處理計(jì)算機(jī)浮點(diǎn)誤差的好方法。


為什么會(huì)出現(xiàn) 0.30000000000000004?
因?yàn)?0.1 和 0.2 在計(jì)算機(jī)中的二進(jìn)制形式都無(wú)法精準(zhǔn)表示,二者相加后再轉(zhuǎn)換回十進(jìn)制,就會(huì)多出一點(diǎn)小誤差。

image.png


5. Alice 有四個(gè)兄弟,還有一個(gè)姐妹。Alice 的兄弟共有幾個(gè)姐妹?

很多人第一反應(yīng)都是:Alice 自己就是一個(gè)姐妹?再加上另一個(gè)姐妹?于是結(jié)果是兄弟們有 2 個(gè)姐妹。但有些模型就會(huì)漏算,可能只算成 1 個(gè)姐妹。

DeepSeek R-1 給出的結(jié)論是正確的:每個(gè)兄弟都有 2 個(gè)姐妹(Alice 和那位額外的姐妹)。更有意思的是,DeepSeek R-1 還展示了它的推理過程,先理清家庭成員,再總結(jié)兄弟所擁有的姐妹數(shù)量。曾經(jīng) GPT-4o 之類的模型也可能在這種地方掉鏈子。
當(dāng)然,目前 o1 配備了更好的推理能力,也可以答對(duì),但這更說明在某些場(chǎng)景下,必須讓 AI 做“多步邏輯推理”來(lái)得到正確答案。

image.png


總結(jié)

DeepSeek R-1 在這 5 道小測(cè)試?yán)锒急憩F(xiàn)得非常出色,能給出正確答案并提供了清晰的解釋。從這些小測(cè)試可以看出,它確實(shí)具備一定的深層思考與推理能力。盡管它還無(wú)法宣稱要全面取代更成熟的商業(yè)大模型(像 o1 或 Claude 3.5),但這次測(cè)試結(jié)果證明它確實(shí)是個(gè)強(qiáng)有力的競(jìng)爭(zhēng)者。

對(duì)那些在乎成本或喜歡開源方案的人來(lái)說,DeepSeek R-1 是個(gè)非常值得關(guān)注的模型,它用較低成本就能提供不錯(cuò)的推理性能。
如果你也想測(cè)測(cè)自己最常用的聊天機(jī)器人或語(yǔ)言模型,不妨嘗試以上 5 個(gè)問題,看它們是不是能準(zhǔn)確回答。或者,如果你還有更多讓 AI 容易出錯(cuò)的題目,歡迎在評(píng)論里分享,讓我們一起看看這些模型到底能走多遠(yuǎn)!

責(zé)任編輯:武曉燕 來(lái)源: 大遷世界
相關(guān)推薦

2021-10-18 07:51:39

DFS算法島嶼

2009-03-13 19:11:07

2023-11-07 08:36:34

JavaScriptJS挑戰(zhàn)

2009-12-29 12:56:34

2022-06-20 11:51:57

基礎(chǔ)設(shè)施保護(hù)網(wǎng)絡(luò)攻擊

2025-02-12 12:12:59

2025-01-27 12:30:07

2025-02-19 08:00:00

2018-09-20 17:32:09

華為華為全聯(lián)接大會(huì)HC

2025-02-20 15:32:28

2025-03-27 09:34:42

2025-02-06 10:18:45

2025-05-16 07:50:58

Spring AIMCPSSE

2025-03-19 07:37:54

2025-03-05 09:00:00

DeepSeek模型AI

2025-06-17 15:16:15

DeepSeekClaude 4AI

2025-04-21 08:42:00

模型開源AI

2018-07-25 14:27:43

Redis數(shù)據(jù)架構(gòu)存儲(chǔ)

2025-02-07 13:10:06

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)