偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<strong id="vcia5"><thead id="vcia5"><output id="vcia5"></output></thead></strong>

<thead id="vcia5"><video id="vcia5"></video></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

機械鸚鵡與真正的智能：大語言模型推理能力的迷思原創(chuàng) 精華

發(fā)布于 2024-12-19 10:32

瀏覽

0收藏

編者按： 大語言模型真的具備推理能力嗎？我們是否誤解了"智能"的本質(zhì)，將模式匹配誤認(rèn)為是真正的推理？
本文深入探討了大語言模型（LLMs）是否真正具備推理能力這一前沿科學(xué)問題，作者的核心觀點是：LLMs 本質(zhì)上是高級的模式識別機器，而非真正具備邏輯推理能力。
首先，作者指出，盡管大語言模型在各類推理能力基準(zhǔn)測試中表現(xiàn)出色，但其性能實際上高度依賴于訓(xùn)練數(shù)據(jù)中的模式識別，而非真正的邏輯推理。其次，文章質(zhì)疑了目前廣泛使用的思維鏈（Chain-of-Thought）提示詞技術(shù)。再者，通過對數(shù)學(xué)推理的深入分析，作者指出 LLMs 實際上并不理解數(shù)學(xué)概念，而是在尋找和匹配模式。即便在復(fù)雜的數(shù)學(xué)問題中，模型也常常表現(xiàn)出對無關(guān)信息的過度敏感性。
本文作者并未貶低大語言模型的價值，而是客觀地將其定位為擁有非凡記憶能力的系統(tǒng)，期待未來能夠開發(fā)出真正具備推理能力的人工智能架構(gòu)。

作者 | Salvatore Raieli

編譯 | 岳揚

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

image generated by the author using DALL-E

我很少遇到能夠進行推理的數(shù)學(xué)家?！?柏拉圖
推理能夠引導(dǎo)出結(jié)論，但這些結(jié)論是否確鑿，還需通過經(jīng)驗的驗證才能確定?！?羅杰·培根

大語言模型（LLMs）[1]展現(xiàn)出的性能驚人，特別是在自然語言處理[2]的傳統(tǒng)領(lǐng)域（比如回答問題）方面表現(xiàn)突出。更令人驚訝的是，它們在那些需要邏輯推理的復(fù)雜任務(wù)（如編程和數(shù)學(xué)問題解決）上也取得了進步。長期以來，這些能力一直被認(rèn)為是人類獨有的。因此，當(dāng)人們提出大語言模型（LLMs）能夠解決那些需要推理的任務(wù)時，這個觀點引發(fā)了激烈的討論。

大語言模型（LLMs）真的能夠進行推理嗎？還是它們僅僅是比較高級的模式匹配器（pattern matchers）？

推理能力對于人工智能系統(tǒng)與人類的有效互動以及在執(zhí)行關(guān)鍵任務(wù)時的應(yīng)用具有決定性意義。這種能力要求系統(tǒng)能夠邏輯性地推理（reason logically）、進行推斷（conduct inference）、解決問題，并基于現(xiàn)有信息作出決策。在科學(xué)探索、醫(yī)療健康、金融領(lǐng)域以及教育行業(yè)中，能夠為我們提供實質(zhì)性幫助的模型，同樣需要具備這些技能。

新模型的問世使得這場討論愈發(fā)激烈。隨著 OpenAI GPT-4o1[3] 的發(fā)布，人們對使用思維鏈（COT）訓(xùn)練模型來提高推理能力產(chǎn)生了濃厚的興趣。經(jīng)過這種訓(xùn)練的大語言模型（LLMs）所取得的成果讓一些公司宣稱，現(xiàn)在的 LLMs 已經(jīng)具備了推理能力，AGI 離我們越來越近了。

因此，當(dāng)前的我們正處于一場深刻的大辯論之中：一方面，有公司和研究人員堅稱這些模型已經(jīng)擁有了推理能力[4]；而另一方面，也有人將 LLMs 貶稱為“隨機鸚鵡（stochastic parrots）”。

本文將著重探討以下問題的答案：

何謂推理？
大語言模型（LLMs）是否具備真正的推理能力，還是僅僅在做鸚鵡學(xué)舌？
我們對于推理能力的評估方法是否準(zhǔn)確無誤？

01 何謂推理（reasoning）？

推理是根據(jù)現(xiàn)有信息、邏輯和分析內(nèi)容得出結(jié)論或做出決定的基本認(rèn)知過程。根據(jù)亞里士多德的觀點，推理可分為兩種類型：

演繹推理（Deductive reasoning）：從普遍原理中得出具體結(jié)論。
歸納推理（Inductive reasoning）：通過觀察現(xiàn)象來形成一般性結(jié)論。

傳統(tǒng)觀念認(rèn)為，推理是人類獨有的能力。但現(xiàn)在我們發(fā)現(xiàn)，靈長類、章魚甚至鳥類也展現(xiàn)出了一定的推理能力，它們能夠進行決策和解決問題。

一般來說，推理被視為解決復(fù)雜問題或做出明智選擇的過程。這要求識別問題、將其拆分為小問題、發(fā)現(xiàn)其中的規(guī)律，然后選擇最佳解決方案。決策過程也相似，需要識別問題、尋找規(guī)律，并在做出選擇前對備選方案進行評估。

然而，這些定義存在不明確之處。按照這些標(biāo)準(zhǔn)，LLM 也可以被視為具有推理能力。

02 LLM 能夠推理嗎？

在一系列評估推理能力的基準(zhǔn)測試中（如 GLUE[5]、SuperGLUE[6] 和 Hellaswag[7]），大語言模型（LLMs）的表現(xiàn)甚至超越了人類。有人據(jù)此認(rèn)為，LLMs 可以進行推理并得出合乎邏輯的結(jié)論。

LLMs 推理能力的提升主要得益于兩個方面：

LLMs 在所有針對推理能力評估設(shè)計的基準(zhǔn)測試中都表現(xiàn)出了推理能力。
隨著模型參數(shù)、token 數(shù)量和計算資源的增加，模型的新特性不斷涌現(xiàn)。

采用思維鏈（CoT）等技巧，可以讓模型發(fā)揮其潛力。如果我們認(rèn)為 LLMs 不具備推理能力，那么我們就需要對上述觀點提出質(zhì)疑。

2.1 LLMs 在推理能力基準(zhǔn)測試中的驚艷表現(xiàn)

當(dāng)有人聲稱 LLM 不會推理時，AGI 的支持者會回應(yīng)說：“看看推理能力基準(zhǔn)測試[8]的結(jié)果?！边@就像是“鴨子測試（duck test）”：如果它能像人一樣解決問題，做出決策，甚至在推理能力基準(zhǔn)測試中勝出，那么它很可能就具有人類擁有的推理能力。

然而，也有學(xué)者對此表示懷疑1。模型看似能夠進行復(fù)雜的推理，但實際上它們依賴的是概率模式匹配，而非嚴(yán)謹(jǐn)?shù)男问酵评恚╢ormal reasoning）。

模型對特定 tokens 的過度依賴表明，它更多的是在利用輸入數(shù)據(jù)的表面特征，而非深入理解背后推理任務(wù)的本質(zhì)?！?source[9]

換言之，這些脆弱的表現(xiàn)揭示了 LLMs 在遇到與訓(xùn)練過程中所見模式不同的新案例時，缺乏泛化能力。一旦改變例子中的 tokens，就會導(dǎo)致邏輯錯誤（因為模型無法將新例子與訓(xùn)練數(shù)據(jù)中的模式相對應(yīng)）。因此，模型對于測試案例極為敏感，容易受其影響（這也解釋了為何模型有時看似推理能力驚人，有時卻會以失敗告終）。

通過擾動例子中的 tokens，我們可以看到模型的脆弱性，擾動導(dǎo)致 LLM 無法解決問題（說明其“推理”過于依賴特定的 tokens，并將它們與訓(xùn)練集中的內(nèi)容相匹配）。這一點通過訓(xùn)練數(shù)據(jù)中例子的出現(xiàn)頻率與測試表現(xiàn)之間的相關(guān)性得到了驗證8。

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

“圖論中經(jīng)典的‘二十五匹馬’問題。上面兩幅子圖由 GPT-4o 生成，僅供參考，通過將‘馬’改為‘兔子’來演示這一概念，這與問題的基本邏輯無關(guān)。下面兩幅子圖顯示的是 GPT-4 和 Claude 的實驗結(jié)果，其中動物名稱和數(shù)量的擾動導(dǎo)致性能顯著下降”。圖片來源：??https://arxiv.org/pdf/2406.11050??

這種現(xiàn)象被稱為“提示詞敏感性”（即模型對于語義上等價的不同提示詞會有不同的反應(yīng)）11-12。這意味著模型對于與訓(xùn)練文本更為貼近的提示詞會有更好的響應(yīng)。

大語言模型（Large Language Models，LLM）同樣對噪聲敏感2。實際上，這些模型很容易受到無關(guān)上下文的影響，導(dǎo)致其在進行推理時的表現(xiàn)大打折扣。此外，即便是那些專門用于提升推理能力的提示詞技巧[10]，也無法完全消除噪聲的影響。這表明，噪聲對模型記憶中模式識別能力的干擾是顯著的。

2.2 智力被視為一種“涌現(xiàn)屬性”

許多人認(rèn)為，智力是隨著生物系統(tǒng)自然趨向于復(fù)雜化和能力提升而逐漸涌現(xiàn)的[11]。如果生物不能適應(yīng)這種變化，就會在進化壓力下被淘汰。因此，進化過程會導(dǎo)致生物變得越來越聰明或越來越特化。智力就是在這樣的壓力下逐步進化而來的。智力的發(fā)展顯然需要資源，因此大腦發(fā)展到了支持智力發(fā)展的水平。有些人認(rèn)為，在模式訓(xùn)練（pattern training function）中的損失函數(shù)就如同一種進化壓力。因此，一旦模型擁有了足夠的“神經(jīng)元”，它們就能夠發(fā)展出推理能力（用專業(yè)術(shù)語來說，就是隨著模型規(guī)模的擴大，推理能力逐漸顯現(xiàn)）。

如前所述，這種推理能力的增強被認(rèn)為是模型規(guī)模增加的結(jié)果（無論是參數(shù)的數(shù)量還是訓(xùn)練 tokens 的數(shù)量）。但是，在一些學(xué)者看來，推理能力是一種需要達到一定參數(shù)閾值才能顯現(xiàn)的涌現(xiàn)屬性。然而，后續(xù)的研究表明，大語言模型（Large Language Models，LLMs）中的涌現(xiàn)屬性[12]可能是一種測量誤差，因此，整個理論就與推理能力的突然出現(xiàn)3, 13有關(guān)了。

2.3 CoT is not all you need

其他學(xué)者認(rèn)為，大語言模型（Large Language Models，LLMs）本身具備推理能力，但這種能力需要通過特定方式來激活。思維鏈（Chain-of-thought，CoT）提示詞就是這樣一種方法，它通過中間推理過程幫助模型釋放其潛力，進而引導(dǎo)模型在解決算術(shù)問題時得出正確答案4。然而，幾周前的一篇文章對 CoT 的實際效用提出了質(zhì)疑5：

在 MMLU 基準(zhǔn)測試中，CoT 帶來的性能提升，多達 95% 是因為問題或生成的輸出中包含了“=”符號。對于非數(shù)學(xué)問題，我們并未發(fā)現(xiàn)任何跡象表明 CoT 在什么情況下會有幫助?！?source[13]

由此可見，CoT 在解決數(shù)學(xué)問題上的確有所幫助，但它并不能真正激活 LLM 的推理潛力。盡管如此，CoT 仍被吹噓為靈丹妙藥，并被認(rèn)為是最新一代 LLMs 推理能力的基礎(chǔ)[14]。

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

通過對思維鏈（Chain-of-thought，CoT）相關(guān)文獻的元分析發(fā)現(xiàn)，無論是在數(shù)學(xué)領(lǐng)域還是其他類型的符號推理領(lǐng)域，CoT 都能帶來顯著的性能提升（紅色虛線所示為不同實驗中 CoT 帶來的平均改進效果）。圖片來源：??https://arxiv.org/pdf/2409.12183??

這些發(fā)現(xiàn)似乎表明，LLMs 并不具備常識推理能力，但這并不意味著它們完全不具備其他類型的推理能力。

LLMs 真的能夠進行數(shù)學(xué)推理嗎？

盡管數(shù)學(xué)推理似乎是 LLMs 在推理方面的優(yōu)勢，但有研究表明，LLMs 可能只是在識別模式（patterns）。也就是說，它們在尋找模式（patterns）時，并不真正理解這些數(shù)學(xué)符號的含義。

一些研究者指出6，LLMs 在數(shù)學(xué)上無法進行形式推理（formal reasoning），因為它們不能制定出行動計劃（這里所說的計劃是指一系列行動策略，通過執(zhí)行這些策略，可以從初始狀態(tài)達到期望的最終狀態(tài)）。沒有這樣的計劃，模型就只能簡單復(fù)現(xiàn)訓(xùn)練中遇到的模式（patterns）[15]，而無法真正解決問題。在某些情況下，甚至可能是用戶無意中引導(dǎo) LLM 找到了答案7：

這就是所謂的“聰明的漢斯效應(yīng)（The Clever Hans Effect）”，LLM 只是在進行猜測，而真正引導(dǎo)它的是處于環(huán)路中的人類，他們憑借對正確與錯誤解決方案的了解，無意中操控了 LLM 的輸出 —— 即便他們并非有意為之。因此，確保準(zhǔn)確性（如果有的話）的功過都應(yīng)該歸咎于這個環(huán)路中的人類。source：??https://arxiv.org/pdf/2403.04121??

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

LLMs 所聲稱的推理能力，有時實際上是由于參與其中的人類在不自覺中提供了有益的、連續(xù)的提示詞。圖片來源：??https://arxiv.org/pdf/2403.04121??

綜上所述，支持大語言模型（LLM）存在推理能力的人們認(rèn)為，我們之所以看到模型的這些行為，有多方面的原因。但是有幾項研究表明，它們與這些觀點存在沖突。

盡管那些研究堅稱大語言模型（LLM）不具備推理能力，但它們在所有基準(zhǔn)測試中都取得了驚人的成績，甚至在一些復(fù)雜的測試中超越了人類的表現(xiàn)[16]。因此，我們提供的證據(jù)似乎更多是基于理論，而不是基于大語言模型（LLM）解決數(shù)學(xué)和復(fù)雜問題能力的實證研究。

是否是因為人類對于被大語言模型（LLM）超越而感到不滿，還是其中確實存在問題呢？

2.4 發(fā)現(xiàn)一名學(xué)生在抄襲

無疑，看到有人聲稱大語言模型（LLM）的表現(xiàn)堪比博士生，這讓人感到不悅：

o1-preview 模型的設(shè)計初衷是處理具有挑戰(zhàn)性的任務(wù)，它通過像人一樣花更多時間思考和優(yōu)化回答來應(yīng)對復(fù)雜問題。在測試中，這種方法使得模型在物理、化學(xué)和生物等領(lǐng)域的表現(xiàn)接近博士生水平。source：??https://venturebeat.com/ai/forget-gpt-5-openai-launches-new-ai-model-family-o1-claiming-phd-level-performance/??

暫且不提這種不快，問題在于我們?nèi)绾魏饬窟@些模型的能力。我們可能并沒有用正確的方法來測試它們的推理能力，是時候采用新的評測體系了。

這些模型都在 GSM8K（Grade School Math 8K）[17]數(shù)據(jù)集上進行測試，這個數(shù)據(jù)集提供了復(fù)雜的算術(shù)問題，但由于訓(xùn)練 LLM 時使用了數(shù)十億個數(shù)據(jù) tokens，存在答案泄露的風(fēng)險。此外，這個數(shù)據(jù)集只提供了一個固定問題集上的單一度量標(biāo)準(zhǔn)，對我們了解 LLM 的推理能力幫助有限（有趣的是，LLM 可能在推理完全錯誤的情況下仍然給出正確答案）。而且，這個數(shù)據(jù)集是靜態(tài)的，不允許我們改變測試條件。

在這項研究中，研究者提出了一個新的基準(zhǔn)測試數(shù)據(jù)集 GSM-Symbolic[18] 9，它通過使用符號模板生成不同的問題。通過該數(shù)據(jù)集，我們可以調(diào)整問題的難度，并在測試時提供更精確的控制。這個數(shù)據(jù)集實際上與之前用于推理測試的數(shù)據(jù)集相同，只是對問題進行了修改，使得簡單的統(tǒng)計模式匹配（statistical pattern matching）變得困難。如果 LLM 真的具備推理能力，它應(yīng)該能夠輕松解決這些問題；但如果它無法進行泛化，那么它將無法完成任務(wù)。

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

GSM-Symbolic 模板創(chuàng)建過程示意圖。圖片來源：??https://arxiv.org/pdf/2410.05229??

在對最先進的 LLMs 進行測試時，研究者并未發(fā)現(xiàn)模型具備形式推理的能力。這些模型并不穩(wěn)健，當(dāng)數(shù)值發(fā)生變化時，性能就會下降，且在問題復(fù)雜性提升時，其處理能力會迅速衰退。

如果向問題中插入看似相關(guān)卻實際上對推理和結(jié)論無影響的語句，模型便容易被誤導(dǎo)。模型會將這些語句考慮在內(nèi)，從而誘發(fā)錯誤。研究指出，模型并沒有真正理解數(shù)學(xué)概念，而是試圖將這些語句轉(zhuǎn)化為數(shù)學(xué)操作。作者們推測，這可能是由于訓(xùn)練數(shù)據(jù)集中包含了類似需要轉(zhuǎn)化為數(shù)學(xué)操作的例子。

比如，我們觀察到的一種常見情況是，無論上下文如何，模型會將涉及“折扣”的語句理解為“乘法”。這不禁讓人質(zhì)疑，這些模型是否真正掌握了數(shù)學(xué)概念。來源：??https://arxiv.org/pdf/2410.05229??

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

圖片來源：??https://arxiv.org/pdf/2410.05229??

這再次證明，模型甚至在模式（patterns）僅僅是背景噪聲的情況下，也會試圖尋找這些模式（patterns）。當(dāng)噪聲增強，尋找模式（patterns）的難度加大（或者難以一致性地將這些模式（patterns）映射到解決方案上），模型的性能就會大幅下滑10。這一點同樣適用于那些經(jīng)過 CoT 訓(xùn)練的 LLMs（比如 ChatGPT4-O1[3]）。這進一步說明，CoT 并未真正提升模型的推理能力。

機械鸚鵡與真正的智能：大語言模型推理能力的迷思-AI.x社區(qū)

圖片來源：??https://www.arxiv.org/pdf/2409.13373??

03 結(jié)束語

本文探討了一個熱門話題：LLMs 是否具備推理能力？或者至少是某種形式的推理能力？

我們所展示的研究成果給出了不同的觀點，認(rèn)為 LLMs 實質(zhì)上是高級的模式匹配機器。 總結(jié)來說，這些研究指出：

LLMs 通過海量 tokens 進行訓(xùn)練，因此存在主要基準(zhǔn)測試數(shù)據(jù)集發(fā)生數(shù)據(jù)污染的風(fēng)險。即便模型未曾直接見過某個數(shù)學(xué)問題，它也可能接觸過眾多類似的案例。
憑借其龐大的知識庫和與生俱來的模式識別能力（歸功于注意力機制和上下文學(xué)習(xí)[19]），它們能夠解決大部分問題。
它們在應(yīng)對問題變化、tokens 偏差以及噪聲影響方面的脆弱性，強烈表明 LLMs 并不具備形式推理的能力。最新研究結(jié)果顯示，即便采用先進的提示詞技術(shù)，模型仍然容易受到噪聲和不相關(guān)（甚至可能誤導(dǎo)）信息的影響。
這些模型能夠進行模式匹配，但似乎并不理解解決問題所依據(jù)的任何數(shù)學(xué)概念。

這些發(fā)現(xiàn)并未否定 LLMs 的實用性，而是對 LLMs 具備推理能力的觀點提出了質(zhì)疑。 這些結(jié)果表明，可以將 LLM 視為擁有非凡記憶力的機器，卻無法進行推理（或者可以說是迄今為止最精巧的“機械鸚鵡”）。這并非貶低創(chuàng)造它們所需的卓越技術(shù)，而是對人類智慧結(jié)晶的贊嘆。為了更深入地理解 LLMs 的能力，以及開發(fā)能夠進行推理的新模型架構(gòu)，可能還需要進一步的研究。

Reference

Jiang, 2024, A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners, ??https://arxiv.org/abs/2406.11050??
Shi, 2023, Large Language Models Can Be Easily Distracted by Irrelevant Context, ??https://proceedings.mlr.press/v202/shi23a.html??
Schaeffer, 2023, Are emergent abilities of large language models a mirage? ??https://arxiv.org/pdf/2304.15004??
Wei, 2022, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, ??https://arxiv.org/abs/2201.11903??
Sprague, 2024, To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, ??https://arxiv.org/abs/2409.12183??
Valmeekam, 2023, PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change
Kambhampati, 2024, Can Large Language Models Reason and Plan? ??https://arxiv.org/abs/2403.04121??
Razeghi, 2022, Impact of Pretraining Term Frequencies on Few-Shot Reasoning, ??https://arxiv.org/abs/2202.07206??
Mirzadeh, 2024, GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, ??https://arxiv.org/abs/2410.05229??
Valmeekam, 2024, LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench, ??https://www.arxiv.org/abs/2409.13373??
Lu, 2022, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, ??https://aclanthology.org/2022.acl-long.556/??
Zhao, 2021, Calibrate Before Use: Improving Few-shot Performance of Language Models, ??https://proceedings.mlr.press/v139/zhao21c.html??
Rogers, 2024, Position: Key Claims in LLM Research Have a Long Tail of Footnotes, ??https://openreview.net/forum?id=M2cwkGleRL??

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Salvatore Raieli

Senior data scientist | about science, machine learning, and AI. Top writer in Artificial Intelligence

END

本期互動內(nèi)容 ??

?您對未來可能出現(xiàn)的、真正具備推理能力的 AI 系統(tǒng)有什么期待和想象？

??文中鏈接??

[1]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=Large Language Models,-What is a??

[2]??https://en.wikipedia.org/wiki/Natural_language_processing??

[3]??https://openai.com/index/introducing-openai-o1-preview/??

[4]??https://aibusiness.com/nlp/chatgpt-update-claims-reasoning-capabilities-industry-reacts??

[5]??https://gluebenchmark.com/??

[6]??https://super.gluebenchmark.com/??

[7]??https://deepgram.com/learn/hellaswag-llm-benchmark-guide??

[8]??https://paperswithcode.com/area/reasoning??

[9]??https://arxiv.org/pdf/2406.11050??

[10]??https://www.promptingguide.ai/techniques??

[11]??https://ngsf.in/2021/09/19/intelligence-as-an-emergent-property-in-biological-systems/??

[12]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=What does it mean emergent properties%3F what it is the scaling law%3F??

[13]??https://arxiv.org/pdf/2409.12183??

[14]??https://openai.com/index/learning-to-reason-with-llms/??

[15]??https://www.lakera.ai/blog/what-is-in-context-learning??

[16]??https://www.technologyreview.com/2023/08/30/1078670/large-language-models-arent-people-lets-stop-testing-them-like-they-were/??

[17]??https://paperswithcode.com/dataset/gsm8k??

[18]??https://machinelearning.apple.com/research/gsm-symbolic??

[19]??http://ai.stanford.edu/blog/understanding-incontext/??

原文鏈接：

??https://towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

探究代碼思維鏈對大模型推理能力的作用

mb5f8eba9bdb0af ? 4595瀏覽 ? 0回復(fù)
激發(fā)大語言模型空間推理能力：思維可視化提示

AIGC最前線 ? 5518瀏覽 ? 0回復(fù)
【LLM】大語言模型的情感理解和共情能力

sbf_2000 ? 6259瀏覽 ? 0回復(fù)
行動、變化與智能：人工智能中的推理機制

xuxiangda ? 3103瀏覽 ? 0回復(fù)
探索大型語言模型在電能行業(yè)的能力與局限

AIRoobt ? 5310瀏覽 ? 0回復(fù)
幾何視角下的大語言模型推理

sbf_2000 ? 2658瀏覽 ? 0回復(fù)
語言模型的神秘面紗：小學(xué)數(shù)學(xué)與隱含推理過程

sbf_2000 ? 2370瀏覽 ? 0回復(fù)
大語言模型實踐中的挑戰(zhàn)與應(yīng)對

sbf_2000 ? 2709瀏覽 ? 0回復(fù)
GSM-Symbolic揭秘大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 2545瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 2664瀏覽 ? 0回復(fù)
大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！

十一月雨_55 ? 4103瀏覽 ? 0回復(fù)
FineMedLM-o1: 基于監(jiān)督微調(diào)與測試時訓(xùn)練的醫(yī)學(xué)推理增強型大語言模型

頓數(shù)AI ? 3291瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1：大語言模型推理能力進化的秘密武器

十一月雨_55 ? 5850瀏覽 ? 0回復(fù)
強化學(xué)習(xí)與大模型后訓(xùn)練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4913瀏覽 ? 0回復(fù)
大語言模型：表面的推理能力背后是出色的規(guī)劃技巧

51CTO內(nèi)容精選 ? 2588瀏覽 ? 0回復(fù)
從PPO到GRPO：算力減半的大模型推理能力訓(xùn)練革命

Baihai_IDP ? 5005瀏覽 ? 0回復(fù)
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 5318瀏覽 ? 0回復(fù)
人工智能應(yīng)用就是大模型能力+場景，基于大模型構(gòu)建應(yīng)用，首先要了解大模型的能力圈

AI探索時代 ? 1451瀏覽 ? 0回復(fù)
大模型推理能力的局限性

JavaEdge1 ? 1611瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

我對 AI 寫作的一些思考：Writing in the Age of LLMs 2天前發(fā)布
The AI Moat Pyramid：構(gòu)建不可復(fù)制的 AI 護城河 6天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇：為什么某些 batch size 會突然導(dǎo)致性能下降？

下一篇：解碼通用 AI Agent：七步構(gòu)建你的智能系統(tǒng)

社區(qū)精華內(nèi)容

目錄