偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!

發(fā)布于 2024-10-25 14:01

瀏覽

0收藏

這篇文章的結(jié)論是：LLM 無法進行真正的推理。并做出了一系列的實驗論證，大模型僅僅是記住了目標序列。

10月份有很多文章在論證這個事情。比如之前寫過一篇推文介紹大模型在規(guī)劃的能力上表現(xiàn)仍然非常糟糕（現(xiàn)實再次給大模型帶來沉重打擊）。后來在《 PROCBENCH: BENCHMARK FOR MULTI-STEP REASONING AND FOLLOWING PROCEDURE》中驗證了一個結(jié)論：在沒有相關(guān)領(lǐng)域經(jīng)驗或知識的情況下，LLM/LRM 似乎無法遵循基本指令，尤其是在指令長度增加時。再后來，《APeek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners》中發(fā)現(xiàn)LLM對序列中不起眼得變化非常敏感。例子中對“Linda”和“Bob”之間進行切換之后，LLM就失敗了。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

論文中，為了論證LLM是靠記憶還是能推理。他們創(chuàng)建了一個替代數(shù)據(jù)集-GSM-Symbolic，這個數(shù)據(jù)集使用了原始問題中的模板，允許他們修改序列中的特定的信息，從而在推理上生成具有微小變化的相同問題。看下圖，就是對一些關(guān)鍵信息使用占位符。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

結(jié)果出來之后，性能均有所降低，即使是前沿的大模型也不例外。但是模型越大，越不容易出現(xiàn)此類問題。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

接下來，不滿足于只替換一些關(guān)鍵信息，他們又嘗試了增加問題難度。這種，所有模型都是持續(xù)下降的，跟預(yù)期一致，而且方差也變高了。也就是說，這些模型的智能不僅被夸大了，而且隨著復雜性的增加，魯棒性也在降低。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

最后一個實驗是，在原始問題中加入一些看似相關(guān)實際確無關(guān)信息。如下kiwi的例子，大小其實是不重要的。但是o1-mini 和 Llama3-8B 的輸出還是莫名的減去了那些小的獼猴桃。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

這個無關(guān)信息的添加，導致了模型性能整體的顯著下降，最多的達到了70%，但是o1-preview性能下降最少。

大模型數(shù)學能力翻車實錘！Apple新研究暴露真相!-AI.x社區(qū)

一般較小的模型更容易對基準數(shù)據(jù)過擬合，也就是模型會記住問題的解決方案，因此如果我們增加模型的大小，那么它對數(shù)據(jù)集的過擬合就會更難。

但是隨著模型規(guī)模的擴大，LLM 可能也能記憶住更多的東西，因為他們會訓練更多的數(shù)據(jù)，記住了更多的信息，從而顯得比實際聰明。

本文轉(zhuǎn)載自 ??NLP前沿??，作者：熱愛AI的

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

今日arXiv最熱NLP大模型論文：天津大學發(fā)布大模型數(shù)學能力細粒度評價基準FineMath

pangguiyu ? 5658瀏覽 ? 0回復
Scaling Law被證偽，谷歌研究人員實錘研究力挺小模型更高效，不局限于特定采樣技術(shù)！

51CTO技術(shù)棧 ? 4474瀏覽 ? 0回復
大模型做時序預(yù)測也很強！華人團隊激活LLM新能力，超越一眾傳統(tǒng)模型實現(xiàn)SOTA

Crystalcxt ? 4329瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數(shù)學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 4082瀏覽 ? 0回復
騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 8558瀏覽 ? 0回復
LoRA數(shù)學編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究

Crystalcxt ? 4070瀏覽 ? 0回復
電子科大、同濟大學、新加坡國立大學等發(fā)表的Math-LLaVA：引導多模態(tài)大語言模型的數(shù)學推理能力

sbf_2000 ? 6826瀏覽 ? 0回復
編程表現(xiàn)比肩ChatGPT，這個新模型能力很強大

Syrupup ? 4155瀏覽 ? 0回復
AI數(shù)學天才還是數(shù)字騙子？GSM-Symbolic揭秘大語言模型的數(shù)學推理能力

sbf_2000 ? 3385瀏覽 ? 0回復
阿里重磅開源QwQ-32B：自我思考、糾正，數(shù)學能力擊敗o1模型

Aceryt ? 9187瀏覽 ? 0回復
大模型是能力強還是記憶強？一項發(fā)人深省的研究

芝士AI吃魚 ? 3966瀏覽 ? 0回復
阿里巴巴Qwen研究員推出ProcessBench：衡量數(shù)學推理過程錯誤識別能力的新AI基準

Halo咯咯 ? 3693瀏覽 ? 0回復
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 4220瀏覽 ? 0回復
5分鐘讓你的AI模型擁有"超能力"！MCP協(xié)議深度解析和實操

AI博物院 ? 4760瀏覽 ? 0回復
人工智能應(yīng)用就是大模型能力+場景，基于大模型構(gòu)建應(yīng)用，首先要了解大模型的能力圈

AI探索時代 ? 2618瀏覽 ? 0回復
融合語言模型的多模態(tài)大模型研究

zhcs333 ? 3546瀏覽 ? 0回復
大模型的能力和大模型應(yīng)用

AI探索時代 ? 2743瀏覽 ? 0回復
大模型推理能力的局限性

JavaEdge1 ? 2700瀏覽 ? 0回復
GPT-5 數(shù)學推理能力深度剖析：一項基于“哥德爾測試”的初步研究

上堵吟1 ? 2284瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

字節(jié)的這個新模型，牛了！ 2025-09-22 07:05:49發(fā)布
Agent KB：讓Agent越用越聰明！ 2025-07-21 06:35:18發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

上一篇： RAG遇上知識沖突，Google祭出終極大招！

下一篇：從傳統(tǒng) RAG 到圖 RAG，賦予大型語言模型更強大的知識力量

社區(qū)精華內(nèi)容

目錄

<p id="qqppv"></p>