偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!

發(fā)布于 2024-10-25 14:01
瀏覽
0收藏

這篇文章的結(jié)論是:LLM 無(wú)法進(jìn)行真正的推理。并做出了一系列的實(shí)驗(yàn)論證,大模型僅僅是記住了目標(biāo)序列。

10月份有很多文章在論證這個(gè)事情。比如之前寫(xiě)過(guò)一篇推文介紹大模型在規(guī)劃的能力上表現(xiàn)仍然非常糟糕(現(xiàn)實(shí)再次給 大模型 帶來(lái)沉重打擊)。后來(lái)在《 PROCBENCH: BENCHMARK FOR MULTI-STEP REASONING AND FOLLOWING PROCEDURE》中驗(yàn)證了一個(gè)結(jié)論:在沒(méi)有相關(guān)領(lǐng)域經(jīng)驗(yàn)或知識(shí)的情況下,LLM/LRM 似乎無(wú)法遵循基本指令,尤其是在指令長(zhǎng)度增加時(shí)。再后來(lái),《APeek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners》中發(fā)現(xiàn)LLM對(duì)序列中不起眼得變化非常敏感。例子中對(duì)“Linda”和“Bob”之間進(jìn)行切換之后,LLM就失敗了。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

論文中,為了論證LLM是靠記憶還是能推理。他們創(chuàng)建了一個(gè)替代數(shù)據(jù)集-GSM-Symbolic,這個(gè)數(shù)據(jù)集使用了原始問(wèn)題中的模板,允許他們修改序列中的特定的信息,從而在推理上生成具有微小變化的相同問(wèn)題??聪聢D,就是對(duì)一些關(guān)鍵信息使用占位符。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

結(jié)果出來(lái)之后,性能均有所降低,即使是前沿的大模型也不例外。但是模型越大,越不容易出現(xiàn)此類(lèi)問(wèn)題。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

接下來(lái),不滿(mǎn)足于只替換一些關(guān)鍵信息,他們又嘗試了增加問(wèn)題難度。這種,所有模型都是持續(xù)下降的,跟預(yù)期一致,而且方差也變高了。也就是說(shuō),這些模型的智能不僅被夸大了,而且隨著復(fù)雜性的增加,魯棒性也在降低。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

最后一個(gè)實(shí)驗(yàn)是,在原始問(wèn)題中加入一些看似相關(guān)實(shí)際確無(wú)關(guān)信息。如下kiwi的例子,大小其實(shí)是不重要的。但是o1-mini 和 Llama3-8B 的輸出還是莫名的減去了那些小的獼猴桃。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

這個(gè)無(wú)關(guān)信息的添加,導(dǎo)致了模型性能整體的顯著下降,最多的達(dá)到了70%,但是o1-preview性能下降最少。

大模型數(shù)學(xué)能力翻車(chē)實(shí)錘!Apple新研究暴露真相!-AI.x社區(qū)

一般較小的模型更容易對(duì)基準(zhǔn)數(shù)據(jù)過(guò)擬合,也就是模型會(huì)記住問(wèn)題的解決方案,因此如果我們?cè)黾幽P偷拇笮。敲此鼘?duì)數(shù)據(jù)集的過(guò)擬合就會(huì)更難。

但是隨著模型規(guī)模的擴(kuò)大,LLM 可能也能記憶住更多的東西,因?yàn)樗麄儠?huì)訓(xùn)練更多的數(shù)據(jù),記住了更多的信息,從而顯得比實(shí)際聰明。

本文轉(zhuǎn)載自 ??NLP前沿??,作者:熱愛(ài)AI的

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦