偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="dxoxr"><rp id="dxoxr"></rp></u>

<sub id="dxoxr"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

研究實(shí)錘GPT-4真變笨了：3個(gè)月內(nèi)數(shù)學(xué)能力雪崩式下降，代碼能力也變差

作者：機(jī)器之心 2023-07-20 14:33:36

開(kāi)發(fā) 人工智能

具體而言，通過(guò)四個(gè)任務(wù)研究過(guò) GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成結(jié)果后，研究者發(fā)現(xiàn)這兩個(gè) LLM 確實(shí)在一些指標(biāo)上變得更差了，尤其是 GPT-4 求解數(shù)學(xué)問(wèn)題的能力，可以說(shuō)是雪崩式下降

前些天，有不少用戶(hù)抱怨 GPT-4 變笨了，但到底變得有多笨呢？

近日，來(lái)自斯坦福、UC Berkeley 的一篇 arXiv 預(yù)印本論文給出了對(duì)這一問(wèn)題的定量實(shí)驗(yàn)結(jié)果并公布了相關(guān)評(píng)估和響應(yīng)數(shù)據(jù)。

在論文公布不久，這篇研究就引起了大家廣泛的關(guān)注與討論，很多網(wǎng)友都認(rèn)同論文闡述的結(jié)果。

當(dāng)然，任何事物都有兩面性。也有網(wǎng)友并不認(rèn)同論文結(jié)論，發(fā)布了一篇質(zhì)疑文章認(rèn)為這篇論文的結(jié)果過(guò)于簡(jiǎn)單化了，「雖然研究結(jié)果很有趣，但有些方法值得懷疑?！?/p>

圖片

質(zhì)疑文章鏈接：https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

那接下來(lái)，我們來(lái)看斯坦福、UC Berkeley 的這篇論文發(fā)現(xiàn)了什么。

論文鏈接：https://arxiv.org/pdf/2307.09009.pdf
項(xiàng)目數(shù)據(jù)：https://github.com/lchen001/LLMDrift

具體而言，通過(guò)四個(gè)任務(wù)研究過(guò) GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成結(jié)果后，研究者發(fā)現(xiàn)這兩個(gè) LLM 確實(shí)在一些指標(biāo)上變得更差了，尤其是 GPT-4 求解數(shù)學(xué)問(wèn)題的能力，可以說(shuō)是雪崩式下降 —— 三月版 97.6% 的準(zhǔn)確度到六月只剩 2.4%。研究者還推測(cè)了這些變化的原因。

圖片

圖源：推特 @svpino

GPT-3.5 和 GPT-4 等大型語(yǔ)言模型（LLM）正被廣泛使用。隨著時(shí)間推移，GPT-4 這樣的 LLM 可以根據(jù)用戶(hù)的數(shù)據(jù)和反饋以及設(shè)計(jì)的變化而更新。但是，我們目前仍不清楚 GPT-3.5 和 GPT-4 的更新方式，也不了解其更新方式會(huì)對(duì)這些 LLM 的行為產(chǎn)生怎樣的影響。

這些未知讓我們難以可靠地將 LLM 整合進(jìn)更大的工作流程中：如果 LLM 對(duì)某個(gè) prompt 的響應(yīng)突然發(fā)生變化（比如準(zhǔn)確度或格式），那就可能破壞下游任務(wù)。這也會(huì)讓我們難以從「同一個(gè)」LLM 復(fù)現(xiàn)出同樣的結(jié)果，甚至完全無(wú)法做到。

除了這些整合方面的難題之外，像 GPT-4 這樣的 LLM 服務(wù)是否會(huì)隨著時(shí)間不斷變得「更好」也是一個(gè)有趣的問(wèn)題。重點(diǎn)是，我們需要知道：為了提升模型的某些方面而執(zhí)行更新時(shí)，模型的其它能力會(huì)不會(huì)受到損傷？

為了找到這些問(wèn)題的答案，斯坦福大學(xué)和加州大學(xué)伯克利分校的研究者評(píng)估了 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的表現(xiàn)，其評(píng)估基于四大任務(wù)：1) 求解數(shù)學(xué)問(wèn)題，2) 回答敏感 / 危險(xiǎn)問(wèn)題，3) 生成代碼， 4) 視覺(jué)推理。

研究者表示，之所以選擇這四個(gè)任務(wù)，是因?yàn)樗鼈兪?LLM 多種有用能力的代表。他們最終發(fā)現(xiàn)，GPT-3.5 和 GPT-4 各自的兩個(gè)發(fā)行版的表現(xiàn)和行為都發(fā)生了重大變化，并且更新版在某些任務(wù)上的表現(xiàn)還變差了！

概述：LLM 服務(wù)、任務(wù)和指標(biāo)

這篇論文研究的是不同 LLM 的行為隨時(shí)間的變化情況，下面解釋下定量研究中所關(guān)注的 LLM、評(píng)估任務(wù)和指標(biāo)

LLM 服務(wù)：研究者研究的模型為 GPT-3.5 和 GPT-4，它們是 ChatGPT 的骨干。

評(píng)估任務(wù)有四個(gè)：求解數(shù)學(xué)問(wèn)題、回答敏感問(wèn)題、生成代碼和視覺(jué)推理，如下圖 1 所示。

圖 1：在四個(gè)不同任務(wù)上，GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的表現(xiàn)

可以看到，GPT-4 和 GPT-3.5 的表現(xiàn)變化很大，并且在某些任務(wù)上還變差了。

指標(biāo)：這里每個(gè)任務(wù)都有一個(gè)主指標(biāo)，所有任務(wù)還有兩個(gè)常見(jiàn)的額外指標(biāo)。
準(zhǔn)確度：LLM 生成正確答案的可能性，這是求解數(shù)學(xué)問(wèn)題任務(wù)的主指標(biāo)。
回答率：LLM 直接回答問(wèn)題答案的頻率，這是回答敏感問(wèn)題任務(wù)的主指標(biāo)。
是否直接執(zhí)行：代碼中有多大比例可以直接執(zhí)行，這是代碼生成任務(wù)的主指標(biāo)。
精確匹配：生成的視覺(jué)對(duì)象是否與 ground truth 完全匹配，這是視覺(jué)推理任務(wù)的主指標(biāo)。
冗長(zhǎng)度（verbosity）：生成的長(zhǎng)度。
重疊度（overlap）：對(duì)于同一提示，同一 LLM 的兩個(gè)版本的答案是否相互匹配。

檢測(cè)結(jié)果揭示出 LLM 變化巨大

求解數(shù)學(xué)問(wèn)題：思維鏈可能失敗

結(jié)果或許讓人驚訝，在這個(gè)簡(jiǎn)單任務(wù)上，LLM 的表現(xiàn)變化很大！如下圖 2 (a) 所示，GPT-4 的準(zhǔn)確度從三月版的 97.6% 猛降至六月版的 2.4%；GPT-3.5 的準(zhǔn)確度卻從 7.4% 猛增至 86.8%。

此外，GPT-4 的響應(yīng)變得緊湊了許多：其平均冗長(zhǎng)度（生成字符的數(shù)量）從三月版的 821.2 降至六月版的 3.8。另一方面，GPT-3.5 的響應(yīng)卻增長(zhǎng)了約 40%。兩個(gè)模型的三月版和六月版的答案重疊度都很低。

圖 2：求解數(shù)學(xué)問(wèn)題：(a) GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的準(zhǔn)確度、冗長(zhǎng)度和答案重疊度。整體而言，兩個(gè)模型的表現(xiàn)都發(fā)生了巨大變化。(b) 一個(gè)示例查詢(xún)和對(duì)應(yīng)的響應(yīng)情況。

這樣的表現(xiàn)差異從何而來(lái)？研究者給出的一種解釋是思維鏈效果的變化。圖 2 (b) 給出了一個(gè)示例進(jìn)行說(shuō)明?？梢钥吹?，GPT-4 三月版遵從思維鏈指示得到了正確答案，但六月版卻忽視了思維鏈，得到了錯(cuò)誤答案。GPT-3.5 總是會(huì)遵從思維鏈指示，但其三月版就是堅(jiān)持生成錯(cuò)誤答案（[No]），其六月版已經(jīng)很大程度上修復(fù)這個(gè)問(wèn)題。

回答敏感問(wèn)題：變得更加安全但缺乏拒答理由

在這一任務(wù)上，研究者觀(guān)察到了兩個(gè)趨勢(shì)。如下圖 3 所示，第一個(gè)趨勢(shì)是 GPT-4 會(huì)更少地回答敏感問(wèn)題，從三月版的 21.0% 降至六月版的 5.0%，而 GPT-3.5 的數(shù)據(jù)卻上升了（從 2.0% 增至 8.0%）。

研究者猜想，這是因?yàn)?GPT-4 的六月更新中部署了更強(qiáng)大的安全層，而 GPT-3.5 的保守程度卻下降了。第二個(gè)趨勢(shì)是 GPT-4 的生成長(zhǎng)度從 600 多下降到了 140 左右。

圖 3：回答敏感問(wèn)題：(a) 整體性能變化

GPT-4 回答更少問(wèn)題，而 GPT-3.5 回答稍微更多問(wèn)題。(b) 一個(gè)示例查詢(xún)和對(duì)應(yīng)的響應(yīng)情況。GPT-4 和 GPT-3.5 的三月版都更能說(shuō)，會(huì)給出拒絕回答查詢(xún)的詳細(xì)原因。它們的六月版就只會(huì)簡(jiǎn)單說(shuō)個(gè)抱歉。

生成長(zhǎng)度變化的原因是什么呢？除了回答更少問(wèn)題外，還因?yàn)?GPT-4 變得更加簡(jiǎn)潔，所以在拒絕回答時(shí)提供的解釋也更少。圖 3 (b) 的例子就能說(shuō)明這一點(diǎn)。GPT-4 的三月版和六月版都拒絕回答不適當(dāng)?shù)牟樵?xún)。但是三月版會(huì)生成一整段文本來(lái)解釋拒答的原因，但六月版只是說(shuō)：「抱歉，但我無(wú)法提供幫助?！笹PT-3.5 也有類(lèi)似的現(xiàn)象。這說(shuō)明這些 LLM 可能變得更安全，但在拒絕回答某些問(wèn)題時(shí)會(huì)更少提供理由。

代碼生成：更冗長(zhǎng)但可直接執(zhí)行的代碼更少

整體而言，從三月版到六月版，可直接執(zhí)行的代碼數(shù)量變少了。如下圖 4 (a) 所示，GPT-4 三月版超過(guò) 50% 的生成代碼可直接執(zhí)行，但六月版的只有 10%。GPT-3.5 有類(lèi)似趨勢(shì)。兩個(gè)模型的冗長(zhǎng)度都小幅增長(zhǎng)。

圖片

圖 4：代碼生成：(a) 整體表現(xiàn)的變化情況。(b) 一個(gè)示例查詢(xún)和對(duì)應(yīng)的響應(yīng)情況

GPT-4 和 GPT-3.5 的三月版都遵照用戶(hù)指示（the code only / 只生成代碼），因此生成結(jié)果都是可直接執(zhí)行的代碼。但它們的六月版卻會(huì)在代碼片段前后添加額外的三引號(hào) “‘，導(dǎo)致代碼無(wú)法執(zhí)行。

為什么可直接執(zhí)行的生成結(jié)果數(shù)量變少了？一個(gè)可能的解釋是六月版總是會(huì)在生成結(jié)果中添加額外的非代碼文本。

圖 4 (b) 給出了一個(gè)示例。GPT-4 的三月版和六月版的生成結(jié)果基本一致，但有兩處不同，一是六月版在代碼段前后添加了 “‘python 和 “‘。二是六月版生成了一些注釋。變化雖不大，但額外的三引號(hào)卻讓代碼變得無(wú)法直接執(zhí)行。如果有人將 LLM 生成的代碼整合在更大的軟件開(kāi)發(fā)流程中，那么這個(gè)問(wèn)題還是挺嚴(yán)重的。

視覺(jué)推理：少量提升

如下圖 5 (a) 所示，GPT-4 和 GPT-3.5 的性能提升都很小。但是，它們的三月版和六月版在 90% 的視覺(jué)謎題查詢(xún)上的生成結(jié)果都一樣。這些服務(wù)的整體性能也很低：GPT-4 為 27.4%、GPT-3.5 為 12.2%。

圖片

圖 5：視覺(jué)推理：(a) 整體表現(xiàn)

從三月版到六月版，GPT-4 和 GPT-3.5 的整體表現(xiàn)都有大約 2% 的提升。生成長(zhǎng)度大致保持不變。(b) 一個(gè)示例查詢(xún)和對(duì)應(yīng)的響應(yīng)情況。

需要指出，更新版的 LLM 并不總是能生成更好的結(jié)果。事實(shí)上，盡管 GPT-4 的整體表現(xiàn)變得更好了，但六月版卻會(huì)在三月版答對(duì)的問(wèn)題上犯錯(cuò)。圖 5 (b) 就是這樣一個(gè)例證。雖然整體上 GPT-4 的六月版都表現(xiàn)更好，但這個(gè)特定案例卻不是這樣。其三月版給出了正確的網(wǎng)格，六月版卻沒(méi)有。這表明我們需要細(xì)粒度地監(jiān)控模型的性能變化，尤其是對(duì)于關(guān)鍵的應(yīng)用。

更多評(píng)估細(xì)節(jié)請(qǐng)查看原論文。

責(zé)任編輯：趙寧寧來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="hze9c"><track id="hze9c"></track></legend>

^{<blockquote id="hze9c"></blockquote>}

<cite id="hze9c"><li id="hze9c"></li></cite>