偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

模型越大,表現(xiàn)越差?谷歌收集了讓大模型折戟的任務(wù),還打造了一個新基準

人工智能 新聞
語言模型越大,性能越好,這一點已經(jīng)在很多任務(wù)中被證明是正確的。那是否存在一種情況:某些任務(wù)的結(jié)果會因模型規(guī)模的增加反而變得糟糕?谷歌最近發(fā)表的一篇論文或許能為我們提供答案。

隨著語言模型變得越來越大(參數(shù)數(shù)量、使用的計算量和數(shù)據(jù)集大小都變大),它們的表現(xiàn)似乎也原來越好,這被稱為自然語言的 Scaling Law。這一點已經(jīng)在很多任務(wù)中被證明是正確的。

或許,也存在某些任務(wù)的結(jié)果會因模型規(guī)模的增加反而變得糟糕。這類任務(wù)被稱為 Inverse Scaling,它們可以指示出訓練數(shù)據(jù)或優(yōu)化目標是否存在某種缺陷。

今年,紐約大學的幾位研究者組織了一項較為另類的競賽:尋找一些大模型不擅長的任務(wù)。在這些任務(wù)上,語言模型越大,性能反而越差。

為了鼓勵大家參與識別 Inverse Scaling 任務(wù),他們創(chuàng)立了 Inverse Scaling 獎,獲獎的投稿任務(wù)將從 25 萬美元的獎金池中獲得獎勵。發(fā)布該獎的專家會根據(jù)一系列標準對提交的內(nèi)容進行評價:標準包括 Inverse Scaling 的強度、任務(wù)重要性、新穎性、任務(wù)覆蓋率、可再現(xiàn)性和 Inverse Scaling 的通用性。

比賽共有兩輪,第一輪截止時間是 2022 年 8 月 27 日,第二輪截止時間是 2022 年 10 月 27 日。兩輪中的第一輪收到了 43 份提交,其中四項任務(wù)被授予三等獎,它們將被納入最終的 Inverse Scaling 基準。

相關(guān)的研究成果,被谷歌的幾位研究者總結(jié)在了一篇論文里:

圖片

論文鏈接:https://arxiv.org/pdf/2211.02011.pdf

這四項任務(wù)的 Inverse Scaling 應(yīng)用在了三個語言模型,模型的參數(shù)跨越三個量級:Gopher(42M–280B)、Chinchilla(400M–70B)和 Anthropic internal model(13M–52B)。獲得 Inverse Scaling 獎勵的任務(wù)是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相關(guān)任務(wù)示例如圖 1 所示。

圖片

在論文中,作者對這四個任務(wù)的縮放表現(xiàn)進行了詳細研究。

作者首先在 PaLM-540B 模型上進行評估,該模型的計算量是 Inverse Scaling 獎提交文件中的評估模型的 5 倍。有了 PaLM-540B 的對比,作者發(fā)現(xiàn),四個任務(wù)中有三個表現(xiàn)出稱之為 U 型縮放的特性:性能先是隨著模型規(guī)模增大降到一定程度,然后隨著模型的增大性能再次上升。

作者認為,當一項任務(wù)同時包含「true task」和「distractor task」時,會出現(xiàn) U 型縮放。中等模型可能會執(zhí)行「distractor task」,從而影響性能,而更大的模型可能會忽略「distractor task」并且能執(zhí)行「true task」。作者對 U 型縮放的發(fā)現(xiàn)與 BIG-Bench 任務(wù)(如 TruthfulQA、識別數(shù)學定理)的結(jié)果一致。U 型縮放的含義是,Inverse Scaling 曲線可能不適用于更大的模型,因為性能可能會繼續(xù)下降,也可能會開始上升。

接著,作者探索了 chain-of-thought(CoT)的 prompt 是否改變了這些任務(wù)的縮放。與不使用 CoT 的 prompt 相比,使用 CoT 的 prompt 會激勵模型將任務(wù)分解為多個中間步驟。作者的實驗表明,使用 CoT 讓三個 U 型縮放任務(wù)中的兩個變?yōu)榱?Positive Scaling 曲線,其余任務(wù)從 Inverse Scaling 變成 Positive Scaling。使用 CoT 的 prompt 時,大型模型甚至在 Redefine Math. 中的兩個任務(wù)和八個子任務(wù)中的七個任務(wù)上實現(xiàn)了 100% 的準確率。

結(jié)果表明,「Inverse Scaling」這一術(shù)語其實并不明確,因為對于一個 prompt,給定的任務(wù)可能是 Inverse Scaling,但對于不同的 prompt ,則可能是 Positive Scaling 也可能是 U 型縮放。

U-shaped scaling 

在這一部分,作者分別使用原始論文中提出的 8B、62B 和 540B 的 Palm 模型,評估了 Palm 模型在四個 Inverse Scaling 獎的任務(wù)上的表現(xiàn),還包括 40B tokens 訓練得到的 1B 模型(其計算量約為 0.2 zettaFLOP)。單個 Palm-540B 的參數(shù)大約是 Inverse Scaling 獎中評估的最大模型 (Gopher-280B) 的兩倍,計算量約為 2.5K zettaFLOP,而 Chinchilla-70B 的計算量僅有 560 zettaFLOP。

作者在遵循 Inverse Scaling 獎的默認設(shè)置之外,也做了小的修改,比如使用 free-form generation(其后緊接著是精確的字符串匹配,而非排名分類),后者比較了 Prompt 的兩個可能延續(xù)的概率。作者同時對 Prompt 進行了小的修改以適應(yīng) free-form generation,即所有 Prompt 都至少是單次的,輸入 prompt 中提供了答案選項,prompt 讓模型輸出「the answer is」。

具體形式如圖 1 所示。作者認為這是合理的,因為這種形式與最近研究 prompt 的工作是一致的,之前評估的模型和 PaLM 8B/62B 之間的經(jīng)驗表現(xiàn)相似(作者在本文中使用的所有 prompt 都是可用的。)

圖 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四個任務(wù)上的結(jié)果:


圖片


  • 在 Negation QA 任務(wù)上,Palm-62B 的準確率同 Palm-8B 模型相比大幅下降,而 Palm-540B 模型的準確率又有所提高;
  • 在 Hindsight Neglect 任務(wù)上,Palm-8B 和 Palm-62B 的準確率下降到遠低于隨機數(shù)的水平,但 Palm-540B 的準確率卻達到了 100%;
  • 在 Quote Repetition 任務(wù)上,準確率從 Palm-8B 的 86% 下降到 Palm-62B 的 81%,但 Palm-540B 的準確率卻達到了 100%。事實上,在 Quote Repetition 任務(wù)中,Gopher 和 Chinchilla 模型已經(jīng)顯示出 U 型縮放的跡象。

這四項任務(wù)中的例外是 Redefine Math,因為即使是 Palm-540B,它也沒有顯示任何 U 型縮放的跡象。因此,對于目前存在的大模型,還不清楚這項任務(wù)是否會變成 U 型縮放?;蛘咚欠裾娴臅?Inverse Scaling 呢?

對于 U 型縮放的一個問題是:為什么性能會先下降后又上升?

作者給出一個推測假設(shè):即每個 Inverse Scaling 獎中的任務(wù)可以分解為兩個任務(wù) (1)「true task」和(2)影響性能的「distractor task」。由于小模型不能完成這兩個任務(wù),只能達到隨機準確度附近的性能。中等模型可能會執(zhí)行「distractor task」,這會導致性能下降。大型模型能夠忽略分「distractor task」,執(zhí)行「true task」讓性能的提高,并有可能解決任務(wù)。

圖 5 展示了潛在的「distractor task」。雖然可以僅在「distractor task」上測試模型的性能,但這是一個不完美的消融實驗,因為「distractor task」和「true task」不僅可能相互競爭,而且可能對性能產(chǎn)生聯(lián)合影響。接下來作者進一步解釋為什么會出現(xiàn) U 型縮放以及未來需做的工作。

圖片

CoT prompt 對 Inverse Scaling 的影響

接下來,作者探索了使用不同類型 prompt 時,Inverse Scaling 獎的 4 個任務(wù)的縮放是如何變化的。雖然 Inverse Scaling 獎的發(fā)起者使用了基本的 prompt 策略,即在指令中包括少樣本, chain-of-thought(CoT)激勵模型在給出最終答案之前輸出中間步驟,這可以在多步驟推理任務(wù)中大幅提高性能。即沒有 CoT 的 prompt 是模型能力的下限。對于某些任務(wù),CoT 的 prompt 能更好代表模型的最佳性能。

圖 3 的上半部分是 CoT 的 prompt 示例,下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情況下的表現(xiàn)。

對于 Negation QA 和 Hindsight Neglect,CoT 的 prompt 使縮放曲線從 U 型變?yōu)檎虻?。對?Quote Repetition,CoT 的 prompt 仍呈顯 U 型曲線,盡管 Palm-8B 和 Palm-62B 的性能明顯更好,并且 Palm-540B 準確率達到 100%。

圖片

圖 4 展示了 Redefine Math 在有 CoT 的 prompt 情況下的結(jié)果。該任務(wù)實際上由 8 個子任務(wù)組成,每個子任務(wù)都有不同的指令,因此作者還按子任務(wù)對性能進行了劃分,以探索子任務(wù)是否具有相同的縮放行為??傊珻oT 的 prompt 對所有子任務(wù)都顯示出 Positive Scaling,8 個子任務(wù)中有 7 個在 Palm-62B 和 Palm-540B 模型上實現(xiàn)了 100% 的準確率。但是對于「+ as digit」和「+ as random number」子任務(wù),就算使用 Palm-540B,也顯示出明顯的 Inverse Scaling 曲線。

圖片

綜上所述,所有被研究的任務(wù)和子任務(wù),在使用 CoT 的 prompt 時都呈現(xiàn)出 U 型縮放或 Positive Scaling。這并不意味著 no-CoT 的 prompt 結(jié)果是無效的,相反它通過強調(diào)任務(wù)的縮放曲線如何根據(jù)使用的 prompt 類型而不同,提供了額外的細微差別。即同一任務(wù)對于一種類型的 prompt 可以具有 Inverse Scaling 曲線,而對于另一種類型的 prompt 就可能具有 U 型縮放或 Positive Scaling。因此「inverse scaling task」這一術(shù)語沒有明確的定義。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-14 14:20:00

生成式AI數(shù)據(jù)

2024-08-14 14:06:01

2023-07-07 12:30:00

模型技術(shù)

2025-03-21 13:05:18

模型評測基準

2023-06-09 07:29:03

模型文本document

2025-04-01 15:35:11

2015-08-31 10:18:35

Android one谷歌

2022-06-13 10:43:11

谷歌模型學者

2023-11-03 07:47:12

機器資源大模型:

2022-05-09 11:42:26

機器人語言模型

2024-04-10 12:42:51

AI模型

2024-08-02 14:30:00

AI訓練

2023-08-31 07:16:32

人工智能AI算力

2025-05-26 08:33:00

2025-01-16 08:40:00

2023-06-29 17:46:31

模型谷歌

2024-02-02 21:53:58

AI訓練

2023-09-06 13:34:31

2023-10-21 12:42:19

模型訓練

2023-10-14 13:09:53

谷歌模型
點贊
收藏

51CTO技術(shù)棧公眾號