偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

新聞 人工智能
近日,OpenAI訓(xùn)練了一個系統(tǒng)可以解決小學(xué)數(shù)學(xué)問題。一個9-12歲的小孩子在測試中得分為60分,而OpenAI的新方法在同樣的問題上可以拿到55分,已經(jīng)達到了人類小學(xué)生90%左右的水平!

 [[432741]]

還記得上小學(xué)時,被「口算天天練」里面的應(yīng)用題繞暈的陰影嗎?

來,試一道!

「小明每半小時喝一瓶水。一個普通的數(shù)獨難題要花他45分鐘。一個極難的數(shù)獨需要4倍的時間。做一道極難的數(shù)獨那段時間他喝了多少瓶水?」

不算難吧。

但這回,OpenAI要拿這些應(yīng)用題去考考自家的當(dāng)家模型,GPT-3。

成績很喜人?。?/p>

新方法可以解決小學(xué)數(shù)學(xué)問題,60億參數(shù)的GPT-3采用新方法,準(zhǔn)確率直接翻倍,甚至追平了1750億參數(shù),采用微調(diào)方法的GPT-3模型。

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

更重要的是,一個9-12歲的小孩子在測試中得分為60分,而采用新方法的GPT-3在同樣的問題上可以拿到55分,已經(jīng)達到了人類小學(xué)生90%左右的水平!

偏科的GPT-3:重文輕理

OpenAI的GPT-3以1750億參數(shù)的「大」這一特點,讓人印象頗深。

GPT-3「文采出眾」,上知天文,下知地理。模仿名家的寫作風(fēng)格,展示一下廣博的知識,這都不在話下。

然而,GPT-3這種「大」模型卻是典型的偏科生,擅長文,但不擅理。

要是指望他們能夠完成精確的多步推理,比如,解決小學(xué)數(shù)學(xué)應(yīng)用題,那還是別指望了。

原因何在?

其實,問題就在于,盡管GPT-3可以模仿正確解決方法的規(guī)律,但它經(jīng)常會在邏輯上產(chǎn)生嚴(yán)重錯誤。

所以,人類要想教會大語言模型理解復(fù)雜的邏輯,就必須得讓模型學(xué)會識別它們的錯誤,并仔細選擇他們的解題步驟。

傳統(tǒng)方法:微調(diào)

目前,要想讓大模型掌握一個領(lǐng)域,最常用的方法就是用大模型在指定領(lǐng)域微調(diào)。

微調(diào)通過更新模型參數(shù)進行,最小化所有訓(xùn)練token的交叉熵損失。顯而易見,1750億參數(shù)的模型性能要優(yōu)于其他更小的模型。

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

在對不同規(guī)模的訓(xùn)練集進行微調(diào)后,各種GPT-3模型的測試性能

假設(shè)在對數(shù)線性趨勢下,使用完整的GSM8K訓(xùn)練集時,需要一個具有10^16(10萬億)個參數(shù)的模型來達到80%的解決率。

然而,模型的性能并不遵循對數(shù)線性趨勢,對于175B模型來說,則需要至少增加兩個數(shù)量級的訓(xùn)練數(shù)據(jù)才能達到80%的解決率。

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

在GSM8K訓(xùn)練集上對6B模型進行微調(diào)后,當(dāng)模型被允許進行1次猜測(左)或100次猜測(右)時,回答的正確率

其中,test@N來表示在允許模型對每個問題進行N次單獨猜測時,至少正確解決一次問題的百分比。

test@1的性能近似單調(diào)遞增,而對于test@100來說,當(dāng)增加epoch的數(shù)量時,其性能比test@1的性能下降得更快。

選擇一個具有良好覆蓋率的模型是成功訓(xùn)練驗證器的關(guān)鍵。從經(jīng)驗上看,test@100的性能在最初的幾個epoch內(nèi)達到了頂峰。

此外,在輸出最終答案之前,讓模型生成完整的自然語言解決方案是很重要的。如果把6B模型調(diào)整為直接輸出最終答案,而不經(jīng)過任何中間步驟,性能就會從20.6%急劇下降到5.2%。

讓AI擁有「邏輯」的法寶:「驗證器」

很明顯,「微調(diào)」是無法讓GPT-3學(xué)會邏輯推理的。

那這次,OpenAI是如何讓GPT-3擁有「邏輯」的呢?

答案就是一個叫「驗證器」的東西。

訓(xùn)練這個驗證器(verifier),就是為了使用驗證器從許多候選的解決方案中選擇出最佳方案。

同時,為了評估「驗證器」的表現(xiàn),OpenAI收集了全新的「GSM8K數(shù)據(jù)集」并將其開源以方便研究。

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

論文地址:https://arxiv.org/pdf/2110.14168.pdf

GSM8K數(shù)據(jù)集地址:https://github.com/openai/grade-school-math

那到底「驗證器」是怎么工作的呢?

驗證器:吃一塹,長一智

驗證器(verifier)可以判斷模型生成的解決方案正不正確,所以在測試時,驗證器會以問題和候選解答為輸入,輸出每個解答正確的概率。

驗證器(verifier)訓(xùn)練時,只訓(xùn)練解決方案是否達到正確的最終答案,將其標(biāo)記為正確或不正確。但是在實踐中,一些解決方案會使用有缺陷的推理得出正確的最終答案,從而導(dǎo)致誤報。

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

驗證器具體訓(xùn)練方法分為「三步走」:

  1. 先把模型的「生成器」在訓(xùn)練集上進行2個epoch的微調(diào)。
  2. 從生成器中為每個訓(xùn)練問題抽取100個解答,并將每個解答標(biāo)記為正確或不正確。
  3. 在數(shù)據(jù)集上,驗證器再訓(xùn)練單個epoch。

「生成器」只訓(xùn)練2個epoch是因為2個epoch的訓(xùn)練就足夠?qū)W習(xí)這個領(lǐng)域的基本技能了。如果采用更長時間的訓(xùn)練,生成的解決方案會過度擬合。

測試時,解決一個新問題,首先要生成100個候選解決方案,然后由「驗證器」打分,排名最高的解決方案會被最后選中。

GSM8K數(shù)據(jù)集

有了新的解決方案,再來看看這次考試的「試卷」。

GSM8K由8500個高質(zhì)量、高多樣性、中等難度的小學(xué)數(shù)學(xué)問題組成。當(dāng)然了。OpenAI表示,對于一個中學(xué)生來說,這些問題就都不是問題了。

數(shù)據(jù)集中的每個問題都需要計算2到8個步驟來得出最終答案,涉及到「加減乘除」四則運算。

  • 高質(zhì)量:GSM8K中的問題都是人工設(shè)計的,避免了錯誤問題的出現(xiàn)。
  • 高多樣性:GSM8K中的問題都被設(shè)計得相對獨特,避免了來自相同語言模板或僅在表面細節(jié)上有差異的問題。
  • 中等難度:GSM8K中的問題分布對大型SOTA語言模型是有挑戰(zhàn)的,但又不是完全難以解決的。這些問題不需要超出早期代數(shù)水平的概念,而且絕大多數(shù)問題都可以在不明確定義變量的情況下得到解決。
  • 自然語言解決方案:GSM8K中的解決方案是以自然語言而不是純數(shù)學(xué)表達式的形式編寫的。模型由此生成的解決方案也可以更容易被人理解。此外,OpenAI也期望它能闡明大型語言模型內(nèi)部獨白的特性。
OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

GSM8K中的三個問題示例,紅色為計算的注釋

「微調(diào)」VS 「驗證」

在GSM8K數(shù)據(jù)集上,OpenAI測試了新方法「驗證」(verification)和基線方法「微調(diào)」(fine-tuning)生成的答案。

結(jié)果非常優(yōu)秀?。?/p>

在完整的訓(xùn)練集上,采用「驗證」方法的60億參數(shù)模型,會略微優(yōu)于采用「微調(diào)」的1750億參數(shù)模型,性能提升大約相當(dāng)于模型規(guī)模整整增加30倍!

但大模型也不是一無是處,采用「驗證」的1750億參數(shù)模型還是比采用「驗證」方法的60億參數(shù)模型學(xué)習(xí)速度更快,只需要更少的訓(xùn)練問題,就能超過微調(diào)基線。

OpenAI發(fā)現(xiàn),只要數(shù)據(jù)集足夠大,大模型就能從「驗證」中獲得強大的性能提升。

但是,對于太小的數(shù)據(jù)集,驗證器會通過記憶訓(xùn)練集中的答案而過度擬合,而不是學(xué)習(xí)基本的數(shù)學(xué)推理這種更有用的屬性。

所以,根據(jù)目前的結(jié)果進行推斷,「驗證」似乎可以更有效地擴展到額外的數(shù)據(jù)。

舉個「栗子」

理論都講完了,不如來一波實操,對比一下新方法「驗證」(verification)和基線方法「微調(diào)」(fine-tuning)生成的答案。

問題:「Richard,Jerry和Robert三個人分60個櫻桃。如果Robert有30個櫻桃,比Richard多10個,那么Robert比Jerry多幾個?」

175B Verification:正確

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

175B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Verification:正確

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

可見,新方法「驗證」(verification)比基線方法「微調(diào)」(fine-tuning)在回答數(shù)學(xué)應(yīng)用題上有了很大的提升。

不過,「驗證」的方法也不是十全十美的,也有它做不對的問題。畢竟還要考慮6B小模型的局限性。

還記得最開始的那個問題么?

「John每半小時喝一瓶水。一個普通的數(shù)獨難題要花他45分鐘。一個極難的數(shù)獨需要4倍的時間。做一道極難的數(shù)獨那段時間他喝了多少瓶水?」

175B Verification:正確

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

175B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Verification:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

當(dāng)然,如果問題再難一點兒,語言模型們就集體躺平了。

比如下面這個:

「Debra正在監(jiān)測一個蜂巢,看一天中有多少蜜蜂來來往往。她看到30只蜜蜂在前6個小時內(nèi)離開蜂巢,然后她看到1/2的蜜蜂在接下來的6個小時內(nèi)返回。她看到兩倍于第一次離開蜂巢的蜜蜂在接下來的6個小時內(nèi)飛出蜂巢。然后,之前離開的每只蜜蜂,如果還沒有回來,在接下來的6個小時內(nèi)都會回到蜂巢。在這一天的最后6個小時里,Debra看到有多少只蜜蜂回到了蜂巢?」

175B Verification:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

175B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Verification:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

6B Fine-tuning:錯誤

OpenAI用GPT-3與小學(xué)生比數(shù)學(xué)!小模型性能翻倍追平1750億大模型

看來,AI做數(shù)學(xué)題還是道阻且長啊。

你要不要也來嘗試一下?

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-10-24 10:27:37

谷歌模型

2022-03-24 10:35:38

人工智能模型代碼

2023-05-16 20:47:38

2022-04-12 14:12:43

谷歌研究模型

2022-05-05 08:25:22

模型OpenAI代碼

2022-05-05 09:00:00

AI模型數(shù)據(jù)

2021-03-23 15:21:00

人工智能機器學(xué)習(xí)技術(shù)

2021-08-12 16:27:04

模型人工智能深度學(xué)習(xí)

2021-11-03 15:12:09

微軟機器學(xué)習(xí)開發(fā)者

2023-11-06 09:26:00

模型測評

2021-09-08 17:23:33

谷歌模型開發(fā)

2020-08-28 10:30:39

AI 數(shù)據(jù)人工智能

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-07-13 12:54:42

GPT-4OpenAI

2024-04-19 09:17:33

AI模型

2023-12-09 14:30:50

2020-11-18 19:08:30

人工智能自然語言技術(shù)

2021-09-30 11:20:01

AI 數(shù)據(jù)人工智能

2022-03-14 09:33:56

神經(jīng)網(wǎng)絡(luò)模型人工智能

2024-07-19 09:26:12

點贊
收藏

51CTO技術(shù)棧公眾號