偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

打破美國AI公司霸榜,上交AI數(shù)學(xué)開源模型阿貝爾排行榜首

人工智能 新聞
上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān),研發(fā)并開源了數(shù)學(xué)計(jì)算大模型 “阿貝爾(Abel)”,在多個(gè)榜單上取得開源第一!是首個(gè)海內(nèi)外高校團(tuán)隊(duì)推出的 SOTA 數(shù)學(xué)開源大模型。

以 ChatGPT 為代表的大模型產(chǎn)品引領(lǐng)了一場(chǎng)新的產(chǎn)業(yè)革命,激發(fā)了國內(nèi)外各機(jī)構(gòu)積極投入相關(guān)技術(shù)研究的熱情。在過去幾個(gè)月的技術(shù)競(jìng)爭(zhēng)中,國產(chǎn)大模型在文本理解和知識(shí)理解任務(wù)方面表現(xiàn)出色,堪稱一位優(yōu)秀的 “文科生”。

然而,在復(fù)雜數(shù)學(xué)推理計(jì)算、物理建模、科學(xué)發(fā)現(xiàn)等 “理科” 領(lǐng)域,大模型的研究尚未達(dá)到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數(shù)學(xué)推理方面的權(quán)威評(píng)測(cè)集 GSM8K 和 MATH 上,美國 AI 公司一直占據(jù)前幾名,突顯了其領(lǐng)先地位。

在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān),研發(fā)并開源了數(shù)學(xué)計(jì)算大模型 “阿貝爾(Abel)”,在多個(gè)榜單上取得開源第一!是首個(gè)海內(nèi)外高校團(tuán)隊(duì)推出的 SOTA 數(shù)學(xué)開源大模型。

圖片


  • 項(xiàng)目主頁:https://GAIR-NLP.github.io/abel
  • 開源模型:https://github.com/GAIR-NLP/abel

“在還未回國前,我和 Meta 非常優(yōu)秀的科學(xué)家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個(gè)樣本就可以訓(xùn)練模型使其在達(dá)到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務(wù)場(chǎng)景上都得到了驗(yàn)證,比如數(shù)學(xué)推理。這也成為當(dāng)時(shí)的遺憾,使得我對(duì)如何讓大模型學(xué)好數(shù)學(xué)充滿了興趣?!鄙虾=淮笊墒饺斯ぶ悄苎芯拷M負(fù)責(zé)人同時(shí)也是阿貝爾項(xiàng)目的負(fù)責(zé)人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數(shù)學(xué)家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數(shù)和分析方面的開創(chuàng)性工作而創(chuàng)建的,代數(shù)也是現(xiàn)在模型相對(duì)擅長(zhǎng)解決的,不過,我們還有很長(zhǎng)的路要走。”

模型表現(xiàn)

表 1:?? 代表專有模型,而 ?? 表示開源模型,?? 表示模型開發(fā)由學(xué)術(shù)大學(xué)主導(dǎo)(而不是由公司主導(dǎo));這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMath-Abel 為該團(tuán)隊(duì)提出的模型

圖片

在阿貝爾(GAIRMath-Abel)這個(gè)項(xiàng)目里,作者展示了,盡管

  • 沒有使用工具
  • 沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)
  • 沒有使用獎(jiǎng)勵(lì)模型
  • 沒有使用基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)
  • 僅使用有監(jiān)督精調(diào)(Supervised Fine-tuning,SFT)

阿貝爾在 GSM8k(83.62)和 MATH(28.26)權(quán)威評(píng)測(cè)集上實(shí)現(xiàn)了開源數(shù)學(xué)模型(不使用外部工具)的最好成績(jī),具體說來:

  • 在 GSM8K 上的性能達(dá)到了 83.62,超過了許多國外大廠優(yōu)秀的模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM-2-Flan1 個(gè)百分點(diǎn);同時(shí)也顯著高于所有開源國產(chǎn)模型
  • 在具有高難度的數(shù)學(xué)競(jìng)賽問題上,阿貝爾準(zhǔn)確率達(dá)到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領(lǐng)先地位,超過了之前最佳的開源模型 5 個(gè)多百分點(diǎn)
  • 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢(shì)取得了開源模型性能的最佳
  • 阿貝爾在排行榜前十名中占據(jù)了 3 個(gè)位置,并且是唯一一家由大學(xué)領(lǐng)導(dǎo)的項(xiàng)目(其他都是明星創(chuàng)業(yè)公司或大型科技公司)
  • 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績(jī),而且在提供新數(shù)據(jù)集(TALSCQ-EN)時(shí),迅速達(dá)到了最好性能(SOTA),并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。

除了優(yōu)秀的性能本身,該項(xiàng)目也揭示了:

  • 有監(jiān)督精調(diào)的能力被嚴(yán)重低估,研究人員應(yīng)該以應(yīng)有的敬畏和謹(jǐn)慎來對(duì)待這個(gè)過程。
  • 出色的數(shù)學(xué)問題解決能力可以通過有監(jiān)督精調(diào)實(shí)現(xiàn)的很好,這將在未來對(duì)這個(gè)方向的探索中引發(fā)更多富有想象力的可能性

訓(xùn)練方法

為了訓(xùn)練阿貝爾,該團(tuán)隊(duì)提出Parental Oversight (家長(zhǎng)監(jiān)督),一種監(jiān)督微調(diào)的保姆策略(Babysitting Strategy)

Parental Oversight 的核心理念在于,在對(duì)大模型進(jìn)行微調(diào)的過程中應(yīng)該懷著一種敬畏和謹(jǐn)慎的態(tài)度,就如同家長(zhǎng)在對(duì)孩子進(jìn)行教育時(shí),必須要用最淺顯易懂并謹(jǐn)慎的方式進(jìn)行教導(dǎo),在穩(wěn)健成長(zhǎng)的同時(shí)避免揠苗助長(zhǎng)。各種不同的數(shù)據(jù)和數(shù)據(jù)的呈現(xiàn)方式 代表的是不同的教育方式,而研究者必須謹(jǐn)慎小心的選擇最好的方式教導(dǎo)大模型。

事實(shí)上,在 GAI 的背景下,數(shù)據(jù)結(jié)構(gòu)工程 (Data Structure Engineering) 已經(jīng)成為一種新的范式。有效的處理數(shù)據(jù)的方向?qū)Υ竽P驮诓煌掠稳蝿?wù)上的成功與否有著極為關(guān)鍵性的影響。從 Parental Oversight 理念出發(fā),在復(fù)雜推理任務(wù)上取得好的結(jié)果,最關(guān)鍵的是要精心策劃訓(xùn)練數(shù)據(jù),而不是不加選擇地使用任何樣本進(jìn)行監(jiān)督學(xué)習(xí)。 

通過最精確謹(jǐn)慎的監(jiān)督,協(xié)助大模型在復(fù)雜推理的下游任務(wù)上成長(zhǎng)。在有監(jiān)督精調(diào)的訓(xùn)練樣本中,不僅應(yīng)包含正確的答案,還應(yīng)告訴模型如何從預(yù)訓(xùn)練模型的知識(shí)中獲得正確答案。此外,如果語言模型的知識(shí)不足以獲得真實(shí)答案,監(jiān)護(hù)監(jiān)督應(yīng)該幫助模型迅速填補(bǔ)知識(shí)上的空白。

局限性 & 規(guī)劃

盡管阿貝爾數(shù)學(xué)模型在評(píng)估的幾個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但是開發(fā)者也總結(jié)了它的不足之處:

  • 過擬合:盡管進(jìn)行了魯棒性分析,并考慮到數(shù)學(xué)生成型 AI 天生具有脆弱性(通常需要高級(jí)解碼策略,如多數(shù)投票),但過于依賴構(gòu)建 SFT 樣本以提高性能可能會(huì)不可避免地導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。(然而,過擬合并不是當(dāng)前項(xiàng)目的主要關(guān)注點(diǎn),因?yàn)榧词箤?duì)過擬合各種增強(qiáng)訓(xùn)練數(shù)據(jù),對(duì)于復(fù)雜的數(shù)學(xué)推理任務(wù),如 MATH 數(shù)據(jù)集,仍然很難實(shí)現(xiàn)有利的測(cè)試結(jié)果。)盡管如此,團(tuán)隊(duì)仍然需要進(jìn)行更廣泛的健壯性分析,并積極探索可以將模型轉(zhuǎn)化為數(shù)學(xué)通才的訓(xùn)練方法,并進(jìn)行更全面的跨領(lǐng)域泛化分析。
  • 泛化性:一個(gè)好的數(shù)學(xué)模型不應(yīng)僅限于解決 GSM8K 和 MATH 數(shù)據(jù)集上的問題;它應(yīng)該能夠處理各種類型的問題,包括評(píng)估不同知識(shí)領(lǐng)域并需要不同類型的回答的問題(例如,多項(xiàng)選擇、真假、證明、算術(shù)等)。當(dāng)前模型的能力不足以泛化到這些多樣的場(chǎng)景。
  • 通用性:最終,作者預(yù)計(jì)大型模型賦予的數(shù)學(xué)推理能力可以整合到各個(gè)領(lǐng)域的聊天機(jī)器人中,如醫(yī)學(xué)、法律、物理學(xué)、化學(xué)等。實(shí)現(xiàn) AGI 的關(guān)鍵在于將強(qiáng)大的數(shù)學(xué)模型的力量融入其他模型中,而這在當(dāng)前項(xiàng)目中尚未探索。
  • 多語言性:當(dāng)前模型的訓(xùn)練數(shù)據(jù)和基本模型限制了它在除英語以外的語言中提供回應(yīng)的能力。
  • 高級(jí)技術(shù):當(dāng)前模型主要關(guān)注有監(jiān)督精調(diào)(SFT),尚未探索獎(jiǎng)勵(lì)模型、RLHF(從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí))和工具調(diào)用等高級(jí)技術(shù)。

開發(fā)者表示已經(jīng)列出了一系列問題,并用 Github 維護(hù)這些限制和潛在解決方案。歡迎大家提出建設(shè)性意見和見解。

下一步計(jì)劃

最后,作者也簡(jiǎn)單用一張圖透露了實(shí)驗(yàn)室的下一步計(jì)劃:從 “阿貝爾” 到 “伯努利”。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-22 16:48:26

數(shù)據(jù)AI安全領(lǐng)導(dǎo)者

2022-06-08 13:50:41

AI專業(yè)排行

2010-02-04 19:01:08

SAS數(shù)據(jù)庫

2023-07-22 13:09:51

模型開源

2019-12-23 08:34:47

編程語言JavaPython

2021-10-19 22:50:05

編程語言數(shù)據(jù)Python

2021-10-09 08:11:44

TIOBEPython編程語言

2023-06-02 13:55:57

開源AI

2013-05-24 09:51:49

科技公司高通谷歌

2009-08-26 08:56:55

危險(xiǎn)名人奧巴馬

2020-10-14 18:24:07

網(wǎng)絡(luò)威脅勒索軟件網(wǎng)絡(luò)安全

2025-04-08 09:42:00

2023-08-21 13:27:04

AI計(jì)算機(jī)

2009-04-09 08:46:02

iphone蘋果移動(dòng)OS

2023-11-16 12:36:00

AI數(shù)據(jù)

2013-08-23 09:41:19

2024-05-30 14:23:00

2021-05-12 13:56:05

手機(jī)華為蘋果

2009-08-17 09:08:14

開源語言排行榜PHP

2010-01-10 17:58:39

開源操作系統(tǒng)Ubuntu
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)