偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="dqm6m"><rp id="dqm6m"><form id="dqm6m"></form></rp></cite>

<sub id="dqm6m"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

打破美國AI公司霸榜，上交AI數(shù)學(xué)開源模型阿貝爾排行榜首

作者：機(jī)器之心 2023-09-21 10:30:05

人工智能新聞

上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān)，研發(fā)并開源了數(shù)學(xué)計(jì)算大模型 “阿貝爾（Abel）”，在多個(gè)榜單上取得開源第一！是首個(gè)海內(nèi)外高校團(tuán)隊(duì)推出的 SOTA 數(shù)學(xué)開源大模型。

以 ChatGPT 為代表的大模型產(chǎn)品引領(lǐng)了一場(chǎng)新的產(chǎn)業(yè)革命，激發(fā)了國內(nèi)外各機(jī)構(gòu)積極投入相關(guān)技術(shù)研究的熱情。在過去幾個(gè)月的技術(shù)競(jìng)爭(zhēng)中，國產(chǎn)大模型在文本理解和知識(shí)理解任務(wù)方面表現(xiàn)出色，堪稱一位優(yōu)秀的 “文科生”。

然而，在復(fù)雜數(shù)學(xué)推理計(jì)算、物理建模、科學(xué)發(fā)現(xiàn)等 “理科” 領(lǐng)域，大模型的研究尚未達(dá)到令人滿意的水平，與美國頂尖科技公司（OpenAI、Google、Anthropic）相比，仍存在很大差距。例如，在數(shù)學(xué)推理方面的權(quán)威評(píng)測(cè)集 GSM8K 和 MATH 上，美國 AI 公司一直占據(jù)前幾名，突顯了其領(lǐng)先地位。

在這樣的背景下，上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān)，研發(fā)并開源了數(shù)學(xué)計(jì)算大模型 “阿貝爾（Abel）”，在多個(gè)榜單上取得開源第一！是首個(gè)海內(nèi)外高校團(tuán)隊(duì)推出的 SOTA 數(shù)學(xué)開源大模型。

項(xiàng)目主頁：https://GAIR-NLP.github.io/abel
開源模型：https://github.com/GAIR-NLP/abel

“在還未回國前，我和 Meta 非常優(yōu)秀的科學(xué)家合作了一篇叫做 LIMA 的工作，在那篇工作里我們僅使用 1000 個(gè)樣本就可以訓(xùn)練模型使其在達(dá)到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務(wù)場(chǎng)景上都得到了驗(yàn)證，比如數(shù)學(xué)推理。這也成為當(dāng)時(shí)的遺憾，使得我對(duì)如何讓大模型學(xué)好數(shù)學(xué)充滿了興趣?！鄙虾＝淮笊墒饺斯ぶ悄苎芯拷M負(fù)責(zé)人同時(shí)也是阿貝爾項(xiàng)目的負(fù)責(zé)人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數(shù)學(xué)家尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數(shù)和分析方面的開創(chuàng)性工作而創(chuàng)建的，代數(shù)也是現(xiàn)在模型相對(duì)擅長(zhǎng)解決的，不過，我們還有很長(zhǎng)的路要走。”

模型表現(xiàn)

表 1：?? 代表專有模型，而 ?? 表示開源模型，?? 表示模型開發(fā)由學(xué)術(shù)大學(xué)主導(dǎo)（而不是由公司主導(dǎo)）；這里僅考慮不使用任何工具（例如 Python）的模型；GAIRMath-Abel 為該團(tuán)隊(duì)提出的模型

在阿貝爾（GAIRMath-Abel）這個(gè)項(xiàng)目里，作者展示了，盡管

沒有使用工具
沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)
沒有使用獎(jiǎng)勵(lì)模型
沒有使用基于人類反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback, RLHF）
僅使用有監(jiān)督精調(diào)（Supervised Fine-tuning，SFT）

阿貝爾在 GSM8k（83.62）和 MATH（28.26）權(quán)威評(píng)測(cè)集上實(shí)現(xiàn)了開源數(shù)學(xué)模型（不使用外部工具）的最好成績(jī)，具體說來：

在 GSM8K 上的性能達(dá)到了 83.62，超過了許多國外大廠優(yōu)秀的模型，如 PaLM-1、Minerva（Google）、Claude-instant（Anthropic）以及 ChatGPT（OpenAI），僅落后于 Google 的最新模型 PaLM-2-Flan1 個(gè)百分點(diǎn)；同時(shí)也顯著高于所有開源國產(chǎn)模型
在具有高難度的數(shù)學(xué)競(jìng)賽問題上，阿貝爾準(zhǔn)確率達(dá)到了 28.26%（相比于 GPT4 的 42.5%），它在其他開源模型中保持了顯著領(lǐng)先地位，超過了之前最佳的開源模型 5 個(gè)多百分點(diǎn)
7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢(shì)取得了開源模型性能的最佳
阿貝爾在排行榜前十名中占據(jù)了 3 個(gè)位置，并且是唯一一家由大學(xué)領(lǐng)導(dǎo)的項(xiàng)目（其他都是明星創(chuàng)業(yè)公司或大型科技公司）
使用作者的方法，不僅在 GSM8K 和 MATH 上取得了出色的成績(jī)，而且在提供新數(shù)據(jù)集（TALSCQ-EN）時(shí)，迅速達(dá)到了最好性能（SOTA），并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。

除了優(yōu)秀的性能本身，該項(xiàng)目也揭示了：

有監(jiān)督精調(diào)的能力被嚴(yán)重低估，研究人員應(yīng)該以應(yīng)有的敬畏和謹(jǐn)慎來對(duì)待這個(gè)過程。
出色的數(shù)學(xué)問題解決能力可以通過有監(jiān)督精調(diào)實(shí)現(xiàn)的很好，這將在未來對(duì)這個(gè)方向的探索中引發(fā)更多富有想象力的可能性

訓(xùn)練方法

為了訓(xùn)練阿貝爾，該團(tuán)隊(duì)提出Parental Oversight （家長(zhǎng)監(jiān)督），一種監(jiān)督微調(diào)的保姆策略（Babysitting Strategy）。

Parental Oversight 的核心理念在于，在對(duì)大模型進(jìn)行微調(diào)的過程中應(yīng)該懷著一種敬畏和謹(jǐn)慎的態(tài)度，就如同家長(zhǎng)在對(duì)孩子進(jìn)行教育時(shí)，必須要用最淺顯易懂并謹(jǐn)慎的方式進(jìn)行教導(dǎo)，在穩(wěn)健成長(zhǎng)的同時(shí)避免揠苗助長(zhǎng)。各種不同的數(shù)據(jù)和數(shù)據(jù)的呈現(xiàn)方式代表的是不同的教育方式，而研究者必須謹(jǐn)慎小心的選擇最好的方式教導(dǎo)大模型。

事實(shí)上，在 GAI 的背景下，數(shù)據(jù)結(jié)構(gòu)工程 (Data Structure Engineering) 已經(jīng)成為一種新的范式。有效的處理數(shù)據(jù)的方向?qū)Υ竽Ｐ驮诓煌掠稳蝿?wù)上的成功與否有著極為關(guān)鍵性的影響。從 Parental Oversight 理念出發(fā)，在復(fù)雜推理任務(wù)上取得好的結(jié)果，最關(guān)鍵的是要精心策劃訓(xùn)練數(shù)據(jù)，而不是不加選擇地使用任何樣本進(jìn)行監(jiān)督學(xué)習(xí)。

通過最精確謹(jǐn)慎的監(jiān)督，協(xié)助大模型在復(fù)雜推理的下游任務(wù)上成長(zhǎng)。在有監(jiān)督精調(diào)的訓(xùn)練樣本中，不僅應(yīng)包含正確的答案，還應(yīng)告訴模型如何從預(yù)訓(xùn)練模型的知識(shí)中獲得正確答案。此外，如果語言模型的知識(shí)不足以獲得真實(shí)答案，監(jiān)護(hù)監(jiān)督應(yīng)該幫助模型迅速填補(bǔ)知識(shí)上的空白。

局限性 & 規(guī)劃

盡管阿貝爾數(shù)學(xué)模型在評(píng)估的幾個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異，但是開發(fā)者也總結(jié)了它的不足之處：

過擬合：盡管進(jìn)行了魯棒性分析，并考慮到數(shù)學(xué)生成型 AI 天生具有脆弱性（通常需要高級(jí)解碼策略，如多數(shù)投票），但過于依賴構(gòu)建 SFT 樣本以提高性能可能會(huì)不可避免地導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。（然而，過擬合并不是當(dāng)前項(xiàng)目的主要關(guān)注點(diǎn)，因?yàn)榧词箤?duì)過擬合各種增強(qiáng)訓(xùn)練數(shù)據(jù)，對(duì)于復(fù)雜的數(shù)學(xué)推理任務(wù)，如 MATH 數(shù)據(jù)集，仍然很難實(shí)現(xiàn)有利的測(cè)試結(jié)果。）盡管如此，團(tuán)隊(duì)仍然需要進(jìn)行更廣泛的健壯性分析，并積極探索可以將模型轉(zhuǎn)化為數(shù)學(xué)通才的訓(xùn)練方法，并進(jìn)行更全面的跨領(lǐng)域泛化分析。
泛化性：一個(gè)好的數(shù)學(xué)模型不應(yīng)僅限于解決 GSM8K 和 MATH 數(shù)據(jù)集上的問題；它應(yīng)該能夠處理各種類型的問題，包括評(píng)估不同知識(shí)領(lǐng)域并需要不同類型的回答的問題（例如，多項(xiàng)選擇、真假、證明、算術(shù)等）。當(dāng)前模型的能力不足以泛化到這些多樣的場(chǎng)景。
通用性：最終，作者預(yù)計(jì)大型模型賦予的數(shù)學(xué)推理能力可以整合到各個(gè)領(lǐng)域的聊天機(jī)器人中，如醫(yī)學(xué)、法律、物理學(xué)、化學(xué)等。實(shí)現(xiàn) AGI 的關(guān)鍵在于將強(qiáng)大的數(shù)學(xué)模型的力量融入其他模型中，而這在當(dāng)前項(xiàng)目中尚未探索。
多語言性：當(dāng)前模型的訓(xùn)練數(shù)據(jù)和基本模型限制了它在除英語以外的語言中提供回應(yīng)的能力。
高級(jí)技術(shù)：當(dāng)前模型主要關(guān)注有監(jiān)督精調(diào)（SFT），尚未探索獎(jiǎng)勵(lì)模型、RLHF（從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)）和工具調(diào)用等高級(jí)技術(shù)。

開發(fā)者表示已經(jīng)列出了一系列問題，并用 Github 維護(hù)這些限制和潛在解決方案。歡迎大家提出建設(shè)性意見和見解。

下一步計(jì)劃

最后，作者也簡(jiǎn)單用一張圖透露了實(shí)驗(yàn)室的下一步計(jì)劃：從 “阿貝爾” 到 “伯努利”。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營