打破美國AI公司霸榜,上交AI數(shù)學(xué)開源模型阿貝爾排行榜首
以 ChatGPT 為代表的大模型產(chǎn)品引領(lǐng)了一場(chǎng)新的產(chǎn)業(yè)革命,激發(fā)了國內(nèi)外各機(jī)構(gòu)積極投入相關(guān)技術(shù)研究的熱情。在過去幾個(gè)月的技術(shù)競(jìng)爭(zhēng)中,國產(chǎn)大模型在文本理解和知識(shí)理解任務(wù)方面表現(xiàn)出色,堪稱一位優(yōu)秀的 “文科生”。
然而,在復(fù)雜數(shù)學(xué)推理計(jì)算、物理建模、科學(xué)發(fā)現(xiàn)等 “理科” 領(lǐng)域,大模型的研究尚未達(dá)到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數(shù)學(xué)推理方面的權(quán)威評(píng)測(cè)集 GSM8K 和 MATH 上,美國 AI 公司一直占據(jù)前幾名,突顯了其領(lǐng)先地位。
在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān),研發(fā)并開源了數(shù)學(xué)計(jì)算大模型 “阿貝爾(Abel)”,在多個(gè)榜單上取得開源第一!是首個(gè)海內(nèi)外高校團(tuán)隊(duì)推出的 SOTA 數(shù)學(xué)開源大模型。

- 項(xiàng)目主頁:https://GAIR-NLP.github.io/abel
- 開源模型:https://github.com/GAIR-NLP/abel
“在還未回國前,我和 Meta 非常優(yōu)秀的科學(xué)家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個(gè)樣本就可以訓(xùn)練模型使其在達(dá)到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務(wù)場(chǎng)景上都得到了驗(yàn)證,比如數(shù)學(xué)推理。這也成為當(dāng)時(shí)的遺憾,使得我對(duì)如何讓大模型學(xué)好數(shù)學(xué)充滿了興趣?!鄙虾=淮笊墒饺斯ぶ悄苎芯拷M負(fù)責(zé)人同時(shí)也是阿貝爾項(xiàng)目的負(fù)責(zé)人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數(shù)學(xué)家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數(shù)和分析方面的開創(chuàng)性工作而創(chuàng)建的,代數(shù)也是現(xiàn)在模型相對(duì)擅長(zhǎng)解決的,不過,我們還有很長(zhǎng)的路要走。”
模型表現(xiàn)
表 1:?? 代表專有模型,而 ?? 表示開源模型,?? 表示模型開發(fā)由學(xué)術(shù)大學(xué)主導(dǎo)(而不是由公司主導(dǎo));這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMath-Abel 為該團(tuán)隊(duì)提出的模型

在阿貝爾(GAIRMath-Abel)這個(gè)項(xiàng)目里,作者展示了,盡管
- 沒有使用工具
- 沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)
- 沒有使用獎(jiǎng)勵(lì)模型
- 沒有使用基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)
- 僅使用有監(jiān)督精調(diào)(Supervised Fine-tuning,SFT)
阿貝爾在 GSM8k(83.62)和 MATH(28.26)權(quán)威評(píng)測(cè)集上實(shí)現(xiàn)了開源數(shù)學(xué)模型(不使用外部工具)的最好成績(jī),具體說來:
- 在 GSM8K 上的性能達(dá)到了 83.62,超過了許多國外大廠優(yōu)秀的模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM-2-Flan1 個(gè)百分點(diǎn);同時(shí)也顯著高于所有開源國產(chǎn)模型
- 在具有高難度的數(shù)學(xué)競(jìng)賽問題上,阿貝爾準(zhǔn)確率達(dá)到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領(lǐng)先地位,超過了之前最佳的開源模型 5 個(gè)多百分點(diǎn)
- 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢(shì)取得了開源模型性能的最佳
- 阿貝爾在排行榜前十名中占據(jù)了 3 個(gè)位置,并且是唯一一家由大學(xué)領(lǐng)導(dǎo)的項(xiàng)目(其他都是明星創(chuàng)業(yè)公司或大型科技公司)
- 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績(jī),而且在提供新數(shù)據(jù)集(TALSCQ-EN)時(shí),迅速達(dá)到了最好性能(SOTA),并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。
除了優(yōu)秀的性能本身,該項(xiàng)目也揭示了:
- 有監(jiān)督精調(diào)的能力被嚴(yán)重低估,研究人員應(yīng)該以應(yīng)有的敬畏和謹(jǐn)慎來對(duì)待這個(gè)過程。
- 出色的數(shù)學(xué)問題解決能力可以通過有監(jiān)督精調(diào)實(shí)現(xiàn)的很好,這將在未來對(duì)這個(gè)方向的探索中引發(fā)更多富有想象力的可能性
訓(xùn)練方法
為了訓(xùn)練阿貝爾,該團(tuán)隊(duì)提出Parental Oversight (家長(zhǎng)監(jiān)督),一種監(jiān)督微調(diào)的保姆策略(Babysitting Strategy)。
Parental Oversight 的核心理念在于,在對(duì)大模型進(jìn)行微調(diào)的過程中應(yīng)該懷著一種敬畏和謹(jǐn)慎的態(tài)度,就如同家長(zhǎng)在對(duì)孩子進(jìn)行教育時(shí),必須要用最淺顯易懂并謹(jǐn)慎的方式進(jìn)行教導(dǎo),在穩(wěn)健成長(zhǎng)的同時(shí)避免揠苗助長(zhǎng)。各種不同的數(shù)據(jù)和數(shù)據(jù)的呈現(xiàn)方式 代表的是不同的教育方式,而研究者必須謹(jǐn)慎小心的選擇最好的方式教導(dǎo)大模型。
事實(shí)上,在 GAI 的背景下,數(shù)據(jù)結(jié)構(gòu)工程 (Data Structure Engineering) 已經(jīng)成為一種新的范式。有效的處理數(shù)據(jù)的方向?qū)Υ竽P驮诓煌掠稳蝿?wù)上的成功與否有著極為關(guān)鍵性的影響。從 Parental Oversight 理念出發(fā),在復(fù)雜推理任務(wù)上取得好的結(jié)果,最關(guān)鍵的是要精心策劃訓(xùn)練數(shù)據(jù),而不是不加選擇地使用任何樣本進(jìn)行監(jiān)督學(xué)習(xí)。
通過最精確謹(jǐn)慎的監(jiān)督,協(xié)助大模型在復(fù)雜推理的下游任務(wù)上成長(zhǎng)。在有監(jiān)督精調(diào)的訓(xùn)練樣本中,不僅應(yīng)包含正確的答案,還應(yīng)告訴模型如何從預(yù)訓(xùn)練模型的知識(shí)中獲得正確答案。此外,如果語言模型的知識(shí)不足以獲得真實(shí)答案,監(jiān)護(hù)監(jiān)督應(yīng)該幫助模型迅速填補(bǔ)知識(shí)上的空白。
局限性 & 規(guī)劃
盡管阿貝爾數(shù)學(xué)模型在評(píng)估的幾個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異,但是開發(fā)者也總結(jié)了它的不足之處:
- 過擬合:盡管進(jìn)行了魯棒性分析,并考慮到數(shù)學(xué)生成型 AI 天生具有脆弱性(通常需要高級(jí)解碼策略,如多數(shù)投票),但過于依賴構(gòu)建 SFT 樣本以提高性能可能會(huì)不可避免地導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。(然而,過擬合并不是當(dāng)前項(xiàng)目的主要關(guān)注點(diǎn),因?yàn)榧词箤?duì)過擬合各種增強(qiáng)訓(xùn)練數(shù)據(jù),對(duì)于復(fù)雜的數(shù)學(xué)推理任務(wù),如 MATH 數(shù)據(jù)集,仍然很難實(shí)現(xiàn)有利的測(cè)試結(jié)果。)盡管如此,團(tuán)隊(duì)仍然需要進(jìn)行更廣泛的健壯性分析,并積極探索可以將模型轉(zhuǎn)化為數(shù)學(xué)通才的訓(xùn)練方法,并進(jìn)行更全面的跨領(lǐng)域泛化分析。
- 泛化性:一個(gè)好的數(shù)學(xué)模型不應(yīng)僅限于解決 GSM8K 和 MATH 數(shù)據(jù)集上的問題;它應(yīng)該能夠處理各種類型的問題,包括評(píng)估不同知識(shí)領(lǐng)域并需要不同類型的回答的問題(例如,多項(xiàng)選擇、真假、證明、算術(shù)等)。當(dāng)前模型的能力不足以泛化到這些多樣的場(chǎng)景。
- 通用性:最終,作者預(yù)計(jì)大型模型賦予的數(shù)學(xué)推理能力可以整合到各個(gè)領(lǐng)域的聊天機(jī)器人中,如醫(yī)學(xué)、法律、物理學(xué)、化學(xué)等。實(shí)現(xiàn) AGI 的關(guān)鍵在于將強(qiáng)大的數(shù)學(xué)模型的力量融入其他模型中,而這在當(dāng)前項(xiàng)目中尚未探索。
- 多語言性:當(dāng)前模型的訓(xùn)練數(shù)據(jù)和基本模型限制了它在除英語以外的語言中提供回應(yīng)的能力。
- 高級(jí)技術(shù):當(dāng)前模型主要關(guān)注有監(jiān)督精調(diào)(SFT),尚未探索獎(jiǎng)勵(lì)模型、RLHF(從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí))和工具調(diào)用等高級(jí)技術(shù)。
開發(fā)者表示已經(jīng)列出了一系列問題,并用 Github 維護(hù)這些限制和潛在解決方案。歡迎大家提出建設(shè)性意見和見解。
下一步計(jì)劃
最后,作者也簡(jiǎn)單用一張圖透露了實(shí)驗(yàn)室的下一步計(jì)劃:從 “阿貝爾” 到 “伯努利”。




























