偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

34B參數(shù)量超越GPT-4!「數(shù)學(xué)通用大模型」MAmmoTH開(kāi)源:平均準(zhǔn)確率最高提升29%

人工智能 新聞
數(shù)學(xué)通才「猛犸」模型給開(kāi)源語(yǔ)言模型帶來(lái)了「推理春天」,面對(duì)GPT-4都有一戰(zhàn)之力!

數(shù)學(xué)推理問(wèn)題是語(yǔ)言模型繞不過(guò)的痛點(diǎn),在各種黑科技的加持下,開(kāi)源模型的推理性能依然不夠看。

最近,滑鐵盧大學(xué)、俄亥俄州立大學(xué)、香港科技大學(xué)、愛(ài)丁堡大學(xué)的研究人員聯(lián)合開(kāi)源了一個(gè)專為「通用數(shù)學(xué)問(wèn)題」定制的大模型MAmmoTH和一個(gè)指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct.

論文鏈接:https://arxiv.org/pdf/2309.05653.pdf

項(xiàng)目鏈接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13個(gè)具有中間原理的數(shù)學(xué)數(shù)據(jù)集編譯而成,其中6個(gè)為新數(shù)據(jù)集,混合了思想鏈(CoT)和思想程序(PoT),并確保覆蓋了廣泛的數(shù)學(xué)領(lǐng)域。

CoT和PoT的混合不僅可以釋放工具使用的潛力,而且還允許模型針對(duì)不同的數(shù)學(xué)問(wèn)題進(jìn)行不同的思維過(guò)程。

因此,MAmmoTH系列在所有尺度上的9個(gè)數(shù)學(xué)推理數(shù)據(jù)集上的表現(xiàn)大大優(yōu)于現(xiàn)有的開(kāi)源模型,平均準(zhǔn)確率提高了12%至29%。

其中MAmmoTH-7B模型在MATH(競(jìng)賽級(jí)數(shù)據(jù)集)上的準(zhǔn)確率達(dá)到了35%,超過(guò)了最好的開(kāi)源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的準(zhǔn)確率達(dá)到了46%,甚至超過(guò)了GPT-4的CoT結(jié)果。

數(shù)學(xué)推理領(lǐng)域新王:MAmmoTH

在數(shù)學(xué)推理任務(wù)上,開(kāi)源和閉源的大型語(yǔ)言模型(LLM)之間存在巨大的性能差距,目前基準(zhǔn)數(shù)據(jù)集上的sota仍然是GPT-4,PaLM-2和Claude等閉源模型,其他開(kāi)源模型如Llama,F(xiàn)alcon和OPT等仍然遠(yuǎn)遠(yuǎn)落后。

為了彌補(bǔ)性能差距,主要的研究方法有兩類:

1. 如Galactica,MINERVA等模型,繼續(xù)使用數(shù)學(xué)相關(guān)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,可以提高模型的通用科學(xué)推理能力,但計(jì)算成本會(huì)更高;

2. 如拒絕采樣微調(diào)(RFT)和WizardMath等,使用特定領(lǐng)域數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào),雖然可以提高領(lǐng)域內(nèi)性能,但無(wú)法適用于更廣泛的數(shù)學(xué)推理任務(wù)。

在解決數(shù)學(xué)問(wèn)題時(shí),現(xiàn)有方法通常會(huì)采用思維鏈(CoT)方法引導(dǎo)語(yǔ)言模型循序漸進(jìn)地用自然語(yǔ)言描述來(lái)解決數(shù)學(xué)問(wèn)題。

雖然在大多數(shù)數(shù)學(xué)主題下表現(xiàn)出很好的通用性,但在需要精確或復(fù)雜的數(shù)學(xué)計(jì)算、算法推理的問(wèn)題下(如求解二次方程根,計(jì)算矩陣特征值)表現(xiàn)不佳。

相比之下,思維程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解釋器)大大簡(jiǎn)化了數(shù)學(xué)求解過(guò)程,將計(jì)算過(guò)程卸載到外部Python解釋器,以解決復(fù)雜的數(shù)學(xué)和算法推理過(guò)程(例如,用sympy求解二次方程或用numpy計(jì)算矩陣特征值)。

然而,PoT在處理更抽象的推理場(chǎng)景方面有所欠缺,尤其是在沒(méi)有內(nèi)置API的情況下,常識(shí)推理、形式邏輯和抽象代數(shù)的推理能力會(huì)更差。

方法概述

研究人員的目標(biāo)是編制一個(gè)高質(zhì)量、多樣化的數(shù)學(xué)指令調(diào)整(instruction-tuning)數(shù)據(jù)集列表。

1. 覆蓋不同數(shù)學(xué)領(lǐng)域和復(fù)雜度

更全面的數(shù)據(jù)集可以讓模型接觸到多樣化的數(shù)學(xué)知識(shí),提升模型的多功能性。

研究人員將選擇范圍縮小到幾個(gè)被廣泛采用的高質(zhì)量數(shù)據(jù)集,包括GSM8K、math、AQuA、Camel和TheoremQA.

還可以注意到,現(xiàn)有的數(shù)據(jù)集缺乏對(duì)大學(xué)水平的數(shù)學(xué)知識(shí)的覆蓋,如抽象代數(shù)和形式邏輯,所以研究人員選擇使用GPT-4來(lái)合成TheoremQA問(wèn)題中的思維鏈(CoT)原理,利用網(wǎng)絡(luò)上找到的數(shù)個(gè)種子樣例,通過(guò)自我指導(dǎo)(self-instruct)創(chuàng)建問(wèn)題和CoT的數(shù)據(jù)對(duì)。

圖片

2. 混合CoT和PoT

現(xiàn)有的研究方法大多只關(guān)注CoT,并且數(shù)據(jù)集中也只包含有限的解題思路,導(dǎo)致CoT和PoT的數(shù)據(jù)量十分不均衡。

為了解決該問(wèn)題,研究人員利用GPT-4來(lái)補(bǔ)充選定數(shù)據(jù)集的PoT解題思路,通過(guò)對(duì)比合成程序的執(zhí)行結(jié)果以及人工標(biāo)注的答案進(jìn)行過(guò)濾,確保生成數(shù)據(jù)的高質(zhì)量。

遵循上述方法,最后得到了26萬(wàn)條指令、回復(fù)數(shù)據(jù)對(duì),涵蓋了廣泛的核心數(shù)學(xué)領(lǐng)域,如算術(shù)、代數(shù)、概率、微積分和幾何等,混合了CoT和PoT基本原理,并提供多種語(yǔ)言、多個(gè)難度級(jí)別的數(shù)據(jù),足以證明數(shù)據(jù)集的高品質(zhì)和獨(dú)特性。

訓(xùn)練步驟

研究人員統(tǒng)一了MathInstruct中的所有子集,將指令數(shù)據(jù)集的結(jié)構(gòu)標(biāo)準(zhǔn)化為Alpaca模型的格式,使得模型無(wú)需考慮原始數(shù)據(jù)集的格式,在微調(diào)階段統(tǒng)一處理數(shù)據(jù)即可。

研究人員選擇開(kāi)源模型Llama-2和Code Llama作為基礎(chǔ)模型,在7B、13B、34B和70B尺寸的模型上進(jìn)行微調(diào)。

實(shí)驗(yàn)部分

評(píng)估數(shù)據(jù)集

研究人員選擇了不同數(shù)學(xué)領(lǐng)域下的樣本,對(duì)模型的通用數(shù)學(xué)推理能力進(jìn)行評(píng)估:

領(lǐng)域內(nèi)數(shù)據(jù)集包括GSM8K,MATH,AQuA-RAT,NumGLUE;領(lǐng)域外數(shù)據(jù)集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵蓋了小學(xué)、高中和大學(xué)水平的數(shù)學(xué)問(wèn)題,部分?jǐn)?shù)據(jù)集甚至包括形式邏輯和常識(shí)推理。

問(wèn)題類型為開(kāi)放式問(wèn)題和多選題,其中開(kāi)放式問(wèn)題(如GSM8K、數(shù)學(xué))采用PoT解碼,因?yàn)榇蠖鄶?shù)問(wèn)題都可以由程序解決;多項(xiàng)選擇題(如AQuA、MMLU)采用CoT解碼。

CoT解碼不需要觸發(fā)詞,PoT需要觸發(fā)短語(yǔ)「讓我們寫(xiě)個(gè)程序來(lái)解決這個(gè)問(wèn)題」(Let’s write a program to solve the problem)。

實(shí)驗(yàn)結(jié)果

總的來(lái)說(shuō),MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均優(yōu)于SoTA模型,并且在領(lǐng)域外(OOD)數(shù)據(jù)集上的增益要顯著優(yōu)于領(lǐng)域內(nèi)(IND)數(shù)據(jù)集,展現(xiàn)出了該模型作為數(shù)學(xué)通才模型的潛力,甚至在幾個(gè)數(shù)據(jù)集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超過(guò)了閉源模型。

圖片

在領(lǐng)域內(nèi)數(shù)據(jù)的評(píng)估,MAmmoTH模型的主要競(jìng)爭(zhēng)對(duì)手是WizardMath和Platypus,其中WizardMath的訓(xùn)練深度依賴于GSM8K和MATH數(shù)據(jù)集,Platypus在更廣泛的文本和數(shù)學(xué)推理數(shù)據(jù)集上對(duì)LLM進(jìn)行微調(diào)。

相比之下,MAmmoTH實(shí)現(xiàn)了全面的改進(jìn),并且更擅長(zhǎng)解決復(fù)雜數(shù)學(xué)問(wèn)題,相比WizardMath(MATH數(shù)據(jù)的sota)的增益最高超過(guò)了25%

圖片

在領(lǐng)域外數(shù)據(jù)評(píng)估中,主要競(jìng)爭(zhēng)模型依然是Platypus,不過(guò)MAmmoTH可以實(shí)現(xiàn)比領(lǐng)域內(nèi)數(shù)據(jù)更高的性能提升,展現(xiàn)出對(duì)未知數(shù)學(xué)問(wèn)題的通用能力。

值得注意的是,MAmmoTH-7B還將WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量沒(méi)有在訓(xùn)練數(shù)據(jù)集中涵蓋的主題。

不同基礎(chǔ)模型之間的對(duì)比

可以發(fā)現(xiàn),Code-Llama作為基礎(chǔ)模型時(shí)的效果始終優(yōu)于Llama-2,尤其是在領(lǐng)域外數(shù)據(jù)集上,二者之間的性能差異甚至達(dá)到了5%,其中MAmmoTH-Coder(34B)在領(lǐng)域外數(shù)據(jù)集上的平均性能實(shí)際上高于MAmmoTH(70B)

研究人員認(rèn)為,MAmmoTH-Coder從Code-Llama的持續(xù)代碼訓(xùn)練中受益匪淺,不僅增強(qiáng)了PoT能力,還提高了Llama的通用推理技能。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-11-20 21:56:04

AI推理

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-09-19 09:20:16

2024-01-30 21:18:57

模型智能CMMLU

2023-09-11 15:57:16

人工智能模型GPT-4

2023-08-27 14:08:17

開(kāi)源代碼Meta大模型

2025-05-30 07:40:56

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-01-19 12:51:00

AI數(shù)據(jù)

2025-05-26 08:33:00

2023-09-01 14:06:00

模型AI

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2025-01-21 08:00:00

2023-11-17 23:05:18

數(shù)據(jù)模型

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)