偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="sh16t"></table>

<table id="sh16t"></table>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

34B參數(shù)量超越GPT-4！「數(shù)學通用大模型」MAmmoTH開源：平均準確率最高提升29%

作者：新智元 2023-09-19 14:56:00

人工智能新聞

數(shù)學通才「猛犸」模型給開源語言模型帶來了「推理春天」，面對GPT-4都有一戰(zhàn)之力！

數(shù)學推理問題是語言模型繞不過的痛點，在各種黑科技的加持下，開源模型的推理性能依然不夠看。

最近，滑鐵盧大學、俄亥俄州立大學、香港科技大學、愛丁堡大學的研究人員聯(lián)合開源了一個專為「通用數(shù)學問題」定制的大模型MAmmoTH和一個指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct.

論文鏈接：https://arxiv.org/pdf/2309.05653.pdf

項目鏈接：https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13個具有中間原理的數(shù)學數(shù)據(jù)集編譯而成，其中6個為新數(shù)據(jù)集，混合了思想鏈（CoT）和思想程序（PoT），并確保覆蓋了廣泛的數(shù)學領(lǐng)域。

CoT和PoT的混合不僅可以釋放工具使用的潛力，而且還允許模型針對不同的數(shù)學問題進行不同的思維過程。

因此，MAmmoTH系列在所有尺度上的9個數(shù)學推理數(shù)據(jù)集上的表現(xiàn)大大優(yōu)于現(xiàn)有的開源模型，平均準確率提高了12%至29%。

其中MAmmoTH-7B模型在MATH（競賽級數(shù)據(jù)集）上的準確率達到了35%，超過了最好的開源7B模型（WizardMath）25%，MAmmoTH-34B模型在MATH上的準確率達到了46%，甚至超過了GPT-4的CoT結(jié)果。

數(shù)學推理領(lǐng)域新王：MAmmoTH

在數(shù)學推理任務上，開源和閉源的大型語言模型（LLM）之間存在巨大的性能差距，目前基準數(shù)據(jù)集上的sota仍然是GPT-4，PaLM-2和Claude等閉源模型，其他開源模型如Llama，F(xiàn)alcon和OPT等仍然遠遠落后。

為了彌補性能差距，主要的研究方法有兩類：

1. 如Galactica，MINERVA等模型，繼續(xù)使用數(shù)學相關(guān)的網(wǎng)絡(luò)數(shù)據(jù)對語言模型進行訓練，可以提高模型的通用科學推理能力，但計算成本會更高；

2. 如拒絕采樣微調(diào)（RFT）和WizardMath等，使用特定領(lǐng)域數(shù)據(jù)集對模型進行微調(diào)，雖然可以提高領(lǐng)域內(nèi)性能，但無法適用于更廣泛的數(shù)學推理任務。

在解決數(shù)學問題時，現(xiàn)有方法通常會采用思維鏈（CoT）方法引導語言模型循序漸進地用自然語言描述來解決數(shù)學問題。

雖然在大多數(shù)數(shù)學主題下表現(xiàn)出很好的通用性，但在需要精確或復雜的數(shù)學計算、算法推理的問題下（如求解二次方程根，計算矩陣特征值）表現(xiàn)不佳。

相比之下，思維程序（PoT, Program-of-Thought）方法和PAL利用外部工具（即Python解釋器）大大簡化了數(shù)學求解過程，將計算過程卸載到外部Python解釋器，以解決復雜的數(shù)學和算法推理過程（例如，用sympy求解二次方程或用numpy計算矩陣特征值）。

然而，PoT在處理更抽象的推理場景方面有所欠缺，尤其是在沒有內(nèi)置API的情況下，常識推理、形式邏輯和抽象代數(shù)的推理能力會更差。

方法概述

研究人員的目標是編制一個高質(zhì)量、多樣化的數(shù)學指令調(diào)整（instruction-tuning）數(shù)據(jù)集列表。

1. 覆蓋不同數(shù)學領(lǐng)域和復雜度

更全面的數(shù)據(jù)集可以讓模型接觸到多樣化的數(shù)學知識，提升模型的多功能性。

研究人員將選擇范圍縮小到幾個被廣泛采用的高質(zhì)量數(shù)據(jù)集，包括GSM8K、math、AQuA、Camel和TheoremQA.

還可以注意到，現(xiàn)有的數(shù)據(jù)集缺乏對大學水平的數(shù)學知識的覆蓋，如抽象代數(shù)和形式邏輯，所以研究人員選擇使用GPT-4來合成TheoremQA問題中的思維鏈（CoT）原理，利用網(wǎng)絡(luò)上找到的數(shù)個種子樣例，通過自我指導（self-instruct）創(chuàng)建問題和CoT的數(shù)據(jù)對。

2. 混合CoT和PoT

現(xiàn)有的研究方法大多只關(guān)注CoT，并且數(shù)據(jù)集中也只包含有限的解題思路，導致CoT和PoT的數(shù)據(jù)量十分不均衡。

為了解決該問題，研究人員利用GPT-4來補充選定數(shù)據(jù)集的PoT解題思路，通過對比合成程序的執(zhí)行結(jié)果以及人工標注的答案進行過濾，確保生成數(shù)據(jù)的高質(zhì)量。

遵循上述方法，最后得到了26萬條指令、回復數(shù)據(jù)對，涵蓋了廣泛的核心數(shù)學領(lǐng)域，如算術(shù)、代數(shù)、概率、微積分和幾何等，混合了CoT和PoT基本原理，并提供多種語言、多個難度級別的數(shù)據(jù)，足以證明數(shù)據(jù)集的高品質(zhì)和獨特性。

訓練步驟

研究人員統(tǒng)一了MathInstruct中的所有子集，將指令數(shù)據(jù)集的結(jié)構(gòu)標準化為Alpaca模型的格式，使得模型無需考慮原始數(shù)據(jù)集的格式，在微調(diào)階段統(tǒng)一處理數(shù)據(jù)即可。

研究人員選擇開源模型Llama-2和Code Llama作為基礎(chǔ)模型，在7B、13B、34B和70B尺寸的模型上進行微調(diào)。

實驗部分

評估數(shù)據(jù)集

研究人員選擇了不同數(shù)學領(lǐng)域下的樣本，對模型的通用數(shù)學推理能力進行評估：

領(lǐng)域內(nèi)數(shù)據(jù)集包括GSM8K，MATH，AQuA-RAT，NumGLUE；領(lǐng)域外數(shù)據(jù)集包括SVAMP，Mathematics，SimulEq，SAT-Math和SimulEq，涵蓋了小學、高中和大學水平的數(shù)學問題，部分數(shù)據(jù)集甚至包括形式邏輯和常識推理。

問題類型為開放式問題和多選題，其中開放式問題（如GSM8K、數(shù)學）采用PoT解碼，因為大多數(shù)問題都可以由程序解決；多項選擇題（如AQuA、MMLU）采用CoT解碼。

CoT解碼不需要觸發(fā)詞，PoT需要觸發(fā)短語「讓我們寫個程序來解決這個問題」（Let’s write a program to solve the problem）。

實驗結(jié)果

總的來說，MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均優(yōu)于SoTA模型，并且在領(lǐng)域外（OOD）數(shù)據(jù)集上的增益要顯著優(yōu)于領(lǐng)域內(nèi)（IND）數(shù)據(jù)集，展現(xiàn)出了該模型作為數(shù)學通才模型的潛力，甚至在幾個數(shù)據(jù)集上，MAmmoTH-Coder-34B和MAmmoTH-70B甚至超過了閉源模型。

在領(lǐng)域內(nèi)數(shù)據(jù)的評估，MAmmoTH模型的主要競爭對手是WizardMath和Platypus，其中WizardMath的訓練深度依賴于GSM8K和MATH數(shù)據(jù)集，Platypus在更廣泛的文本和數(shù)學推理數(shù)據(jù)集上對LLM進行微調(diào)。

相比之下，MAmmoTH實現(xiàn)了全面的改進，并且更擅長解決復雜數(shù)學問題，相比WizardMath（MATH數(shù)據(jù)的sota）的增益最高超過了25%

在領(lǐng)域外數(shù)據(jù)評估中，主要競爭模型依然是Platypus，不過MAmmoTH可以實現(xiàn)比領(lǐng)域內(nèi)數(shù)據(jù)更高的性能提升，展現(xiàn)出對未知數(shù)學問題的通用能力。

值得注意的是，MAmmoTH-7B還將WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%，其中包含大量沒有在訓練數(shù)據(jù)集中涵蓋的主題。

不同基礎(chǔ)模型之間的對比

可以發(fā)現(xiàn)，Code-Llama作為基礎(chǔ)模型時的效果始終優(yōu)于Llama-2，尤其是在領(lǐng)域外數(shù)據(jù)集上，二者之間的性能差異甚至達到了5%，其中MAmmoTH-Coder（34B）在領(lǐng)域外數(shù)據(jù)集上的平均性能實際上高于MAmmoTH（70B）

研究人員認為，MAmmoTH-Coder從Code-Llama的持續(xù)代碼訓練中受益匪淺，不僅增強了PoT能力，還提高了Llama的通用推理技能。

責任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營