偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="8gozw"><td id="8gozw"></td></pre>

<samp id="8gozw"></samp>

<big id="8gozw"></big>

<tfoot id="8gozw"></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

比GPT-4還強(qiáng)，20億參數(shù)模型做算術(shù)題，準(zhǔn)確率幾乎100%

作者：機(jī)器之心 2023-09-19 09:20:16

人工智能新聞

來(lái)自清華大學(xué)、TAL AI Lab 和智譜 AI 的研究者聯(lián)合提出了一個(gè)能夠完美執(zhí)行復(fù)雜算術(shù)運(yùn)算的新模型 ——MathGLM。

當(dāng)前，大型語(yǔ)言模型 (LLM) 在處理 NLP 領(lǐng)域的各種下游任務(wù)方面已經(jīng)表現(xiàn)出卓越的能力。特別是，GPT-4、ChatGPT 等開(kāi)創(chuàng)性模型已經(jīng)接受了大量文本數(shù)據(jù)的訓(xùn)練，使它們具備強(qiáng)大的文本理解和生成能力，能夠生成連貫且上下文相關(guān)的響應(yīng)，在各種 NLP 任務(wù)中具有高度通用性。

然而，LLM 在數(shù)學(xué)推理方面的性能卻不盡如人意。LLM 很難準(zhǔn)確地執(zhí)行復(fù)雜的算術(shù)運(yùn)算，尤其是涉及超過(guò) 8 位數(shù)字乘法的運(yùn)算，還有涉及小數(shù)、分?jǐn)?shù)的運(yùn)算。

基于此，來(lái)自清華大學(xué)、TAL AI Lab 和智譜 AI 的研究者聯(lián)合提出了一個(gè)能夠完美執(zhí)行復(fù)雜算術(shù)運(yùn)算的新模型 ——MathGLM。

論文地址：https://arxiv.org/pdf/2309.03241v2.pdf
項(xiàng)目地址：https://github.com/THUDM/MathGLM#arithmetic-tasks

該研究表明：在足夠的訓(xùn)練數(shù)據(jù)下，20 億參數(shù)的語(yǔ)言模型能夠準(zhǔn)確地進(jìn)行多位算術(shù)運(yùn)算，準(zhǔn)確率幾乎達(dá)到了 100%，且不會(huì)出現(xiàn)數(shù)據(jù)泄露（data leakage）。這個(gè)結(jié)果大幅超越了 GPT-4（其多位乘法運(yùn)算準(zhǔn)確率僅為 4.3%）。

方法介紹

本文提出了一個(gè)名為 MathGLM 的模型來(lái)探討 LLM 在數(shù)學(xué)推理方面的效率。

MathGLM 模型需要完成的算術(shù)任務(wù)大致可以分為兩類(lèi)：基本算術(shù)運(yùn)算和復(fù)雜混合運(yùn)算。其中基本算術(shù)運(yùn)算包含基本的數(shù)學(xué)任務(wù)，這些任務(wù)圍繞兩個(gè)數(shù)字的簡(jiǎn)單計(jì)算。而復(fù)雜混合運(yùn)算涉及不同算術(shù)運(yùn)算和數(shù)字格式（例如整數(shù)、小數(shù)、分?jǐn)?shù)等）的組合。表 1 為 MathGLM 任務(wù)分類(lèi)。

為了增強(qiáng) MathGLM 的算術(shù)能力，本文采用了基于 Transformer 的僅解碼器架構(gòu)，并使用自回歸目標(biāo)（autoregressive objective）在生成的算術(shù)數(shù)據(jù)集上從頭開(kāi)始訓(xùn)練它。

算術(shù)任務(wù)的學(xué)習(xí)

算術(shù)訓(xùn)練數(shù)據(jù)集是精心設(shè)計(jì)的，包括加法、減法、乘法、除法和求冪等多種運(yùn)算。此外，它還包含多種數(shù)字格式，例如整數(shù)、小數(shù)、百分比、分?jǐn)?shù)和負(fù)數(shù)。數(shù)據(jù)集規(guī)模大小不一，范圍從 100 萬(wàn)到 5000 萬(wàn)條記錄不等。

在每個(gè)數(shù)據(jù)集中，單個(gè)算術(shù)表達(dá)式由 2 到 10 個(gè)運(yùn)算步驟組成，涵蓋一系列數(shù)學(xué)運(yùn)算，例如加法 (+)、減法 (-)、乘法 (×)、除法 (/) 和求冪 (^)。圖 3 為從算術(shù)數(shù)據(jù)集中提取的一些訓(xùn)練示例：

表 2 概述了 MathGLM 模型的不同規(guī)模，包括 4 種不同類(lèi)型的模型，每種模型都有不同的參數(shù)大小。最大的模型參數(shù)量為 2B，容量最強(qiáng)；其余參數(shù)量分別為 500M 、100M 以及最小的 10M 參數(shù)模型。

對(duì)數(shù)學(xué)應(yīng)用問(wèn)題的學(xué)習(xí)

除了算術(shù)任務(wù)外，本文還訓(xùn)練（微調(diào)）了一系列基于 Transformer 的語(yǔ)言模型，稱(chēng)為通用語(yǔ)言模型（GLM，General Language Model）及其聊天版本來(lái)解決數(shù)學(xué)應(yīng)用問(wèn)題。訓(xùn)練過(guò)程使用了公開(kāi)的 Chinese Ape210K 數(shù)據(jù)集，該數(shù)據(jù)集包含 21 萬(wàn)道中文小學(xué)數(shù)學(xué)題，每個(gè)題的答案都是直接計(jì)算得出的。

為了提高 MathGLM 在數(shù)學(xué)應(yīng)用題上的性能，本文采用分步策略來(lái)重建 Ape210K 數(shù)據(jù)集，并將其轉(zhuǎn)換為逐步計(jì)算每個(gè)數(shù)學(xué)問(wèn)題答案的版本。圖 4 展示了原始 Ape210K 數(shù)據(jù)集和本文重建版本之間的對(duì)比。

本文采用 GLM 的不同變體作為骨干來(lái)訓(xùn)練 MathGLM，包括具有 335M 參數(shù)的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外，本文還使用 ChatGLM-6B 和 ChatGLM2-6B 主干網(wǎng)絡(luò)訓(xùn)練 MathGLM。這些骨干模型賦予 MathGLM 基本的語(yǔ)言理解能力，使其能夠有效理解數(shù)學(xué)應(yīng)用題中包含的語(yǔ)言信息。

實(shí)驗(yàn)

本文設(shè)計(jì)了兩種不同類(lèi)型的實(shí)驗(yàn)，包括算術(shù)任務(wù)和數(shù)學(xué)應(yīng)用題。

對(duì)于算術(shù)任務(wù)，本文預(yù)訓(xùn)練了一個(gè)基于 Transformer 的 MathGLM 模型，該模型具有 500M 參數(shù)，并將其與領(lǐng)先的大型語(yǔ)言模型 (LLM)（例如 GPT-4 和 ChatGPT）的性能進(jìn)行了比較。結(jié)果如表 3 所示， MathGLM 優(yōu)于所有其他模型，表明 MathGLM 在處理算術(shù)任務(wù)方面具有卓越的性能。

即使只有 1000 萬(wàn)個(gè)參數(shù)的 MathGLM-10M，結(jié)果也令人驚訝。MathGLM-10M 在一系列綜合算術(shù)任務(wù)中的性能優(yōu)于 GPT-4 和 ChatGPT。

此外，當(dāng)比較不同參數(shù)規(guī)模的 MathGLM 時(shí)，本文觀察到 MathGLM 的算術(shù)性能與其參數(shù)數(shù)量的增加直接相關(guān)。這一發(fā)現(xiàn)表明，隨著模型尺寸的增加，它們的性能表現(xiàn)出相應(yīng)的增強(qiáng)。

綜上所述，研究者對(duì)復(fù)雜算術(shù)任務(wù)的評(píng)估結(jié)果表明 MathGLM 具有卓越的性能。通過(guò)分解算術(shù)任務(wù)，這些模型的性能顯著超過(guò)了 GPT-4 和 ChatGPT。

此外，本文還對(duì) GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 進(jìn)行了比較。本文從前面討論的大數(shù)據(jù)集中隨機(jī)抽取了一個(gè)包含 100 個(gè)測(cè)試用例的緊湊算術(shù)數(shù)據(jù)集。結(jié)果如表 4 所示。

通過(guò)以上分析結(jié)果可以看出，MathGLM 在 20 億參數(shù)下達(dá)到了 93.03% 的準(zhǔn)確率，超越了所有其他 LLM。

對(duì)于數(shù)學(xué)應(yīng)用問(wèn)題，本文在 Ape210K 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表 8 報(bào)告了包括 MathGLM 變體、 GPT-4、ChatGPT 等在內(nèi)的結(jié)果。

結(jié)果表明，當(dāng)與 GLM-10B 配合使用時(shí)，MathGLM 在答案準(zhǔn)確性方面達(dá)到了與最先進(jìn)的 GPT-4 模型相當(dāng)?shù)男阅芩健?/span>

此外，將 MathGLM 的性能與 GLM-Large、GLM-6B 和 GLM-10B 進(jìn)行比較時(shí)，出現(xiàn)了一個(gè)明顯的趨勢(shì)：MathGLM 在算術(shù)準(zhǔn)確性和答案準(zhǔn)確性方面都表現(xiàn)出顯著增強(qiáng)。

為了評(píng)估模型在不同年級(jí)數(shù)學(xué)問(wèn)題上的解決能力，該研究在 K6 數(shù)據(jù)集上測(cè)試評(píng)估了幾種模型的性能，包括：GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B，結(jié)果如下圖 8 所示。

感興趣的讀者可以閱讀論文原文，了解更多研究?jī)?nèi)容。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)