偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath

發(fā)布于 2024-4-3 08:11
瀏覽
0收藏

引言:大語言模型數(shù)學(xué)能力評估的重要性

數(shù)學(xué)能力的評估對于理解和發(fā)展大語言模型(LLMs)至關(guān)重要。數(shù)學(xué)問題不僅涉及對數(shù)字的理解和操作,還包括了抽象概念化、邏輯推理等核心能力的考察。因此,一個高質(zhì)量的數(shù)學(xué)評估基準(zhǔn)對于全面評估LLMs的能力具有重大意義。

傳統(tǒng)的數(shù)學(xué)問題數(shù)據(jù)集,如AddSub和MultiArith(下圖),提供了基礎(chǔ)的數(shù)學(xué)詞匯問題庫,但這些通常只能評估模型在特定數(shù)學(xué)問題上的準(zhǔn)確性。隨著中文LLMs的迅速發(fā)展,相應(yīng)的中文數(shù)學(xué)評估數(shù)據(jù)集也應(yīng)運(yùn)而生。然而,簡單的準(zhǔn)確率評估并不能充分揭示模型掌握了哪些數(shù)學(xué)概念或技能。因此,迫切需要一個更全面的測試集,能夠細(xì)致地評估LLMs在不同難度級別的數(shù)學(xué)問題上的推理能力。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

▲FineMath能夠從三個方面評估LLMs的數(shù)學(xué)能力:理解抽象數(shù)學(xué)概念的準(zhǔn)確性、推理的準(zhǔn)確性以及整體的準(zhǔn)確性。

為了解決這一問題,我們提出了FineMath,這是一個針對中文LLMs的細(xì)粒度數(shù)學(xué)評估基準(zhǔn)數(shù)據(jù)集(參見上圖)。該數(shù)據(jù)集包含小學(xué)數(shù)學(xué)的核心概念,分為17類數(shù)學(xué)詞匯問題,用以深入分析LLMs的數(shù)學(xué)推理能力。所有數(shù)學(xué)詞匯問題均經(jīng)手工標(biāo)注,按解決難度(推理步驟數(shù))分級。通過在FineMath上對多個LLMs進(jìn)行實(shí)驗(yàn),我們發(fā)現(xiàn)中文LLMs在數(shù)學(xué)推理上還有進(jìn)步空間。我們還深入分析了評估過程和方法,發(fā)現(xiàn)它們對模型結(jié)果和理解其數(shù)學(xué)推理能力有重大影響。FineMath數(shù)據(jù)集即將公開。

論文標(biāo)題:
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models

論文鏈接:
???https://arxiv.org/pdf/2403.07747.pdf??

FineMath基準(zhǔn)的構(gòu)建與目標(biāo):細(xì)粒度評估中文LLMs的數(shù)學(xué)推理能力

1. 數(shù)據(jù)集概述與關(guān)鍵數(shù)學(xué)概念的覆蓋

FineMath基準(zhǔn)旨在全面評估中文LLMs的數(shù)學(xué)推理能力。該基準(zhǔn)涵蓋了小學(xué)數(shù)學(xué)中的主要關(guān)鍵數(shù)學(xué)概念,并進(jìn)一步細(xì)分為17類數(shù)學(xué)應(yīng)用題(Math Word Problems, MWPs),使得能夠深入分析LLMs的數(shù)學(xué)推理能力。這些關(guān)鍵概念和技能包括數(shù)字與運(yùn)算、代數(shù)、幾何、測量、數(shù)據(jù)分析與概率、問題解決和推理等。

2. 17個數(shù)學(xué)問題類別的詳細(xì)介紹

FineMath包含17種類型的MWPs(見下表),這些類型基于中國教育部制定的數(shù)學(xué)課程標(biāo)準(zhǔn)以及美國國家數(shù)學(xué)教師委員會(NCTM)設(shè)定的原則和標(biāo)準(zhǔn)。這些類別包括百分比、小數(shù)、分?jǐn)?shù)、因數(shù)與倍數(shù)、計(jì)數(shù)、比例和混合運(yùn)算等。每種類型的MWPs都包含三個難度級別,以促進(jìn)詳細(xì)的推理能力分析。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

3. 難度分級與推理步驟的標(biāo)注

FineMath中的每個數(shù)學(xué)問題都根據(jù)解決問題所需的推理步驟數(shù)量手動注釋難度級別。問題被分為三個難度級別:一步推理的問題為一級難度,兩步推理的問題為二級難度,三步或更多步推理的問題為三級難度。這種分類不僅反映了問題的難度,還代表了推理過程。

數(shù)據(jù)收集與注釋過程

1. MWP分類與問題標(biāo)準(zhǔn)化

在數(shù)據(jù)收集過程中,我們將收集到的問題分類為17種類型,每種類型對應(yīng)一個關(guān)鍵或基本概念。我們將多個查詢的問題標(biāo)準(zhǔn)化,確保每個問題只包含一個查詢,并重新表述模糊查詢,以便模型能夠生成唯一的答案。

2. 數(shù)學(xué)推理與答案標(biāo)準(zhǔn)化

我們手動進(jìn)行MWPs的回答過程,并由人工雙重檢查真實(shí)答案。我們要求注釋者提供回答每個MWP的步驟,每個步驟應(yīng)該是原子的、不可分割的。對于使用固定解決公式的計(jì)算,例如計(jì)算圓的面積,我們將其視為單步MWPs。

3. 多項(xiàng)選擇題的轉(zhuǎn)換

為了便于自動評估,我們還將原始的MWPs轉(zhuǎn)換為多項(xiàng)選擇題形式,手動提供額外的對比答案選項(xiàng),類似于AQUA數(shù)據(jù)集。

FineMath數(shù)據(jù)統(tǒng)計(jì)與分析

1. 數(shù)據(jù)集的整體統(tǒng)計(jì)信息

FineMath數(shù)據(jù)集旨在評估中文LLMs的數(shù)學(xué)推理能力,涵蓋了小學(xué)數(shù)學(xué)中的主要概念,并進(jìn)一步細(xì)分為17類數(shù)學(xué)應(yīng)用題。這些類別的題目都經(jīng)過手動注釋,根據(jù)解決問題所需的推理步驟數(shù)量來標(biāo)注難度等級。數(shù)據(jù)集包含1584個問題,每個數(shù)學(xué)概念至少包含60個問題,每個難度等級至少包含20個問題。FineMath的數(shù)據(jù)統(tǒng)計(jì)顯示,所有問題被分為五個主要數(shù)學(xué)概念和兩種經(jīng)典類型的數(shù)學(xué)應(yīng)用題,確保了數(shù)據(jù)集的多樣性和全面性。

2. 數(shù)據(jù)集污染分析及其對模型性能的影響

FineMath數(shù)據(jù)集的一個關(guān)鍵考量是測試數(shù)據(jù)污染問題,即測試數(shù)據(jù)可能無意中被包含在模型的訓(xùn)練數(shù)據(jù)中。這種污染可能導(dǎo)致模型性能的高估,從而誤導(dǎo)我們對模型泛化能力的理解。為了評估污染情況,研究人員采用了與GPT-3相同的方法來計(jì)算FineMath與Ape210K(一個公開的大規(guī)模中文數(shù)學(xué)應(yīng)用題數(shù)據(jù)集)之間的n-gram重疊情況(下圖)。通過這種方法,研究人員發(fā)現(xiàn)某些問題類型的重疊率明顯高于其他類型,例如基礎(chǔ)幾何和比例問題。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

為了深入了解這些重疊示例對模型性能的影響,研究人員將測試示例分為兩個數(shù)據(jù)集:一個包含重疊示例的污染數(shù)據(jù)集和一個與Ape210k訓(xùn)練集沒有重疊的干凈數(shù)據(jù)集。在對比GPT-4和MathGLM-10B在這兩個數(shù)據(jù)集上的表現(xiàn)時(下表),發(fā)現(xiàn)MathGLM-10B在污染數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于干凈數(shù)據(jù)集。相比之下,GPT-4在兩個數(shù)據(jù)集上的表現(xiàn)相當(dāng)。這表明MathGLM-10B可能對重疊示例過擬合,而污染確實(shí)可以提高模型的性能。因此,為了確保模型之間的公平比較,并從FineMath基準(zhǔn)測試中得出準(zhǔn)確的結(jié)論,建議過濾掉訓(xùn)練集和FineMath基準(zhǔn)測試之間的重疊示例。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

實(shí)驗(yàn)設(shè)計(jì)與評估的LLMs

1. 評估的LLMs類別與特點(diǎn)

在FineMath上進(jìn)行的實(shí)驗(yàn)評估了多種LLMs,包括OpenAI開發(fā)的GPT-4和GPT-3.5-Turbo,以及專門為中文開發(fā)的LLMs和使用中文數(shù)學(xué)數(shù)據(jù)微調(diào)的LLMs。這些模型的參數(shù)范圍從數(shù)十億到數(shù)千億不等,訓(xùn)練數(shù)據(jù)量從數(shù)十億到數(shù)萬億不等(下表),這些因素都對模型的問題解決和推理能力至關(guān)重要。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

2. 實(shí)驗(yàn)中使用的提示(Prompts)

實(shí)驗(yàn)在零樣本設(shè)置下進(jìn)行,研究人員嘗試了多種提示來進(jìn)行評估和分析。這些提示包括不提供任何額外信息,只輸入問題到模型中;不解釋原因,只提供問題答案;以及提供問題答案并解釋原因等(下表)。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

3. 主要結(jié)果與不同類別的表現(xiàn)分析

在17個數(shù)學(xué)應(yīng)用題類別中,GPT-4在所有模型中表現(xiàn)最佳(下圖),其準(zhǔn)確率在不同類別中的表現(xiàn)差異顯著(下表)。例如,在“混合運(yùn)算”類別中,GPT-4的準(zhǔn)確率最高,達(dá)到89%,而在“計(jì)數(shù)”類別中,準(zhǔn)確率最低,為38%。GPT-4在概率和解析幾何類別中的表現(xiàn)超過其他所有模型,提高了超過25%。GPT-3.5-Turbo在不同的數(shù)學(xué)應(yīng)用題類別中的表現(xiàn)與GPT-4相似,但在概率、基礎(chǔ)幾何和解析幾何上有超過20%的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

在數(shù)學(xué)推理步驟數(shù)量方面,LLMs的表現(xiàn)隨著推理步驟的增加而降低(下圖)。GPT-4在所有難度級別上保持了超過60%的準(zhǔn)確率,對于只需要一個推理步驟的數(shù)學(xué)應(yīng)用題,其準(zhǔn)確率高達(dá)82%。而GPT-3.5-Turbo的準(zhǔn)確率平均比GPT-4低10%。其他模型在不同的數(shù)學(xué)應(yīng)用題類別和推理步驟數(shù)量上的表現(xiàn)也有所不同,顯示出模型在數(shù)學(xué)推理能力上的差異。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

分析:評估過程中的關(guān)鍵因素

1. 提示(Prompts)對模型準(zhǔn)確性的影響

在評估過程中,提示(Prompts)的使用對模型產(chǎn)生的答案準(zhǔn)確性有顯著影響。例如,GPT-4在不同提示下的整體準(zhǔn)確率分別為73%,59%,和58%(下表),這表明即使是簡單的提示變化也可能導(dǎo)致模型性能的顯著差異。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

提示如“Answer:”可能會促使模型跳過推理過程,直接輸出答案,從而增加了生成錯誤答案的可能性。下表是示例。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

2. 生成式評估與選擇題評估方法的比較

在初步實(shí)驗(yàn)中發(fā)現(xiàn),一些新開發(fā)的LLMs不總是遵循指令,經(jīng)常生成與答案無關(guān)的大量文本。因此,將數(shù)據(jù)轉(zhuǎn)換為選擇題形式,模型可以從中選擇正確的答案。通過比較(下表),我們發(fā)現(xiàn)生成式評估與選擇題評估方法在準(zhǔn)確性上存在顯著差異,差距可能超過10%。值得注意的是,將任務(wù)結(jié)構(gòu)化為選擇題形式似乎降低了高性能模型的準(zhǔn)確性,同時提高了性能較差模型的準(zhǔn)確性。選擇題選項(xiàng)本身可能作為一種提示,影響模型的性能。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

3. 模型響應(yīng)長度與“信心”的關(guān)聯(lián)

對模型生成的響應(yīng)長度進(jìn)行統(tǒng)計(jì)分析時,發(fā)現(xiàn)兩個現(xiàn)象(下表)。首先,如GPT-4和GPT-3.5-Turbo這樣的模型傾向于生成緊密圍繞問題的響應(yīng),文本較短,這可能表明了高準(zhǔn)確性模型的特點(diǎn)。其次,數(shù)學(xué)問題需要的推理步驟越多,模型生成的響應(yīng)往往越長。我們推測,模型在回答問題時的“信心”影響了其響應(yīng)的長度。在某些情況下,即使在指示模型只提供答案而不解釋的情況下,模型仍會為難度較大的問題生成邏輯推理。

今日arXiv最熱NLP大模型論文:天津大學(xué)發(fā)布大模型數(shù)學(xué)能力細(xì)粒度評價基準(zhǔn)FineMath-AI.x社區(qū)

結(jié)論與展望

FineMath作為一個細(xì)粒度的基準(zhǔn)測試集,為全面評估中文LLMs的數(shù)學(xué)能力提供了重要工具。通過對多個LLMs的評估,我們不僅關(guān)注模型的準(zhǔn)確性,還深入分析了評估過程和方法,揭示了這些經(jīng)常被忽視的因素對評估結(jié)果和我們對模型數(shù)學(xué)推理能力理解的顯著影響。

FineMath的貢獻(xiàn)在于它提供了一個綜合性的基準(zhǔn),覆蓋了中國小學(xué)數(shù)學(xué)的主要概念,并將數(shù)學(xué)問題分為17個類別,使得對LLMs的數(shù)學(xué)推理能力進(jìn)行深入分析成為可能。此外,F(xiàn)ineMath的污染分析使研究人員能夠檢查訓(xùn)練數(shù)據(jù)是否影響評估結(jié)果,從而確保了評估的公平性和有效性。

未來的研究方向可以包括進(jìn)一步提高評估方法的公平性和有效性,例如通過更復(fù)雜的提示和任務(wù)形式來測試模型的推理和理解能力。此外,可以探索如何減少訓(xùn)練數(shù)據(jù)中的污染,以及如何提高模型在處理更復(fù)雜數(shù)學(xué)問題時的性能。隨著LLMs的不斷進(jìn)步,F(xiàn)ineMath及其后續(xù)版本有望成為評估和提升中文LLMs數(shù)學(xué)推理能力的重要工具。


本文轉(zhuǎn)載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/f4ptXPMEBdmvjQKiYyWF8Q??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦