偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ACL 2024 | 對25個(gè)開閉源模型數(shù)學(xué)評測,GPT-3.5-Turbo才勉強(qiáng)及格

人工智能 新聞
本文作者設(shè)計(jì)了一個(gè)評估基準(zhǔn) GSM-Plus。這個(gè)測試旨在對一個(gè)問題進(jìn)行 8 種不同的細(xì)粒度數(shù)學(xué)變換,系統(tǒng)地評估當(dāng)前 LLMs 在處理基礎(chǔ)數(shù)學(xué)應(yīng)用題時(shí)的能力。

本文作者來自香港大學(xué)和騰訊。作者列表:李沁桐,Leyang Cui,趙學(xué)亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學(xué)自然語言處理實(shí)驗(yàn)室的博士生,研究方向涉及自然語言生成和文本推理,與博士生趙學(xué)亮共同師從孔令鵬教授。Leyang Cui 和 Wei Bi 是騰訊高級研究員。

前言

大型語言模型(LLMs)在解決問題方面的非凡能力日益顯現(xiàn)。最近,一個(gè)值得關(guān)注的現(xiàn)象是,這些模型在多項(xiàng)數(shù)學(xué)推理的基準(zhǔn)測試中獲得了驚人的成績。以 GPT-4 為例,在高難度小學(xué)應(yīng)用題測試集 GSM8K [1] 中表現(xiàn)優(yōu)異,準(zhǔn)確率高達(dá) 90% 以上。同時(shí),許多開源模型也展現(xiàn)出了不俗的實(shí)力,準(zhǔn)確率超過 80%。

然而在使用中我們經(jīng)常會(huì)發(fā)現(xiàn),當(dāng)數(shù)學(xué)問題稍作改變時(shí),LLMs 可能會(huì)出現(xiàn)一些低級錯(cuò)誤,如下圖所示:

圖片

圖 1:GPT-3.5-Turbo 正確解答了一個(gè)數(shù)學(xué)問題(左),但當(dāng)在原問題的基礎(chǔ)上添加一個(gè)限制條件(右)時(shí),Turbo 因?yàn)闆]有正確區(qū)分 “離開” 和 “返回” 的方向,而誤用運(yùn)算符出錯(cuò)。

我們不禁要問:大型語言模型是否真的掌握了數(shù)學(xué)知識的精髓?它們是如何在這些測試中取得如此高分的?難道僅僅是因?yàn)槟7铝舜罅坑?xùn)練數(shù)據(jù)中的表面推理模式嗎?LLMs 是否真正理解數(shù)學(xué)概念,仍是一個(gè)值得探討的問題。

為了探究這一問題,本文作者設(shè)計(jì)了一個(gè)評估基準(zhǔn) GSM-Plus。這個(gè)測試旨在對一個(gè)問題進(jìn)行 8 種不同的細(xì)粒度數(shù)學(xué)變換,系統(tǒng)地評估當(dāng)前 LLMs 在處理基礎(chǔ)數(shù)學(xué)應(yīng)用題時(shí)的能力。在這一全新的基準(zhǔn)測試中,論文對 25 個(gè)不同的 LLMs 進(jìn)行了嚴(yán)格評測,包括業(yè)界的開源和閉源模型。

實(shí)驗(yàn)結(jié)果表明,對于大多數(shù) LLMs 來說,GSM-Plus 是一個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的準(zhǔn)確率,但在 GSM-Plus 上僅能達(dá)到 61.19% 的準(zhǔn)確率。本文工作已經(jīng)以4,4, 4.5分被ACL2024錄用。

圖片


  • 論文標(biāo)題:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
  • 論文地址:https://arxiv.org/pdf/2402.19255
  • 論文主頁:https://qtli.github.io/GSM-Plus/

背景

數(shù)學(xué)推理是人工智能發(fā)展的重要證明。它需要嚴(yán)格的問題理解、策略制定和計(jì)算執(zhí)行能力。在過去幾年中,諸多公開數(shù)據(jù)集被用于評估人工智能系統(tǒng)的數(shù)學(xué)推理能力。早期的數(shù)學(xué)數(shù)據(jù)集側(cè)重于基于方程的數(shù)學(xué)問題。隨后,更難的數(shù)據(jù)集被引入,涵蓋了小學(xué)、高中和大學(xué)水平的數(shù)學(xué)問題。

隨著評測數(shù)據(jù)難度的不斷提高,LLMs 的發(fā)展也變得十分迅速。為了提升 LLMs 在數(shù)學(xué)領(lǐng)域的性能,可以通過在多樣化的任務(wù)數(shù)據(jù)上進(jìn)行訓(xùn)練,使用監(jiān)督微調(diào)(SFT)來快速幫助 LLMs 適應(yīng)到數(shù)學(xué)領(lǐng)域。在推理階段,通過設(shè)計(jì)巧妙的輸入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激發(fā) LLMs 的數(shù)學(xué)能力。

對于大多數(shù) LLMs 而言,面對高中及以上的數(shù)學(xué)問題仍有很大的提升空間。然而,在小學(xué)數(shù)學(xué)領(lǐng)域,LLMs 已經(jīng)展現(xiàn)出巨大的潛力。這讓我們不禁思考,在現(xiàn)實(shí)環(huán)境中 LLMs 是否能依然保持高性能?

對抗性評測數(shù)據(jù)集 GSM-Plus

本研究旨在推出一個(gè)綜合性基準(zhǔn)測試 GSM-Plus,以系統(tǒng)地檢驗(yàn) LLMs 在解決基礎(chǔ)數(shù)學(xué)問題時(shí)的魯棒性。受 Polya 原則 [2] 中解決數(shù)學(xué)問題的能力分類法的啟發(fā),本文確定了五個(gè)方面的指導(dǎo)原則用于構(gòu)建 GSM-Plus 數(shù)據(jù)集:

為了便于理解,此處以「 珍妮特的鴨子每天下 16 個(gè)蛋。她每天早上吃三個(gè)蛋作為早餐,并且用四個(gè)蛋烤松餅給她的朋友。她每天以每個(gè)鴨蛋 2 美元的價(jià)格在農(nóng)貿(mào)市場出售剩余的蛋。她每天在農(nóng)貿(mào)市場上賺多少美元?」問題為例。

(1)數(shù)值變化:指改變數(shù)值數(shù)據(jù)或其類型,本文定義了三個(gè)子類別:

  • 數(shù)值替換:在同等數(shù)位和類型下替換數(shù)值,例如將問題中的 “16” 替換為 “20”。
  • 數(shù)位擴(kuò)展:增加數(shù)值的位數(shù),例如將 “16” 替換為 “1600”。
  • 整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換:將整數(shù)更換為小數(shù)或分?jǐn)?shù),例如將 “2” 轉(zhuǎn)換為 “2.5”。

(2)算術(shù)變化:指對數(shù)學(xué)問題引入額外的運(yùn)算或者進(jìn)行反轉(zhuǎn),但只限于加、減、乘、除運(yùn)算:

  • 運(yùn)算擴(kuò)充:在原問題基礎(chǔ)上增加限制條件。例如,增加新條件“她每天還會(huì)使用兩個(gè)雞蛋自制發(fā)膜”。
  • 運(yùn)算逆轉(zhuǎn):將原問題的某個(gè)已知條件轉(zhuǎn)換為 GSM-Plus 變體問題的待求解變量。例如,圖 2 中原問題的陳述 “每個(gè)鴨蛋 2 美元” 轉(zhuǎn)換為新問題的疑問句 “每個(gè)鴨蛋的價(jià)格是多少?”,而原問題疑問句” 每天在農(nóng)貿(mào)市場上賺多少美元?” 則轉(zhuǎn)換為新問題的已知條件” 她每天在農(nóng)貿(mào)市場賺 18 美元”

(3)問題理解:指在意思不變的前提下,用不同詞句重新表述數(shù)學(xué)問題,如” 珍妮特養(yǎng)了一群鴨子,這些鴨子每天產(chǎn) 16 個(gè)鴨蛋。她早餐消耗三個(gè)鴨蛋,然后消耗四個(gè)鴨蛋烤松餅給她的朋友。珍妮特在農(nóng)貿(mào)市場上以每個(gè)新鮮的鴨蛋 2 美元的價(jià)格將剩余的鴨蛋全部出售。她每天通過在農(nóng)貿(mào)市場出售鴨蛋賺多少錢?”

(4)干擾項(xiàng)插入:指將與主題相關(guān)、包含數(shù)值但對求解無用的句子插入到原問題中,如” 珍妮特還想用兩個(gè)鴨蛋喂養(yǎng)她的寵物鸚鵡,所幸她的鄰居每天送她兩個(gè)鴨蛋用于喂養(yǎng)鸚鵡”。

(5)批判性思維:側(cè)重于當(dāng)數(shù)學(xué)問題缺乏必要條件時(shí),LLMs 是否具有提問或懷疑能力,例如” 珍妮特的鴨子每天都會(huì)下蛋。她每天早上吃三個(gè)蛋作為早餐,并且每天用四個(gè)蛋烤松餅給她的朋友。她每天以每個(gè)鴨蛋 2 美元的價(jià)格在農(nóng)貿(mào)市場出售剩余的蛋。她每天在農(nóng)貿(mào)市場上賺多少美元?”。

基于 GSM8K 的 1,319 個(gè)測試問題,本文為每個(gè)問題創(chuàng)建了八個(gè)變體,從而生成了包含 10,552 個(gè)問題變體的 GSM-Plus 數(shù)據(jù)集(本文還提供了一個(gè)包含 2,400 個(gè)問題變體的測試子集,以便快速評測)。通過使用每個(gè)問題及其八個(gè)變體測試 LLMs,GSM-Plus 可以幫助研究人員全面評估 LLMs 在解決數(shù)學(xué)問題中的魯棒性。

圖片

圖 2:基于一個(gè)種子數(shù)學(xué)題,使用 5 個(gè)角度的 8 種擾動(dòng)生成問題變體。主要修改內(nèi)容以綠色標(biāo)出。

通過使用 GSM-Plus 評估 25 個(gè)不同規(guī)模、不同預(yù)訓(xùn)練方式、不同任務(wù)微調(diào)的 LLMs,以及組合 4 種常用的提示技術(shù),本文發(fā)現(xiàn) LLMs 整體上可以準(zhǔn)確解決 GSM8K 問題,但在回答 GSM-Plus 中的變體問題時(shí)會(huì)遇到明顯困難。主要發(fā)現(xiàn)如下:

  • 任務(wù)特定的優(yōu)化,即在數(shù)學(xué)相關(guān)的數(shù)據(jù)集上微調(diào),通??梢蕴岣呦掠稳蝿?wù)準(zhǔn)確性;而魯棒性的高低更多地取決于基礎(chǔ)模型和微調(diào)數(shù)據(jù)集的選擇。
  • 當(dāng)需要 “批判性思維”、涉及 “算術(shù)變化” 和 “干擾因素插入” 時(shí),LLMs 的性能會(huì)迅速下降;但對于 “數(shù)值變化” 和 “問題理解” 的擾動(dòng),LLMs 的性能比較穩(wěn)定。
  • 先前的提示技術(shù)(例如,CoT,PoT,LtM 和 Complexity-based CoT)對于魯棒性增強(qiáng)作用不顯著,特別是對于 “算術(shù)變化 “和” 批判性思維”。在前人工作的基礎(chǔ)上,本文進(jìn)一步探索了一種組合提示方法,通過迭代生成和驗(yàn)證每個(gè)推理思維,可以同時(shí)提升 LLMs 在 GSM8K 和 GSM-Plus 上的性能。  

GSM-Plus 特點(diǎn)

  1. 質(zhì)量保證:采用兩階段生成 GSM-Plus 評測題。首先,利用 GPT-4 的問題改寫能力生成問題變體,然后為這些變體生成候選答案;為確保數(shù)據(jù)質(zhì)量,所有由 GPT-4 生成的問題變體和答案都要經(jīng)過人工標(biāo)注團(tuán)隊(duì)進(jìn)行嚴(yán)格檢查。人工標(biāo)注團(tuán)隊(duì)修正了 18.85% 的 GPT-4 改寫的問題。
  2. 細(xì)粒度評估:對于主流評測數(shù)據(jù)集 GSM8K 的每個(gè)測試題,GSM-Plus 提供了 8 個(gè)擾動(dòng)方向的變體問題,充分測試了在不同上下文下,大模型靈活解決數(shù)學(xué)應(yīng)用題的能力。
  3. 挑戰(zhàn)性:相比于 GSM8K,GSM-Plus 的問題變體更具挑戰(zhàn)性,所有參與評估的 LLMs 的性能都顯著下降。在接下來的分析中,本文會(huì)特別分析 LLMs 在不同類型擾動(dòng)下的解題魯棒性。

與其他小學(xué)數(shù)學(xué)應(yīng)用題數(shù)據(jù)的比較

圖片

表 1:不同顏色代表不同的擾動(dòng)類型:圖片數(shù)值替換,圖片數(shù)位擴(kuò)展,圖片整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換,圖片運(yùn)算擴(kuò)充,圖片運(yùn)算逆轉(zhuǎn),圖片問題理解,圖片干擾項(xiàng)插入,圖片批判性思維。

從上表可以看出,先前的研究使用不同的擾動(dòng)來檢驗(yàn)數(shù)學(xué)推理的魯棒性,但是評估設(shè)置僅涵蓋部分?jǐn)_動(dòng)類型,且大多是通過自動(dòng)方法構(gòu)建引入擾動(dòng),質(zhì)量難以保證。相比之下,GSM-Plus 使用八種不同的數(shù)學(xué)推理技能對單一問題進(jìn)行擾動(dòng),覆蓋面更全,且經(jīng)過嚴(yán)格的質(zhì)量控制。

實(shí)驗(yàn)分析

評測指標(biāo)

  • 性能下降率(PDR):與原問題相比,LLMs 在擾動(dòng)后的問題上的性能下降程度。
  • 同時(shí)解決的問題對的百分比(ASP):原問題及其對應(yīng)的某個(gè)問題變體均被 LLMs 正確解答的比例。

整體性能

如下表所示,相較于 GSM8K,大多數(shù) LLMs 在 GSM-Plus 上的性能都大幅下降。 

GPT-4 表現(xiàn)出最高的魯棒性,其 PDR 最小僅為 8.23%。而 CodeLlama 的 PDR 最大,其中 7B、13B 和 34B 的模型分別為 40.56%、39.71%和 34.27%,超過了其基座模型 LLaMA-2-7B(39.49%),以及在其上微調(diào)的數(shù)學(xué) SFT 模型,如 SEGO-7B(34.91%)。這表明僅使用程序語言推理對于擾動(dòng)是很脆弱的。

在面對數(shù)學(xué)擾動(dòng)時(shí),模型規(guī)模越大,性能越穩(wěn)定。雖然監(jiān)督微調(diào)可以提高在下游任務(wù)上的準(zhǔn)確率,但并不能顯著增強(qiáng)模型對于擾動(dòng)的魯棒性(即更低的 PDR)。監(jiān)督微調(diào)的數(shù)據(jù)對于魯棒性非常重要。同樣是基于 LLaMA-2 進(jìn)行微調(diào),使用不同的數(shù)據(jù),會(huì)導(dǎo)致模型的準(zhǔn)確率和魯棒性具有較大差異。

圖片

表 2:整體性能

細(xì)粒度實(shí)驗(yàn)分析

不同擾動(dòng)下 LLMs 的性能表現(xiàn)

本文進(jìn)一步評估了 LLMs 在 8 種問題變體下的性能穩(wěn)定性。與人類基線相比,對于 “批判性思維”(紫色)、“運(yùn)算擴(kuò)充” 和 “運(yùn)算逆轉(zhuǎn)”(藍(lán)色)、“干擾項(xiàng)插入”(粉色)以及 “整數(shù) - 小數(shù) - 分?jǐn)?shù)轉(zhuǎn)換”(橙色)擾動(dòng),LLMs 性能下降明顯。而對于 “數(shù)值替換” 和 “問題理解”,LLMs 的性能穩(wěn)定,甚至有輕微的提升。

圖片

圖 3:細(xì)粒度實(shí)驗(yàn)分析

數(shù)學(xué)推理能力的遷移性

前面的分析主要基于數(shù)據(jù)集整體。接下來,本文根據(jù)數(shù)學(xué)題是否被正確回答將 2 個(gè)數(shù)據(jù)集分割,分析當(dāng) LLMs 成功解決 GSM8K 問題時(shí),是否意味著正確回答 GSM-Plus 變體問題的可能性變高(即高 ASP 值),反之亦然。如果這種斷言成立,可以認(rèn)為 LLMs 在這類特定的數(shù)學(xué)題子集上性能穩(wěn)定,即使在整個(gè)數(shù)據(jù)集上并非如此。在實(shí)驗(yàn)設(shè)置中,每個(gè) GSM8K 問題及其在 GSM-Plus 中的變體轉(zhuǎn)化為 8 個(gè)問題對,結(jié)果如圖 4 所示。

圖片

圖 4:LLMs 在 GSM8K 和 GSM-Plus 問題對之間的推理可遷移性。紫色(均正確)和藍(lán)色(均錯(cuò)誤)的條形圖表示一致的模型行為,而紅色(GSM8K 正確 & GSM-Plus 錯(cuò)誤)和黃色(GSM8K 錯(cuò)誤 & GSM-Plus 正確)的條形圖則表示不一致的模型行為。紫色和紅色條形圖的高度和表示 LLMs 正確解決 GSM8K 問題的數(shù)量。

紅色條形圖的存在(LLMs 正確回答原問題,但未解決變體問題),表明大多數(shù)模型的性能可遷移性有限。雖然 LLMs 在 GSM8K 問題上性能有所差異(紫色和紅色條形圖的高度),但性能可遷移性相似(紅色條形圖的高度)。這意味著現(xiàn)有的基準(zhǔn)測試無法準(zhǔn)確評估模型在數(shù)學(xué)推理方面的真實(shí)能力。高準(zhǔn)確率并不等價(jià)于強(qiáng)大的推理魯棒性。

提示對于 LLMs 性能魯棒性的幫助

先前的工作表明,良好的提示指令對于激發(fā)語言模型的數(shù)學(xué)能力十分重要。本文選擇了 4 個(gè)代表性模型,并測試它們在不同的提示指令下解題的表現(xiàn)。如下圖所示,當(dāng)面對干擾時(shí),使用復(fù)雜的示例作為上下文演示(Complexity-based CoT)時(shí),LLMs 表現(xiàn)最為穩(wěn)定;相比之下,僅使用程序語言表示中間推理(Program-of-Thought)時(shí),LLMs 更容易受到干擾的影響??傮w而言,這些提示技巧都不足以讓 LLMs 在 GSM-Plus 上維持與 GSM8K 相同的性能。

圖片

圖 5:提示對于 LLMs 性能魯棒性的影響

組合提示是否有效?

如何基于現(xiàn)有的提示方法增強(qiáng) LLMs 的魯棒性呢?本文發(fā)現(xiàn) LLMs 在解題過程中常常會(huì)忽略重要條件或出現(xiàn)計(jì)算錯(cuò)誤。為此,本文探索了一種組合提示方法 Comp。該方法首先提示 LLMs 提取問題中與數(shù)值相關(guān)的必要條件(Prompt1)。接著,根據(jù)問題和關(guān)鍵條件,指示 LLMs 迭代地生成推理目標(biāo)(Prompt2)和計(jì)算目標(biāo)(Prompt3),并讓其為生成的歷史解題步驟提供反饋,以確定是否獲得了最終答案(Prompt4)。具體實(shí)現(xiàn)如圖 6 所示。

圖片

圖 6:Comp 迭代提示方式的示意圖

可以看出,Comp 通過迭代生成和自我驗(yàn)證可以改善 LLMs 在各種問題變化類型下的性能,但它仍然無法彌合 LLMs 在標(biāo)準(zhǔn)測試集和對抗性測試集之間的性能差距。該研究期待未來有更多的方法進(jìn)一步提升模型的魯棒性,推動(dòng) LLMs 在數(shù)學(xué)推理領(lǐng)域的進(jìn)一步發(fā)展。

圖片

表 3:Comp 迭代提示的性能

生成示例

下圖展示了在 GSM8K 問題和基于 “運(yùn)算逆轉(zhuǎn)” 的 GSM-Plus 改寫問題上,不同提示技術(shù)下 GPT-3.5-Turbo 的表現(xiàn)。雖然所有提示都可以激發(fā) Turbo 準(zhǔn)確回答 GSM8K 問題,但只有 Comp 能夠幫助 Turbo 在 GSM-Plus 變體問題上生成正確的答案。

圖片

圖 7:在不同提示設(shè)置下,模型回答數(shù)學(xué)問題的示例

結(jié)語

本文介紹了一個(gè)對抗性小學(xué)數(shù)學(xué)應(yīng)用題評測集 GSM-Plus,旨在系統(tǒng)分析 LLMs 在解決數(shù)學(xué)應(yīng)用題中的魯棒性。實(shí)驗(yàn)分析發(fā)現(xiàn),大多數(shù) LLMs 在面臨擾動(dòng)時(shí),性能相較于它們在標(biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)顯著下降,遠(yuǎn)遠(yuǎn)達(dá)不到人類的表現(xiàn)水平。研究者期望本文的工作能夠促進(jìn)更多未來研究,包括但不限于:(1)對 LLMs 的數(shù)學(xué)技能進(jìn)行系統(tǒng)評估;(2)構(gòu)建能夠靈活進(jìn)行數(shù)學(xué)推理的模型。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-03-02 22:46:48

2024-06-13 09:12:48

2024-08-01 12:44:58

2023-07-05 09:57:11

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-06-14 11:31:34

OpenAI聊天機(jī)器人

2023-09-20 08:55:00

模型工具

2023-12-26 08:17:23

微軟GPT-4

2023-02-16 13:48:56

模型論文

2023-12-20 15:32:02

模型數(shù)據(jù)

2023-07-10 15:22:29

OpenAIGPT-3.5

2023-08-23 12:17:26

OpenAIChatGPT

2023-07-07 10:03:04

2023-05-08 09:36:20

實(shí)測模型

2023-06-14 23:40:35

ChatGPTOpenAIGPT-4

2024-03-27 15:37:24

2023-09-06 16:44:03

2024-01-02 06:30:58

ChatGPTGPT-3.5

2024-02-02 14:29:11

GPT-4模型App

2023-06-14 11:21:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號