偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

輕松拿捏高等數(shù)學(xué),LLM平均得分90+!GPT-4o、Mistral幾乎沒錯(cuò)

人工智能 新聞
在32道高等數(shù)學(xué)測(cè)試中,LLM表現(xiàn)出色,平均能得分90.4(按百分制計(jì)算)。GPT-4o和Mistral AI更是幾乎沒錯(cuò)!向量計(jì)算、幾何分析、積分計(jì)算、優(yōu)化問題等,高等AI模型輕松拿捏。研究發(fā)現(xiàn),再提示(Re-Prompting)對(duì)提升準(zhǔn)確率至關(guān)重要。

朋友會(huì)離開你,兄弟會(huì)背叛你。

數(shù)學(xué)不會(huì),數(shù)學(xué)不會(huì)就是不會(huì)。

相信學(xué)不好高等數(shù)學(xué)的人,對(duì)上面這個(gè)梗深有感悟。

數(shù)學(xué)不會(huì)好像是真不會(huì):出口成章也好,身體素質(zhì)驚人也好,面對(duì)微積分,能有什么招?

那大語言模型(LLMs)是不是也是一個(gè)偏科生呢?

最新研究用32道測(cè)試題,總計(jì)320分,涵蓋4大主題:向量計(jì)算、幾何分析、積分計(jì)算、優(yōu)化問題,評(píng)估了AI模型在高等數(shù)學(xué)的表現(xiàn)。

總體而言,結(jié)果表明LLM高等數(shù)學(xué)不錯(cuò),平均得分為90.4(按百分制計(jì)算):

-ChatGPT 4o和Mistral AI在不同類型的數(shù)學(xué)問題上表現(xiàn)穩(wěn)定,準(zhǔn)確率較高,展現(xiàn)出較強(qiáng)的數(shù)學(xué)推理能力和可靠性。

-Gemini Advanced(1.5 Pro)和Meta AI在某些積分和優(yōu)化問題上表現(xiàn)較弱,顯示出需要針對(duì)性優(yōu)化的領(lǐng)域。

其中, ChatGPT 4o和Mistral  AI表現(xiàn)優(yōu)異,并列第一:

圖片

圖片

有7款A(yù)I模型參與了測(cè)試:ChatGPT 4o、Gemini Advanced(1.5 Pro)、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。

此外,研究發(fā)現(xiàn)再提示(Re-Prompting)對(duì)提升準(zhǔn)確率至關(guān)重要。

某些情況下,模型首次回答錯(cuò)誤,但在重新提示后能夠修正答案,這表明改進(jìn)交互方式可提升模型解題效果。

新研究對(duì)教育工作者、研究人員和開發(fā)者在數(shù)學(xué)教育與實(shí)踐應(yīng)用中的LLM選擇具有重要參考價(jià)值,同時(shí)也為LLM技術(shù)的進(jìn)一步優(yōu)化和發(fā)展提供了關(guān)鍵的靈感。

圖片

論文鏈接:https://arxiv.org/abs/2503.03960

LLM在微積分能帶來什么驚喜?

微積分以其復(fù)雜的概念和嚴(yán)謹(jǐn)?shù)慕忸}方法,是測(cè)試LLM能力極限的理想領(lǐng)域。

解決微積分問題不僅需要計(jì)算的準(zhǔn)確性,還要求模型具備深厚的數(shù)學(xué)原理理解能力、邏輯推理能力,以及將理論概念應(yīng)用于實(shí)際問題的能力。

圖片

新研究所選問題涵蓋微積分的多個(gè)重要主題,包括向量分析、幾何解釋、積分計(jì)算和優(yōu)化問題。

通過評(píng)估這些模型在解題過程中的表現(xiàn),希望識(shí)別它們的優(yōu)勢(shì)、劣勢(shì)和可改進(jìn)之處,從而推動(dòng)更強(qiáng)大、更可靠的LLM技術(shù)的發(fā)展。

隨著教育機(jī)構(gòu)和工業(yè)界越來越多地探索AI技術(shù)的應(yīng)用,深入了解LLM在處理復(fù)雜數(shù)學(xué)問題方面的能力和局限性變得至關(guān)重要。

新研究的分析結(jié)果對(duì)多個(gè)群體具有重要價(jià)值,包括開發(fā)AI輔助學(xué)習(xí)工具的教育工作者、致力于提升LLM能力的研究人員,以及希望在實(shí)際應(yīng)用中部署這些技術(shù)的從業(yè)者。

此外,本研究還回應(yīng)了對(duì)AI模型在專業(yè)領(lǐng)域進(jìn)行系統(tǒng)評(píng)估的日益增長的需求。

通過精心設(shè)計(jì)的一組測(cè)試題和詳細(xì)的評(píng)分體系,本研究為評(píng)估LLM在數(shù)學(xué)問題求解方面的表現(xiàn)提供了一種方法論框架。

此外,本研究還引入了重新提示(re-prompting)機(jī)制,并對(duì)錯(cuò)誤模式進(jìn)行了深入分析,以探討模型的學(xué)習(xí)能力以及提高其準(zhǔn)確性和可靠性的潛在策略。這些研究結(jié)果有助于更全面地理解LLM在數(shù)學(xué)推理中的優(yōu)勢(shì)和局限性,并為未來的優(yōu)化提供有價(jià)值的參考。

研究方法

大型語言模型(LLMs)在架構(gòu)和訓(xùn)練方法上,大多集中在語言處理任務(wù)上,但也各具特色:

ChatGPT 4o以其先進(jìn)的自然語言理解和生成能力而聞名;

Gemini Advanced with 1.5 Pro旨在處理高性能語言任務(wù);

Copilot Pro專注于編程和數(shù)學(xué)問題求解;

Claude 3.5 Sonnet強(qiáng)調(diào)準(zhǔn)確且具上下文意識(shí)的文本生成;

Meta AI旨在提供多功能的語言理解和生成;

Mistral AI以其高效且精準(zhǔn)的語言處理能力著稱;

Perplexity則專為復(fù)雜問題求解和推理任務(wù)設(shè)計(jì)。

現(xiàn)在就關(guān)心一個(gè)問題:這些模型高等數(shù)學(xué)到底會(huì)不會(huì)?

這次評(píng)估共涉及32道測(cè)試題,總分320分。

如果模型在首次嘗試中給出正確答案,則得10分;如果在第二次嘗試中找到正確答案,則得5分。

測(cè)試題涵蓋多個(gè)微積分主題,包括:向量計(jì)算與幾何解釋、積分計(jì)算及其應(yīng)用、優(yōu)化問題與約束優(yōu)化、微分方程及其應(yīng)用以及高級(jí)微積分概念(如格林定理、曲線積分等)。

模型的評(píng)估主要基于兩個(gè)核心標(biāo)準(zhǔn):

  1. 準(zhǔn)確性(Accuracy)——指模型給出的答案是否正確。
  2. 解題過程(Step-by-Step Explanation)——指模型是否能夠提供清晰、正確的解題步驟。

為了進(jìn)一步測(cè)試模型的錯(cuò)誤修正能力,本研究引入了重新提示(re-prompting)機(jī)制。

如果模型首次解答錯(cuò)誤,則會(huì)再次提示它解決該問題,并對(duì)修正后的答案進(jìn)行評(píng)估。該機(jī)制有助于更全面地分析模型的問題解決能力及其從錯(cuò)誤中學(xué)習(xí)和修正答案的能力。

測(cè)試結(jié)果

總體來看,所有LLM的平均得分為90.4(按百分制計(jì)算),顯示出較強(qiáng)的整體表現(xiàn)。其中ChatGPT 4o和Mistral AI得分310,并列第一,具體結(jié)果如下:

圖片

ChatGPT 4o和Mistral AI等模型展現(xiàn)出了較高的準(zhǔn)確性和精確度,而其他模型在某些類型的問題上表現(xiàn)較為吃力。

比如,在關(guān)于向量分解的問題上,所有模型都正確計(jì)算了一個(gè)向量在另一個(gè)向量上的投影以及正交分量,表明它們?cè)谔幚硐蛄糠纸鈫栴}時(shí)具有較高的準(zhǔn)確性和穩(wěn)定性。

找到向量u=3i?5j+2k在向量v=7i+j?2k上的投影,以及u中與v正交的分量,顯示所有步驟。

圖片

然而,不同模型在具體問題的解答能力上仍存在明顯差異。

比如,求正交向量上,只有Claude 3.5 Sonnet最初回答錯(cuò)誤,但在重提示后糾正了錯(cuò)誤。

求一個(gè)同時(shí)正交于向量u=?4,?3,1?和v=?2,5,3?的單位向量,并展示所有步驟。

圖片

而在優(yōu)化領(lǐng)域的求極值上,谷歌的Gemini Adavnced with 1.5 Pro直接翻車,提示它錯(cuò)誤后,沒有改正過來,兩次持續(xù)出錯(cuò),暴露了其在優(yōu)化問題上的特定弱點(diǎn)。

檢查函數(shù)的相對(duì)極值和鞍點(diǎn):f(x, y)=-5x^2+4xy-y^2+16x+10。并給出全部步驟。

圖片

Meta AI在求一道積分問題上,回答錯(cuò)誤;而ChatGPT 4o經(jīng)過再提示后,幾乎不會(huì)出錯(cuò)。

總體二樣,大語言模型,在微積分測(cè)試中的表現(xiàn)存在差異。

其他20多個(gè)問題的具體測(cè)試結(jié)果,請(qǐng)參考原文。

結(jié)果分析

對(duì)LLMs在微積分測(cè)試中的表現(xiàn)分析揭示了多個(gè)關(guān)鍵見解和趨勢(shì),這對(duì)于理解它們?cè)跀?shù)學(xué)問題求解中的能力和局限性至關(guān)重要。

ChatGPT 4o和Mistral AI以96.9%的得分并列第一,表現(xiàn)最優(yōu)。

ChatGPT 4o在廣泛的問題類型中均表現(xiàn)出色,展現(xiàn)了其強(qiáng)大的數(shù)學(xué)推理能力。而Mistral AI在向量微積分和多元微積分方面表現(xiàn)尤為突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表現(xiàn)相同,得分均為87.5%。

LLM的優(yōu)勢(shì)

簡單問題的穩(wěn)定性:ChatGPT 4o 和Mistral AI在解答基礎(chǔ)性問題(如向量計(jì)算、幾何解釋和基本求導(dǎo))時(shí)展現(xiàn)出一致的準(zhǔn)確性。這表明它們?cè)谔幚砘A(chǔ)微積分概念方面具備較強(qiáng)的穩(wěn)健性和可靠性。

重新提示(Re-prompting)的有效性:在多次測(cè)試中,某些模型最初給出的答案錯(cuò)誤,但在重新提示后成功修正。這表明通過迭代提問和反饋機(jī)制可以有效提升模型的表現(xiàn)。

特定領(lǐng)域的高準(zhǔn)確性:在涉及方向余弦、偏導(dǎo)數(shù)、曲線積分等問題時(shí),所有模型的解答均正確。這表明它們?cè)谶@些微積分專題上具備較強(qiáng)的共識(shí)和理解能力。

LLM的劣勢(shì)

復(fù)雜積分計(jì)算:在處理復(fù)雜積分(如迭代積分、三重積分和曲線下區(qū)域面積計(jì)算)時(shí),模型普遍表現(xiàn)不佳。這表明它們?cè)谖⒎e分求解方面仍有待改進(jìn)。

優(yōu)化問題:部分模型(尤其是Gemini Advanced with 1.5 Pro)在求解優(yōu)化問題時(shí)表現(xiàn)較弱,尤其是在相對(duì)極值和鞍點(diǎn)的識(shí)別方面存在困難,說明其優(yōu)化技術(shù)仍需加強(qiáng)。

持續(xù)性錯(cuò)誤:某些模型在特定問題上反復(fù)出錯(cuò)。例如,Meta AI在積分計(jì)算上存在較大困難,而Gemini Advanced with 1.5 Pro在梯度計(jì)算上表現(xiàn)不佳。這些持續(xù)性錯(cuò)誤表明其算法可能需要進(jìn)一步優(yōu)化。

重新提示(Re-prompting)的重要性

本研究強(qiáng)調(diào)了重新提示機(jī)制在提高解題準(zhǔn)確性方面的重要作用。

多個(gè)模型在第一次解答錯(cuò)誤后,通過重新提示成功修正答案。

這表明迭代提問和反饋機(jī)制可以顯著提高模型的解題能力,尤其是在復(fù)雜問題上,初始錯(cuò)誤的可能性更大,而重新提示可以提高最終正確率。

對(duì)LLM發(fā)展的啟示

本研究對(duì)各模型的表現(xiàn)進(jìn)行了詳細(xì)分析,為LLM技術(shù)的持續(xù)優(yōu)化提供了有價(jià)值的見解。

研究結(jié)果揭示了當(dāng)前LLM的優(yōu)勢(shì)與不足,為未來的定向改進(jìn)提供了清晰的路線圖,尤其是在以下幾個(gè)方面:復(fù)雜積分計(jì)算、優(yōu)化問題求解、梯度計(jì)算的精確性。

如果開發(fā)者能針對(duì)這些弱點(diǎn)進(jìn)行優(yōu)化,在數(shù)學(xué)問題求解中,將有助于提升LLM的整體性能和可靠性。

本研究的結(jié)果對(duì)教育工作者、研究人員和開發(fā)者都具有重要意義,尤其是在數(shù)學(xué)教育和實(shí)際應(yīng)用方面:

  • 表現(xiàn)優(yōu)異的模型(如ChatGPT 4o 和 Mistral AI):展現(xiàn)出了較強(qiáng)的數(shù)學(xué)問題求解能力,使它們成為可靠的數(shù)學(xué)輔助工具,可應(yīng)用于教育領(lǐng)域。
  • 其他模型的不足:指明了改進(jìn)方向,為LLM技術(shù)的進(jìn)一步優(yōu)化提供了參考。未來,隨著LLM在數(shù)學(xué)領(lǐng)域的不斷進(jìn)步,它們有望成為更強(qiáng)大、更可靠的數(shù)學(xué)教育和問題求解工具,在教學(xué)、科研和工業(yè)應(yīng)用等多個(gè)領(lǐng)域發(fā)揮重要作用。


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2025-03-04 08:40:00

AI游戲訓(xùn)練

2024-05-24 14:04:04

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2025-04-08 02:26:00

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2025-05-26 09:05:00

2024-05-24 13:32:59

2024-09-09 08:23:05

大型語言模型LLMGPT-4o

2024-05-30 12:50:05

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2024-05-30 13:13:43

2024-05-14 11:29:15

2024-08-14 14:30:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)