偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

賈佳亞團(tuán)隊(duì)新作:10k數(shù)據(jù)讓大模型數(shù)學(xué)能力超GPT-4

人工智能 新聞
如何強(qiáng)化推理能力,一直是大語(yǔ)言模型領(lǐng)域的重要問(wèn)題之一。

只要10k數(shù)據(jù),就能讓大模型的數(shù)學(xué)成績(jī)?cè)鲩L(zhǎng)5.6%。

港中文賈佳亞團(tuán)隊(duì)推出了基于推理步驟的大模型優(yōu)化策略,能夠像老師教學(xué)生一樣優(yōu)化大模型。

利用這種方法,72B Qwen模型的數(shù)學(xué)成績(jī)超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一眾閉源模型。

圖片

老師在糾正學(xué)生錯(cuò)誤時(shí),不會(huì)只告訴學(xué)生最終答案錯(cuò)了,還會(huì)告知具體哪個(gè)步驟錯(cuò)了,以此快速糾正其錯(cuò)誤。

賈佳亞團(tuán)隊(duì)正是學(xué)習(xí)了這一特點(diǎn),將斯坦福團(tuán)隊(duì)推出的DPO(直接偏好優(yōu)化)進(jìn)一步細(xì)化,形成了逐步應(yīng)用的策略Step-DPO

該方法讓Qwen-72B模型在多個(gè)數(shù)據(jù)集上進(jìn)步明顯,同時(shí)也獲得了更強(qiáng)的長(zhǎng)鏈條推理任務(wù)能力。

像教育學(xué)生一樣訓(xùn)練大模型

如何強(qiáng)化推理能力,一直是大語(yǔ)言模型領(lǐng)域的重要問(wèn)題之一。

常見(jiàn)的思維鏈策略通過(guò)在輸入提示詞部分添加“Let’s think step by step.”,來(lái)使模型在輸出中完成逐步推理,但對(duì)于復(fù)雜的問(wèn)題,僅通過(guò)修改提示詞不足以引導(dǎo)模型正確解決問(wèn)題。

由于復(fù)雜問(wèn)題涉及的推理過(guò)程較長(zhǎng),有時(shí)包含數(shù)十個(gè)推理步驟,一旦其中任一步驟出錯(cuò),就難以得到正確的結(jié)果。

此外,現(xiàn)有方案旨在通過(guò)監(jiān)督式微調(diào)(SFT)階段增加問(wèn)答數(shù)據(jù)以實(shí)現(xiàn)更好的對(duì)齊。

然而,當(dāng)SFT數(shù)據(jù)達(dá)到一定數(shù)量時(shí),模型經(jīng)常出現(xiàn)幻覺(jué),性能也隨之趨于飽和。

一個(gè)潛在的原因是,隨著偏好輸出的概率上升,非偏好輸出的概率也會(huì)隨之增加。

為了抑制幻覺(jué),提升模型的事實(shí)性,斯坦福大學(xué)提出了直接偏好優(yōu)化方法,其工作原理是創(chuàng)建基于人類(lèi)偏好對(duì)的數(shù)據(jù)集,每個(gè)偏好對(duì)都包含一個(gè)輸入提示、偏好輸出以及非偏好輸出。

然后對(duì)語(yǔ)言模型直接進(jìn)行微調(diào),最大限度地提高生成的可能性,并減少輸出的可能性。

因此,DPO的優(yōu)化目標(biāo)為:

圖片

其中πθ與πref分別表示當(dāng)前微調(diào)模型以及參照模型。

但在長(zhǎng)鏈條推理任務(wù)中,DPO無(wú)法準(zhǔn)確判斷推理過(guò)程中的錯(cuò)誤步驟,從而無(wú)法聚焦關(guān)鍵出錯(cuò)步驟。

如下圖所示,基于DPO的模型在訓(xùn)練過(guò)程中無(wú)法準(zhǔn)確判斷推理步驟正確與否。

圖片

因此,作者提出了基于推理步驟的直接偏好優(yōu)化——Step-DPO。

圖片

就像老師在糾正學(xué)生錯(cuò)誤時(shí),不會(huì)只告訴學(xué)生最終答案錯(cuò)了,還會(huì)告知具體哪個(gè)步驟錯(cuò)了,以此快速糾正其錯(cuò)誤。

與此類(lèi)似,Step-DPO不再像DPO從整體上對(duì)比答案,而是將每個(gè)推理步驟視為一個(gè)基本單元,并且對(duì)比單個(gè)推理步驟,從更精細(xì)的角度提升模型的多步推理分析能力。

Step-DPO的優(yōu)化目標(biāo)為:

圖片

除此之外,作者還提出基于模型自生成的數(shù)據(jù)處理流程。如圖所示,該流程包含以下三個(gè)步驟:

圖片

第一步是錯(cuò)誤收集。

首先,給定一組數(shù)學(xué)問(wèn)題D0=(x,y∧),其中x是數(shù)學(xué)問(wèn)題,y∧是其真實(shí)答案。

然后,使用初始模型πref來(lái)得到每個(gè)數(shù)學(xué)問(wèn)題x的答案。

在進(jìn)行模型推理之前,需要添加思維鏈(CoT)前綴作為提示,以確保模型的推理結(jié)果被結(jié)構(gòu)化為多個(gè)推理步驟,每個(gè)步驟均以“Step i:”開(kāi)始。

經(jīng)過(guò)模型推理可得到每個(gè)數(shù)學(xué)問(wèn)題x的推理結(jié)果y,然后選擇與真實(shí)答案y∧不一致的那些結(jié)果,并匯總得到數(shù)據(jù)集D1

圖片

第二步是錯(cuò)誤步驟定位。

每個(gè)錯(cuò)誤推理結(jié)果y都呈現(xiàn)為一系列推理步驟的序列y=s1,s2,…,sn,隨后需要人工或利用GPT-4驗(yàn)證每個(gè)推理步驟的正確性,直到找到第一個(gè)錯(cuò)誤步驟sk,并記錄其步驟編號(hào)。

然后將sk選為錯(cuò)誤的推理步驟slose,從而得到D2

圖片

最后是錯(cuò)誤步驟修正。

為了獲得D2中每個(gè)樣本對(duì)應(yīng)的正確推理步驟,需要對(duì)模型πref進(jìn)行推斷,使用提示x和前面的正確推理步驟s1~k-1來(lái)采樣多個(gè)輸出ycont,此過(guò)程可以表示為:

圖片

隨后保留ycont中那些與真實(shí)答案一致的輸出,并將其中的第一個(gè)推理步驟作為swin,最終得到數(shù)據(jù)集D:

圖片

下圖展示了一個(gè)數(shù)據(jù)樣本示例。值得一提的是,該數(shù)據(jù)準(zhǔn)備流程無(wú)需大量的人工介入,人類(lèi)或GPT-4只需要判斷給定推理步驟是否正確,而無(wú)需親自撰寫(xiě)答案來(lái)修正錯(cuò)誤。

圖片

10k數(shù)據(jù)帶來(lái)數(shù)學(xué)能力大幅提升

Step-DPO可以在SFT模型或現(xiàn)有的開(kāi)源Instruct模型上進(jìn)行微調(diào),僅通過(guò)10K數(shù)據(jù)以及數(shù)百個(gè)訓(xùn)練步數(shù),即可取得大幅度的數(shù)學(xué)能力提升。

如下圖所示,在Qwen2-7B-Instruct模型的基礎(chǔ)上進(jìn)行Step-DPO可在MATH測(cè)試集上獲得5.6%準(zhǔn)確率的提升。

在Qwen2-72B-Instruct模型的基礎(chǔ)上進(jìn)行Step-DPO,可在MATH和GSM8K測(cè)試集的準(zhǔn)確率分別達(dá)到70.8%和94.0%,超過(guò)一系列閉源模型如Gemini-1.5-Pro、GPT-4-1106,以及Claude-3-Opus。

除此之外,在難度較高的包含數(shù)學(xué)競(jìng)賽題的Odyssey-MATH榜單上也有顯著提升。

圖片

經(jīng)過(guò)Step-DPO之后,模型更加魯棒,減少幻覺(jué)的產(chǎn)生,在推理過(guò)程中也不容易出錯(cuò)。如以下兩個(gè)例子所示。

假設(shè)h(x)=f-1(x),如果h(2)=10,h(10)=1,h(1)=2,求f(f(10))。

圖片

t的平方根大于2且小于3.5,滿(mǎn)足這一條件的整數(shù)t有多少個(gè)?

圖片

即便是下圖這道數(shù)學(xué)競(jìng)賽題,經(jīng)過(guò)Step-DPO之后的模型也可以做對(duì)。

在所有非增函數(shù)f:{1,2,…,10}→{1,2,…,10}中,有些函數(shù)有固定點(diǎn),另一些沒(méi)有,這兩種函數(shù)的數(shù)量相差多少?

圖片

目前,該項(xiàng)目的代碼,數(shù)據(jù),模型,Demo均已公開(kāi)至GitHub和Hugging Face,同時(shí)支持在線(xiàn)體驗(yàn)。

論文地址:https://arxiv.org/abs/2406.18629
GitHub:https://github.com/dvlab-research/Step-DPO
在線(xiàn)Demo:http://103.170.5.190:7870/
模型(HF):https://huggingface.co/collections/xinlai/step-dpo-6682e12dfbbb2917c8161df7
數(shù)據(jù)(HF):https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-07-18 12:56:29

2023-10-04 10:38:38

模型方法

2023-05-15 15:38:59

AI模型

2024-02-04 12:22:47

AI數(shù)據(jù)

2023-08-09 17:38:47

模型AI

2024-04-15 12:54:39

2023-12-10 15:05:47

AI模型

2024-05-09 08:33:33

2023-10-19 08:27:31

AI模型

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-01-30 21:18:57

模型智能CMMLU

2023-11-03 13:07:00

AI模型

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2025-01-24 14:14:35

模型框架視頻

2023-12-09 14:30:50

2024-05-20 08:40:00

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2024-04-07 13:40:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)