偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek-R1推理本地跑,7GB GPU體驗啊哈時刻?GRPO內(nèi)存暴降,GitHub超2萬星

人工智能 新聞
黑科技來了!開源LLM微調(diào)神器Unsloth近期更新,將GRPO訓(xùn)練的內(nèi)存使用減少了80%!只需7GB VRAM,本地就能體驗AI「啊哈時刻」。

李飛飛團(tuán)隊僅用16張H100訓(xùn)了26分鐘,訓(xùn)出的模型就超越了o1-preview,震動業(yè)內(nèi)。

可以說,DeepSeek-R1已經(jīng)讓全球AI模型走向了推理新時代。

甚至利用其訓(xùn)練方法GRPO,AI開源界開始了競賽:看誰能用最少的成本,復(fù)現(xiàn)AI的「啊哈時刻」。

而就在剛剛,DeepSeek-R1的推理成本徹底被打下來了!

開源項目Unsloth AI帶來了好消息,不用云服務(wù),本地也能體驗「Aha」 時刻:

現(xiàn)在可以在本地設(shè)備上復(fù)現(xiàn)DeepSeek-R1的推理!

只需7GB VRAM,你就能體驗到「Aha」時刻。

Unsloth把GRPO訓(xùn)練需要的內(nèi)存減少了80%。

15GB VRAM就可以把Llama-3.1(8B)和Phi-4(14B)轉(zhuǎn)變?yōu)橥评砟P汀?/span>

沒有看錯:只需7GB VRAM的GPU,AI模型在本地就能體驗「啊哈時刻」。

什么是AI的「啊哈時刻」?有什么作用?

熟悉AI的都知道,對人類很簡單的問題,對AI可能很難。比如:

9.11和9.9相比,哪個大?

但體驗過「Aha」時刻后,AI模型Phi-4就能完成這類問題:從無推理能力的模型,化身為DeepSeek-R1同款推理模式,帶有原始思維鏈、展示推理過程的那種!

原文鏈接:https://unsloth.ai/blog/r1-reasoning

總之,如果現(xiàn)在你已經(jīng)有輸入和輸出數(shù)據(jù)(比如問題和答案),但沒有CoT或推理過程,那就可以見證GRPO創(chuàng)造的奇跡了——

它能為你創(chuàng)建推理過程,甚至做出更多!

現(xiàn)在,這個方法已經(jīng)在AI社區(qū)爆火,討論的聲浪越來越高了。

Unsloth推出推理功能

DeepSeek的R1研究揭示了「Aha」時刻,通過群體相對策略優(yōu)化(Group Relative Policy Optimization,GRPO),在沒有人類反饋的情況下,R1-Zero自動學(xué)會了如何分配更多的思考時間。

Unsloth對整個GRPO過程進(jìn)行了增強(qiáng),相比Hugging Face+FA2,VRAM使用減少了80%。

這意味著只需7GB VRAM,使用Qwen2.5(1.5B)就能重現(xiàn)R1-Zero的「Aha」時刻。

項目鏈接:https://github.com/unslothai/unsloth

對于包含其他模型的GRPO,參閱下列文檔。

文檔鏈接:https://docs.unsloth.ai/get-started/unsloth-notebooks

此次,unsloth更新主要增強(qiáng)了對DeepSeek-R1-Zero強(qiáng)化學(xué)習(xí)訓(xùn)練方法的GRPO支持,減少了對內(nèi)存的占用。

主要亮點(diǎn)如下:

  1. 15GB VRAM:使用unsloth,你可以將任何最多15B參數(shù)的模型(如Llama 3.1(8B)、Phi-4(14B)、Mistral(7B)或Qwen2.5(7B))轉(zhuǎn)換為推理模型。
  2. 最低僅需7GB VRAM,足以在本地訓(xùn)練你自己的推理模型。
  3. Tiny-Zero團(tuán)隊曾展示過,使用Qwen2.5(1.5B)可以實現(xiàn)「aha」時刻,但需要2個A100 GPU(160GB VRAM)。而現(xiàn)在,借助Unsloth,只需一個7GB VRAM的GPU就能實現(xiàn)相同的效果。
  4. 之前,GRPO僅支持完整微調(diào),但現(xiàn)在已經(jīng)能夠與QLoRA和LoRA配合使用。
  5. 請注意,這并不是微調(diào)DeepSeek-R1蒸餾模型或用R1蒸餾數(shù)據(jù)進(jìn)行調(diào)優(yōu)(Unsloth已經(jīng)支持)。實際上,此項目用GRPO將標(biāo)準(zhǔn)模型轉(zhuǎn)化為「滿血」的推理模型。
  6. GRPO的應(yīng)用場景:帶有獎勵機(jī)制的定制化推理模型,例如法律、醫(yī)學(xué)等領(lǐng)域;其他需要顯示推理鏈或思維過程的場景。

GRPO帶來的「Aha」時刻

在使用純粹的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練R1-Zero時,DeepSeek觀察到了神奇的「啊哈時刻」——

在沒有任何人類的指導(dǎo)或預(yù)定義的指令的情況下,模型竟開始重新評估其初始方法,學(xué)會了延長思考時間。

即便只使用GRPO對Phi-4做100步的訓(xùn)練,結(jié)果也一目了然:未使用GRPO的模型沒有思考token,使用GRPO訓(xùn)練后的模型則具有思考token,而且得出了正確答案!

論文鏈接:https://arxiv.org/pdf/2412.08905

這種「啊哈時刻」表明,GRPO不僅幫助模型提升推理能力,還能讓模型在沒有外部提示的情況下,學(xué)會自我反思和調(diào)整,從而提高問題解決的質(zhì)量。

回到「9.11和9.9哪個大?」的問題,沒有GRPO訓(xùn)練前,Phi-4介紹了如何從左到右按位比較小數(shù),堅持認(rèn)為雖然十分位上1<9,但百分位上1>0,而9.9可以寫作9.90, 所以:「9.11比9.90大」。

經(jīng)過GRPO訓(xùn)練,Phi-4已經(jīng)能正確分析回答此問題了,而且推理過程清晰,嚴(yán)絲合縫——

在推理過程中的第2步,基于十分位的比較,已經(jīng)得出了正確答案;在第3步,依然比較了9.11和9.90的百分位,但這次AI模型發(fā)現(xiàn)比較百分位并不影響在第2步得出的結(jié)果。

Phi-4在GRPO訓(xùn)練前后比較,提示為:「Which is bigger? 9.11 or 9.9?」

這就是GRPO的「魔力」。

GRPO是一種強(qiáng)化學(xué)習(xí)(RL)算法,與近端策略優(yōu)化(Proximal Policy Optimization,PPO)不同,它不依賴值函數(shù),能夠更高效地優(yōu)化模型的回答質(zhì)量。

在項目的Notebook中,使用GRPO訓(xùn)練模型,能夠自主發(fā)展出自我驗證(self-verification)和搜索能力,從而創(chuàng)造出一個迷你「Aha 時刻」。

GRPO的大致流程如下:

1 模型生成多組回答


2 根據(jù)正確性或其他設(shè)定的獎勵函數(shù),對回答進(jìn)行評分(不同于使用LLM作為獎勵模型)


3 計算該組回答的平均得分


4 將每個回答的得分與組內(nèi)平均得分進(jìn)行比較


5 增強(qiáng)模型對高分回答的偏好

舉例來說,假設(shè)要模型解決下列問題:

What is 1+1?  >>  Chain of thought/working out  >>  The answer is 2. 

What is 2+2?  >>  Chain of thought/working out  >>  The answer is 4.

最初,必須收集大量數(shù)據(jù)來填充工作/思維鏈。

但是,GRPO(DeepSeek使用的算法)以及其他RL算法可以引導(dǎo)模型自動表現(xiàn)出推理能力,并創(chuàng)建推理軌跡。

RL不需要數(shù)據(jù),相反需要精心設(shè)計的獎勵函數(shù)或驗證器。例如,如果它得到了正確答案,就給它打1分;如果有些單詞拼寫錯誤,就減0.1分。以此類推。

強(qiáng)強(qiáng)聯(lián)合:在Unsloth中使用GRPO

如果在本地使用GRPO進(jìn)行訓(xùn)練,請先安裝必要的依賴項:pip install diffusers。

訓(xùn)練提示:耐心等待至少300步才能看到獎勵分?jǐn)?shù)的明顯提升;為了確保最佳兼容性,請使用最新版本的vLLM。

Colab示例僅訓(xùn)練了1小時,結(jié)果較一般,要獲得高質(zhì)量結(jié)果,建議訓(xùn)練至少12小時(但可以隨時停止)。

較小的模型可能無法生成思考token,建議至少使用1.5B參數(shù)的模型,正確生成「思考token」(thinking tokens)。

如果使用基礎(chǔ)模型,請確保加載正確的Chat模板(避免格式問題)。

Unsloth現(xiàn)已內(nèi)置GRPO訓(xùn)練損失跟蹤功能,無需再使用外部工具(如wandb)。

內(nèi)置GRPO訓(xùn)練損失跟蹤示例

更多強(qiáng)化學(xué)習(xí)訓(xùn)練方法

除了新增GRPO支持,還增加了對Online DPO(在線直接偏好優(yōu)化)、PPO(近端策略優(yōu)化)和RLOO(強(qiáng)化學(xué)習(xí)偏好優(yōu)化)的支持!

計算機(jī)工程專業(yè)的碩士生Keith Truongcao,在Unsolth中實現(xiàn)了Online DPO算法。

在TLDR數(shù)據(jù)集 ,他使用GPT 4o-mini作為判斷模型,與原始模型(下圖用綠色表示)相比,微調(diào)后的AI模型勝率都有所提升:Online DPO模型(下圖用紫色表示)的勝率顯著高于原始模型,并且比SFT模型(下圖用紅色表示)高出12%,充分證明了強(qiáng)化學(xué)習(xí)訓(xùn)練方法的有效性。

借助Unsloth的優(yōu)化,在線DPO(Direct Preference Optimization微調(diào)的顯存需求大幅降低。當(dāng)batch size為1且使用梯度累積時,所需顯存僅為20GB。

相比之下,標(biāo)準(zhǔn)的Llama 3.2(10億參數(shù)模型) 需要50GB顯存,但在嘗試額外分配2GB顯存時,會發(fā)生OOM(內(nèi)存溢出)錯誤。更令人驚訝的是,即使在配備48GB顯存的A40 GPU上,標(biāo)準(zhǔn)Llama也會直接崩潰。

Unsloth的在線DPO VRAM消耗與Hugging Face+FA2的對比

更多詳情,請參閱Keith的下列文章,其中包括如何讓在線DPO正常工作更多細(xì)節(jié)。

原文鏈接:https://substack.com/home/post/p-154490380

另一位活躍的開源貢獻(xiàn)者Joey,在X上也詳細(xì)介紹了自己如何在Google Colab上實現(xiàn)GRPO變更的方法。

Unsloth x vLLM:更高吞吐量和更少VRAM消耗

20倍吞吐量,一半VRAM

現(xiàn)在,在微調(diào)流程中,可以直接使用vLLM,這使得模型的吞吐量大幅提升,并且可以同時進(jìn)行微調(diào)和推理。

在1x A100 40GB GPU上,使用Unsloth動態(tài)4bit量化的Llama 3.2 3B Instruct,吞吐量大約為4000 tokens/s。

在16GB Tesla T4(免費(fèi)Colab GPU)上,吞吐量大約為300 tokens/s。

而且,因為Unsloth還神奇地去除了vLLM和Unsloth一起加載時的雙重內(nèi)存使用,因此讓Llama 3.1 8B節(jié)省了約5GB VRAM,讓Llama 3.2 3B節(jié)約了3GB VRAM。

加載模型時不再需要額外的內(nèi)存開銷。

Unsloth可以在單張48GB GPU上微調(diào)Llama 3.3 70B Instruct,其中Llama 3.3 70B的權(quán)重占用40GB VRAM。

這是Unsloth的原創(chuàng)功能。

而如果不優(yōu)化內(nèi)存管理,同時加載Unsloth和vLLM,會導(dǎo)致VRAM雙倍占用,從而需要至少80GB VRAM才能運(yùn)行。

而且上手非常快,只要兩步:

  1. 安裝vLLM和Unsloth:pip install unsloth vllm。
  2. 初始化Unsloth并啟用快速推理:

Unsloth中關(guān)于vLLM的發(fā)現(xiàn)

1. 現(xiàn)在,vLLM可以加載Unsloth Dynamic 4-比特量化。就像Unsloth的1.58比特動態(tài)R1 GGUF一樣,發(fā)現(xiàn)將某些層動態(tài)量化為4比特,將某些層動態(tài)量化為16比特,在減小模型規(guī)模的同時,顯著提高精確度

2. 對于RAM、VRAM效率和最大吞吐量(如分塊預(yù)填充標(biāo)記數(shù)、最大序列數(shù)等)等設(shè)置,還可以自動選擇多個參數(shù)。在vLLM中默認(rèn)啟用-O3并啟用前綴緩存。發(fā)現(xiàn)老GPU上的Flashinfer實際上要慢10%。FP8 KV緩存會讓速度慢10%,但吞吐量會翻倍。

3. 在vLLM中通過解析狀態(tài)字典,允許加載LoRA,而不是從磁盤加載——可以讓GRPO訓(xùn)練運(yùn)行速度提高1.5倍。在vLLM中直接編輯LoRA適配器,相關(guān)研究是否活躍。這可以大大提高速度,因為目前版本的算法還做了不必要的GPU數(shù)據(jù)移動。

4. vLLM會詭異地出現(xiàn)隨機(jī)VRAM峰值,尤其是在批量生成時。為此在unsloth中,添加了批量生成功能,以減少內(nèi)存峰值。

Unsloth團(tuán)隊介紹

另外值得一提的是,Unsloth目前在Github上有2萬多星,但核心團(tuán)隊Unsloth AI,只有兩兄弟。

Daniel Han,Unsloth AI的CTO,2021年畢業(yè)于悉尼科技大學(xué)。2022-2023年,在悉尼的MoonShot AI擔(dān)任開源開發(fā)者。

Michael Han,Unsloth AI的CEO,2019年畢業(yè)于新南威爾士大學(xué)(The University of New South Wales,UNSW)。在實習(xí)期間,他曾提高了多個算法實現(xiàn)的速度。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-06 01:00:00

2025-02-19 08:33:18

2025-02-19 08:00:00

2025-05-06 09:09:37

2025-02-08 09:44:11

DeepSeekAI模型

2025-03-13 11:07:30

2025-06-12 09:48:27

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-12 12:45:59

2025-05-30 06:57:53

2025-02-13 08:51:23

DeepSeek大模型

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-04-29 08:14:14

2025-02-24 14:05:00

LLM模型AI

2025-05-20 09:02:00

2025-02-17 10:40:00

DeepSeek模型AI

2025-02-03 15:50:44

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號