企業(yè)搶著要的AI方案:DeepSeek-R1微調(diào)實戰(zhàn),3天構(gòu)建行業(yè)內(nèi)容生成器
1. 前言
在如今快速發(fā)展的AI技術(shù)領(lǐng)域,越來越多的企業(yè)正在將AI應(yīng)用于各個場景。然而,盡管大模型(如GPT、DeepSpeek等)在多個任務(wù)上已取得顯著進展,但是普通的大模型在面對特定行業(yè)或任務(wù)時,往往會出現(xiàn)一個問題——AI幻覺。所謂AI幻覺,是指模型生成的內(nèi)容不符合實際需求,甚至包含錯誤或無關(guān)的信息,這對于一些行業(yè)來說,可能帶來不可接受的風(fēng)險,尤其是在醫(yī)療、法律、金融等領(lǐng)域。
對于這些行業(yè)的企業(yè)而言,精準、高效地輸出行業(yè)特定內(nèi)容是他們對AI的核心需求。企業(yè)希望AI能夠處理行業(yè)術(shù)語、應(yīng)對特殊情境,并且確保內(nèi)容的準確性。然而,單純依賴大模型進行推理,往往無法達到這樣的標準,因為大模型的訓(xùn)練是基于通用數(shù)據(jù)集,這些數(shù)據(jù)集通常并不包含行業(yè)領(lǐng)域的深度知識。因此,企業(yè)通常需要一個更加定制化、精細化的模型,而這正是大模型微調(diào)技術(shù)能夠提供的解決方案。
大模型微調(diào)技術(shù)通過對預(yù)訓(xùn)練的大模型進行進一步訓(xùn)練,能夠根據(jù)特定領(lǐng)域的需求進行優(yōu)化。通過提供具有代表性的領(lǐng)域數(shù)據(jù),尤其是精心標注的行業(yè)特定數(shù)據(jù),微調(diào)后的模型能夠?qū)W習(xí)這些領(lǐng)域的專有知識,從而有效避免AI幻覺的發(fā)生,并且提供更加準確、有價值的輸出。
本文將從零開始教你一步步入門AI大模型微調(diào)技術(shù)(基于DeepSpeek R1大模型) ,最終實現(xiàn)基于私有化部署的微調(diào)大模型AI會話系統(tǒng)。感興趣的朋友可以繼續(xù)往下看看。
2.大模型微調(diào)概念簡述
大模型微調(diào)是指在已有的預(yù)訓(xùn)練大模型基礎(chǔ)上,通過特定任務(wù)或領(lǐng)域數(shù)據(jù)進行進一步訓(xùn)練,使模型能夠更精準地處理特定任務(wù)。與傳統(tǒng)的訓(xùn)練方法不同,微調(diào)充分利用已有的大模型,減少對大量數(shù)據(jù)的依賴,同時通過對模型進行小范圍的調(diào)整,使其適應(yīng)新的任務(wù)。大模型微調(diào)技術(shù)在多個領(lǐng)域中得到了廣泛應(yīng)用,如文本生成、分類任務(wù)、問答系統(tǒng)等。
微調(diào)的核心目標是使大模型根據(jù)特定任務(wù)需求進行優(yōu)化,提升其在特定應(yīng)用場景中的表現(xiàn)。為實現(xiàn)這一目標,微調(diào)方法主要包括以下兩種分類方式:
- 按學(xué)習(xí)范式分類:根據(jù)模型學(xué)習(xí)方式的不同,微調(diào)方法可分為有監(jiān)督微調(diào)、無監(jiān)督微調(diào)和半監(jiān)督微調(diào)等類型。
- 按參數(shù)更新范圍分類:根據(jù)在微調(diào)過程中對模型參數(shù)更新范圍的不同,方法可分為全量微調(diào)和部分微調(diào)等類型。
2.1. 按學(xué)習(xí)范式分類
有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)
有監(jiān)督微調(diào)是最常見的微調(diào)方式,適用于任務(wù)明確且具有標注數(shù)據(jù)的情況。通過使用人工標注的高質(zhì)量數(shù)據(jù)對,模型能夠?qū)W習(xí)特定任務(wù)所需的知識,從而在指定任務(wù)上提供準確的輸出。
SFT示例:
training_data = [
{"input": "問題", "output": "標準答案"},
# 人工標注的高質(zhì)量數(shù)據(jù)對
]
在有監(jiān)督微調(diào)中,模型的目標是根據(jù)輸入的“問題”生成一個“標準答案”。這個過程依賴于人工標注的數(shù)據(jù),使模型能夠更好地理解并生成符合實際需求的結(jié)果,有監(jiān)督微調(diào)適用于需要特定答案的任務(wù),如情感分析、文本分類、機器翻譯、問答系統(tǒng)等。
無監(jiān)督微調(diào)(Unsupervised Fine-Tuning)
無監(jiān)督微調(diào)是一種不依賴人工標注的微調(diào)方式,主要利用大量未標注的文本數(shù)據(jù)進行訓(xùn)練。通過無監(jiān)督學(xué)習(xí),模型能夠自動從原始數(shù)據(jù)中提取知識,尤其在沒有標注數(shù)據(jù)或標注數(shù)據(jù)獲取困難的情況下尤為有用。
無監(jiān)督微調(diào)示例:
training_data = [
"大量未標注文本...",
# 無需人工標注的原始文本
]
這種方式通常用于模型的預(yù)訓(xùn)練過程,模型通過對大規(guī)模文本進行訓(xùn)練,學(xué)習(xí)通用的語言表示能力。無監(jiān)督微調(diào)可以增強模型的語法和語義理解能力,提升其在不同任務(wù)中的表現(xiàn),無監(jiān)督微調(diào)適用于自然語言建模、生成任務(wù)等場景,幫助模型理解文本的結(jié)構(gòu)和語義關(guān)系。
半監(jiān)督微調(diào)(Semi-Supervised Fine-Tuning)
半監(jiān)督微調(diào)結(jié)合了有監(jiān)督和無監(jiān)督學(xué)習(xí)的優(yōu)點,利用標注數(shù)據(jù)和未標注數(shù)據(jù)來訓(xùn)練模型。常用的方法包括將未標注數(shù)據(jù)通過某種方式生成偽標簽,或利用自監(jiān)督學(xué)習(xí)方法,使模型在標注數(shù)據(jù)較少時也能進行有效訓(xùn)練。
半監(jiān)督微調(diào)示例:
training_data = [
{"input": "問題", "output": "標準答案"}, # 高質(zhì)量人工標注數(shù)據(jù)
"大量未標注文本...", # 用于填充的未標注數(shù)據(jù)
]
半監(jiān)督微調(diào)適用于標注數(shù)據(jù)稀缺的場景,能夠結(jié)合少量標注數(shù)據(jù)和大量未標注數(shù)據(jù),進一步提升模型表現(xiàn),這種方法在實際應(yīng)用中尤其適用于標簽獲取困難或成本高昂的領(lǐng)域,如醫(yī)療、法律等行業(yè)。
2.2. 按參數(shù)更新范圍分類
全量微調(diào)(Full Fine-Tuning)
全量微調(diào)是指在對預(yù)訓(xùn)練模型進行微調(diào)時,更新模型的所有參數(shù)。通過對特定領(lǐng)域數(shù)據(jù)的訓(xùn)練,模型的所有層都會根據(jù)新任務(wù)的數(shù)據(jù)進行調(diào)整。全量微調(diào)能夠在模型中深度定制領(lǐng)域知識,最大程度地提升模型在目標任務(wù)中的效果。
全量微調(diào)的特點:
- 更新模型的所有參數(shù)。
- 適用于數(shù)據(jù)量較大且任務(wù)復(fù)雜的場景。
- 訓(xùn)練時間較長,需要大量計算資源。
全量微調(diào)適用于大規(guī)模數(shù)據(jù)集且任務(wù)復(fù)雜的場景,如文本生成、問答系統(tǒng)、情感分析等。它能夠充分利用預(yù)訓(xùn)練模型進行深度學(xué)習(xí),提供最優(yōu)效果。
部分微調(diào)(Low-Rank Adaptation,LoRA)
部分微調(diào)是一種通過對預(yù)訓(xùn)練模型的部分參數(shù)進行微調(diào)的技術(shù)。LoRA的目標是減少微調(diào)過程中需要更新的參數(shù)數(shù)量,從而顯著降低計算開銷。通過低秩矩陣的方式,LoRA僅更新模型中的某些參數(shù)(如特定層的權(quán)重),使微調(diào)過程更加高效,特別適合計算資源有限的場景。
LoRA的特點:
- 只調(diào)整部分參數(shù)(如低秩矩陣分解)。
- 降低計算和內(nèi)存開銷。
- 適合快速微調(diào),尤其在資源受限時。
LoRA非常適合在資源有限的情況下快速調(diào)整模型,尤其在需要快速部署且不需要全部模型調(diào)整的場景中非常有用。
在大模型微調(diào)過程中,有監(jiān)督微調(diào)(SFT)與LoRA(Low-Rank Adaptation)相結(jié)合,能夠充分發(fā)揮各自優(yōu)勢,提升模型在特定任務(wù)上的表現(xiàn)。具體而言,SFT通過在人工標注的數(shù)據(jù)上對模型進行微調(diào),使其適應(yīng)特定任務(wù);而LoRA則在凍結(jié)預(yù)訓(xùn)練模型權(quán)重的基礎(chǔ)上,引入低秩矩陣進行微調(diào),減少計算開銷并提高效率。將兩者結(jié)合,可以在保證性能的同時,降低資源消耗。在接下來的部分,我們將詳細探討如何將SFT與LoRA相結(jié)合,進行高效的大模型微調(diào),并展示其在實際應(yīng)用中的效果。
2.3. 大模型微調(diào)框架簡介
在大模型微調(diào)領(lǐng)域,存在多種框架,每個框架都有其獨特的優(yōu)勢和局限性。以下是幾種常見的大模型微調(diào)框架的介紹與比較:
1. Hugging Face Transformers
Hugging Face Transformers(https://huggingface.co/transformers/) 是目前最為流行的自然語言處理(NLP)框架之一,提供了豐富的預(yù)訓(xùn)練模型和易于使用的 API,廣泛應(yīng)用于各類 NLP 任務(wù),如文本分類、問答系統(tǒng)等。它的特點是:
- 預(yù)訓(xùn)練模型豐富,支持多種模型,如 BERT、GPT、T5 等。
- 提供了高層次的 API,使得微調(diào)過程簡單易懂。
- 擁有龐大的用戶社區(qū)和文檔支持。
盡管 Hugging Face Transformers 在許多常見任務(wù)中表現(xiàn)優(yōu)秀,但在超大規(guī)模模型的微調(diào)和訓(xùn)練中,可能會面臨性能瓶頸和資源消耗過大的問題。
2. DeepSpeed
DeepSpeed(https://www.deepspeed.ai/ )是微軟開發(fā)的高效深度學(xué)習(xí)訓(xùn)練框架,專注于優(yōu)化大規(guī)模模型訓(xùn)練的性能。其主要特點包括:
- ZeRO優(yōu)化,顯著減少內(nèi)存占用,提高分布式訓(xùn)練的效率。
- 支持 混合精度訓(xùn)練,加速訓(xùn)練過程并減少內(nèi)存需求。
- 提供分布式訓(xùn)練功能,支持大規(guī)模模型的訓(xùn)練。
DeepSpeed適合大規(guī)模模型的訓(xùn)練,但使用門檻較高,需要深入理解框架的底層實現(xiàn)。
3. Fairseq
Fairseq (https://fairseq.readthedocs.io/)是 Facebook AI Research 開發(fā)的一個高效訓(xùn)練工具,支持多種模型架構(gòu)的訓(xùn)練,如 Transformer 和 BART。其特點為:
- 高性能和靈活性,支持多種任務(wù),如機器翻譯、文本生成等。
- 容易擴展,支持用戶自定義新的算法和模型。
Fairseq 對于需要靈活定制和擴展的場景非常適合,但其文檔和社區(qū)支持相對有限。
4. LLaMA-Factory(本文使用的框架)
LLaMA-Factory (https://llamafactory.readthedocs.io/)是由國內(nèi)北航開源的低代碼大模型訓(xùn)練框架,旨在簡化大模型微調(diào)過程,尤其是在支持低代碼甚至零代碼操作的基礎(chǔ)上,提供極大的便利。其主要特點包括:
- 零代碼操作:通過 Web UI(LlamaBoard),用戶無需編寫代碼即可完成大規(guī)模模型的微調(diào)。
- 高效的訓(xùn)練方法:結(jié)合 LoRA(低秩適配)和 QLoRA 等先進技術(shù),在保證模型性能的同時,顯著降低了計算資源消耗。相較于其他框架,LLaMA-Factory 提供了更高的微調(diào)效率。
- 廣泛的模型支持:支持 LLaMA、Mistral、Qwen 等多種流行的預(yù)訓(xùn)練模型,適應(yīng)性強。
- 低成本和高性能:通過量化技術(shù)和高效算法,LLaMA-Factory 可降低模型訓(xùn)練成本,同時加速訓(xùn)練過程。
LLaMA-Factory 適合企業(yè)和研究人員需要快速、高效地微調(diào)大模型并在特定任務(wù)中應(yīng)用時,尤其在低資源條件下表現(xiàn)突出
。
每個大模型微調(diào)框架都有其適用場景和優(yōu)勢。Hugging Face Transformers 以其豐富的模型和簡便的 API 受到廣泛歡迎,適合大多數(shù) NLP 任務(wù)。DeepSpeed 在處理超大規(guī)模模型時表現(xiàn)優(yōu)異,適合對性能要求極高的訓(xùn)練任務(wù)。Fairseq 則適合需要靈活定制和高性能訓(xùn)練的應(yīng)用場景。而 LLaMA-Factory 則在提高訓(xùn)練效率、降低成本和簡化操作方面展現(xiàn)出巨大的優(yōu)勢,尤其在零代碼操作和多種微調(diào)技術(shù)的結(jié)合下,使得大模型的微調(diào)過程更加輕松和高效。對于希望快速實現(xiàn)大模型微調(diào)的用戶,LLaMA-Factory 無疑是一個值得優(yōu)先考慮的選擇。
3. DeepSpeek R1大模型微調(diào)實戰(zhàn)
3.1.LLaMA-Factory基礎(chǔ)環(huán)境安裝
1.安裝 Anaconda(Python 環(huán)境管理工具)
(1) 下載 Anaconda:
- 訪問 Anaconda 官網(wǎng) 下載適用于 Windows 系統(tǒng)的安裝包,記得選擇 Python 3.10 版本。
- 安裝包約 800MB,耐心等待下載完成。
(2)安裝 Anaconda(已經(jīng)安裝了Anaconda就跳過這步):
- 雙擊下載的安裝程序,按照提示進行安裝。
- 安裝過程中,建議勾選“Add Anaconda to PATH”選項,這樣方便在命令行中使用,如果你忘記勾了也沒關(guān)系,后續(xù)自行配置一下環(huán)境變量就行了(環(huán)境變量->系統(tǒng)變量->Path中新增下圖內(nèi)容):
安裝完成后,點擊“Finish”結(jié)束安裝。
2.安裝 Git(已經(jīng)安裝了git就跳過這步):
(1)下載 Git:
- 訪問 Git 官網(wǎng) 下載適用于 Windows 的安裝包。
(2)安裝 Git:
- 雙擊安裝程序,并按照默認選項進行安裝。
- 安裝過程中大部分選項可以保持默認,完成安裝后即可使用 Git。
3.創(chuàng)建項目環(huán)境
打開Anaconda Prompt(從Windows開始菜單找到),執(zhí)行:
# 創(chuàng)建新的環(huán)境
conda create -n llama pythnotallow=3.10
#運行 conda init 初始化
conda init
#這個命令會修改你的 shell 配置文件(例如 .bashrc、.zshrc 等),以便能夠正確使用 conda 命令。
#conda init 執(zhí)行后,需要重新啟動命令提示符。關(guān)閉當前的命令提示符窗口,然后重新打開一個新的命令提示符窗口。
# 激活環(huán)境
conda activate llama
4.安裝PyTorch(AI框架)
在同一個命令窗口繼續(xù)執(zhí)行(llma環(huán)境):
# 安裝PyTorch(支持CUDA的版本)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu11
5.安裝LLaMA-Factory
找到一個目錄存放LLaMA-Factory項目,打開git命令窗口執(zhí)行:
# 克隆項目
git clone https://github.com/hiyouga/LLaMA-Factory.git
下載完成后使用pycharm打開LLaMA-Factory工程
安裝項目依賴
安裝的時候確保你的環(huán)境是llma(也可以在外部命令窗口執(zhí)行,這個看你自己,核心是保證依賴下載到llma環(huán)境):
pip install -e ".[torch,metrics]"
驗證安裝
# 測試是否安裝成功
llamafactory-cli version
啟動 LLama-Factory 的可視化微調(diào)界面
llamafactory-cli webui
打開http://localhost:7860/ ,你會看到以下界面:
3.1大模型下載
打開HuggingFace 官網(wǎng)(https://huggingface.co),我這里還是以deepspeek為例(1.5b)來演示,這幾天qwq也很火,感興趣的朋友也可以試試,不過要預(yù)先明確好你的電腦能承載多大的模型,關(guān)于deepspeek模型對于電腦規(guī)格的需求,我放在了我的另外一篇博客里:DeepSpeek服務(wù)器繁忙?這幾種替代方案幫你流暢使用?。ǜ奖镜夭渴鸾坛蹋?/span>
修改大模型存放位置:$env:HF_HOME = "E:\soft\Hugging-Face"
安裝huggingface_hub:pip install -U huggingface_hub
下載DeepSeek-R1模型:huggingface-cli download --resume-download deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
3.2. 大模型訓(xùn)練
在llaMA-Factory界面(http://localhost:7860/)加載模型,圖中我選的位置是E:\soft\Hugging-Face\hub\models--deepseek-ai--DeepSeek-R1-Distill-Qwen-1.5B\snapshots\ad9f0ae0864d7fbcd1cd905e3c6c5b069cc8b562,微調(diào)方法選擇lora,訓(xùn)練階段選擇SFT(有監(jiān)督微調(diào))
接下來就是準備訓(xùn)練數(shù)據(jù)集了,在LLaMA-Factory工程中,打開data文件夾下的READ_ME.md文件,查看框架支持的訓(xùn)練數(shù)據(jù)集:
我按照identity.json的格式模擬了一個xfc.json(數(shù)據(jù)量太少會導(dǎo)致訓(xùn)練效果不好,盡量自己多生成一些):
[
{
"instruction": "你是誰?",
"input": "",
"output": "喵嗚~我是小肥腸,一只會說話的小肥貓,是喵喵咖啡廳的服務(wù)員!今天有什么我可以幫你的嗎???"
},
{
"instruction": "你是貓咪嗎?",
"input": "",
"output": "沒錯!我是貓咪,我叫小肥腸,是喵喵咖啡廳的服務(wù)員哦~喜歡貓咪嗎?"
},
{
"instruction": "你會做什么?",
"input": "",
"output": "我是喵喵咖啡廳的服務(wù)員!我的工作是給客人提供溫暖的咖啡和甜點,讓大家感到開心和放松!我可是個超棒的咖啡品鑒師哦!"
},
{
"instruction": "你在咖啡廳做什么工作?",
"input": "",
"output": "喵~我負責(zé)為客人提供服務(wù),帶來美味的咖啡和甜點!我會為大家推薦最適合的飲品,保證你每一口都喝得開心!"
},
{
"instruction": "為什么叫小肥腸?",
"input": "",
"output": "哈哈,這是因為我是一只特別可愛的小肥貓呀!喜歡吃好吃的東西,所以就叫小肥腸了~而且我也喜歡和大家分享美味的咖啡和甜點!"
},
{
"instruction": "你是服務(wù)員嗎?",
"input": "",
"output": "對呀,我是喵喵咖啡廳的服務(wù)員小肥腸!我會為你準備你喜歡的飲品,今天想要喝點什么呢?"
},
{
"instruction": "喵喵咖啡廳是什么樣的地方?",
"input": "",
"output": "喵嗚~喵喵咖啡廳是一個溫暖又舒適的地方,空氣里彌漫著咖啡香,貓咪們在這里和我一起工作,大家可以在這里喝咖啡、吃甜點、享受悠閑的時光!"
},
{
"instruction": "你會做咖啡嗎?",
"input": "",
"output": "雖然我是一只會說話的小肥貓,但做咖啡可不是我的工作哦!不過,我可是個超棒的咖啡品鑒師,保證你每一口都喝得開心!"
},
{
"instruction": "你有什么特別的技能?",
"input": "",
"output": "我的特別技能就是讓你開心!喵嗚~我能用可愛的聲音和表情讓你瞬間笑出來,心情都變得超級好哦!"
},
{
"instruction": "你為什么是喵喵咖啡廳的服務(wù)員?",
"input": "",
"output": "因為我是一只特別喜歡和大家互動的小肥貓!在喵喵咖啡廳,我能和每一位客人交流,分享美味的飲品和甜點,給大家?guī)頊嘏蜌g樂!"
}
]
把xfc.json配置到dataset_info.json
"xfc": {
"file_name": "xfc.json"
}
回到llaMA-Factory界面(http://localhost:7860/)界面,點擊【Train】,設(shè)置一下訓(xùn)練數(shù)據(jù)集:
開始調(diào)整訓(xùn)練參數(shù)(我認為最難的一部分,我學(xué)了3,4天吧還是不太會調(diào),你最好自己去查閱資料自己調(diào),不要照抄我的):
如果用專業(yè)術(shù)語來解釋上面的訓(xùn)練參數(shù)可能很多人看不懂,當時我也是看的非常吃力(現(xiàn)在依然比較懵,不過這個不是本文的重點,這篇文章主要講解大模型微調(diào)入門,參數(shù)調(diào)整會放到以后的進階篇),這里以非專業(yè)通俗易懂的預(yù)研解釋一下訓(xùn)練參數(shù),想象你是一位老師,將模型訓(xùn)練過程想象成教導(dǎo)一個學(xué)生學(xué)習(xí)新知識:
- 學(xué)習(xí)率(Learning Rate) :就像你給學(xué)生布置作業(yè)時,告訴他每次復(fù)習(xí)多少內(nèi)容。學(xué)習(xí)率決定了模型在每次“學(xué)習(xí)”時,調(diào)整知識的幅度。較小的學(xué)習(xí)率意味著每次調(diào)整都很小,學(xué)習(xí)過程更穩(wěn)定,但可能需要更多時間才能學(xué)會;較大的學(xué)習(xí)率則可能導(dǎo)致學(xué)習(xí)過程不穩(wěn)定。
- 訓(xùn)練輪數(shù)(Training Epochs) :這相當于你讓學(xué)生復(fù)習(xí)的總次數(shù)。每一輪(epoch)中,模型都會“閱讀”并學(xué)習(xí)所有的訓(xùn)練數(shù)據(jù)。更多的訓(xùn)練輪數(shù)通常有助于模型更好地學(xué)習(xí),但也需要更多的時間。
- 最大梯度范圍(Max Gradient Norm) :想象學(xué)生在學(xué)習(xí)過程中,如果調(diào)整過大,可能會導(dǎo)致學(xué)習(xí)偏離正確方向。這個參數(shù)就像是給學(xué)生設(shè)定的“學(xué)習(xí)幅度上限”,確保每次調(diào)整都在合理范圍內(nèi),防止學(xué)習(xí)過程中的“過度反應(yīng)”。
- 批次大?。˙atch Size) :這就像你一次給學(xué)生布置的作業(yè)量。較大的批次大小意味著每次學(xué)習(xí)時,模型會處理更多的數(shù)據(jù),這有助于提高學(xué)習(xí)效率,但也需要更多的計算資源(GPU資源)。
- 梯度累積步數(shù)(Gradient Accumulation Steps) :如果由于資源限制,你不能一次性給學(xué)生布置大量作業(yè),這個參數(shù)允許你分多次累積學(xué)習(xí)效果,然后再一起調(diào)整模型的知識。這樣可以在不增加計算資源的情況下,模擬更大的批次學(xué)習(xí)效果。
- 計算類型:這就像你決定用粗略的筆記還是精確的記錄來記錄學(xué)生的學(xué)習(xí)進度。較高的計算精可以提高學(xué)習(xí)的準確性,但可能需要更多的計算資源。
點擊【開始】按鈕開始訓(xùn)練,結(jié)束以后會提示【訓(xùn)練完畢】,途中的折線圖是訓(xùn)練的效果:
(如果模型訓(xùn)練效果不好,可以采用增大訓(xùn)練輪數(shù)、學(xué)習(xí)率或者增加訓(xùn)練數(shù)據(jù)集的樣本數(shù)來解決,這個自己下去摸索,現(xiàn)在博主也在摸索階段,后期會出一篇大模型微調(diào)參數(shù)的純干貨文)
點擊【Chat】檢驗我們的訓(xùn)練效果,在檢查點路徑選擇我們剛剛訓(xùn)練的模型。(檢查點路徑” 是指 模型訓(xùn)練過程中的中間保存文件的位置,通常用于 恢復(fù)訓(xùn)練 或 加載已經(jīng)訓(xùn)練好的模型。 )點擊【加載模型】,就可以開始聊天了:
3.3. 大模型部署
點擊【Export】選擇模型存儲位置,將訓(xùn)練好的模型進行導(dǎo)出:
選擇任意盤,創(chuàng)建deepspeekApi文件夾用于存放部署腳本,我選的是E盤(E:\deepspeekApi),進入E:\deepspeekApi,輸入cmd打開命令提示符窗口:
新增conda虛擬環(huán)境(部署環(huán)境),激活環(huán)境后在該環(huán)境中下載所需依賴:
#新建deepspeekApi虛擬環(huán)境
conda create -n deepspeekApi pythnotallow=3.10
#激活deepspeekApi
conda activate deepspeekApi
#下載所需依賴
conda install -c conda-forge fastapi uvicorn transformers pytorch
pip install safetensors sentencepiece protobuf
新增main.py腳本:
from fastapi import FastAPI, HTTPException
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import logging
from pydantic import BaseModel, Field
# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)
app = FastAPI()
# 模型路徑
model_path = r"E:\deepspeek-merged"
# 加載 tokenizer 和模型
tokenizer = AutoTokenizer.from_pretrained(model_path)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16 if device == "cuda" else torch.float32
).to(device)
@app.get("/answer")
async def generate_text(prompt: str):
try:
# 使用 tokenizer 編碼輸入的 prompt
inputs = tokenizer(prompt, return_tensors="pt").to(device)
# 使用模型生成文本,設(shè)置優(yōu)化后的參數(shù)
outputs = model.generate(
inputs["input_ids"],
max_length=100, # 增加最大長度
min_length=30, # 設(shè)置最小長度
top_p=0.85, # 提高top_p值
temperature=0.6, # 降低溫度系數(shù)
do_sample=True, # 使用采樣
repetition_penalty=1.2, # 添加重復(fù)懲罰
no_repeat_ngram_size=3, # 防止3-gram重復(fù)
num_beams=4, # 使用束搜索
early_stopping=True # 提前停止生成
)
# 解碼生成的輸出
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
return {"generated_text": generated_text}
except Exception as e:
logger.error(f"生成錯誤: {str(e)}")
raise HTTPException(status_code=500, detail=str(e))
@app.get("/health")
async def health_check():
return {"status": "healthy", "model": model_path}
main.py 文件實現(xiàn)了一個輕量級 DeepSeek 模型推理服務(wù),基于 FastAPI 框架構(gòu)建。該服務(wù)將本地部署的大語言模型包裝為 HTTP API,便于系統(tǒng)集成。其關(guān)鍵特性如下:
- ? 本地模型加載:直接從本地路徑加載模型,無需依賴云服務(wù)
- ? GPU 加速支持:自動檢測并使用 GPU 進行推理加速
- ? 參數(shù)精調(diào):固定的生成參數(shù)配置(max_length=100, top_p=0.85, temperature=0.6...)
- ? 錯誤處理:完整的異常捕獲和日志記錄機制
- ? 健康檢查:提供服務(wù)狀態(tài)監(jiān)控端點
運行命令uvicorn main:app --reload --host 0.0.0.0:
uvicorn main:app --reload --host 0.0.0.0 命令用于啟動一個 FastAPI 應(yīng)用服務(wù)器,其中 main:app 指定了應(yīng)用入口(即 main.py 文件中的 app 實例),--reload 選項啟用開發(fā)模式,允許在代碼更改時自動重啟服務(wù)器,而 --host 0.0.0.0 使服務(wù)器監(jiān)聽所有網(wǎng)絡(luò)接口,允許外部設(shè)備訪問。訪問接口localhost:8000/answer
大模型微調(diào)加部署已經(jīng)完整實現(xiàn),接下來就是把它接入我們自己的定制化會話模型中。
3.4. 微調(diào)大模型融合基于SpirngBoot+Vue2開發(fā)的AI會話系統(tǒng)
上面章節(jié)中我們完成了大模型的微調(diào)和部署,這一章中我會把微調(diào)大模型融入到SpringBoot+Vue2搭建的AI會話系統(tǒng)中,關(guān)于AI會話系統(tǒng),之前我就有寫過相關(guān)博客,感興趣的朋友可以移步:10分鐘上手DeepSeek開發(fā):SpringBoot + Vue2快速構(gòu)建AI對話系統(tǒng)
原來的AI會話模型接入的是云端的deepspeek模型,現(xiàn)在接入的是本地微調(diào)過得deepspeek1.5b模型,代碼我就不粘貼了,比較簡單,就是websocket加遠程調(diào)用python接口(localhost:8000/answer),實現(xiàn)效果如下圖:
后端日志:
系統(tǒng)界面:
這次的AI會話系統(tǒng)界面比之前更加精美了,想要源碼的讀者可以移步第四章源碼獲取。
4.源碼獲取
關(guān)注公眾號后端小肥腸,點擊底部【資源】菜單即可獲取前后端完整源碼。
5.結(jié)語
大模型微調(diào)作為一種強大的技術(shù),能夠為許多行業(yè)提供量身定制的AI解決方案,幫助企業(yè)更好地適應(yīng)和優(yōu)化特定任務(wù)。盡管微調(diào)大模型的過程充滿挑戰(zhàn),但通過不斷學(xué)習(xí)和實踐,我們能夠逐步掌握并精通這一領(lǐng)域。本文通過詳細的步驟講解了大模型微調(diào)的基礎(chǔ)操作,使用LLaMA-Factory框架進行模型訓(xùn)練和部署,并通過FastAPI實現(xiàn)了本地化部署服務(wù)。這些知識為想要開展AI微調(diào)項目的朋友提供了寶貴的實踐經(jīng)驗。