FinLoRA:在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法,性能提升36%
大型語言模型(LLMs)在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色,但在專業(yè)金融任務(wù)中仍存在性能不足。
本文提出FinLoRA基準(zhǔn),評估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn)。創(chuàng)建19個金融數(shù)據(jù)集,包括4個新XBRL分析數(shù)據(jù)集,支持LoRA方法的評估。實施并比較五種LoRA方法,平均提高36%準(zhǔn)確率,驗證低秩適應(yīng)和量化的有效性。
摘要
FinLoRA項目基于LoRA方法,評估其在金融領(lǐng)域的應(yīng)用,特別是CFA考試和SEC文件分析。研究中使用了19個金融數(shù)據(jù)集,包括4個基于150份SEC文件的新XBRL分析數(shù)據(jù)集。評估了5種LoRA方法和5種基礎(chǔ)LLM,結(jié)果顯示LoRA方法在性能上平均提升36%。提供了準(zhǔn)確率、F1、BERTScore等實驗結(jié)果,以及在微調(diào)和推理階段的計算成本。FinLoRA旨在普及金融智能化。
簡介
大型語言模型(LLMs)在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色,但在專業(yè)金融任務(wù)中仍存在性能不足。完全微調(diào)計算成本高,參數(shù)高效微調(diào)(PEFT)如低秩適應(yīng)(LoRA)成為可行解決方案,能提升LLMs在特定領(lǐng)域的表現(xiàn)。
FinLoRA是一個新基準(zhǔn),評估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn),特別是XBRL數(shù)據(jù)分析。本研究創(chuàng)建19個金融數(shù)據(jù)集,包括4個新XBRL分析數(shù)據(jù)集,支持LoRA方法的評估。實施并比較五種LoRA方法,平均提高36%準(zhǔn)確率,驗證低秩適應(yīng)和量化的有效性。進行了46輪微調(diào)和194輪評估,從多個角度分析LoRA方法的表現(xiàn)和資源需求。
LLMs是否需要對財務(wù)任務(wù)進行微調(diào)?
雖然通用LLMs表現(xiàn)出優(yōu)秀的NLP能力,但它們在復(fù)雜的財務(wù)任務(wù)上的表現(xiàn)往往不足。
缺乏高質(zhì)量金融數(shù)據(jù):通用LLM的預(yù)訓(xùn)練數(shù)據(jù)集(如The Pile)主要來自一般網(wǎng)絡(luò)爬蟲,缺乏專門的金融數(shù)據(jù),需通過針對性微調(diào)以獲取復(fù)雜金融分析所需的理解。
通用LLM在專業(yè)金融任務(wù)中的不足:通用LLM在處理需要深厚領(lǐng)域知識的任務(wù)(如XBRL分析)時表現(xiàn)不佳,常因表面關(guān)鍵詞匹配而出錯,微調(diào)后可顯著改善。
成本與時間:從零開始訓(xùn)練模型(如BloombergGPT)成本高達270萬美元且耗時253天,使用LoRA方法微調(diào)現(xiàn)有模型更具經(jīng)濟性和時間效率。
FinLoRA基準(zhǔn)
基準(zhǔn)任務(wù)、數(shù)據(jù)集和指標(biāo)
任務(wù)類型:一般金融任務(wù)、金融證書、財務(wù)報告、財務(wù)報表分析。
公共金融數(shù)據(jù)集:FinLoRA包含15個數(shù)據(jù)集。
- 情感分析:FPB、FiQA SA、TFNS、NWGI,包含金融文本和情感標(biāo)簽。
- 標(biāo)題分析:Headline數(shù)據(jù)集,基于問題將金融標(biāo)題分類為“是”或“否”。
- 命名實體識別:NER數(shù)據(jù)集,標(biāo)注地點、人物、組織。
- 金融證書:CFA和CPA相關(guān)證書。
- 財務(wù)報告:XBRL術(shù)語、FiNER、FNXL。
- 財務(wù)報表分析:Financial Math和FinanceBench。
新增四個XBRL分析數(shù)據(jù)集:基于2019-2023年道瓊斯30家公司年報,包含問題、相關(guān)XBRL文本片段和答案。數(shù)據(jù)集任務(wù)類型:
- XBRL標(biāo)簽提?。焊鶕?jù)自然語言描述提取特定XBRL標(biāo)簽。
- XBRL數(shù)值提?。焊鶕?jù)自然語言描述提取數(shù)值。
- XBRL公式構(gòu)建:識別相關(guān)事實和標(biāo)簽,構(gòu)建標(biāo)準(zhǔn)財務(wù)公式。
- XBRL公式計算:將數(shù)值代入公式并計算結(jié)果。
數(shù)據(jù)集構(gòu)建流程:將財務(wù)任務(wù)分類為九類,為每類創(chuàng)建訓(xùn)練集,使用2019-2023年道瓊斯30家公司10-K報告生成問題,自動過濾相關(guān)XBRL文件片段。
評估指標(biāo):使用準(zhǔn)確匹配(EM)評估LLM輸出,報告準(zhǔn)確率和加權(quán)F1分?jǐn)?shù),XBRL術(shù)語和FinanceBench使用BERTScore F1。
基礎(chǔ)模型和LoRA方法
基準(zhǔn)模型:評估了Llama 3.1 8B Instruct和Gemini 2.0 Flash Lite的LoRA微調(diào)性能,另外還評估了Llama 3.1 70B Instruct、DeepSeek V3和GPT-4o作為基模型。
LoRA方法:
- Vanilla LoRA:通過低秩分解引入可訓(xùn)練權(quán)重,保持預(yù)訓(xùn)練模型權(quán)重不變。
- QLoRA:使用4位量化減少內(nèi)存,動態(tài)去量化權(quán)重。
- DoRA:將權(quán)重分解為幅度向量和方向矩陣,僅更新方向矩陣,保持參數(shù)數(shù)量與LoRA相同。
- rsLoRA:使用穩(wěn)定的縮放因子,增強高秩任務(wù)的梯度穩(wěn)定性。
- LoRA與聯(lián)邦學(xué)習(xí):在金融領(lǐng)域,允許多個機構(gòu)在不共享數(shù)據(jù)的情況下,通過本地數(shù)據(jù)微調(diào)模型并聚合LoRA更新。
基準(zhǔn)的角度
LoRA方法性能評估:比較LoRA、QLoRA、rsLoRA、DoRA與Gemini 2.0 Flash Lite在金融任務(wù)中的表現(xiàn),評估其相對SOTA模型的效果。
LoRA適用性研究:探討不同金融任務(wù)(如情感分析、XBRL標(biāo)記與分析)對LoRA微調(diào)的響應(yīng)性及數(shù)據(jù)集特性。
資源與成本比較:分析不同LoRA方法的微調(diào)成本及推理速度,評估其在實時金融應(yīng)用中的延遲和吞吐量優(yōu)勢。
實際部署考慮:
- 數(shù)據(jù)隱私:研究在多機構(gòu)協(xié)作訓(xùn)練中如何通過聯(lián)邦學(xué)習(xí)保護數(shù)據(jù)隱私,比較本地LoRA微調(diào)與集中訓(xùn)練的表現(xiàn)。
- 災(zāi)難性遺忘:評估LoRA微調(diào)對模型通用知識的影響,通過MMLU等基準(zhǔn)測試量化性能變化。
實驗結(jié)果
實驗在四個NVIDIA A5000 GPU上進行,使用不同的推理和微調(diào)API。針對每種LoRA方法,基于任務(wù)類別合并訓(xùn)練集微調(diào)了9個LoRA適配器,學(xué)習(xí)率為1e-4,批量大小為2-8。推理時溫度設(shè)置為0.0,共進行了46輪微調(diào)和194輪評估。
角度一:LoRA方法在金融數(shù)據(jù)集上的性能
Vanilla LoRA(8位,秩8)在整體平均分上表現(xiàn)最佳(74.74),比Llama 3.1 8B基模型(37.05)提高了37.69%。Vanilla LoRA在一般金融任務(wù)中優(yōu)于其他LoRA變體,而rsLoRA在金融分析、報告和財務(wù)報表分析中表現(xiàn)最佳。
rsLoRA在高秩下表現(xiàn)更佳,設(shè)置r=8以提高內(nèi)存效率,盡管在低秩下略遜于LoRA和QLoRA,但在高秩(如r=64)時能顯著降低困惑度,捕捉更多細(xì)節(jié)。
DoRA的表現(xiàn)不如其他LoRA方法,因更新幅度向量和方向矩陣使用相同學(xué)習(xí)率導(dǎo)致訓(xùn)練不足,建議為幅度向量設(shè)置更高的學(xué)習(xí)率以提高性能。
LoRA調(diào)優(yōu)的Llama 3.1 8B模型在大多數(shù)數(shù)據(jù)集上表現(xiàn)優(yōu)于SOTA基線模型,盡管在NWGI和FNXL上表現(xiàn)不佳;與Gemini 2.0 FL模型相比,Llama 3.1在金融分析和XBRL數(shù)據(jù)分析任務(wù)上表現(xiàn)更強。
角度二:財務(wù)任務(wù)LoRA適用性
LoRA在不同金融任務(wù)中的效果差異明顯,XBRL分析任務(wù)的性能提升顯著,而FinanceBench的提升有限。XBRL數(shù)據(jù)的標(biāo)準(zhǔn)化語義和分類法為LLM提供了更結(jié)構(gòu)化的學(xué)習(xí)環(huán)境,促進了更有效的適應(yīng)。FinanceBench依賴于缺乏豐富標(biāo)準(zhǔn)化元數(shù)據(jù)的OCR處理PDF數(shù)據(jù),導(dǎo)致效果不佳。XBRL在金融報告分析中對LLM集成的有效性至關(guān)重要。
角度三:LoRA方法的資源使用和性能權(quán)衡
LoRA微調(diào)模型的計算成本:使用四個NVIDIA A5000 GPU,微調(diào)時間為14.1小時(QLoRA)至15.9小時(DoRA),總GPU小時約為56.4至63.6小時,成本約為$14.66至$16.54。該成本顯著低于Google或OpenAI的微調(diào)服務(wù)。Gemini API在推理延遲上表現(xiàn)更優(yōu),對增加的提示長度不敏感,盡管考慮到網(wǎng)絡(luò)開銷。本地部署的Llama 3.1 8B Instruct推理速度可通過增大批量大小顯著提升。
角度四:LoRA在真實金融場景中的實用性
Federated LoRA: 在四節(jié)點環(huán)境中評估了Federated LoRA,使用FedAvg算法,結(jié)果顯示其性能優(yōu)于基礎(chǔ)Llama模型,但不及集中式LoRA。
災(zāi)難性遺忘: 評估了8個適配器在MMLU和GSM8K基準(zhǔn)上的表現(xiàn),結(jié)果顯示所有適配器與基礎(chǔ)模型在MMLU上準(zhǔn)確率相同,GSM8K上表現(xiàn)更佳,表明LoRA沒有出現(xiàn)災(zāi)難性遺忘,且可能存在跨領(lǐng)域知識轉(zhuǎn)移。
總結(jié)
本文提出FinLoRA基準(zhǔn),評估LoRA方法在一般和專業(yè)金融任務(wù)上的表現(xiàn)。收集了19個多樣化的數(shù)據(jù)集,涵蓋廣泛的金融應(yīng)用。進行了46輪微調(diào)和194輪評估,全面分析常用LoRA方法。提供整體性能、任務(wù)特定結(jié)果、微調(diào)和推理的資源需求及實際部署考慮(如數(shù)據(jù)隱私和災(zāi)難性遺忘)。結(jié)果顯示微調(diào)顯著提升LLM在金融任務(wù)上的有效性。FinLoRA提供數(shù)據(jù)集和基線結(jié)果,為未來研究奠定基礎(chǔ)。計劃通過納入更多LoRA方法擴展FinLoRA。
本文轉(zhuǎn)載自??靈度智能??,作者:靈度智能
