偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型 原創(chuàng)

發(fā)布于 2025-4-7 06:34
瀏覽
0收藏

摘要

推理大語言模型(LLMs)正在各個領(lǐng)域快速發(fā)展,但其處理復(fù)雜金融問題的能力仍需深入探索。本文介紹了Fin-R1,一個專為金融推理設(shè)計的大語言模型。該模型參數(shù)規(guī)模輕量(70億),顯著降低了部署成本,同時有效解決了金融領(lǐng)域的三大痛點:碎片化的金融數(shù)據(jù)、不可控的推理邏輯以及薄弱的業(yè)務(wù)泛化能力。為提升模型推理能力,我們首先通過從多個權(quán)威數(shù)據(jù)集蒸餾和篩選,構(gòu)建了Fin-R1-Data——一個包含約60,091條完整思維鏈(CoT)的高質(zhì)量數(shù)據(jù)集,涵蓋推理和非推理金融場景。隨后,我們基于該數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)(SFT)和強化學(xué)習(xí)(RL)訓(xùn)練。這種兩階段框架顯著增強了模型執(zhí)行復(fù)雜金融推理任務(wù)的能力,使其在金融AI應(yīng)用中能夠做出更準(zhǔn)確且可解釋的決策。盡管Fin-R1僅有70億參數(shù)的緊湊結(jié)構(gòu),但在覆蓋多種金融業(yè)務(wù)場景的權(quán)威基準(zhǔn)測試中表現(xiàn)優(yōu)異,平均得分75.2,綜合排名第二,顯著優(yōu)于其他大規(guī)模推理LLMs。值得注意的是,F(xiàn)in-R1優(yōu)于DeepSeek-R1-Distill-Llama-70B,展現(xiàn)了其高效性和有效性。在專注于金融推理的ConvFinQA和FinQA任務(wù)中,F(xiàn)in-R1分別取得了85.0和76.0的先進(jìn)水平得分。在實際應(yīng)用中,F(xiàn)in-R1在金融合規(guī)和機器人投顧等領(lǐng)域展現(xiàn)了強大的自動化推理和決策能力,為長期困擾金融行業(yè)的挑戰(zhàn)提供了高效解決方案。代碼已開源:https://github.com/SUFE-AIFLM-Lab/Fin-R1。

1 引言

近年來,大語言模型(LLMs)的快速迭代顯著推動了人工智能向通用人工智能(AGI)的演進(jìn)。OpenAI的o1系列模型通過“探索-反思-迭代”機制擴(kuò)展“思維鏈”推理過程的長度,增強了解決復(fù)雜推理任務(wù)的能力。類似的o1類LLMs,如QwQ和Marco-o1,在數(shù)學(xué)、編程和邏輯推理等多種任務(wù)中取得了顯著進(jìn)步。金融領(lǐng)域的o1模型復(fù)現(xiàn)版本,如XuanYuan-FinX1-Preview和Fino1,也展示了LLMs在模擬人類認(rèn)知過程和處理復(fù)雜任務(wù)方面的巨大潛力。DeepSeek-R1采用了與o1類模型完全不同的方法,通過純強化學(xué)習(xí)(RL)增強大語言模型的推理能力。經(jīng)過數(shù)千步的無監(jiān)督RL訓(xùn)練,結(jié)合少量冷啟動數(shù)據(jù)和多階段訓(xùn)練框架,該模型在基準(zhǔn)測試中展現(xiàn)出涌現(xiàn)的推理能力。同時,這種訓(xùn)練策略進(jìn)一步優(yōu)化了模型的推理性能和可讀性,證明了RL驅(qū)動方法在提升大規(guī)模語言模型推理能力方面的有效性。

然而,通用推理模型應(yīng)用于金融領(lǐng)域時,仍面臨垂直場景適配的挑戰(zhàn)。金融推理任務(wù)通常涉及法律條款、經(jīng)濟(jì)指標(biāo)和數(shù)學(xué)建模等知識,不僅需要跨學(xué)科知識的整合,還要求推理邏輯可驗證且步驟清晰。在真實金融業(yè)務(wù)場景中應(yīng)用LLMs時,常遇到以下問題:  

1. 金融數(shù)據(jù)碎片化:數(shù)據(jù)不一致不僅增加了預(yù)處理復(fù)雜度,還可能導(dǎo)致信息冗余或缺失,削弱模型對金融領(lǐng)域的全面理解和推理能力。  

2. 黑盒推理邏輯:現(xiàn)有模型的復(fù)雜結(jié)構(gòu)使其推理過程難以直觀解釋,與金融監(jiān)管對透明性和可追溯性的要求相矛盾,限制了模型在關(guān)鍵金融業(yè)務(wù)中的應(yīng)用。  

3. 金融場景泛化能力不足:現(xiàn)有模型在不同場景中表現(xiàn)不穩(wěn)定,難以及時遷移和泛化到新業(yè)務(wù)場景,導(dǎo)致高風(fēng)險金融應(yīng)用中輸出不可靠。

為解決通用推理模型在金融領(lǐng)域的挑戰(zhàn),本文提出Fin-R1——專為金融推理設(shè)計的大語言模型。通過重構(gòu)高質(zhì)量金融推理數(shù)據(jù)集并采用兩階段訓(xùn)練框架,F(xiàn)in-R1有效解決了金融數(shù)據(jù)碎片化、推理邏輯不可控和業(yè)務(wù)泛化能力弱三大核心問題。主要貢獻(xiàn)如下:  

- 高質(zhì)量金融推理數(shù)據(jù)集:提出Fin-R1-Data,一個從多權(quán)威金融數(shù)據(jù)集蒸餾篩選的高質(zhì)量CoT數(shù)據(jù)集,專為專業(yè)金融推理場景設(shè)計,覆蓋中英文金融垂直領(lǐng)域的多維專業(yè)知識。  

- 顯式金融推理大語言模型:提出Fin-R1,基于多維金融業(yè)務(wù)數(shù)據(jù)集訓(xùn)練,精準(zhǔn)滿足金融行業(yè)對決策過程、數(shù)值嚴(yán)謹(jǐn)性和業(yè)務(wù)泛化能力的核心需求。  

- 兩階段模型構(gòu)建框架:提出包含高質(zhì)量CoT數(shù)據(jù)集構(gòu)建和SFT+RL模型訓(xùn)練的兩階段工作流框架,顯著提升模型金融推理性能。

報告結(jié)構(gòu)如下:第2節(jié)詳細(xì)描述方法框架;第3節(jié)簡述多金融基準(zhǔn)測試的實驗結(jié)果;第4節(jié)總結(jié)技術(shù)貢獻(xiàn)并展望未來研究方向。

2 方法  

 2.1 概述  

我們提出了如圖1所示的兩階段模型構(gòu)建框架。在數(shù)據(jù)生成階段,我們基于DeepSeek-R1進(jìn)行數(shù)據(jù)蒸餾,并采用LLM-as-Judge(Xu et al., 2023)的數(shù)據(jù)過濾方法,構(gòu)建高質(zhì)量金融推理數(shù)據(jù)集Fin-R1-Data。在模型訓(xùn)練階段,我們基于Qwen2.5-7B-Instruct構(gòu)建金融推理模型Fin-R1,通過監(jiān)督微調(diào)(SFT)和組相對策略優(yōu)化算法(GRPO)(Shao et al., 2024)提升模型推理能力并規(guī)范化輸出格式。  


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖1:Fin-R1構(gòu)建流程示意圖。展示了Fin-R1的兩階段構(gòu)建框架:數(shù)據(jù)生成階段(使用DeepSeek-R1生成CoT數(shù)據(jù),并通過Qwen2.5-72B-Instruct進(jìn)行質(zhì)量過濾)和模型訓(xùn)練階段(包括Fin-R1的SFT預(yù)訓(xùn)練和GRPO優(yōu)化)。右側(cè)突出顯示了Fin-R1在金融代碼生成、專業(yè)知識和業(yè)務(wù)知識方面的性能表現(xiàn)。

2.2 數(shù)據(jù)構(gòu)建  

我們的目標(biāo)是開發(fā)Fin-R1-Data,一個專為金融領(lǐng)域設(shè)計的高質(zhì)量監(jiān)督微調(diào)(SFT)數(shù)據(jù)集。為此,我們設(shè)計了穩(wěn)健且全面的數(shù)據(jù)構(gòu)建流程,包括數(shù)據(jù)蒸餾和數(shù)據(jù)過濾,以確保數(shù)據(jù)集的準(zhǔn)確性和可靠性。數(shù)據(jù)構(gòu)建的詳細(xì)流程如圖2所示。              


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖2:第一階段數(shù)據(jù)構(gòu)建流程:(1)數(shù)據(jù)蒸餾,(2)答案檢查(通過LLM評估DeepSeek-R1生成答案的準(zhǔn)確性),(3)推理選擇(通過LLM評估和評分推理軌跡以確保邏輯連貫性和質(zhì)量)。"Reasoning"表示推理輸出,"Thinking"指評判模型的評估過程。

2.2.1 數(shù)據(jù)來源  

Fin-R1-Data共包含60,091條獨立條目,涵蓋中英雙語內(nèi)容。數(shù)據(jù)集主要由開源數(shù)據(jù)集和專有數(shù)據(jù)集兩部分組成。開源數(shù)據(jù)集包括:  

- Ant_Finance(Alipay Team, 2023)  

- FinanceIQ(Duxiaoman DI Team, 2023b)  

- Quant-Trading-Instruct (FinanceQT)(Malik, 2024)  

- ConvFinQA(Chen et al., 2022)  

- FinQA(Chen et al., 2021)      

- Twitter-Financial-News-Sentiment (TFNS)(Anonymous, 2024)  

- Finance-Instruct-500K(Flowers, 2025)  

- FinCorpus(Duxiaoman DI Team, 2023a)  

- FinCUGE(Lu et al., 2023)  

專有數(shù)據(jù)集部分為金融研究生入學(xué)考試(FinPEE)數(shù)據(jù)集,包含350道金融研究生入學(xué)考試的計算題。FinPEE的構(gòu)建遵循嚴(yán)格的多階段流程:  

1. 首先以PDF格式收集數(shù)據(jù),并使用Mineru(Wang et al., 2024a)批量轉(zhuǎn)換為Markdown格式。  

2. 隨后通過正則化技術(shù)提取結(jié)構(gòu)化問答對(Q-A)。  

3. 為確保數(shù)據(jù)完整性和準(zhǔn)確性,所有提取的Q-A對均經(jīng)過人工審查和驗證,最終形成高質(zhì)量的金融研究生考試題目數(shù)據(jù)集。  

Fin-R1-Data的組成結(jié)構(gòu)如圖3所示。  


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖3:Fin-R1-Data的組成結(jié)構(gòu):(1)金融代碼,(2)金融專業(yè)知識,(3)金融推理知識,(4)金融非推理知識。

表1系統(tǒng)展示了Fin-R1-Data中各類別的描述、數(shù)據(jù)來源及比例分布。數(shù)據(jù)集主要由金融非推理業(yè)務(wù)知識和金融推理業(yè)務(wù)知識構(gòu)成,合計占比77.9%。這兩類數(shù)據(jù)全面覆蓋了真實金融業(yè)務(wù)場景的廣泛操作流程。此外,金融專業(yè)知識是數(shù)據(jù)集的重要組成部分,涵蓋多個金融子領(lǐng)域的關(guān)鍵概念,占比21.9%。Fin-R1-Data還包含專門用于量化交易策略開發(fā)的金融代碼數(shù)據(jù),但僅占0.2%。 

表1:Fin-R1-Data的類別及來源    


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

 2.2.2 數(shù)據(jù)處理  

數(shù)據(jù)處理包括數(shù)據(jù)蒸餾和數(shù)據(jù)過濾兩個階段。  

數(shù)據(jù)蒸餾階段的參數(shù)配置嚴(yán)格遵循DeepSeek-R1官方規(guī)范,具體設(shè)置如下:  

1. 溫度(temperature)設(shè)為0.6。  

2. 對于數(shù)學(xué)數(shù)據(jù),使用標(biāo)準(zhǔn)化提示:“請用\boxed{}包裹最終答案”,以確保答案格式一致。  

3. 為保持與目標(biāo)推理模式對齊,在生成數(shù)據(jù)前強制在每個輸出開頭追加“\n”。  

數(shù)據(jù)過濾階段包含兩個主要部分:      

1. 答案檢查(評估模型生成答案的準(zhǔn)確性):僅保留與參考答案完全匹配的響應(yīng)。若DeepSeek-R1生成的答案與數(shù)據(jù)集提供的標(biāo)準(zhǔn)答案不符,則直接丟棄。對于客觀題,采用精確匹配確保正確性;對于主觀題,采用LLM-as-Judge評估答案有效性。  

2. 推理篩選(評估推理軌跡的質(zhì)量):從Xie et al.(2024)的研究中提煉出七個關(guān)鍵維度——內(nèi)部一致性、術(shù)語重疊率、推理步驟數(shù)量、邏輯連貫性、內(nèi)容多樣性、任務(wù)領(lǐng)域相關(guān)性和任務(wù)指令對齊性,用于全面評估模型的推理軌跡數(shù)據(jù)。  

為確保過濾過程的穩(wěn)健性,我們對比了人工標(biāo)注者與模型的評分相關(guān)性。結(jié)果顯示,Qwen2.5-72B-Instruct的評分與人工判斷高度一致,僅存在微小偏差,而GPT-4o的偏差較大(詳見附錄A.2)。因此,我們選擇Qwen2.5-72B-Instruct評估推理軌跡質(zhì)量,并基于評分篩選高質(zhì)量軌跡,最終形成用于監(jiān)督微調(diào)(SFT)的優(yōu)化數(shù)據(jù)集。圖4展示了高質(zhì)量與低質(zhì)量推理軌跡的對比示例。  


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

  

Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖4:高質(zhì)量和低質(zhì)量推理選擇過濾的示例

 2.3 訓(xùn)練方法  

Fin-R1首先通過監(jiān)督微調(diào)(SFT)使用高質(zhì)量金融推理數(shù)據(jù)集進(jìn)行訓(xùn)練,以增強其推理能力。在此基礎(chǔ)上,我們采用強化學(xué)習(xí)實現(xiàn)組相對策略優(yōu)化(GRPO),結(jié)合金融問答數(shù)據(jù)和雙獎勵機制,提升答案格式和內(nèi)容的準(zhǔn)確性。圖5直觀總結(jié)了整體訓(xùn)練框架,展示了監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)的協(xié)同整合。  


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖5:第二階段訓(xùn)練構(gòu)建流程。SFT階段:基礎(chǔ)模型使用結(jié)構(gòu)化推理增強數(shù)據(jù)集進(jìn)行SFT,重點提升金融推理能力。RL階段:應(yīng)用GRPO算法,引入組計算機制提供兩種獎勵信號——格式正確性和內(nèi)容準(zhǔn)確性。

2.3.1 訓(xùn)練數(shù)據(jù)模板      

SFT訓(xùn)練數(shù)據(jù):在監(jiān)督微調(diào)階段,訓(xùn)練數(shù)據(jù)集V中的每個樣本v包含三個部分,即v = (x, c, y),其中:  

- x表示問題  

- c表示推理軌跡,格式化為...  

- y表示答案,格式化為...  

在SFT階段,x作為訓(xùn)練集輸入,c和y作為訓(xùn)練集輸出。此階段使模型學(xué)習(xí)結(jié)構(gòu)化金融推理模式,優(yōu)化參數(shù)以生成格式良好的推理軌跡和準(zhǔn)確答案。  

RL訓(xùn)練數(shù)據(jù):在強化學(xué)習(xí)階段,每個樣本v = (x, y),其中x為問題,y為模型輸出(僅含答案,不含推理軌跡)。強化學(xué)習(xí)通過提升答案準(zhǔn)確性和格式合規(guī)性進(jìn)一步優(yōu)化輸出質(zhì)量。  

2.3.2 監(jiān)督微調(diào)(SFT)

我們首先在Qwen2.5-7B-Instruct模型上進(jìn)行監(jiān)督微調(diào),特別針對金融推理的關(guān)鍵方面進(jìn)行優(yōu)化。這一微調(diào)過程有效緩解了通用模型在金融推理任務(wù)中出現(xiàn)的推理失敗問題。訓(xùn)練數(shù)據(jù)由ConvFinQA和FinQA數(shù)據(jù)集組成。經(jīng)過SFT后,模型在金融推理方面表現(xiàn)出顯著提升的性能,詳見表2。

2.3.3 組相對策略優(yōu)化(GRPO)

在強化學(xué)習(xí)階段,我們采用組相對策略優(yōu)化(GRPO)算法。    

對于每次訓(xùn)練迭代,我們從舊策略π_old中采樣G個候選輸出{α_i}^G_i=1。每個輸出獲得獎勵r_i,據(jù)此我們計算組相對優(yōu)勢A_i:

A_i = (r_i - μ_{r})/σ_{r}

其中μ_{r}和σ_{r}分別表示組內(nèi)獎勵值的均值和標(biāo)準(zhǔn)差。超過組平均值的輸出將獲得更高的優(yōu)勢值以進(jìn)行優(yōu)先優(yōu)化。策略更新通過最大化以下目標(biāo)函數(shù)實現(xiàn):

J_GRPO(θ) = E_{v~P(V),{α_i}^G_i=1~π_{θ,old}(O|v)} 

[1/G Σ^G_i=1 (min(r^ratio_i A_i, clip(r^ratio_i,1-ε,1+ε)A_i) - βD_KL(π_θ||π_ref))]

其中:

- r^ratio_i = π_θ(α_i|v)/π_{θ,old}(α_i|v)表示重要性采樣比率

- A_i表示組相對優(yōu)勢

- clip(r^ratio_i,1-ε,1+ε)將更新幅度限制在信任區(qū)域內(nèi)

- D_KL(π_θ||π_ref)是KL散度

- β是超參數(shù)    


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

2.3.4 獎勵函數(shù)設(shè)計

在基于GRPO訓(xùn)練獎勵模型的過程中,我們采用兩種獎勵機制:格式獎勵和準(zhǔn)確度獎勵。

格式獎勵:我們鼓勵輸出包含...標(biāo)簽內(nèi)的推理步驟序列和...標(biāo)簽內(nèi)的簡明最終答案。如果所有四個標(biāo)簽恰好出現(xiàn)一次且標(biāo)簽外無額外內(nèi)容,則給予1分格式獎勵分,否則為0分。格式獎勵函數(shù)定義如下:    


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)


準(zhǔn)確度獎勵:在金融場景中,我們發(fā)現(xiàn)難以通過基于規(guī)則的方法窮盡列舉答案正則表達(dá)式。因此采用Qwen2.5-Max作為答案評估的評判者。從模型輸出中提取...標(biāo)簽內(nèi)的內(nèi)容作為標(biāo)準(zhǔn)答案。如果標(biāo)簽內(nèi)輸出與標(biāo)準(zhǔn)答案語義一致,則獎勵1分,否則為0分。準(zhǔn)確度獎勵函數(shù)定義如下:


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

2.4 評估

2.4.1 評估數(shù)據(jù)集

我們通過系統(tǒng)驗證五個代表性開源異構(gòu)數(shù)據(jù)集建立金融領(lǐng)域多任務(wù)基準(zhǔn)框架:FinQA、ConvFinQA、Ant-Finance、TFNS和Finance-Instruct-500k。為控制成本并保持?jǐn)?shù)據(jù)分布相對統(tǒng)一,每個評估集隨機采樣1,000條數(shù)據(jù)進(jìn)行評估,若不足1,000條則評估全部。

2.4.2 評估方法    

本研究采用的金融評估數(shù)據(jù)集(除Finance-Instruct-500k外)均采用客觀題形式,具有確定唯一的參考答案。鑒于數(shù)值計算問題可能導(dǎo)致模型輸出與參考答案在表示形式上存在差異(如圖6所示,表現(xiàn)為百分?jǐn)?shù)與小數(shù)表示的等效轉(zhuǎn)換問題或有效數(shù)字保留差異),我們采用大語言模型作為自動評估評判者進(jìn)行答案檢查,采用Zhu等人(2024)提出的提示設(shè)計和評估方法。


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

圖6:模型輸出與真實答案的差異展示。圖5(a)展示小數(shù)位差異,圖5(b)展示表達(dá)形式差異。

3 實驗

3.1 基線模型

為全面評估Fin-R1在金融場景中的推理能力,我們與多個最先進(jìn)模型進(jìn)行了全面對比評估,包括:DeepSeek-R1、Fin-R1-SFT、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct和Qwen-2.5-32B-Instruct。這些模型涵蓋了從輕量級到高性能架構(gòu)的完整譜系,綜合考慮了推理能力和計算資源消耗等因素。

3.2 結(jié)果    

在覆蓋多個金融業(yè)務(wù)場景的綜合基準(zhǔn)評估中,F(xiàn)in-R1盡管只有輕量級的7B參數(shù)量,仍展現(xiàn)出顯著的性能優(yōu)勢。它以平均75.2分的成績總體排名第二,僅比DeepSeek-R1(78.2分)低3分,同時以6分優(yōu)勢超越DeepSeek-R1-Distill-Llama-70B(69.2分)。Fin-R1在兩個推理任務(wù)中排名第一:FinQA(76.0分)和ConvFinQA(85.0分),超越了所有競爭模型。雖然Fin-R1主要針對FinQA和ConvFinQA進(jìn)行了專門訓(xùn)練,但在其他金融基準(zhǔn)測試(Ant_Finance、TFNS和Finance-Instruct-500K)中也表現(xiàn)出顯著性能提升,表明該模型具有強大的跨任務(wù)泛化能力。

表2:不同金融基準(zhǔn)測試中的評估結(jié)果


Fin-R1:通過強化學(xué)習(xí)實現(xiàn)金融推理的大語言模型-AI.x社區(qū)

4 結(jié)論與未來工作

我們提出了金融推理大語言模型Fin-R1,有效解決了金融AI應(yīng)用中的三大核心挑戰(zhàn):碎片化的金融數(shù)據(jù)、不可控的推理邏輯和薄弱的業(yè)務(wù)泛化能力。通過構(gòu)建高質(zhì)量金融推理CoT數(shù)據(jù)集Fin-R1-Data,再通過SFT和RL訓(xùn)練模型,形成了金融領(lǐng)域內(nèi)的兩階段工作流框架。Fin-R1在ConvFinQA和FinQA上分別取得85.0和76.0分的先進(jìn)水平表現(xiàn)。未來我們將聚焦于金融科技領(lǐng)域的整合與創(chuàng)新:一方面優(yōu)化金融多模態(tài)場景架構(gòu),深化其在尖端領(lǐng)域的應(yīng)用探索;另一方面推動LLMs在金融領(lǐng)域的廣泛應(yīng)用,深化與金融應(yīng)用的整合以增強風(fēng)險管理和監(jiān)管合規(guī),最終擴(kuò)展模型的實際效用。

局限性    

盡管模型在金融領(lǐng)域取得了顯著改進(jìn),我們的研究仍存在三個主要局限:

1. 訓(xùn)練數(shù)據(jù)集覆蓋范圍有限:當(dāng)前訓(xùn)練數(shù)據(jù)僅局限于ConvFinQA和FinQA

2. 單模態(tài)架構(gòu)限制:純文本架構(gòu)難以處理包含視覺元素的財務(wù)報告

3. 封閉場景關(guān)注偏差:當(dāng)前評估主要針對有明確標(biāo)準(zhǔn)答案的推理問題

我們相信這些改進(jìn)將顯著提升模型在真實金融場景中的適用性和有效性。 


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Zhaowei Liu等

原文鏈接:??https://mp.weixin.qq.com/s/3fFOE_gh_dOxyLZ4mLQ41w??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-7 06:34:20修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦