一套針對金融領(lǐng)域多模態(tài)問答的自適應(yīng)多層級RAG框架-VeritasFi 原創(chuàng)
現(xiàn)有金融 RAG 的兩大痛點 :一是多模態(tài)數(shù)據(jù)(文本 / 表格 / 圖表)的統(tǒng)一處理,二是通用金融知識與公司特異性需求的平衡。金融領(lǐng)域的問答(如分析 SEC 10-K 報告中的供應(yīng)鏈風險、季度毛利率)需要 “精準結(jié)合多模態(tài)數(shù)據(jù)、兼顧通用規(guī)則與公司特性、快速響應(yīng)高頻查詢與實時需求。

完整的 VeRitasFi RAG 流水線。該圖展示了三條并行的知識檢索路徑:多路徑檢索(藍色)、記憶庫查找(綠色)和工具使用(紅色)。
圍繞金融領(lǐng)域多模態(tài)問答RAG框架VeritasFi展開,核心是解決“多模態(tài)數(shù)據(jù)處理”與“通用金融知識-公司特異性平衡”兩大痛點,VeritasFi是端到端多層級RAG框架,針對金融場景(如SEC文件分析),通過“預處理-檢索-重排序”流水線,實現(xiàn)問答,性能超越GraphRAG、LightRAG等基線。
三大核心模塊:
- CAKC(知識萃取):作為數(shù)據(jù)底座(文檔解析),將“文本+表格+圖表”多模態(tài)文檔轉(zhuǎn)為結(jié)構(gòu)化知識庫——先拆分文檔并通過GPT-4o統(tǒng)一非文本模態(tài)為文本,再經(jīng)去重、共指消解、元數(shù)據(jù)生成增強語義,同時構(gòu)建高頻記憶庫(緩存定量查詢答案)并完成索引。

- THR(三方混合檢索):檢索核心,先預處理查詢(歸一化、分解子查詢并路由),再并行三條路徑:多路徑檢索(BM25+Dense+元數(shù)據(jù),深度分析文檔)、高頻記憶庫(快速響應(yīng)定量查詢)、工具調(diào)用(獲取實時數(shù)據(jù),如股價),確保覆蓋全面需求。
- DAR(域到實體兩階段重排序):優(yōu)化檢索結(jié)果,先訓通用金融重排序模型(用抽象數(shù)據(jù)掩蓋實體特異性),再通過自動化標注數(shù)據(jù)微調(diào)為公司專用模型,用對比損失提升相關(guān)性判斷,平衡泛化性與特異性。
通過多模態(tài)統(tǒng)一處理、三方并行檢索、兩階段重排序,實現(xiàn)“高事實正確性+低延遲+強公司適配性”,在FinanceBench、FinQA及內(nèi)部數(shù)據(jù)集(Lotus、Zeekr)上表現(xiàn)優(yōu)異。
實驗性能


參考文獻:VeritasFi: An Adaptable, Multi-tiered RAG Framework for Multi-modal Financial Question Answering,https://arxiv.org/pdf/2510.10828v1代碼暫未開源
本文轉(zhuǎn)載自????大模型自然語言處理??? 作者:llmnlp

















