偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="gypkr"></bdo>

<em id="gypkr"><tt id="gypkr"></tt></em>

<ruby id="gypkr"></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

WAIC搶先爆料：金融“黑馬”大模型超DeepSeek刷新SOTA，論文已上線

2025-07-25 15:24:17

不僅在各項(xiàng)金融測評集上刷新SOTA，在MATH、GPQA等通用推理基準(zhǔn)中，也有比肩DeepSeek R1，GPT-o1等超大尺寸推理模型的水平。

又到了一年一度“中國AI春晚”WAIC，各家大廠動(dòng)作頻發(fā)的時(shí)候。

今年會(huì)有哪些看點(diǎn)？你別說，我們還真在扒論文的過程中，發(fā)現(xiàn)了一些熱乎線索。

比如螞蟻數(shù)科的金融推理大模型，發(fā)布會(huì)還沒開，技術(shù)論文已悄咪咪上線。

金融領(lǐng)域的推理大模型，你可以理解為金融領(lǐng)域的DeepSeek，帶著SOTA的刷榜成績來了。

同樣是“杭州”背景科技公司，螞蟻數(shù)科。

不僅在各項(xiàng)金融測評集上刷新SOTA，在MATH、GPQA等通用推理基準(zhǔn)中，也有比肩DeepSeek R1，GPT-o1等超大尺寸推理模型的水平。

圖片

圖片

而且論文也把技術(shù)細(xì)節(jié)全部公開講清楚了。

嘿嘿嘿，留給螞蟻數(shù)科自己發(fā)布會(huì)上當(dāng)新聞來講的東西，不多了。

模型出廠即專家

新模型名為Agentar-Fin-R1，一共有兩個(gè)不同參數(shù)版本：8B和32B。

圖片

螞蟻數(shù)科的研究出發(fā)點(diǎn)很務(wù)實(shí)，就是要突破大模型應(yīng)用在實(shí)際金融業(yè)務(wù)場景中遇到的行業(yè)問題。

與通用場景不同，金融應(yīng)用在數(shù)據(jù)、幻覺和合規(guī)方面，有著更嚴(yán)苛的要求。核心面臨的挑戰(zhàn)有三點(diǎn)：

金融問題的復(fù)雜性：涉及法規(guī)、風(fēng)險(xiǎn)和實(shí)時(shí)數(shù)據(jù)，AI系統(tǒng)必須具備快速學(xué)習(xí)和適應(yīng)的能力。通用大模型雖然會(huì)推理，但對專業(yè)術(shù)語、監(jiān)管細(xì)節(jié)常常“一臉懵”。
可信度和可解釋性：金融決策關(guān)乎重大利益，出錯(cuò)代價(jià)高。每一個(gè)推理步驟都必須透明可審計(jì)，確保決策過程的可信度和可解釋性。
金融大模型評測集：業(yè)界缺少圍繞真實(shí)金融業(yè)務(wù)場景，驗(yàn)證復(fù)雜任務(wù)推理、智能體應(yīng)用等關(guān)鍵能力的金融大模型評測集。

針對于此，Agentar-Fin-R1基于Qwen3，從數(shù)據(jù)采集、訓(xùn)練框架、任務(wù)分類等角度出發(fā)，實(shí)現(xiàn)了針對金融任務(wù)的深度優(yōu)化。

從效果上來看，首先，Agentar-Fin-R1在所有金融評測基準(zhǔn)上——包括Fineva、FinEval、FinanceIQ和螞蟻數(shù)科全新提出的Finova——均達(dá)到業(yè)界最優(yōu)水平，超越業(yè)界開源金融大模型，也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型。

還做到了兼顧專業(yè)與通用，在實(shí)現(xiàn)金融專業(yè)化的同時(shí)，通用推理能力沒有明顯損失。

△Agentar-Fin-R1與Qwen3的對比

具體實(shí)現(xiàn)方法主要包括以下創(chuàng)新：

更專業(yè)全面的金融數(shù)據(jù)標(biāo)簽體系，讓模型“出廠即專家”；
更高效的加權(quán)訓(xùn)練算法，大幅降低大模型應(yīng)用門檻；
模型能力結(jié)合真實(shí)業(yè)務(wù)場景自主進(jìn)化。

圖片

我們逐一詳細(xì)拆解。

更專業(yè)的金融任務(wù)數(shù)據(jù)標(biāo)簽體系

首先，訓(xùn)練行業(yè)大模型需要對行業(yè)知識進(jìn)行系統(tǒng)化的學(xué)習(xí)，

針對金融任務(wù)紛繁復(fù)雜的實(shí)際情況，螞蟻數(shù)科團(tuán)隊(duì)構(gòu)建了精細(xì)化的金融任務(wù)分類體系，覆蓋銀行、證券、保險(xiǎn)、基金、信托等全場景。并將復(fù)雜的金融領(lǐng)域任務(wù)分解為精準(zhǔn)定義的類別，比如“意圖識別”、“風(fēng)險(xiǎn)評估”、“合規(guī)檢查”等等。

基于千億級金融專業(yè)數(shù)據(jù)語料，再經(jīng)過專門設(shè)計(jì)的可信數(shù)據(jù)合成和CoT數(shù)據(jù)精標(biāo)，構(gòu)建了迄今已知最專業(yè)最全面的金融領(lǐng)域訓(xùn)練數(shù)據(jù)集。

這樣做的好處是，相當(dāng)于打造了一個(gè)“課程大綱”，來作為整個(gè)開發(fā)流程的指導(dǎo)框架。

不僅能指導(dǎo)數(shù)據(jù)處理和訓(xùn)練工作流，還實(shí)現(xiàn)了系統(tǒng)化的任務(wù)向?qū)?yōu)化，確保金融推理場景的全面覆蓋。

多維度可信保障

以此為框架，對于垂直領(lǐng)域模型，最為關(guān)鍵的數(shù)據(jù)如何獲??？

螞蟻數(shù)科團(tuán)隊(duì)通過三個(gè)層次來確保數(shù)據(jù)的高質(zhì)量。

首先，是源頭可信。背靠螞蟻在金融領(lǐng)域的長期積累以及真實(shí)數(shù)據(jù)，構(gòu)建專業(yè)全面的金融領(lǐng)域訓(xùn)練數(shù)據(jù)集，并供下游進(jìn)行可信的數(shù)據(jù)合成。

其次，是合成可信。引入可驗(yàn)證的雙軌多智能體協(xié)作數(shù)據(jù)合成框架，也就是讓多個(gè)AI智能體相互討論相互審核，來保證合成數(shù)據(jù)質(zhì)量。

最后，治理可信。通過人工抽樣標(biāo)注，基于自研獎(jiǎng)勵(lì)模型的打分過濾，去重、去污、去毒等全面數(shù)據(jù)處理，保證數(shù)據(jù)安全。

圖片

高效訓(xùn)練優(yōu)化

訓(xùn)練方面，螞蟻數(shù)科團(tuán)隊(duì)創(chuàng)新采用“加權(quán)訓(xùn)練”，以最大化提升數(shù)據(jù)利用效率及訓(xùn)練效率。

簡單來說，就是動(dòng)態(tài)分配訓(xùn)練資源，讓模型在較難的任務(wù)上多投入精力學(xué)，在簡單任務(wù)上少花精力。

具體到數(shù)據(jù)效率方面，是通過難度感知加權(quán)訓(xùn)練框架來挖掘數(shù)據(jù)潛力，結(jié)合標(biāo)簽引導(dǎo)合成和智能選擇提升數(shù)據(jù)利用率。

在訓(xùn)練效率方面，則采用兩階段訓(xùn)練策略：

第一階段，先進(jìn)行知識全面注入，讓模型把金融知識吃透；
第二階段，專挑最難、最弱的題目用強(qiáng)化學(xué)習(xí)+目標(biāo)微調(diào)，強(qiáng)化模型復(fù)雜推理能力。

除此之外，研究團(tuán)隊(duì)還構(gòu)建了全面的歸因系統(tǒng)，實(shí)現(xiàn)快速瓶頸識別和針對性改進(jìn)。

相較于傳統(tǒng)的SFT和RL，這種高效訓(xùn)練優(yōu)化策略不僅能夠縮短模型迭代周期、降低計(jì)算成本，更重要的是能夠快速響應(yīng)金融市場的動(dòng)態(tài)變化，確保模型在風(fēng)險(xiǎn)控制、投資決策、合規(guī)監(jiān)管等真實(shí)業(yè)務(wù)場景中，及時(shí)部署，自主“進(jìn)化”。

同時(shí)，這也是模型保留通用能力的關(guān)鍵所在。

Finova：更嚴(yán)苛的評估標(biāo)準(zhǔn)

值得關(guān)注的一點(diǎn)是，這次螞蟻數(shù)科不僅是在提升模型能力上下了功夫。為了驗(yàn)證模型在真實(shí)場景中的有效性，他們還在“考試題目”上下了功夫。

前文提到，在這項(xiàng)研究中，螞蟻數(shù)科自己提出了一個(gè)新的評測基準(zhǔn)Finova。

為什么要提新標(biāo)準(zhǔn)？原因很簡單：現(xiàn)有的金融測評集，太簡單了。

就像對于通用模型，人類專家們絞盡腦汁設(shè)置“人類最后的考試”，極限考驗(yàn)頂尖模型的性能，螞蟻數(shù)科也希望在金融領(lǐng)域，能面向?qū)嶋H部署，更準(zhǔn)確地評估模型的真實(shí)效用。

具體來說，F(xiàn)inova是從智能體執(zhí)行任務(wù)能力、復(fù)雜推理能力、安全合規(guī)能力這三個(gè)真實(shí)場景中最受關(guān)注的維度，來對模型進(jìn)行考察，共包含1350道金融難題。

智能體能力評估

從實(shí)際業(yè)務(wù)需求出發(fā)，標(biāo)準(zhǔn)化評估金融智能體的核心能力：

金融意圖檢測：精準(zhǔn)識別投資咨詢、產(chǎn)品詢問、風(fēng)險(xiǎn)評估等復(fù)雜金融場景中的用戶真實(shí)需求
金融槽位識別：準(zhǔn)確抽取和結(jié)構(gòu)化“萬能險(xiǎn)”、“科創(chuàng)板”等專業(yè)金融術(shù)語，構(gòu)建金融文本理解基礎(chǔ)
金融工具規(guī)劃：智能解析用戶需求并推薦匹配的金融工具，如投資組合分析、基金對比等
金融表達(dá)生成：基于多種來源的數(shù)據(jù)源綜合生成準(zhǔn)確可靠、嚴(yán)格符合監(jiān)管要求的專業(yè)金融表達(dá)

舉個(gè)例子，面對“能告訴我瑞士法郎兌加元現(xiàn)在報(bào)價(jià)多少，近期加元為什么跌得這么兇”這樣的問題，模型理解用戶意圖為對“外匯”進(jìn)行信息查詢+分析解讀，識別“瑞士法郎”、“加元”等槽位，調(diào)用相應(yīng)查詢工具，最后綜合多種信息源生成回答。

復(fù)雜推理能力

深度整合金融數(shù)學(xué)計(jì)算、代碼理解和多步驟復(fù)雜邏輯推理，模擬真實(shí)金融決策場景：

涵蓋資產(chǎn)估值、投資組合優(yōu)化、風(fēng)險(xiǎn)分析等核心金融業(yè)務(wù)；考驗(yàn)?zāi)Ｐ驮跉v史數(shù)據(jù)分析、結(jié)果預(yù)測、復(fù)雜場景推理等方面的綜合表現(xiàn)。

在這方面，感受一下，F(xiàn)inova的真題如下：

某工業(yè)公司2024年4月的財(cái)務(wù)數(shù)據(jù)顯示：邊際貢獻(xiàn)總額為 $60,000，凈利潤為 $25,000。預(yù)計(jì)5月份銷售量將同比增長5%，假設(shè)公司成本結(jié)構(gòu)和固定成本保持不變。則該公司在此期間的經(jīng)營杠桿系數(shù)（DOL）為 __，對應(yīng)的凈利潤預(yù)期增幅為 __%（結(jié)果分別保留一位小數(shù)和整數(shù)位）。

安全合規(guī)驗(yàn)證

安全防護(hù)方面，識別和防范惡意輸入、數(shù)據(jù)泄露、系統(tǒng)濫用等安全威脅。

合規(guī)監(jiān)管方面，深度理解反洗錢法規(guī)、數(shù)據(jù)隱私保護(hù)、投資者保護(hù)、風(fēng)險(xiǎn)披露等多元化監(jiān)管框架。

可以看到，在Finova這個(gè)新基準(zhǔn)下，參與測試的模型評分相較于其他基準(zhǔn)都有明顯的下降，甚至得分幾乎砍半。

圖片

其中，螞蟻數(shù)科的Agentar-Fin-R1-32B達(dá)到了最高的69.93分，大幅超越了同尺寸金融推理大模型Dianjin-R1-32B（56.02分)，也超越了超大尺寸推理模型DeepSeek-R1（61.28分）和GPT-o1（60.46分）。

這進(jìn)一步凸顯了垂直領(lǐng)域模型在特定任務(wù)中的顯著優(yōu)勢。

螞蟻數(shù)科SOTA意外嗎？

從實(shí)驗(yàn)結(jié)果可以看出，Agentar-Fin-R1這樣的垂直模型，是行業(yè)賽道中的“隱藏王牌”，在實(shí)際應(yīng)用場景中往往能比通用模型更快落地、發(fā)揮作用。

這也是為什么——是螞蟻數(shù)科帶來了這次最新的金融行業(yè)SOTA模型。

有必然性，基因就在那里。作為螞蟻集團(tuán)的科技商業(yè)化獨(dú)立板塊，螞蟻數(shù)科長期浸潤一線，天然具備對金融場景更深度的行業(yè)理解和數(shù)據(jù)積累。

并且從2017年起，螞蟻數(shù)科已經(jīng)布局AI，致力于以AI技術(shù)深度重構(gòu)企業(yè)核心場景。

目前，在金融領(lǐng)域，螞蟻數(shù)科累計(jì)已服務(wù)100%國有股份制銀行，超60%城商行，以及數(shù)百家金融機(jī)構(gòu)，支持金融業(yè)的高效數(shù)智化轉(zhuǎn)型。

也有順勢而為的準(zhǔn)確趨勢判斷。

實(shí)際上，作為螞蟻數(shù)科的企業(yè)級智能體服務(wù)品牌，Agentar已經(jīng)成為螞蟻集團(tuán)在金融領(lǐng)域AI實(shí)踐的一個(gè)經(jīng)驗(yàn)輸出窗口。

Agentar鏈接數(shù)百個(gè)金融MCP，為金融機(jī)構(gòu)規(guī)模化應(yīng)用大模型提供強(qiáng)大的數(shù)據(jù)生態(tài)，并已聯(lián)合金融行業(yè)機(jī)構(gòu)推出超百個(gè)金融智能體解決方案，覆蓋銀行、證券、保險(xiǎn)、通用金融等四大領(lǐng)域，能提升一線員工工作效率超80%。

現(xiàn)在，新模型出爐，可以說是螞蟻數(shù)科本身行業(yè)洞察+數(shù)據(jù)積累+AI能力的一次集中體現(xiàn)。

當(dāng)然啦，技術(shù)論文實(shí)現(xiàn)SOTA之外，作為模型和產(chǎn)品，更重要的還是實(shí)際應(yīng)用表現(xiàn)。

建議螞蟻數(shù)科的朋友，發(fā)布會(huì)多講講這方面的。

論文和性能成績，我們已經(jīng)替你們搶跑了喲～

論文地址：https://arxiv.org/abs/2507.16802

責(zé)任編輯：武曉燕來源：量子位

WAIC DeepSeek SOTA

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="ftiwp"><mark id="ftiwp"></mark></blockquote>