偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="uj6vw"></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估

發(fā)布于 2025-10-13 07:10

瀏覽

0收藏

大型語(yǔ)言模型（LLMs）在推理、工具使用和決策方面表現(xiàn)出色，但金融領(lǐng)域的研究仍然不足?，F(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí)，未能反映交易的動(dòng)態(tài)和迭代特性。

本文提出STOCKBENCH基準(zhǔn)，旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。評(píng)估結(jié)果顯示，大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn)，表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

摘要

大型語(yǔ)言模型（LLMs）在推理、工具使用和決策方面表現(xiàn)出色，但金融領(lǐng)域的研究仍然不足。現(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí)，未能反映交易的動(dòng)態(tài)和迭代特性。

STOCKBENCH用于評(píng)估LLM在多月股票交易環(huán)境中的表現(xiàn)。智能體每天接收市場(chǎng)信號(hào)（價(jià)格、基本面、新聞），并需做出買(mǎi)、賣(mài)或持有的決策。評(píng)估指標(biāo)包括累計(jì)回報(bào)、最大回撤和Sortino比率。

評(píng)估結(jié)果顯示，大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有策略，但部分模型在回報(bào)和風(fēng)險(xiǎn)管理上表現(xiàn)出潛力。研究表明，靜態(tài)金融知識(shí)的優(yōu)秀表現(xiàn)不一定能轉(zhuǎn)化為成功的交易策略。STOCKBENCH作為開(kāi)源資源發(fā)布，以支持可重復(fù)性和未來(lái)研究。

簡(jiǎn)介

大型語(yǔ)言模型（LLMs）推動(dòng)了自主智能體的發(fā)展，展現(xiàn)出在推理、工具使用和長(zhǎng)期決策中的強(qiáng)大能力。現(xiàn)有金融智能體基準(zhǔn)主要集中在靜態(tài)問(wèn)答任務(wù)，未能反映實(shí)際交易場(chǎng)景。

本文提出STOCKBENCH基準(zhǔn)，旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。STOCKBENCH特點(diǎn)：真實(shí)市場(chǎng)互動(dòng)、連續(xù)決策、數(shù)據(jù)無(wú)污染。評(píng)估結(jié)果顯示，大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn)，表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

STOCKBENCH

STOCKBENCH由兩個(gè)主要構(gòu)建塊組成：

回測(cè)環(huán)境，包含歷史數(shù)據(jù)用于股票交易決策，模擬真實(shí)股票交易。
股票交易智能體工作流，評(píng)估LLM骨干作為智能體在回測(cè)環(huán)境中的表現(xiàn)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

環(huán)境

交易環(huán)境設(shè)計(jì)：模擬真實(shí)股票交易，交易智能體僅接觸決策時(shí)可用數(shù)據(jù)。

投資目標(biāo)：選擇20只道瓊斯工業(yè)平均指數(shù)中權(quán)重最高的股票，確保評(píng)估結(jié)果穩(wěn)定，避免短期情緒驅(qū)動(dòng)的波動(dòng)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

歷史市場(chǎng)數(shù)據(jù)：收集股票的開(kāi)盤(pán)價(jià)及基本面指標(biāo)（市值、P/E比率、股息收益率等），防止未來(lái)信息泄露。

新聞?wù)Z料庫(kù)：每日收集過(guò)去48小時(shí)內(nèi)的相關(guān)股票新聞，保留五篇最相關(guān)的文章，模擬零售投資者的反應(yīng)。

數(shù)據(jù)收集時(shí)間窗口：評(píng)估窗口為2025年3月3日至6月30日，確保不與訓(xùn)練數(shù)據(jù)重疊，涵蓋波動(dòng)和趨勢(shì)反轉(zhuǎn)。

股票交易智能體工作流程

本文提供一個(gè)股票交易智能體工作流程，使大型語(yǔ)言模型（LLM）能與回測(cè)環(huán)境互動(dòng)。設(shè)計(jì)目標(biāo)：1) 簡(jiǎn)化工作流程，避免引入偏見(jiàn)；2) 真實(shí)反映零售投資者的決策過(guò)程。

工作流程分為四個(gè)階段：

投資組合概覽：智能體掃描市場(chǎng)所有股票，獲取相關(guān)數(shù)據(jù)（新聞、持倉(cāng)、歷史操作、開(kāi)盤(pán)價(jià)）。
深入股票分析：選擇特定股票進(jìn)行詳細(xì)分析，獲取基本面數(shù)據(jù)（市值、市盈率、股息收益率）。
決策生成：基于分析結(jié)果，生成對(duì)每只股票的決策（增加、減少或持有）。
執(zhí)行與驗(yàn)證：將決策轉(zhuǎn)化為股數(shù)，檢查流動(dòng)性，確保決策可執(zhí)行，鎖定新組合權(quán)重，進(jìn)入下一天。

STOCKBENCH的特點(diǎn)

真實(shí)市場(chǎng)互動(dòng)：通過(guò)精選投資目標(biāo)、可靠的價(jià)格和基本數(shù)據(jù)、及時(shí)的新聞?wù)Z料，模擬真實(shí)交易環(huán)境，避免不切實(shí)際的輸入。

持續(xù)決策：智能體進(jìn)行投資組合概覽、深入股票分析，并基于分析生成每日交易決策，反映零售投資者的決策過(guò)程。

數(shù)據(jù)無(wú)污染：確保智能體在訓(xùn)練期間未接觸測(cè)試數(shù)據(jù)，通過(guò)使用近期市場(chǎng)數(shù)據(jù)實(shí)現(xiàn)時(shí)間上的分離，避免與現(xiàn)代大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)重疊。

主要實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)設(shè)置：評(píng)估LLM智能體在STOCK BENCH交易工作流中的表現(xiàn)，包括交易環(huán)境、基準(zhǔn)模型、被動(dòng)基線和評(píng)估指標(biāo)。

交易環(huán)境：選擇20只道瓊斯工業(yè)平均指數(shù)（DJIA）股票，評(píng)估期為2025年3月3日至6月30日，共82個(gè)交易日。模型以$100,000現(xiàn)金和零持倉(cāng)開(kāi)始，每日開(kāi)盤(pán)交易，輸入包括過(guò)去7天的歷史操作、48小時(shí)內(nèi)的新聞和基本面數(shù)據(jù)。

評(píng)估模型：基準(zhǔn)包括多種LLM模型（如Qwen3、DeepSeek、Kimi-K2等）和閉源API（如OpenAI的O3、Anthropic的Claude-4-Sonnet），所有模型使用32,768個(gè)token上下文窗口，運(yùn)行三次以確保結(jié)果可靠。

被動(dòng)基線：實(shí)施等權(quán)重買(mǎi)入持有策略，初始資本均勻分配于所有股票，作為比較的基準(zhǔn)。

評(píng)估指標(biāo)：

最終回報(bào)：投資組合價(jià)值的百分比變化，反映整體盈利能力。
最大回撤：投資組合價(jià)值從峰值到谷底的最大下降，衡量下行風(fēng)險(xiǎn)。
Sortino比率：風(fēng)險(xiǎn)調(diào)整回報(bào)指標(biāo)，僅懲罰下行波動(dòng)，適用于非對(duì)稱(chēng)收益。

綜合排名：通過(guò)計(jì)算每個(gè)指標(biāo)的z-score并平均，得出單一性能評(píng)分，平衡盈利能力與風(fēng)險(xiǎn)管理。

結(jié)果

LLM智能體在真實(shí)市場(chǎng)中能夠盈利，大多數(shù)模型超越了被動(dòng)買(mǎi)入持有基準(zhǔn)（0.4%回報(bào)，-15.2%最大回撤，Sortino比率0.0155），部分智能體回報(bào)超過(guò)2%，風(fēng)險(xiǎn)更低。

LLM智能體有效管理下行風(fēng)險(xiǎn)，所有模型的最大回撤均低于基準(zhǔn)，最佳智能體的回撤在-11%至-14%之間。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

理性模型不一定表現(xiàn)更佳，盡管Qwen3-235B-Think等模型在復(fù)雜推理任務(wù)中表現(xiàn)強(qiáng)勁，但在交易任務(wù)中，指令調(diào)優(yōu)模型如Qwen3-235B-Ins表現(xiàn)更好，最大回撤更低（-11.2%對(duì)比-14.9%），顯示出推理能力與動(dòng)態(tài)決策之間的差距。

分析

投資目標(biāo)規(guī)模的影響

投資目標(biāo)規(guī)模對(duì)智能體性能的影響顯著，隨著目標(biāo)規(guī)模（5、10、20、30個(gè)DJIA成分股）的擴(kuò)大，投資組合的權(quán)重差異增加，表現(xiàn)出更高的波動(dòng)性。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

可擴(kuò)展性挑戰(zhàn)：所有模型在投資組合規(guī)模增加時(shí)表現(xiàn)下降，平均收益降低，收益波動(dòng)性上升，表明多資產(chǎn)決策的復(fù)雜性。

模型規(guī)模的穩(wěn)健性：較大規(guī)模模型Kimi-K2在中等投資組合規(guī)模（10-20只股票）下保持相對(duì)穩(wěn)定的風(fēng)險(xiǎn)收益特征，正收益；而較小模型GPT-OSS-120B則表現(xiàn)出嚴(yán)重的性能下降和過(guò)度波動(dòng)，說(shuō)明模型容量的增加有助于提升多資產(chǎn)決策的泛化能力和穩(wěn)定性。

錯(cuò)誤對(duì)交易流程的影響

交易過(guò)程中常見(jiàn)的錯(cuò)誤有：算術(shù)錯(cuò)誤（計(jì)算買(mǎi)賣(mài)股數(shù)時(shí)出錯(cuò)）和格式錯(cuò)誤（未遵循JSON格式導(dǎo)致解析失?。?。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

思維模型的算術(shù)錯(cuò)誤發(fā)生率低于指令模型，符合其在數(shù)學(xué)推理任務(wù)中的優(yōu)異表現(xiàn)。

思維模型的格式錯(cuò)誤發(fā)生率高于指令模型，可能因其輸出過(guò)于復(fù)雜，導(dǎo)致偏離預(yù)期格式。

數(shù)據(jù)來(lái)源消融研究

LLM智能體依賴(lài)新聞文章和基本財(cái)務(wù)數(shù)據(jù)兩種信息源，前者反映市場(chǎng)情緒，后者提供關(guān)鍵財(cái)務(wù)指標(biāo)。進(jìn)行消融研究，逐步去除輸入，發(fā)現(xiàn)累計(jì)回報(bào)隨著信息源的減少而下降。Kimi-K2模型在去除新聞后仍較為穩(wěn)健，但缺失兩者時(shí)表現(xiàn)顯著下降。GPT-OSS-120B對(duì)新聞和基本面信號(hào)依賴(lài)更強(qiáng)，表現(xiàn)下降更明顯。研究表明，LLM交易智能體能夠有效整合文本和數(shù)值信息，提升交易策略的有效性。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

評(píng)價(jià)窗口的影響

研究不同市場(chǎng)條件下模型表現(xiàn)，使用2025年1月至4月的下行期和5月至8月的上行期進(jìn)行實(shí)驗(yàn)。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被動(dòng)基準(zhǔn)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

模型排名在下行期和上行期顯著變化，GPT-OSS120B在下行期排名靠后，上行期排名靠前，表明其適合牛市。Kimi-K2在兩個(gè)時(shí)期保持相對(duì)穩(wěn)定的排名，顯示出對(duì)市場(chǎng)波動(dòng)的魯棒性。在下行期，所有LLM智能體未能超越被動(dòng)基準(zhǔn)，而在上行期，大多數(shù)LLM智能體表現(xiàn)優(yōu)于基準(zhǔn)，表明LLM智能體在熊市中表現(xiàn)不佳，需改進(jìn)。

總結(jié)

STOCKBENCH是一個(gè)新穎的基準(zhǔn)，用于評(píng)估LLM智能體在真實(shí)股票交易場(chǎng)景中的表現(xiàn)。該基準(zhǔn)模擬動(dòng)態(tài)市場(chǎng)環(huán)境，要求在多個(gè)月的時(shí)間內(nèi)進(jìn)行持續(xù)決策，評(píng)估盈利能力和風(fēng)險(xiǎn)管理能力。實(shí)驗(yàn)表明，當(dāng)前LLM智能體能夠盈利，但難以持續(xù)超越簡(jiǎn)單基線，顯示出該領(lǐng)域的挑戰(zhàn)。STOCKBENCH將為研究社區(qū)提供重要資源，推動(dòng)智能金融智能體的發(fā)展。未來(lái)工作將增強(qiáng)基準(zhǔn)，增加市場(chǎng)場(chǎng)景，并探索新智能體架構(gòu)以提升交易表現(xiàn)。

本文轉(zhuǎn)載自??靈度智能??

標(biāo)簽

已于2025-10-13 07:10:39修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

用Python大模型篩選低估值股票

開(kāi)發(fā)者阿橙 ? 1.7w瀏覽 ? 0回復(fù)
如何評(píng)估大語(yǔ)言模型生成結(jié)果的多樣性

sbf_2000 ? 4771瀏覽 ? 1回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點(diǎn)及難點(diǎn)

AI探索時(shí)代 ? 8866瀏覽 ? 0回復(fù)
怎么評(píng)價(jià)一個(gè)模型的好壞？大模型應(yīng)用重要環(huán)節(jié)之——模型評(píng)估

AI探索時(shí)代 ? 7031瀏覽 ? 0回復(fù)
關(guān)于大模型在企業(yè)生產(chǎn)環(huán)境中的獨(dú)立部署問(wèn)題

AI探索時(shí)代 ? 4173瀏覽 ? 0回復(fù)
大語(yǔ)言模型評(píng)估基準(zhǔn)數(shù)據(jù)泄露問(wèn)題分析報(bào)告

芝士AI吃魚(yú) ? 4370瀏覽 ? 0回復(fù)
現(xiàn)實(shí)再次給大模型帶來(lái)沉重打擊

NLP前沿1 ? 3224瀏覽 ? 0回復(fù)
五大主流開(kāi)源大模型RAG評(píng)估框架詳解

玄姐聊AGI ? 1.0w瀏覽 ? 0回復(fù)
大模型面經(jīng)—如何評(píng)估顯卡利用率及顯卡運(yùn)用優(yōu)化方法

shizhi02 ? 4901瀏覽 ? 0回復(fù)
大模型的三大架構(gòu)及T5體驗(yàn)

一起AI技術(shù) ? 4583瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 4471瀏覽 ? 0回復(fù)
基于 LlamaFactory 微調(diào)大模型的實(shí)體識(shí)別的評(píng)估實(shí)現(xiàn)

AI悠閑區(qū) ? 4074瀏覽 ? 0回復(fù)
外國(guó)專(zhuān)家解讀DeepSeek：預(yù)算有限，如何復(fù)制R1推理模型？純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)！

51CTO技術(shù)棧 ? 2949瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語(yǔ)言處理 ? 5367瀏覽 ? 0回復(fù)
一鍵開(kāi)啟大模型評(píng)估：LangChain下場(chǎng)給出最佳實(shí)踐

ermulong ? 4697瀏覽 ? 0回復(fù)
QuantAgent：通過(guò)自我改進(jìn)的大語(yǔ)言模型尋找交易中的圣杯

靈度智能 ? 3066瀏覽 ? 0回復(fù)
面對(duì)開(kāi)源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？

Baihai_IDP ? 3136瀏覽 ? 0回復(fù)
AI也能開(kāi)交易會(huì)議？TradingAgents模擬真實(shí)交易公司，全流程自動(dòng)化！

Halo咯咯 ? 5074瀏覽 ? 0回復(fù)
AI 大語(yǔ)言模型LLM局限性評(píng)估

坦途于胸 ? 3210瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

從模式到預(yù)測(cè)：嘈雜金融市場(chǎng)中基于形狀的方向預(yù)測(cè)框架 2025-10-13 07:10:22發(fā)布
QuantAgent：價(jià)格驅(qū)動(dòng)的高頻交易的智能體系統(tǒng) 2025-09-28 06:56:19發(fā)布

熱門(mén)推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開(kāi)發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽(tīng)不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：從模式到預(yù)測(cè)：嘈雜金融市場(chǎng)中基于形狀的方向預(yù)測(cè)框架

社區(qū)精華內(nèi)容

目錄