STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估
大型語(yǔ)言模型(LLMs)在推理、工具使用和決策方面表現(xiàn)出色,但金融領(lǐng)域的研究仍然不足?,F(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí),未能反映交易的動(dòng)態(tài)和迭代特性。
本文提出STOCKBENCH基準(zhǔn),旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn),表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

摘要
大型語(yǔ)言模型(LLMs)在推理、工具使用和決策方面表現(xiàn)出色,但金融領(lǐng)域的研究仍然不足。現(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí),未能反映交易的動(dòng)態(tài)和迭代特性。
STOCKBENCH用于評(píng)估LLM在多月股票交易環(huán)境中的表現(xiàn)。智能體每天接收市場(chǎng)信號(hào)(價(jià)格、基本面、新聞),并需做出買(mǎi)、賣(mài)或持有的決策。評(píng)估指標(biāo)包括累計(jì)回報(bào)、最大回撤和Sortino比率。
評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有策略,但部分模型在回報(bào)和風(fēng)險(xiǎn)管理上表現(xiàn)出潛力。研究表明,靜態(tài)金融知識(shí)的優(yōu)秀表現(xiàn)不一定能轉(zhuǎn)化為成功的交易策略。STOCKBENCH作為開(kāi)源資源發(fā)布,以支持可重復(fù)性和未來(lái)研究。
簡(jiǎn)介
大型語(yǔ)言模型(LLMs)推動(dòng)了自主智能體的發(fā)展,展現(xiàn)出在推理、工具使用和長(zhǎng)期決策中的強(qiáng)大能力。現(xiàn)有金融智能體基準(zhǔn)主要集中在靜態(tài)問(wèn)答任務(wù),未能反映實(shí)際交易場(chǎng)景。
本文提出STOCKBENCH基準(zhǔn),旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。STOCKBENCH特點(diǎn):真實(shí)市場(chǎng)互動(dòng)、連續(xù)決策、數(shù)據(jù)無(wú)污染。評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn),表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

STOCKBENCH
STOCKBENCH由兩個(gè)主要構(gòu)建塊組成:
- 回測(cè)環(huán)境,包含歷史數(shù)據(jù)用于股票交易決策,模擬真實(shí)股票交易。
- 股票交易智能體工作流,評(píng)估LLM骨干作為智能體在回測(cè)環(huán)境中的表現(xiàn)。

環(huán)境
交易環(huán)境設(shè)計(jì):模擬真實(shí)股票交易,交易智能體僅接觸決策時(shí)可用數(shù)據(jù)。
投資目標(biāo):選擇20只道瓊斯工業(yè)平均指數(shù)中權(quán)重最高的股票,確保評(píng)估結(jié)果穩(wěn)定,避免短期情緒驅(qū)動(dòng)的波動(dòng)。

歷史市場(chǎng)數(shù)據(jù):收集股票的開(kāi)盤(pán)價(jià)及基本面指標(biāo)(市值、P/E比率、股息收益率等),防止未來(lái)信息泄露。
新聞?wù)Z料庫(kù):每日收集過(guò)去48小時(shí)內(nèi)的相關(guān)股票新聞,保留五篇最相關(guān)的文章,模擬零售投資者的反應(yīng)。
數(shù)據(jù)收集時(shí)間窗口:評(píng)估窗口為2025年3月3日至6月30日,確保不與訓(xùn)練數(shù)據(jù)重疊,涵蓋波動(dòng)和趨勢(shì)反轉(zhuǎn)。
股票交易智能體工作流程
本文提供一個(gè)股票交易智能體工作流程,使大型語(yǔ)言模型(LLM)能與回測(cè)環(huán)境互動(dòng)。設(shè)計(jì)目標(biāo):1) 簡(jiǎn)化工作流程,避免引入偏見(jiàn);2) 真實(shí)反映零售投資者的決策過(guò)程。
工作流程分為四個(gè)階段:
- 投資組合概覽:智能體掃描市場(chǎng)所有股票,獲取相關(guān)數(shù)據(jù)(新聞、持倉(cāng)、歷史操作、開(kāi)盤(pán)價(jià))。
- 深入股票分析:選擇特定股票進(jìn)行詳細(xì)分析,獲取基本面數(shù)據(jù)(市值、市盈率、股息收益率)。
- 決策生成:基于分析結(jié)果,生成對(duì)每只股票的決策(增加、減少或持有)。
- 執(zhí)行與驗(yàn)證:將決策轉(zhuǎn)化為股數(shù),檢查流動(dòng)性,確保決策可執(zhí)行,鎖定新組合權(quán)重,進(jìn)入下一天。
STOCKBENCH的特點(diǎn)
真實(shí)市場(chǎng)互動(dòng):通過(guò)精選投資目標(biāo)、可靠的價(jià)格和基本數(shù)據(jù)、及時(shí)的新聞?wù)Z料,模擬真實(shí)交易環(huán)境,避免不切實(shí)際的輸入。
持續(xù)決策:智能體進(jìn)行投資組合概覽、深入股票分析,并基于分析生成每日交易決策,反映零售投資者的決策過(guò)程。
數(shù)據(jù)無(wú)污染:確保智能體在訓(xùn)練期間未接觸測(cè)試數(shù)據(jù),通過(guò)使用近期市場(chǎng)數(shù)據(jù)實(shí)現(xiàn)時(shí)間上的分離,避免與現(xiàn)代大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)重疊。
主要實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)設(shè)置:評(píng)估LLM智能體在STOCK BENCH交易工作流中的表現(xiàn),包括交易環(huán)境、基準(zhǔn)模型、被動(dòng)基線和評(píng)估指標(biāo)。
交易環(huán)境:選擇20只道瓊斯工業(yè)平均指數(shù)(DJIA)股票,評(píng)估期為2025年3月3日至6月30日,共82個(gè)交易日。模型以$100,000現(xiàn)金和零持倉(cāng)開(kāi)始,每日開(kāi)盤(pán)交易,輸入包括過(guò)去7天的歷史操作、48小時(shí)內(nèi)的新聞和基本面數(shù)據(jù)。
評(píng)估模型:基準(zhǔn)包括多種LLM模型(如Qwen3、DeepSeek、Kimi-K2等)和閉源API(如OpenAI的O3、Anthropic的Claude-4-Sonnet),所有模型使用32,768個(gè)token上下文窗口,運(yùn)行三次以確保結(jié)果可靠。
被動(dòng)基線:實(shí)施等權(quán)重買(mǎi)入持有策略,初始資本均勻分配于所有股票,作為比較的基準(zhǔn)。
評(píng)估指標(biāo):
- 最終回報(bào):投資組合價(jià)值的百分比變化,反映整體盈利能力。
- 最大回撤:投資組合價(jià)值從峰值到谷底的最大下降,衡量下行風(fēng)險(xiǎn)。
- Sortino比率:風(fēng)險(xiǎn)調(diào)整回報(bào)指標(biāo),僅懲罰下行波動(dòng),適用于非對(duì)稱(chēng)收益。
綜合排名:通過(guò)計(jì)算每個(gè)指標(biāo)的z-score并平均,得出單一性能評(píng)分,平衡盈利能力與風(fēng)險(xiǎn)管理。
結(jié)果
LLM智能體在真實(shí)市場(chǎng)中能夠盈利,大多數(shù)模型超越了被動(dòng)買(mǎi)入持有基準(zhǔn)(0.4%回報(bào),-15.2%最大回撤,Sortino比率0.0155),部分智能體回報(bào)超過(guò)2%,風(fēng)險(xiǎn)更低。
LLM智能體有效管理下行風(fēng)險(xiǎn),所有模型的最大回撤均低于基準(zhǔn),最佳智能體的回撤在-11%至-14%之間。

理性模型不一定表現(xiàn)更佳,盡管Qwen3-235B-Think等模型在復(fù)雜推理任務(wù)中表現(xiàn)強(qiáng)勁,但在交易任務(wù)中,指令調(diào)優(yōu)模型如Qwen3-235B-Ins表現(xiàn)更好,最大回撤更低(-11.2%對(duì)比-14.9%),顯示出推理能力與動(dòng)態(tài)決策之間的差距。
分析
投資目標(biāo)規(guī)模的影響
投資目標(biāo)規(guī)模對(duì)智能體性能的影響顯著,隨著目標(biāo)規(guī)模(5、10、20、30個(gè)DJIA成分股)的擴(kuò)大,投資組合的權(quán)重差異增加,表現(xiàn)出更高的波動(dòng)性。

可擴(kuò)展性挑戰(zhàn):所有模型在投資組合規(guī)模增加時(shí)表現(xiàn)下降,平均收益降低,收益波動(dòng)性上升,表明多資產(chǎn)決策的復(fù)雜性。
模型規(guī)模的穩(wěn)健性:較大規(guī)模模型Kimi-K2在中等投資組合規(guī)模(10-20只股票)下保持相對(duì)穩(wěn)定的風(fēng)險(xiǎn)收益特征,正收益;而較小模型GPT-OSS-120B則表現(xiàn)出嚴(yán)重的性能下降和過(guò)度波動(dòng),說(shuō)明模型容量的增加有助于提升多資產(chǎn)決策的泛化能力和穩(wěn)定性。
錯(cuò)誤對(duì)交易流程的影響
交易過(guò)程中常見(jiàn)的錯(cuò)誤有:算術(shù)錯(cuò)誤(計(jì)算買(mǎi)賣(mài)股數(shù)時(shí)出錯(cuò))和格式錯(cuò)誤(未遵循JSON格式導(dǎo)致解析失?。?。

思維模型的算術(shù)錯(cuò)誤發(fā)生率低于指令模型,符合其在數(shù)學(xué)推理任務(wù)中的優(yōu)異表現(xiàn)。
思維模型的格式錯(cuò)誤發(fā)生率高于指令模型,可能因其輸出過(guò)于復(fù)雜,導(dǎo)致偏離預(yù)期格式。
數(shù)據(jù)來(lái)源消融研究
LLM智能體依賴(lài)新聞文章和基本財(cái)務(wù)數(shù)據(jù)兩種信息源,前者反映市場(chǎng)情緒,后者提供關(guān)鍵財(cái)務(wù)指標(biāo)。進(jìn)行消融研究,逐步去除輸入,發(fā)現(xiàn)累計(jì)回報(bào)隨著信息源的減少而下降。Kimi-K2模型在去除新聞后仍較為穩(wěn)健,但缺失兩者時(shí)表現(xiàn)顯著下降。GPT-OSS-120B對(duì)新聞和基本面信號(hào)依賴(lài)更強(qiáng),表現(xiàn)下降更明顯。研究表明,LLM交易智能體能夠有效整合文本和數(shù)值信息,提升交易策略的有效性。

評(píng)價(jià)窗口的影響
研究不同市場(chǎng)條件下模型表現(xiàn),使用2025年1月至4月的下行期和5月至8月的上行期進(jìn)行實(shí)驗(yàn)。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被動(dòng)基準(zhǔn)。

模型排名在下行期和上行期顯著變化,GPT-OSS120B在下行期排名靠后,上行期排名靠前,表明其適合牛市。Kimi-K2在兩個(gè)時(shí)期保持相對(duì)穩(wěn)定的排名,顯示出對(duì)市場(chǎng)波動(dòng)的魯棒性。在下行期,所有LLM智能體未能超越被動(dòng)基準(zhǔn),而在上行期,大多數(shù)LLM智能體表現(xiàn)優(yōu)于基準(zhǔn),表明LLM智能體在熊市中表現(xiàn)不佳,需改進(jìn)。
總結(jié)
STOCKBENCH是一個(gè)新穎的基準(zhǔn),用于評(píng)估LLM智能體在真實(shí)股票交易場(chǎng)景中的表現(xiàn)。該基準(zhǔn)模擬動(dòng)態(tài)市場(chǎng)環(huán)境,要求在多個(gè)月的時(shí)間內(nèi)進(jìn)行持續(xù)決策,評(píng)估盈利能力和風(fēng)險(xiǎn)管理能力。實(shí)驗(yàn)表明,當(dāng)前LLM智能體能夠盈利,但難以持續(xù)超越簡(jiǎn)單基線,顯示出該領(lǐng)域的挑戰(zhàn)。STOCKBENCH將為研究社區(qū)提供重要資源,推動(dòng)智能金融智能體的發(fā)展。未來(lái)工作將增強(qiáng)基準(zhǔn),增加市場(chǎng)場(chǎng)景,并探索新智能體架構(gòu)以提升交易表現(xiàn)。
本文轉(zhuǎn)載自??靈度智能??

















