偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估

發(fā)布于 2025-10-13 07:10
瀏覽
0收藏

大型語(yǔ)言模型(LLMs)在推理、工具使用和決策方面表現(xiàn)出色,但金融領(lǐng)域的研究仍然不足?,F(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí),未能反映交易的動(dòng)態(tài)和迭代特性。

本文提出STOCKBENCH基準(zhǔn),旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn),表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

摘要

大型語(yǔ)言模型(LLMs)在推理、工具使用和決策方面表現(xiàn)出色,但金融領(lǐng)域的研究仍然不足。現(xiàn)有金融基準(zhǔn)主要測(cè)試靜態(tài)知識(shí),未能反映交易的動(dòng)態(tài)和迭代特性。

STOCKBENCH用于評(píng)估LLM在多月股票交易環(huán)境中的表現(xiàn)。智能體每天接收市場(chǎng)信號(hào)(價(jià)格、基本面、新聞),并需做出買(mǎi)、賣(mài)或持有的決策。評(píng)估指標(biāo)包括累計(jì)回報(bào)、最大回撤和Sortino比率。

評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有策略,但部分模型在回報(bào)和風(fēng)險(xiǎn)管理上表現(xiàn)出潛力。研究表明,靜態(tài)金融知識(shí)的優(yōu)秀表現(xiàn)不一定能轉(zhuǎn)化為成功的交易策略。STOCKBENCH作為開(kāi)源資源發(fā)布,以支持可重復(fù)性和未來(lái)研究。

簡(jiǎn)介

大型語(yǔ)言模型(LLMs)推動(dòng)了自主智能體的發(fā)展,展現(xiàn)出在推理、工具使用和長(zhǎng)期決策中的強(qiáng)大能力。現(xiàn)有金融智能體基準(zhǔn)主要集中在靜態(tài)問(wèn)答任務(wù),未能反映實(shí)際交易場(chǎng)景。

本文提出STOCKBENCH基準(zhǔn),旨在評(píng)估LLM在真實(shí)股票交易環(huán)境中的盈利能力和風(fēng)險(xiǎn)管理能力。STOCKBENCH特點(diǎn):真實(shí)市場(chǎng)互動(dòng)、連續(xù)決策、數(shù)據(jù)無(wú)污染。評(píng)估結(jié)果顯示,大多數(shù)LLM智能體未能超越簡(jiǎn)單的買(mǎi)入持有基準(zhǔn),表明靜態(tài)問(wèn)答能力與動(dòng)態(tài)市場(chǎng)交易策略之間存在差距。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

STOCKBENCH

STOCKBENCH由兩個(gè)主要構(gòu)建塊組成:

  • 回測(cè)環(huán)境,包含歷史數(shù)據(jù)用于股票交易決策,模擬真實(shí)股票交易。
  • 股票交易智能體工作流,評(píng)估LLM骨干作為智能體在回測(cè)環(huán)境中的表現(xiàn)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

環(huán)境

交易環(huán)境設(shè)計(jì):模擬真實(shí)股票交易,交易智能體僅接觸決策時(shí)可用數(shù)據(jù)。

投資目標(biāo):選擇20只道瓊斯工業(yè)平均指數(shù)中權(quán)重最高的股票,確保評(píng)估結(jié)果穩(wěn)定,避免短期情緒驅(qū)動(dòng)的波動(dòng)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

歷史市場(chǎng)數(shù)據(jù):收集股票的開(kāi)盤(pán)價(jià)及基本面指標(biāo)(市值、P/E比率、股息收益率等),防止未來(lái)信息泄露。

新聞?wù)Z料庫(kù):每日收集過(guò)去48小時(shí)內(nèi)的相關(guān)股票新聞,保留五篇最相關(guān)的文章,模擬零售投資者的反應(yīng)。

數(shù)據(jù)收集時(shí)間窗口:評(píng)估窗口為2025年3月3日至6月30日,確保不與訓(xùn)練數(shù)據(jù)重疊,涵蓋波動(dòng)和趨勢(shì)反轉(zhuǎn)。

股票交易智能體工作流程

本文提供一個(gè)股票交易智能體工作流程,使大型語(yǔ)言模型(LLM)能與回測(cè)環(huán)境互動(dòng)。設(shè)計(jì)目標(biāo):1) 簡(jiǎn)化工作流程,避免引入偏見(jiàn);2) 真實(shí)反映零售投資者的決策過(guò)程。

工作流程分為四個(gè)階段:

  • 投資組合概覽:智能體掃描市場(chǎng)所有股票,獲取相關(guān)數(shù)據(jù)(新聞、持倉(cāng)、歷史操作、開(kāi)盤(pán)價(jià))。
  • 深入股票分析:選擇特定股票進(jìn)行詳細(xì)分析,獲取基本面數(shù)據(jù)(市值、市盈率、股息收益率)。
  • 決策生成:基于分析結(jié)果,生成對(duì)每只股票的決策(增加、減少或持有)。
  • 執(zhí)行與驗(yàn)證:將決策轉(zhuǎn)化為股數(shù),檢查流動(dòng)性,確保決策可執(zhí)行,鎖定新組合權(quán)重,進(jìn)入下一天。

STOCKBENCH的特點(diǎn)

真實(shí)市場(chǎng)互動(dòng):通過(guò)精選投資目標(biāo)、可靠的價(jià)格和基本數(shù)據(jù)、及時(shí)的新聞?wù)Z料,模擬真實(shí)交易環(huán)境,避免不切實(shí)際的輸入。

持續(xù)決策:智能體進(jìn)行投資組合概覽、深入股票分析,并基于分析生成每日交易決策,反映零售投資者的決策過(guò)程。

數(shù)據(jù)無(wú)污染:確保智能體在訓(xùn)練期間未接觸測(cè)試數(shù)據(jù),通過(guò)使用近期市場(chǎng)數(shù)據(jù)實(shí)現(xiàn)時(shí)間上的分離,避免與現(xiàn)代大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)重疊。

主要實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)設(shè)置:評(píng)估LLM智能體在STOCK BENCH交易工作流中的表現(xiàn),包括交易環(huán)境、基準(zhǔn)模型、被動(dòng)基線和評(píng)估指標(biāo)。

交易環(huán)境:選擇20只道瓊斯工業(yè)平均指數(shù)(DJIA)股票,評(píng)估期為2025年3月3日至6月30日,共82個(gè)交易日。模型以$100,000現(xiàn)金和零持倉(cāng)開(kāi)始,每日開(kāi)盤(pán)交易,輸入包括過(guò)去7天的歷史操作、48小時(shí)內(nèi)的新聞和基本面數(shù)據(jù)。

評(píng)估模型:基準(zhǔn)包括多種LLM模型(如Qwen3、DeepSeek、Kimi-K2等)和閉源API(如OpenAI的O3、Anthropic的Claude-4-Sonnet),所有模型使用32,768個(gè)token上下文窗口,運(yùn)行三次以確保結(jié)果可靠。

被動(dòng)基線:實(shí)施等權(quán)重買(mǎi)入持有策略,初始資本均勻分配于所有股票,作為比較的基準(zhǔn)。

評(píng)估指標(biāo):

  • 最終回報(bào):投資組合價(jià)值的百分比變化,反映整體盈利能力。
  • 最大回撤:投資組合價(jià)值從峰值到谷底的最大下降,衡量下行風(fēng)險(xiǎn)。
  • Sortino比率:風(fēng)險(xiǎn)調(diào)整回報(bào)指標(biāo),僅懲罰下行波動(dòng),適用于非對(duì)稱(chēng)收益。

綜合排名:通過(guò)計(jì)算每個(gè)指標(biāo)的z-score并平均,得出單一性能評(píng)分,平衡盈利能力與風(fēng)險(xiǎn)管理。

結(jié)果

LLM智能體在真實(shí)市場(chǎng)中能夠盈利,大多數(shù)模型超越了被動(dòng)買(mǎi)入持有基準(zhǔn)(0.4%回報(bào),-15.2%最大回撤,Sortino比率0.0155),部分智能體回報(bào)超過(guò)2%,風(fēng)險(xiǎn)更低。

LLM智能體有效管理下行風(fēng)險(xiǎn),所有模型的最大回撤均低于基準(zhǔn),最佳智能體的回撤在-11%至-14%之間。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

理性模型不一定表現(xiàn)更佳,盡管Qwen3-235B-Think等模型在復(fù)雜推理任務(wù)中表現(xiàn)強(qiáng)勁,但在交易任務(wù)中,指令調(diào)優(yōu)模型如Qwen3-235B-Ins表現(xiàn)更好,最大回撤更低(-11.2%對(duì)比-14.9%),顯示出推理能力與動(dòng)態(tài)決策之間的差距。

分析

投資目標(biāo)規(guī)模的影響

投資目標(biāo)規(guī)模對(duì)智能體性能的影響顯著,隨著目標(biāo)規(guī)模(5、10、20、30個(gè)DJIA成分股)的擴(kuò)大,投資組合的權(quán)重差異增加,表現(xiàn)出更高的波動(dòng)性。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

可擴(kuò)展性挑戰(zhàn):所有模型在投資組合規(guī)模增加時(shí)表現(xiàn)下降,平均收益降低,收益波動(dòng)性上升,表明多資產(chǎn)決策的復(fù)雜性。

模型規(guī)模的穩(wěn)健性:較大規(guī)模模型Kimi-K2在中等投資組合規(guī)模(10-20只股票)下保持相對(duì)穩(wěn)定的風(fēng)險(xiǎn)收益特征,正收益;而較小模型GPT-OSS-120B則表現(xiàn)出嚴(yán)重的性能下降和過(guò)度波動(dòng),說(shuō)明模型容量的增加有助于提升多資產(chǎn)決策的泛化能力和穩(wěn)定性。

錯(cuò)誤對(duì)交易流程的影響

交易過(guò)程中常見(jiàn)的錯(cuò)誤有:算術(shù)錯(cuò)誤(計(jì)算買(mǎi)賣(mài)股數(shù)時(shí)出錯(cuò))和格式錯(cuò)誤(未遵循JSON格式導(dǎo)致解析失?。?。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

思維模型的算術(shù)錯(cuò)誤發(fā)生率低于指令模型,符合其在數(shù)學(xué)推理任務(wù)中的優(yōu)異表現(xiàn)。

思維模型的格式錯(cuò)誤發(fā)生率高于指令模型,可能因其輸出過(guò)于復(fù)雜,導(dǎo)致偏離預(yù)期格式。

數(shù)據(jù)來(lái)源消融研究

LLM智能體依賴(lài)新聞文章和基本財(cái)務(wù)數(shù)據(jù)兩種信息源,前者反映市場(chǎng)情緒,后者提供關(guān)鍵財(cái)務(wù)指標(biāo)。進(jìn)行消融研究,逐步去除輸入,發(fā)現(xiàn)累計(jì)回報(bào)隨著信息源的減少而下降。Kimi-K2模型在去除新聞后仍較為穩(wěn)健,但缺失兩者時(shí)表現(xiàn)顯著下降。GPT-OSS-120B對(duì)新聞和基本面信號(hào)依賴(lài)更強(qiáng),表現(xiàn)下降更明顯。研究表明,LLM交易智能體能夠有效整合文本和數(shù)值信息,提升交易策略的有效性。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

評(píng)價(jià)窗口的影響

研究不同市場(chǎng)條件下模型表現(xiàn),使用2025年1月至4月的下行期和5月至8月的上行期進(jìn)行實(shí)驗(yàn)。模型包括Kimi-K2、DeepSeek系列、GPT-OSS系列和被動(dòng)基準(zhǔn)。

STOCKBENCH: 大模型現(xiàn)實(shí)環(huán)境股票交易盈利及風(fēng)險(xiǎn)評(píng)估-AI.x社區(qū)

模型排名在下行期和上行期顯著變化,GPT-OSS120B在下行期排名靠后,上行期排名靠前,表明其適合牛市。Kimi-K2在兩個(gè)時(shí)期保持相對(duì)穩(wěn)定的排名,顯示出對(duì)市場(chǎng)波動(dòng)的魯棒性。在下行期,所有LLM智能體未能超越被動(dòng)基準(zhǔn),而在上行期,大多數(shù)LLM智能體表現(xiàn)優(yōu)于基準(zhǔn),表明LLM智能體在熊市中表現(xiàn)不佳,需改進(jìn)。

總結(jié)

STOCKBENCH是一個(gè)新穎的基準(zhǔn),用于評(píng)估LLM智能體在真實(shí)股票交易場(chǎng)景中的表現(xiàn)。該基準(zhǔn)模擬動(dòng)態(tài)市場(chǎng)環(huán)境,要求在多個(gè)月的時(shí)間內(nèi)進(jìn)行持續(xù)決策,評(píng)估盈利能力和風(fēng)險(xiǎn)管理能力。實(shí)驗(yàn)表明,當(dāng)前LLM智能體能夠盈利,但難以持續(xù)超越簡(jiǎn)單基線,顯示出該領(lǐng)域的挑戰(zhàn)。STOCKBENCH將為研究社區(qū)提供重要資源,推動(dòng)智能金融智能體的發(fā)展。未來(lái)工作將增強(qiáng)基準(zhǔn),增加市場(chǎng)場(chǎng)景,并探索新智能體架構(gòu)以提升交易表現(xiàn)。

本文轉(zhuǎn)載自??靈度智能??

標(biāo)簽
已于2025-10-13 07:10:39修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦