Trade in Minutes! 揭秘首個將策略與執(zhí)行完全分離的量化交易Agent
今天分享一篇來自同濟大學與微軟亞洲研究院等機構的文章,題為 《TRADE IN MINUTES! RATIONALITY-DRIVEN AGENTIC SYSTEM FOR QUANTITATIVE FINANCIAL TRADING》(分鐘級交易!理性驅動的量化金融交易智能體系統(tǒng))。
這篇文章開創(chuàng)性地提出了一個名為 TiMi (Trade in Minutes) 的多智能體(Multi-Agent)量化交易系統(tǒng)。其核心思想是將復雜的策略制定與優(yōu)化過程與對時間極其敏感的交易執(zhí)行過程進行“解耦”。系統(tǒng)在離線環(huán)境下,利用大語言模型(LLM)在語義分析、代碼編程和數(shù)學推理方面的強大能力,協(xié)同設計、開發(fā)并迭代優(yōu)化出程序化的交易機器人(Trading Bots)。然后,將這些經(jīng)過充分優(yōu)化的、輕量級的機器人部署到線上進行分鐘級的實時交易。 這種架構既利用了LLM的“大腦”進行深度策略思考,又避免了在瞬息萬變的市場中進行高成本、高延遲的實時推理,從而實現(xiàn)了在真實金融市場中的高效、穩(wěn)定盈利。
一、概述
?Title:TRADE IN MINUTES! RATIONALITY-DRIVEN AGENTIC SYSTEM FOR QUANTITATIVE FINANCIAL TRADING
?URL:?? https://arxiv.org/abs/2510.04787??
?Authors:Zifan Song, Kaitao Song, Guosheng Hu, Ding Qi 等
?Institutions:Tongji University, Microsoft Research Asia, University of Bristol, Fudan University
?Code:論文在“可復現(xiàn)性聲明”中承諾將開源TiMi的部署實現(xiàn)。
1.Motivation
當前LLM驅動的金融交易智能體存在的幾個核心痛點:
?情感偏見與信息依賴:現(xiàn)有交易智能體大多模仿人類角色(如分析師),容易引入模擬的情感偏見,并且過度依賴新聞等非結構化文本信息,這些信息往往具有誤導性或時效性滯后。
?高昂的實時推理成本:在交易過程中持續(xù)調用大型語言模型進行推理,計算成本高昂,并且會導致顯著的決策延遲。在毫秒必爭的金融市場中,這種延遲(Slippage,滑點)可能導致錯失交易良機或造成額外虧損。
?傳統(tǒng)方法的局限性:經(jīng)典的量化策略(如基于規(guī)則的策略)雖然穩(wěn)定,但難以適應非線性、突發(fā)的復雜市場動態(tài)(如“黑天鵝”事件)。而現(xiàn)有的LLM金融應用又較少關注其在代碼生成和數(shù)學推理方面的潛力,未能實現(xiàn)真正的“機械理性”。
2.Methods
TiMi系統(tǒng)的核心是“三階段解耦架構”:
- 策略階段 (離線):利用多個專業(yè)化的LLM智能體,從宏觀市場分析到微觀交易對適配,設計出初步的交易策略。
- 優(yōu)化階段 (離線):將策略編程為交易機器人,在模擬環(huán)境中運行以收集反饋。然后由“反思智能體”將反饋轉化為數(shù)學優(yōu)化問題,驅動機器人進行多層次、閉環(huán)式的迭代進化,最終產(chǎn)出成熟的交易機器人。
- 部署階段 (線上):將輕量級、預優(yōu)化好的交易機器人部署到真實市場。它們無需再進行LLM推理,只需根據(jù)預設邏輯和參數(shù)執(zhí)行交易,從而實現(xiàn)極低的延遲和成本。

詳細方法和步驟:
TiMi系統(tǒng)通過一個由四個專業(yè)智能體協(xié)作的精巧工作流來實現(xiàn)其功能:
1)策略階段 (Policy Stage - Offline):
?宏觀分析智能體 (Macro Analysis Agent, ??Ama??):負責分析宏觀市場數(shù)據(jù)(如技術指標),識別市場模式,并形成普適性的交易策略。
?策略適配智能體 (Strategy Adaptation Agent, ??Asa??):接收通用策略,并針對特定的交易對(如BTC/USDT)的獨有特性(如波動率、流動性)進行微觀定制,生成帶有初始參數(shù)的、具體化的交易規(guī)則。
?機器人進化智能體 (Bot Evolution Agent, ??Abe??):這是一個精通代碼的LLM智能體。它將??Asa??生成的具體策略,“翻譯”并編寫成結構化的、可執(zhí)行的程序化交易機器人原型。
2)優(yōu)化階段 (Optimization Stage - Offline):
? 將原型機器人在歷史或模擬市場中進行回測,收集詳細的行動反饋(Action Feedback),包括盈利指標、風險事件、執(zhí)行效率等。
?反饋反思智能體 (Feedback Reflection Agent, ??Afr??): 這是系統(tǒng)的“大腦”。它利用LLM的數(shù)學推理能力,分析反饋數(shù)據(jù),將交易中的問題(如“在市場暴跌時因買單過于密集導致巨額虧損”)形式化為數(shù)學問題(如一個帶約束的線性規(guī)劃問題)。
???Afr??求解這些數(shù)學問題,得到優(yōu)化的參數(shù)配置,或者提出對機器人功能甚至策略邏輯的修改建議。
? 這些優(yōu)化方案被送回給??Abe???,由??Abe??對交易機器人的代碼進行分層(參數(shù)層 -> 功能層 -> 策略層)的修改和完善。這個過程會循環(huán)往復,形成一個閉環(huán)優(yōu)化系統(tǒng),直到機器人表現(xiàn)得足夠穩(wěn)健。
3)部署階段 (Deployment Stage - Live):
? 經(jīng)過多輪優(yōu)化后,最終版的“高級機器人” (??B*??) 被部署到真實的交易環(huán)境中。
? 由于所有復雜的邏輯和參數(shù)都已在離線階段固化,線上機器人只需執(zhí)行計算量很小的任務(如檢查價格、下單),因此響應速度極快,延遲極低。
3.Conclusion
?卓越的真實市場表現(xiàn):在對**美國股指期貨和加密貨幣(主流幣及山寨幣)三大類市場、超過200個交易對的實盤測試中,TiMi系統(tǒng)在年化回報率(ARR)和夏普比率(SR)**等關鍵指標上顯著優(yōu)于傳統(tǒng)的量化方法、機器學習/強化學習方法以及其他的LLM智能體方法。

?極致的行動效率:得益于解耦架構,TiMi的交易延遲與最高效的傳統(tǒng)量化方法相當,比需要連續(xù)推理的LLM智能體快了180倍以上,從根本上解決了LLM在量化交易中的應用瓶頸。
?強大的風險控制和穩(wěn)定性:TiMi的收益分布方差更小,極端虧損(尾部風險)事件罕見。這得益于其由數(shù)學理性驅動的閉環(huán)優(yōu)化過程,使系統(tǒng)能夠在最大化回報和最小化風險之間取得更好的平衡。
4.Limitation
?缺乏零樣本能力:TiMi的強大性能依賴于離線優(yōu)化階段。當進入一個全新的、缺乏歷史數(shù)據(jù)的市場時,它無法立即“開箱即用”,需要一定時間的模擬和數(shù)據(jù)積累來完成優(yōu)化過程。
?潛在的市場影響和倫理問題:任何高效的自動化交易系統(tǒng)都可能影響市場動態(tài)和流動性。此外,這類先進技術也可能加劇機構投資者與散戶之間的信息和技術鴻溝。
二、詳細內(nèi)容
1.TiMi三階段解耦系統(tǒng)架構圖

這張圖是論文的核心,直觀展示了TiMi系統(tǒng)的工作流程。它清晰地劃分了離線環(huán)境(策略階段和優(yōu)化階段)和線上環(huán)境(部署階段)。圖中詳細描繪了四個智能體(Ama, Asa, Abe, Afr)如何協(xié)同工作,將原始的市場數(shù)據(jù)(Market Data)一步步轉化為線上環(huán)境中可執(zhí)行的、經(jīng)過優(yōu)化的交易機器人(Tuned Bots),并強調了不同智能體依賴的LLM核心能力(語義分析、代碼編程、數(shù)學推理)。
2.交易機器人的進化圖譜

此圖展示了交易機器人B在C1到C4四個優(yōu)化周期中的進化路徑。它形象地說明了分層優(yōu)化 的思想:優(yōu)化首先從最簡單的參數(shù)層(P) 開始調整;如果參數(shù)調整無法解決問題,則升級到修改功能層(F) 的算法;最根本的改變則是調整策略層(S) 的決策邏輯。這種由淺入深的優(yōu)化方式保證了系統(tǒng)的穩(wěn)定性和迭代效率。
3.行動延遲與資本利用率對比

1)延時非常低: TiMi的行動延遲(Action Latency)非常低,與傳統(tǒng)的網(wǎng)格交易(Grid)策略在同一水平,遠低于需要持續(xù)推理的FinMem和TradingAgents。
2)資本利用率高: 右側圖表則展示了TiMi擁有極具競爭力的資本盈利/虧損比(1.53),說明其資本利用效率非常高。
4.年化回報率(ARR)分布對比

這是一組小提琴圖,展示了不同方法在所有交易對上的年化回報率分布。TiMi的“提琴”形狀更“瘦高”,且中位數(shù)靠上,表明其回報率不僅平均更高,而且在不同交易對上的表現(xiàn)更穩(wěn)定、一致性更強。相比之下,DDPG(一種強化學習方法)的分布非?!芭帧?,意味著其表現(xiàn)極不穩(wěn)定,高收益與巨額虧損并存。
5.不同版本交易機器人的性能對比

這條曲線圖是優(yōu)化階段有效性的直接證明。原型機器人B(無優(yōu)化)的累計回報率在0附近徘徊。經(jīng)過優(yōu)化的最終版機器人B*則實現(xiàn)了超過20%的穩(wěn)定增長。中間版本(如B(1))雖然一度達到高點,但隨后出現(xiàn)大幅回撤,說明了淺層優(yōu)化(如僅調整參數(shù))的局限性和深層、分層優(yōu)化的必要性。
6.TiMi在四種典型市場行情下的交易記錄

這四張K線圖展示了TiMi在真實交易中的決策點。無論是在V型反轉、持續(xù)上漲、頂部形態(tài)還是暴跌反彈等不同市場動態(tài)下,TiMi都能通過其自適應的下單策略進行買入(↑)和賣出(↓)操作,尤其是在高波動性的交易對上(如SIGN/USDT)表現(xiàn)出更高的交易頻率和盈利能力,驗證了模型的魯棒性。
7.主流方法在真實交易中的性能對比

這是論文最核心的成果表。數(shù)據(jù)顯示,無論是在美股股指期貨、主流加密貨幣還是高風險的山寨幣期貨市場,TiMi在年化回報率(ARR%)和風險調整后收益(SR)上均名列前茅,并且最大回撤(MDD%)控制在有競爭力的水平。
8.數(shù)據(jù)需求與索提諾比率(Sortino Ratio)對比

此表顯示,TiMi僅需4小時以上的市場指標數(shù)據(jù)(M>4h)即可進行有效交易,而其他一些智能體方法還需依賴新聞數(shù)據(jù)(N)。更重要的是,TiMi的索提諾比率(一種衡量下行風險的指標)高達0.91,遠超其他所有方法,再次證明了其卓越的風險管理能力。
三、總結
結論1: “解耦”是解決LLM Agent在量化交易中落地困難的關鍵。本文最大的亮點在于提出了“策略-執(zhí)行解耦”的架構。它巧妙地將LLM的“慢思考”(策略制定、代碼生成、數(shù)學反思)放在離線環(huán)境,將 “快執(zhí)行”(交易下單)放在線上環(huán)境 。這不僅解決了實時推理帶來的高延遲和高成本問題,也使得復雜、深度的策略優(yōu)化成為可能,是LLM Agent在時效性要求極高的領域落地的一個范式級解決方案。
結論2: 專業(yè)化、協(xié)同工作的多智能體系統(tǒng)遠勝于單一通用模型。TiMi沒有試圖用一個“萬能”的LLM解決所有問題,而是設計了四個各司其職的智能體。??Ama??和??Asa??負責“看”市場(語義分析),??Abe??負責“寫”代碼(代碼編程),??Afr??負責“想”問題(數(shù)學推理)。這種模塊化、專業(yè)化的設計充分利用了當今LLM在不同能力維度的優(yōu)勢,形成了一個高效、強大的策略生成與優(yōu)化流水線。

結論3: “數(shù)學理性”驅動的閉環(huán)優(yōu)化是實現(xiàn)策略持續(xù)進化的核心。TiMi最精髓的部分在于??Afr??智能體的“反饋反思”機制。它能 將模糊的交易表現(xiàn)(“虧錢了”)轉化為精確的數(shù)學約束問題,然后求解出更優(yōu)的策略參數(shù)。 這種基于數(shù)學理性的閉環(huán)優(yōu)化,而非簡單的試錯或黑盒模型,使得交易策略能夠持續(xù)、穩(wěn)健地進化,并有效控制風險,是系統(tǒng)能夠長期穩(wěn)定盈利的根本保障。在產(chǎn)業(yè)應用上,這意味著可以構建一個能自我迭代、越用越強的自動化交易系統(tǒng)。
本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

















