機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式

上傳人：1*** IP屬地：北京上傳時間：2024-04-15 格式：DOCX 頁數(shù)：60 大?。?.02MB 積分：20 舉報 版權(quán)申訴

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式_第2頁

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式_第3頁

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式_第4頁

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式_第5頁

已閱讀5頁，還剩55頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

證券研究報告證券研究報告2024.04.07機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式xiaoxiao.zhou@cicc.wencai3.zheng@cicc.c強化學(xué)習(xí)模型作為機器學(xué)習(xí)模型的重要分支在各領(lǐng)域應(yīng)用廣泛，從AlphaGo到ChatGPT均不乏其身影。在金融領(lǐng)域強化學(xué)習(xí)同樣具備無需獨立同分布假設(shè)等優(yōu)勢。本文結(jié)合強化學(xué)習(xí)和特征提取的結(jié)構(gòu)生成的選股因子在多個股票池中均取得良好選股表現(xiàn)，且模型表現(xiàn)對參數(shù)敏感性較低，樣本外穩(wěn)定性高。為什么在量化中嘗試強化學(xué)習(xí)模型作為機器學(xué)習(xí)重要的發(fā)展分支之一，不論是在近幾年討論度較高的LLM大語言模型還是在圍棋領(lǐng)域戰(zhàn)勝世界冠軍的AlphaGo中都不乏強化學(xué)習(xí)的身影。強化學(xué)習(xí)已被證實在不同應(yīng)用場景下對多種任務(wù)都有較好表現(xiàn)。我們認為強化學(xué)習(xí)在金融領(lǐng)域特別是量化策略中可能將具有良好效果，主要出于強化學(xué)習(xí)模型以下四個特點：1.適合處理序列決策任務(wù)；務(wù)；2.輸入數(shù)據(jù)無需遵從獨立同分布的假設(shè)；3.通過與環(huán)境交互探索來不斷優(yōu)化當前策略；4.數(shù)據(jù)無需具備標簽。因子構(gòu)建的本質(zhì)：數(shù)據(jù)與操作符的有機結(jié)合數(shù)據(jù)+操作符：因子挖掘的過程本質(zhì)上屬于尋找數(shù)據(jù)與操作符的結(jié)合方式，挖掘方式可以被分為人工挖掘或模型挖掘兩種。我們在之前的一系列因子手冊中展示的因子均為通過一定邏輯采用人工構(gòu)建的方式得到。而通過人工構(gòu)建的方式在確定性上雖然比機器更高，但效率理論上來說遠不及機器學(xué)習(xí)模型。特征提取模塊+強化學(xué)習(xí)模型：為尋求機器挖掘因子的高確定性，我們通過結(jié)合強化學(xué)習(xí)模型和特征提取模塊，構(gòu)建了包含6個常見日度價量特征的數(shù)據(jù)集，并定義了22個操作符算子和19個常數(shù)算子的數(shù)據(jù)集合。特征提取模塊將主要通過對因子表達式進行線性或非線性方法提取特征，強化學(xué)習(xí)模型則主要負責學(xué)習(xí)如何將數(shù)據(jù)特征和操作符以及常數(shù)算子有機結(jié)合起來，高效尋找合理因子范式。TRPO樣本外穩(wěn)定性較高在我們的測試框架下，強化學(xué)習(xí)模型在樣本外的表現(xiàn)均明顯優(yōu)于作為比較基準的遺傳算法和傳統(tǒng)機器學(xué)習(xí)方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000范圍回測結(jié)果表現(xiàn)突出：ICIR約為0.90，樣本外超額夏普均超過1.1，并且在今年年初市場快速回撤環(huán)境下表現(xiàn)仍然平穩(wěn)。相比之下，兩組對照方法的收益凈值曲線在今年年初出機器學(xué)習(xí)模型的穩(wěn)定性也一直是投資者關(guān)注的重點之一。我們分別固定強化學(xué)習(xí)模型和特征提取模塊，統(tǒng)計合成因子在樣本外回測的ICIR及超額收益的平均表現(xiàn)。實驗結(jié)果表明，TRPO、A2C和PPO模型參與因子范式挖掘得到的合成因子具有較為穩(wěn)定的ICIR表現(xiàn)，均超過0.80。特征提取模塊中，Transformer參與組合的模型輸出的因子具有相對最好的ICIR表現(xiàn)，達到0.79。TRPO相對穩(wěn)定的模型結(jié)構(gòu)解釋：1）相較于其他強化學(xué)習(xí)模型，TRPO使用了信任域優(yōu)化的方法，通過限制策略更新的步幅，確保策略改進過程的平滑和穩(wěn)定。2）TRPO在每次更新時會自適應(yīng)地調(diào)整學(xué)習(xí)率來保持策略更新在信任域內(nèi)，因此其對學(xué)習(xí)率參數(shù)不是特別敏感。3）TRPO優(yōu)化的目標函數(shù)使用了廣義優(yōu)勢估計（GAE）來估計策略梯度，并且結(jié)合了值函數(shù)的估計來減小方差，該設(shè)計使其對于獎勵函數(shù)中的噪聲和估計誤差敏感性降低。風險提示：模型基于歷史數(shù)據(jù)構(gòu)建，未來可能存在失效風險。更多作者及其他信息請見文末披露頁1量化領(lǐng)域下的強化學(xué)習(xí) 4為什么選擇強化學(xué)習(xí) 4強化學(xué)習(xí)在金融領(lǐng)域中的應(yīng)用 5如何尋找因子的構(gòu)建范式 7因子構(gòu)建本質(zhì)：數(shù)據(jù)與操作符的有機結(jié)合 7測試框架：特征提取+強化學(xué)習(xí) 11TRPO+LSTM：兼顧收益與穩(wěn)定 14回測結(jié)果：TRPO+LSTM樣本外表現(xiàn)更優(yōu)穩(wěn)定性高 14算法對比：強化學(xué)習(xí)性能與透明度更優(yōu) 20模型的參數(shù)敏感度分析 21附錄 24因子合成模塊的損失函數(shù)及其推導(dǎo) 24特征提取模塊和強化學(xué)習(xí)模型 25圖表1：強化學(xué)習(xí)模型示意圖 5圖表2：強化學(xué)習(xí)發(fā)展歷史 5圖表3：FinRL整體框架 6圖表4：StockFormer整體框架 6圖表5：數(shù)據(jù)與操作符的結(jié)合方式逆波蘭表達式........................................................................................................7圖表6：馬爾可夫決策過程示意圖 8圖表7：強化學(xué)習(xí)因子挖掘框架 9圖表8：強化學(xué)習(xí)與深度學(xué)習(xí)和遺傳算法的比較 10圖表9：算子定義表 11圖表10：強化學(xué)習(xí)主流方法各項特點對比 12圖表11：特征提取模塊和強化學(xué)習(xí)模型組合，前者負責提取因子表達式的抽象特征 12圖表12：強化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)定義 13圖表13：強化學(xué)習(xí)模型輸出因子在中證1000范圍全樣本月度回測的有效性檢驗結(jié)果 14圖表14：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計（全樣本） 15圖表15：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計（全樣本） 15圖表16：A2C_Linear模型因子與常見因子相關(guān)系數(shù) 15圖表17：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計（全樣本） 15圖表18：強化學(xué)習(xí)和特征提取模塊組合模型的合成因子在中證1000范圍樣本外月度回測的有效性檢驗結(jié)果 16圖表19：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計（樣本外） 16圖表20：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計（樣本外） 16圖表21：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計（樣本外） 17圖表22：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計（樣本外） 17圖表23：TRPO_LSTM模型合成因子與常見因子相關(guān)系數(shù) 17圖表24：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的分組年化超額收益統(tǒng)計（樣本外） 17圖表25：TRPO_LSTM模型因子池中表現(xiàn)較好因子的表達式及合成權(quán)重 172圖表26：強化學(xué)習(xí)模型輸出因子在全市場范圍樣本外月度回測的有效性檢驗結(jié)果 18圖表27：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的年化多空收益統(tǒng)計（樣本外） 18圖表28：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的超額收益統(tǒng)計（樣本外） 18圖表29：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計（樣本外） 19圖表30：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計（樣本外） 19圖表31：PPO_Linear模型因子與常見因子相關(guān)系數(shù) 19圖表32：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計（樣本外） 19圖表33：強化學(xué)習(xí)模型（部分）及對照方法合成因子在中證1000范圍樣本外月度回測的有效性檢驗結(jié)果 20圖表34：中證1000范圍合成因子年化多空收益統(tǒng)計 20圖表35：中證1000范圍合成因子年化超額收益統(tǒng)計 20圖表36：強化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測的IC_IR統(tǒng)計 21圖表37：強化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測的超額收益統(tǒng)計 21圖表38：因子表現(xiàn)對強化學(xué)習(xí)模型敏感度 22圖表39：因子表現(xiàn)對特征模塊的敏感度 22圖表40：TRPO_LSTM模型主要參數(shù)設(shè)置及影響分析 23圖表41：TRPO_LSTM模型樣本外表現(xiàn)隨因子池規(guī)模變化的趨勢 23圖表42：TRPO_LSTM模型樣本外表現(xiàn)隨學(xué)習(xí)率變化的趨勢 23圖表43：TRPO_LSTM模型樣本外表現(xiàn)隨單次更新中步數(shù)大小變化的趨勢 23圖表44：TRPO_LSTM模型樣本外表現(xiàn)隨batch_size數(shù)量變化趨勢 233量化領(lǐng)域下的強化學(xué)習(xí)作為機器學(xué)習(xí)重要的發(fā)展分支之一，不論是在近幾年討論度較高的LLM大語言模型還是在圍棋領(lǐng)域戰(zhàn)勝世界冠軍的AlphaGo中都不乏強化學(xué)習(xí)的身影。強化學(xué)習(xí)已被證實在不同應(yīng)用場景下對多種任務(wù)都有較好表現(xiàn)。我們在使用傳統(tǒng)統(tǒng)計模型和機器學(xué)習(xí)模型時，經(jīng)常容易忽略的一點就是關(guān)于數(shù)據(jù)的假設(shè)。例如對于線性回歸、邏輯回歸、樸素貝葉斯以及KNN等機器學(xué)習(xí)模型來說，一個基礎(chǔ)的假設(shè)就是輸入數(shù)據(jù)需要服從獨立同分布。而對于金融數(shù)據(jù)來說，獨立同分布很多時候都是一個過于嚴格的前提。?時間相關(guān)性：金融數(shù)據(jù)通常是時間序列數(shù)據(jù)，相鄰時間點的數(shù)據(jù)之間可能存在相關(guān)性。例如，股票價格在短時間內(nèi)可能會呈現(xiàn)出一定的自相關(guān)性或者相關(guān)性結(jié)構(gòu)。?波動性聚集：金融市場中的波動通常會出現(xiàn)波動性聚集（volatilityclustering）的現(xiàn)象，即波動性的大幅度變化往往會聚集在一起，而不是均勻分布。這意味著金融數(shù)據(jù)的波動性即波動性的大幅度變化往往會聚集在一起，而不是均勻分布。這意味著金融數(shù)據(jù)的波動性不是獨立同分布的。?異方差性：金融數(shù)據(jù)中常見的異方差性（heteroscedasticity）表現(xiàn)為不同時間點的數(shù)據(jù)具有不同的方差。這違反了獨立同分布的假設(shè)，因為方差并不是恒定的。?非正態(tài)分布：許多金融數(shù)據(jù)并不遵循正態(tài)分布，而是具有偏態(tài)、厚尾或者其它非正態(tài)的分布特征。由于這些特殊性質(zhì)存在，我們將金融數(shù)據(jù)應(yīng)用在使用機器學(xué)習(xí)或深度學(xué)習(xí)模型時，需要謹慎考慮其適配性，而不是強行將數(shù)據(jù)直接輸入模型中。但強化學(xué)習(xí)則不需要輸入數(shù)據(jù)滿足這一要求。此外強化學(xué)習(xí)通過與環(huán)境交互進行試錯探索，進而對當前策略進一步優(yōu)化的模式與量化策略的更新迭代也有諸多相似之處。我們認為強化學(xué)習(xí)在金融領(lǐng)域特別是量化策略中可能將具有良好效果，主要出于強化學(xué)習(xí)模型以下四個特點：1.適合處理序列決策任務(wù)；2.輸入數(shù)據(jù)無需遵從獨立同分布的假設(shè)；3.通過與環(huán)境交互探索來不斷優(yōu)化當前策略；4.數(shù)據(jù)無需具備標簽。我們從強化學(xué)習(xí)的基本原理開始。以AlphaGo訓(xùn)練為例，它主要是通過不斷進行下棋的嘗試，以獲得足夠多成功或者失敗的經(jīng)驗，從而不斷地進行策略的優(yōu)化。結(jié)合強化學(xué)習(xí)的示意圖：AlphaGo對標強化學(xué)習(xí)中的智能體；它進行下棋嘗試的棋盤就是示意圖中的環(huán)境；每次棋局，AlphaGo落子前棋面的情況，即環(huán)境傳遞給智能體的狀態(tài)（stAlphaGo落子的位置對應(yīng)示意圖中智能體傳遞回環(huán)境的動作（at）；棋局結(jié)束時AlphaGo成功或失敗的結(jié)果對應(yīng)著示意圖中環(huán)境反饋給智能體的獎勵r；每一輪棋局稱作一個回合（Episode）；回合中包含的落子次數(shù)稱作當前回合的步長（Step）。由此，可以得到強化學(xué)習(xí)的定義為：智能體學(xué)習(xí)如何在復(fù)雜、不確定的環(huán)境下優(yōu)化策略使獎勵最大化。4圖表1：強化學(xué)習(xí)模型示意圖資料來源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部強化學(xué)習(xí)模型作為機器學(xué)習(xí)的重要分支近年來發(fā)展迅速。2015年由DeepMind研究專家提出的DQN模型，首次將深度學(xué)習(xí)與Q學(xué)習(xí)算法相結(jié)合，成功地在多個Atari游戲中表現(xiàn)超越了人類水平；2016年以其為核心的AlphaGo在更復(fù)雜的圍棋比賽中，戰(zhàn)勝了世界圍棋冠軍李世石。2022年，OpenAI參照強化學(xué)習(xí)的范式通過對大語言模型ChatGPT進行了微調(diào)（RLHF）將人工智能帶入了新的階段。目前，強化學(xué)習(xí)已經(jīng)在許多領(lǐng)域中得到了實際應(yīng)用，其中在金融領(lǐng)域的訂單執(zhí)行、市場做市以及投資組合優(yōu)化等任務(wù)中都取得了成功的探索。圖表2：強化學(xué)習(xí)發(fā)展歷史2018年2022年2018年2022年2016年1989年OpenAI參照強化學(xué)習(xí)的范式通過對大語言模型Chatgpt進行微調(diào)（RLHF）SAC算法TD3算法Q-OpenAI參照強化學(xué)習(xí)的范式通過對大語言模型Chatgpt進行微調(diào)（RLHF）SAC算法TD3算法Q-learning算法AlphaGo擊敗李世石DDPG算法算法OpenAI的AI系統(tǒng)戰(zhàn)勝Dota2職業(yè)選手1994年2015年TRPO算法1994年2015年TRPO算法A3C算法2019年AlphaStar誕生…SARSA算法PPOSARSA算法AlphaZero誕生資料來源：Wind，中金公司研究部在金融領(lǐng)域方面，目前較為成熟的應(yīng)用包括資產(chǎn)配置/資產(chǎn)管理任務(wù)。例如，Liu等人在2021年提出的FinRL框架1，首次將前沿的強化學(xué)習(xí)算法系統(tǒng)的應(yīng)用到了資產(chǎn)配置任務(wù)中，并開源了對應(yīng)的算法框架；Gao等人在2023年基于FinRL提出的StockFormer模型2,結(jié)合了預(yù)測編碼良好的建模能力和強化學(xué)習(xí)策略靈活性的優(yōu)勢，優(yōu)化交易策略。與傳統(tǒng)的強化學(xué)習(xí)方案不同，該模型借助Transformer模型顯式考慮了未來趨勢和不同投資資產(chǎn)之間的相關(guān)性。此外，也有少量研究在因子挖掘及合成任務(wù)上取得了突破性的進展3。FinRL:Deepreinforcementlearningframeworktoautomatetradinginquantitativefinance.StockFormer:Learninghybridtradingmachineswithpredictivecoding.“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023）.5圖表3：FinRL整體框架資料來源：“FinRL:DeepReinforcementLearningFrameworktoAutomateTradinginQuantitativeFinance.”XiaoyangLiu等（2021中金公司研究部圖表4：StockFormer整體框架資料來源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部6如何尋找因子的構(gòu)建范式本文利用強化學(xué)習(xí)模型來尋找有效的因子構(gòu)建范式，因子構(gòu)建范式具體指代包含量價等數(shù)據(jù)特征和數(shù)學(xué)操作符的因子表達公式。在實際操作中，我們使用樹結(jié)構(gòu)來表示因子范式：非葉節(jié)點代表操作符，節(jié)點的子節(jié)點代表操作數(shù)，本文將每個節(jié)點稱為算子（token），并借助逆波蘭表達式的思想將樹結(jié)構(gòu)保存為其后序遍歷的序列，有效發(fā)揮了逆波蘭表達式不含歧義，以及易于被計算機程序解析和計算的優(yōu)勢。與直接預(yù)測收益率任務(wù)相比，該任務(wù)具有更好的解釋性。圖表5：數(shù)據(jù)與操作符的結(jié)合方式--逆波蘭表達式注：(A)因子范式的示例；(B)因子范式對應(yīng)的樹結(jié)構(gòu)；(C)使用逆波蘭表示法（RPN）的結(jié)果，其中BEG和SEP表示序列指示符；(D)在一個示例時間序列上逐步計算這個Alpha因子資料來源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023中金公司研究部強化學(xué)習(xí)模型的數(shù)學(xué)基本框架為馬爾可夫決策過程（MDP），它共包含五個核心元素：(S,A,T,R,γ)，其目標為最大化每一個回合累計獎勵值，公式如下，其中P表示當前回合的總步長，τ表示一個軌跡（或回合即智能體從開始到結(jié)束在環(huán)境中經(jīng)歷的一系列狀態(tài)、動作和獎勵的序列，π表示策略，策略是從狀態(tài)到動作的映射，定義了智能體在給定狀態(tài)下選擇動作的概率分布，形式上，策略π(a|s)表示在狀態(tài)s下選擇動作a的概率。Gt=Eτ~π[∑=1yt?1rt]7對因子構(gòu)建范式挖掘任務(wù)，每個元素的定義如下：?S表示可觀測的數(shù)據(jù)集合（強化學(xué)習(xí)示意圖中的狀態(tài)st集合定義為t時刻下的逆波蘭表達式序列，固定為“BEG”標識符開始。考慮到因子的可解釋性，以及公式過長帶來的解釋性降低，我們將公式的長度閾值（max_expr_length）限制在20個算子以內(nèi)。具體實現(xiàn)方面，我們對所有算子（圖表9）使用整數(shù)編碼進行標識，利用離散的編碼構(gòu)建表達式序列。?A表示動作集合(強化學(xué)習(xí)示意圖中的動作at集合)，定義為合法的候選算子（包括操作數(shù)或操作符，需要根據(jù)當前序列篩選有效的算子）。當因子范式包含的算子數(shù)量超過提前設(shè)置好的閾值（max_expr_length）或當前選擇的動作為結(jié)束符“SEP”，當前回合結(jié)束。?T表示狀態(tài)轉(zhuǎn)移概率方程T(st+1|st,at)，表示采取動作at加入表達式序列后的因子范式。?R表示獎勵函數(shù)（強化學(xué)習(xí)示意圖中的Tt可以根據(jù)預(yù)期的策略進行針對性的設(shè)計。本文的任務(wù)本質(zhì)是一個稀疏函數(shù)的馬爾可夫決策過程，對于尚未完全形成的序列，環(huán)境不提供即時獎勵。只有在回合結(jié)束時且因子范式有效的情況下，才會進行表達式解析，因子回測等后續(xù)操作。我們首先將當前因子與歷史挖掘到的有效因子進行合成，而后回測合成因子的IC值，將其作為強化學(xué)習(xí)模型獎勵值，而無效的因子范式則統(tǒng)一設(shè)置-1的獎勵值。?γ表示折扣因子，值域為(0,1)，表示對未來獎勵值打折扣。當折扣因子為0時，智能體只關(guān)注當前的獎勵；當其值為1時，表示對未來的獎勵并沒有打折扣，未來獲得的獎勵與當前的獎勵是一樣的。考慮對因子范式長度沒有特別的需求，我們將折扣因子設(shè)置為γ=1。圖表6：馬爾可夫決策過程示意圖資料來源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023中金公司研究部模型架構(gòu)層面，本文將多因子挖掘任務(wù)及因子合成任務(wù)使用串聯(lián)的形式集成到端到端的強化學(xué)習(xí)框架內(nèi)，發(fā)揮其強大的探索能力。具體來說，框架主要包含基于強化學(xué)習(xí)的Alpha生成器和Alpha組合模型兩個模塊。Alpha生成器的主要作用為挖掘因子范式，并將有效的因子范式加入到因子池中，賦予隨機的合成權(quán)重。隨后Alpha組合模型采用梯度下降的優(yōu)化方式對因子池中的因子進行線性組合，優(yōu)化各自權(quán)重。我們對組合模型輸出的因子進行回測，將IC結(jié)果用作獎勵信號，以訓(xùn)練基于策略梯度算法的Alpha生成器中的強化學(xué)習(xí)策略。采用這樣的訓(xùn)練架構(gòu)和流程，能促使Alpha生成器在重復(fù)的訓(xùn)練和優(yōu)化中產(chǎn)生提升組合模型的因子，從而增強整體的預(yù)測能力。此外，我們設(shè)置了一個閾值（pool_size）來限制因子池的大小，僅保留具有最大絕對權(quán)重的主要因子。如果擴展集合中的因子數(shù)量超過了這一閾值，權(quán)重最小的非主要因子將連同其對應(yīng)的權(quán)重一起從集合中移除。8*L(W)=1/n(-2***強化學(xué)習(xí)策略損失函數(shù)梯度下降算法掩碼分類分布擴展ICs&IC相關(guān)系數(shù)矩陣&權(quán)重…特征選取采樣…SEP■■■■Tokens或…注：(A)一個生成表達式的Alpha生成器，通過策略梯度算法進行優(yōu)化。(B)一個維護主要因子加權(quán)組合的組合模型，同時提供評估信號以指導(dǎo)生成器。資料來源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023*L(W)=1/n(-2***強化學(xué)習(xí)策略損失函數(shù)梯度下降算法掩碼分類分布擴展ICs&IC相關(guān)系數(shù)矩陣&權(quán)重…特征選取采樣…SEP■■■■Tokens或…注：(A)一個生成表達式的Alpha生成器，通過策略梯度算法進行優(yōu)化。(B)一個維護主要因子加權(quán)組合的組合模型，同時提供評估信號以指導(dǎo)生成器。資料來源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023中金公司研究部Alpha生成器包含兩個核心模塊：強化學(xué)習(xí)模塊和特征提取模塊。?強化學(xué)習(xí)模塊：考慮到本文任務(wù)為挖掘因子范式，建模的馬爾可夫決策過程中使用了定義在離散空間的動作集合，且每一次新的動作采取需要根據(jù)當前序列篩選合法的算子，因此我們主要考慮了采用Actor-critic架構(gòu)的強化學(xué)習(xí)模型和Maskable（遮罩）機制。Actor-critic框架：主要包含一個價值網(wǎng)絡(luò)（valuenetwork）和一個策略網(wǎng)路（policynetwork），其中價值網(wǎng)絡(luò)負責評估當前強化學(xué)習(xí)策略的好壞，通常通過估計價值函聚合模型聚合模型IC股價評估表達式數(shù)來實現(xiàn)；而策略網(wǎng)路負責選擇動作，即直接對策略進行參數(shù)化。策略網(wǎng)絡(luò)輸出動作的概率分布，從中可以采樣以決定下一步要采取的動作。Maskable機制：能夠在每個時間步過濾掉非法行動，只保留合法的行動供策略選擇。這樣做可以確保生成的序列始終符合逆波蘭表達式的語法要求。?特征提取模塊：特征提取模塊主要負責將離散的算子序列也即因子表達式轉(zhuǎn)換為連續(xù)的抽象表征，以作為強化學(xué)習(xí)網(wǎng)絡(luò)模塊的輸入。強化學(xué)習(xí)模型的價值網(wǎng)絡(luò)和策略網(wǎng)路共享一個輸入特征的提取模塊?？紤]到合成因子環(huán)節(jié)的可解釋性，本文僅采用傳統(tǒng)的線性組合方案，并未引入其他機器學(xué)習(xí)/深度學(xué)習(xí)的方法，因而該模塊的技術(shù)細節(jié)在此不做過多贅述，損失函數(shù)的含義及推導(dǎo)過程詳見附深度強化學(xué)習(xí)作為深度學(xué)習(xí)的重要分支，常和其他深度學(xué)習(xí)模型比較。與深度學(xué)習(xí)和遺傳算法有一些類似之處，但在不同的場景下具備其獨特的優(yōu)勢。9圖表8：強化學(xué)習(xí)與深度學(xué)習(xí)和遺傳算法的比較學(xué)習(xí)機制強化學(xué)習(xí)通過與環(huán)境互動來學(xué)習(xí)最優(yōu)策略深度學(xué)習(xí)通過大量數(shù)據(jù)學(xué)習(xí)特征表示遺傳算法通過模擬自然選擇和遺傳機制優(yōu)化問題的解主要目標最大化長期累積獎勵從數(shù)據(jù)中學(xué)習(xí)預(yù)測模型尋找問題的最優(yōu)解或足夠好的解決策方式序列決策（考慮長期影響）單步?jīng)Q策（基于當前輸入做出預(yù)測）基于種群的迭代搜索反饋類型延遲反饋（獎勵），可以處理稀疏和時變的信號立即反饋，需要大量標簽數(shù)據(jù)間接反饋，適者生存原則指導(dǎo)搜索環(huán)境適應(yīng)性能夠適應(yīng)和學(xué)習(xí)動態(tài)變化的環(huán)境需要固定的數(shù)據(jù)分布，變化的環(huán)境可能需要重新訓(xùn)練可以適應(yīng)一定范圍的環(huán)境變化，但可能需要重新運行算法探索與利用內(nèi)建探索/利用權(quán)衡，能夠探索新策略同時利用已知策略側(cè)重于利用已有數(shù)據(jù)進行學(xué)習(xí)通過隨機變異和選擇探索解空間數(shù)據(jù)效率可以通過探索和利用機制高效使用數(shù)據(jù)，通過近似值函數(shù)或策略函數(shù)來加速學(xué)習(xí)過程需要大量數(shù)據(jù)進行有效訓(xùn)練不需要訓(xùn)練數(shù)據(jù)，通過生成和選擇過程自然地探索解空但在搜索空間較大時可能會面臨搜索效率低下的問題在線/離線學(xué)習(xí)可以在線學(xué)習(xí)和適應(yīng)，也能進行離線訓(xùn)練主要是離線訓(xùn)練，需要大量數(shù)據(jù)集主要是離線過程，每一代個體通常需要全面評估可解釋性可以構(gòu)建可解釋的策略深層網(wǎng)絡(luò)的決策過程往往不夠透明解的結(jié)構(gòu)和進化過程可以提供一定程度的可解釋性實時性可以實時地調(diào)整策略以響應(yīng)環(huán)境變化對實時性支持有限，對新數(shù)據(jù)的適應(yīng)通常需要重新訓(xùn)練不專注于實時決策，更關(guān)注于長期解的優(yōu)化適應(yīng)及泛化能力強化學(xué)習(xí)模型能夠適應(yīng)環(huán)境變化并泛化到新情況模型泛化能力取決于訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量泛化能力有限，側(cè)重于特定問題的解資料來源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023Wind，中金公司研究部?透明度：算法決策過程的可解釋性和可理解性強化學(xué)習(xí)：透明度取決于所采用的模型和策略復(fù)雜性。例如，基于表格的方法相對透明，采用深度網(wǎng)絡(luò)結(jié)構(gòu)的強化學(xué)習(xí)方法的透明度較低。在本文的因子范式挖掘任務(wù)，強化學(xué)習(xí)表現(xiàn)出了良好的可解釋性。深度學(xué)習(xí)：可解釋性通常較低，深度學(xué)習(xí)：可解釋性通常較低，尤其是在深層神經(jīng)網(wǎng)絡(luò)中，其決策過程被認為是一個“黑盒”，難以解釋和理解。遺傳算法：相對于深度學(xué)習(xí)，遺傳算法在透明度上表現(xiàn)更好。盡管其搜索過程可能復(fù)雜，但是算法的運作原理（選擇、交叉、變異）相對容易理解。?效率：算法達到目標所需的資源（如時間、算力）強化學(xué)習(xí)：效率可能因任務(wù)而異，對于復(fù)雜環(huán)境和策略，可能需要大量的交互和數(shù)據(jù)來學(xué)習(xí)有效的策略，影響效率。實驗結(jié)果表明強化學(xué)習(xí)在因子范式搜索任務(wù)上具有較高的搜索效率。深度學(xué)習(xí)：在擁有充足標注數(shù)據(jù)和計算資源的情況下，深度學(xué)習(xí)可以較為高效地處理大規(guī)模數(shù)據(jù)集。但訓(xùn)練深度模型通常計算密集且耗時。遺傳算法：雖然遺傳算法不需要訓(xùn)練數(shù)據(jù)，但通常需要大量的迭代和評估才能收斂到好的解，這可能導(dǎo)致效率較低。?穩(wěn)定性：算法輸出的一致性和對輸入擾動的穩(wěn)定性強化學(xué)習(xí)：穩(wěn)定性可能受到探索策略和學(xué)習(xí)率的影響，環(huán)境的變化或初始化的不同可能導(dǎo)致學(xué)習(xí)結(jié)果的顯著差異。深度學(xué)習(xí)：在相同條件下，深度學(xué)習(xí)模型通常能夠給出一致的預(yù)測結(jié)果。但是，它們可能對數(shù)據(jù)分布的改變和輸入擾動敏感。遺傳算法：穩(wěn)定性取決于種群的多樣性和進化過程的設(shè)計。結(jié)果可能在不同運行間有所變化，但通?？梢酝ㄟ^足夠的迭代次數(shù)找到穩(wěn)定解。資料來源：Wind，中金公司研究部資料來源：Wind，中金公司研究部數(shù)據(jù)集按照2015/01/05-2018/12/31、2019/01/02-2020/12/31、2021/01/04-2024/03/01三個區(qū)間被依次劃分為訓(xùn)練集、驗證集和測試集。我們利用驗證集篩選模型參數(shù)，并在測試集上比較模型的表現(xiàn)。本文特別考慮了使用全歷史股票池范圍可能存在的數(shù)據(jù)泄露問題。在使用訓(xùn)練集評估因子表達式的IC均值時，我們只考慮了當期截面上有效的成分股范圍，并未引入任何未來的成分股數(shù)據(jù)以干擾因子評估的準確性。本文使用中證1000指數(shù)成分股的歷史數(shù)據(jù)對模型進行訓(xùn)練，將其6個常見的日度價量特征作為強化學(xué)習(xí)模型所需的特征算子。此外，操作符算子包括截面運算符（一元運算符和二元運算符）和時序運算符（如均值和標準差）共22個，以及常數(shù)算子包括截面常數(shù)14個和時序常數(shù)圖表9：算子定義表子類具體定義算子類別子類具體定義本文所定義的強化學(xué)習(xí)任務(wù)具有離散型的動作空間，我們選擇了與之適配的PPO、TRPO和A2C模型，以及常用于連續(xù)型動作空間下的SAC模型（對連續(xù)型動作空間進行離散化處理），并將上述四個模型與四類不同的特征提取模塊LSTM、GRU、Transformer和Linear分別進行組合。考慮到強化學(xué)習(xí)模型本身存在的隨機性，上述組合均使用三個不同的隨機數(shù)對模型參數(shù)初始化并進行訓(xùn)練。本文測試提及的強化學(xué)習(xí)和特征提取模塊較多，各類模型都具有獨特的應(yīng)用場景和特點，我們將具體模型介紹置于附錄部分便于參考，下表為主流強化學(xué)習(xí)模型的各項特點對比，我們在后續(xù)的測試中也同樣能尋找到與模型特點吻合的測試結(jié)果。SAC···Linear圖表10：強化學(xué)習(xí)主流方法各項特點對比SAC···Linear資料來源：“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等（2023Wind，中金公司研究部由于強化學(xué)習(xí)模型無法直接讀取離散形態(tài)的因子表達式，因此在本模型結(jié)構(gòu)中特征提取模塊將主要通過對因子表達式進行線性或非線性方法提取特征，強化學(xué)習(xí)模型則主要負責學(xué)習(xí)如何將數(shù)據(jù)特征和操作符以及常數(shù)算子有機結(jié)合起來，尋找到合理的特征與操作符結(jié)合的策略。圖表圖表11：特征提取模塊和強化學(xué)習(xí)模型組合，前者負責提取因子表達式的抽象特征因子表達式(a+b)*2-c(a*b)^2/cmax(a-b,0)強化學(xué)習(xí)特征提取模塊TransformerTRPOLSTMGRUPPOA2C資料來源：Wind，中金公司研究部為了驗證深度強化學(xué)習(xí)模型在因子挖掘任務(wù)上的有效性，本文同時考慮了在因子范式構(gòu)建任務(wù)上具有廣泛應(yīng)用的遺傳算法（SymbolicRegression模型）和傳統(tǒng)機器學(xué)習(xí)方法代表XGBoost，并將以上兩組模型設(shè)為對照組。由于XGBoost的架構(gòu)并不適用于因子范式挖掘任務(wù)，我們使用日度價量特征作為模型輸入，將模型的優(yōu)化目標定義為全市場股票20交易日后的收益率。上述所有模型均可在一張GeForceRTX3080Ti上完成訓(xùn)練，模型代碼均由基于Pytorch的開源三方庫實現(xiàn)。強化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)有如下定義（模型超參定義詳見第三章）：圖表12：強化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)定義參數(shù)名稱參數(shù)含義參數(shù)取值1資料來源：Wind，中金公司研究部本文對模型輸出的因子采用IC檢驗和分組回測檢驗，展示不同因子的有效性水平。我們將對各個模型多次訓(xùn)練后輸出的因子分別在中證1000和全市場范圍內(nèi)進行IC檢驗與分組回測檢驗，分析不同模型在測試集上收益率預(yù)測的穩(wěn)定性、單調(diào)性、有效性和與其他常見因子的相關(guān)性。其中因子測試框架如下：?全樣本測試區(qū)間：2015.01.02–2024.03.01；樣本外測試區(qū)間：2021.01.04–2024.03.01??股票池：全市場、中證1000中剔除ST、停牌、一字板和上市未滿一年股票?換倉頻率：月度，并在每月第一個交易日換倉?分組回測組數(shù)：按照因子值由小到大的順序?qū)⒐善背氐确譃?0組使用多種指標展示因子的有效性水平。在IC檢驗中，我們使用IC均值、ICIR絕對值等指標展示因子暴露與下期收益率的秩相關(guān)性，反映因子對收益率的預(yù)測能力。在分組回測中，使用多頭年化收益率、多頭年化超額收益率、多頭超額最大回撤等指標展示多頭組合的選股能力。5.73%5.34%5.32%6.20%0.760.710.695.94%A2C_LinearA2C_TransformerTRPO_LSTMTRPO_TransformerA2C_GRUA2C_LSTMTRPO_LinearTRPO_GRUSAC_LinearSAC_LSTM強化學(xué)習(xí)算法和特征提取模塊組合后輸出的合成因子在全樣本范圍中取得較好回測表現(xiàn)的有A2C_Linear,A2C_Transformer,PPO_Transformer,TRPO_LSTM和TRPO_Transformer。其中，A2C_Linear模型全樣本表現(xiàn)較好，ICIR為0.95，超額收益和超額夏普分別為10.53%和1.94，且與常見的相關(guān)因子的截面相關(guān)性較小。此外，與Transformer模塊組合后表現(xiàn)較好的三種強化學(xué)習(xí)模型，它們的合成因子在全樣本的ICIR均超過了0.80，多空收益穩(wěn)定在23%以上，超額收益的平均表現(xiàn)超過7%。上述方法分組年化超額收益均具有良好的單調(diào)性。圖表13：強化學(xué)習(xí)模型輸出因子在中證1000范圍全樣本月度回測的有效性檢驗結(jié)果模型股票池多頭收益多頭換手多空收益超額收益超額夏普超額回撤注：1）樣本區(qū)間為2015-03-01至2024-03-01；2）強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果資料來源：Wind，中金公司研究部A2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1MA2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1M圖表14：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計（全樣本）A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer2.90.9資料來源：Wind，中金公司研究部圖表15：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計（全樣本）2.10.9A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer資料來源：Wind，中金公司研究部圖表16：A2C_Linear模型因子與常見因子相關(guān)系數(shù)圖表17：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計（全樣本）EP_TTMEP_TTMLn_MCNP_ZMomentum_1M因子截面相關(guān)性IC相關(guān)性group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%注：1）統(tǒng)計時間為2015-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）相對凈值的比較基準為中證1000成分股等權(quán)資料來源：Wind，中金公司研究部注：1）統(tǒng)計時間為2015-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）超額收益的比較基準為中證1000成分股等權(quán)；3）Group0為因子值最小一組，Group9為因子值最大一組資料來源：Wind，中金公司研究部A2C_Linear或存在過擬合，樣中證1000數(shù)據(jù)集樣本外回測結(jié)果中表現(xiàn)突出的組合方案是TRPO_LSTM模型。其輸出的合成因子IC均值為6.35%，多空收益為22.99%，具有7.83%的超額收益以及1.56的超額夏普率。與全樣本表現(xiàn)較好的A2C_Linear模型相比，通過多次隨機數(shù)初始化參數(shù)訓(xùn)練得到的TRPO_LSTM方法在樣本外具有更好的平均表現(xiàn)和穩(wěn)定性。此外，在與常見因子相關(guān)系數(shù)的計算中，該因子的截面相關(guān)性均保持在0.5以內(nèi)。圖表18：強化學(xué)習(xí)和特征提取模塊組合模型的合成因子在中證1000范圍樣本外月度回測的有效性檢驗結(jié)果模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤TRPO_LSTM10006.35%0.906.99%59.60%22.99%7.83%1.564.36%TRPO_Transformer10005.92%0.903.59%60.78%16.27%4.40%0.916.27%A2C_Linear10006.08%0.894.51%57.56%17.22%5.32%1.146.09%A2C_Transformer10005.79%0.873.08%55.37%15.21%3.89%0.816.00%PPO_Transformer10006.10%0.853.07%60.29%17.21%3.87%0.825.74%PPO_Linear10005.84%0.842.55%61.79%17.83%3.35%0.715.22%A2C_GRU10005.39%0.843.33%55.15%17.71%4.14%0.855.96%TRPO_GRU10005.70%0.824.70%58.60%18.09%5.51%1.075.61%A2C_LSTM10005.76%0.813.08%55.61%19.07%3.88%0.776.10%PPO_LSTM10005.53%0.783.02%57.13%15.31%3.83%0.815.17%TRPO_Linear10005.50%0.754.30%54.77%17.70%5.11%0.996.87%PPO_GRU10006.06%0.733.59%57.15%19.75%4.39%0.856.75%SAC_Linear10004.18%0.570.58%50.05%7.02%1.36%0.2711.06%SAC_GRU10003.74%0.542.90%44.42%12.65%3.71%0.747.65%SAC_Transformer10003.89%0.533.04%40.93%10.82%3.84%0.757.79%SAC_LSTM10003.42%0.481.11%39.59%9.29%1.89%0.389.54%注：1）樣本區(qū)間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果資料來源：Wind，中金公司研究部圖表20：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計（樣本外）圖表圖表20：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計（樣本外）合成因子的年化多空收益統(tǒng)計（樣本外）TRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerTRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerPPO_TransformerA2C_TransformerPPO_Transformer2210.810.810.950.90.850.8資料來源：Wind，中金公司研究部資料來源：Wind，中金公司研究部TRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTMTRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTM圖表21：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計（樣本外）TRPO_LSTMA2C_Linear2.2210.82021/3/12021/9/12022/3/12022/9/12023/3/12023/9/12024/3/注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）虛線為3次訓(xùn)練標準差波動；4）相對凈值的比較基準為中證1000成分股等權(quán)資料來源：Wind，中金公司研究部圖表22：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計（樣本外）TRPO_LSTMA2C_Linear10.90.8注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）虛線為3次訓(xùn)練標準差波動；4）相對凈值的比較基準為中證1000成分股等權(quán)資料來源：Wind，中金公司研究部圖表23：TRPO_LSTM模型合成因子與常見因子相關(guān)系數(shù)BP_LRVSTD_1MLn_MCROE_TTMLn_MCMomentum_1M圖表24：中證1000范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的分組年化超額收益統(tǒng)計（樣本外）group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相關(guān)性IC相關(guān)性注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）相對凈值的比較基準為中證1000成分股等權(quán)資料來源：Wind，中金公司研究部注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）超額收益的比較基準為中證1000成分股等權(quán)；3）Group0為因子值最小一組，Group9為因子值最大一組資料來源：Wind，中金公司研究部圖表25：TRPO_LSTM模型因子池中表現(xiàn)較好因子的表達式及合成權(quán)重因子表達式權(quán)重IC均值注：1）樣本區(qū)間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)模型TRPO_LSTM使用單次訓(xùn)練結(jié)果；3）回測范圍中證1000資料來源：Wind，中金公司研究部注：樣本外區(qū)間為2021-03-01至2024-03-01，強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果我們將在中證1000數(shù)據(jù)集下訓(xùn)練得到的強化學(xué)習(xí)模型應(yīng)用到范圍更廣的全市場股票域內(nèi)進行測試發(fā)現(xiàn)：TRPO_LSTM模型依然具有較好的回測表現(xiàn)。其ICIR為1.14，多空收益超過了30%，超額收益穩(wěn)定在8.43%，超額夏普為1.92注：樣本外區(qū)間為2021-03-01至2024-03-01，強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果此外，全市場范圍內(nèi)樣本外回測結(jié)果表現(xiàn)較好的模型還有PPO_Linear，PPO_Transformer，A2C_Linear和TRPO_Transformer，它們的ICIR表現(xiàn)均穩(wěn)定在1.0以上，IC均值穩(wěn)定在7.5%之上，PPO_Transformer模型輸出的合成因子具有28.33%的多空收益，而A2C_Linear模型輸出的合成因子具有8.14%的超額收益。上述方法在全市場范圍內(nèi)分組年化超額收益依然保持較好的單調(diào)性和區(qū)分度。圖表26：強化學(xué)習(xí)模型輸出因子在全市場范圍樣本外月度回測的有效性檢驗結(jié)果模型模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤TRPO_LSTM8.32%1.1410.37%59.27%30.96%8.43%1.924.00%PPO_Linear7.88%1.098.28%60.31%26.20%6.37%1.514.68%PPO_Transformer8.10%1.099.58%59.59%28.33%7.65%1.784.65%A2C_Linear7.76%1.0810.08%56.03%27.45%8.14%1.953.68%TRPO_Transformer7.54%1.079.46%59.41%25.91%7.53%1.824.41%A2C_LSTM7.85%7.85%1.031.038.75%8.75%53.97%53.97%26.24%26.24%6.84%6.84%1.561.564.33%PPO_LSTM7.59%7.59%1.021.027.50%7.50%57.58%57.58%24.84%24.84%5.61%5.61%1.331.334.48%SAC_Linear6.12%6.12%1.001.006.76%6.76%49.33%49.33%19.53%19.53%4.89%4.89%4%TRPO_GRU7.24%7.24%0.990.998.55%8.55%56.86%56.86%26.21%26.21%6.64%6.64%1.501.505.26%A2C_A2C_Transformer7.14%7.14%0.980.988.65%8.65%53.46%53.46%23.22%23.22%6.74%6.74%1.651.654.41%A2C_GRU6.89%6.89%0.980.989.00%9.00%54.34%54.34%25.32%25.32%7.09%7.09%1.761.763.65%TRPO_Linear7.63%7.63%0.950.958.66%8.66%53.62%53.62%26.23%26.23%6.75%6.75%1.441.445.86%PPO_GRU8.02%8.02%0.900.907.49%7.49%56.21%56.21%27.63%27.63%5.60%5.60%8%SAC_GRU5.85%5.85%0.890.897.31%7.31%43.12%43.12%21.44%21.44%5.42%5.42%0%SAC_LSTM5.63%5.63%0.840.846.76%6.76%37.43%37.43%21.47%21.47%4.88%4.88%1.071.076.85%SAC_TransformerSAC_Transformer6.10%6.10%0.820.826.90%6.90%38.46%38.46%20.50%20.50%5.02%5.02%1.031.036.30%資料來源：Wind，中金公司研究部圖表27：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的年化多空收益統(tǒng)計（樣本外）0.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer資料來源：Wind，中金公司研究部圖表28：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出合成因子的超額收益統(tǒng)計（樣本外） 1.25 1.15 1.05 0.950.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer資料來源：Wind，中金公司研究部TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分組年化超額收益統(tǒng)計（樣本外）TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分組年化超額收益統(tǒng)計（樣本外）圖表29：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計（樣本外）TRPO_LSTMPPO_Linear210.8注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）虛線為3次訓(xùn)練標準差波動；4）相對凈值的比較基準為全市場等權(quán)資料來源：Wind，中金公司研究部圖表31：PPO_Linear模型因子與常見因子相關(guān)系數(shù)圖表30：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計（樣本外）TRPO_LSTMPPO_Linear10.90.8注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）虛線為3次訓(xùn)練標準差波動；4）相對凈值的比較基準為全市場等權(quán)資料來源：Wind，中金公司研究部圖表32：全市場范圍內(nèi)表現(xiàn)較好的強化學(xué)習(xí)模型輸出BP_LRVSTD_1MEP_TTMEP_TTMLn_MCROE_TTMLn_MCNP_ZMomentum_1Mgroup0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相關(guān)性IC相關(guān)性注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）相對凈值的比較基準為全市場等權(quán)資料來源：Wind，中金公司研究部注：1）統(tǒng)計時間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練，獲取平均結(jié)果；3）超額收益的比較基準為全市場等權(quán)；3）Group0為因子值最小一組，Group9為因子值最大一組資料來源：Wind，中金公司研究部算法對比：強化學(xué)習(xí)性能與透明度更優(yōu)我們經(jīng)過試驗對比發(fā)現(xiàn)強化學(xué)習(xí)模型在樣本外的表現(xiàn)均明顯優(yōu)于遺傳算法和機器學(xué)習(xí)方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000范圍內(nèi)樣本外回測的平均結(jié)果較為突出：ICIR約為0.90，超額夏普均超過了1.1，并具有累計7.83%和5.32%的超額收益。相比之下，兩組對照方法的收益凈值曲線在今年年初出現(xiàn)了明顯的回撤，超額收益不足2%。以XGBoost為代表的機器學(xué)習(xí)（深度學(xué)習(xí)）方法屬于“黑盒”模型，模型從輸入的量價數(shù)據(jù)到輸出的預(yù)測結(jié)果過程中缺乏可解釋性，且預(yù)測結(jié)果相比本文的因子范式也缺少一定的透明度。因此當模型性能在樣本外下降時，這類模型的優(yōu)化和調(diào)整將成為新的挑戰(zhàn)。對于本文所提出的因子范式挖掘及合成任務(wù)，實驗結(jié)果表明強化學(xué)習(xí)模型相比遺傳算法具有更強的搜索效率。當固定因子池的大小為20時，以TRPO_LSTM為代表的強化學(xué)習(xí)模型搜索到的因子范式，在樣本外回測得到的ICIR和超額收益表現(xiàn)均明顯優(yōu)于遺傳算法搜索到的結(jié)果如下表所示。對比發(fā)現(xiàn)對照組ICIR不足0.5，TRPO_LSTM模型ICIR可達0.9，也具有顯著更高的超額收益。圖表33：強化學(xué)習(xí)模型（部分）及對照方法合成因子在中證1000范圍樣本外月度回測的有效性檢驗結(jié)果注：注：1）樣本區(qū)間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值資料來源：Wind，中金公司研究部模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤SymbolicRegressionSAC_TransformerTRPO_LSTMA2C_LinearPPO_GRUXGBoost40.93%22.99%57.15%57.56%38.17%58.09%59.60%19.75%17.22%10.82%15.16%10.19%3.84%1.07%4.39%5.32%7.83%1.65%4.51%4.36%2.08%6.35%6.06%6.99%6.08%6.75%6.09%8.32%3.59%0.29%3.04%0.87%3.89%3.86%7.49%7.79%0.530.451000100010001000100010000.890.900.730.410.360.850.750.251.561.14圖表34：中證1000范圍合成因子年化多空收益統(tǒng)計圖表35：中證1000范圍合成因子年化超額收益統(tǒng)計TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost210.8注：1）超額收益相對基準為全市場等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)模型及遺傳算法均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值資料來源：Wind，中金公司研究部TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost10.9注：1）超額收益相對基準為全市場等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)及遺傳算法模型均使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值資料來源：Wind，中金公司研究部圖表36：強化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測的IC_IR統(tǒng)計TRPO_LSTMSymbolicRegression0Top1_FactorTop2_FactorTop3_FactorTop4_Factor注：1）樣本區(qū)間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)模型TRPO_LSTM及遺傳算法均使用單次訓(xùn)練結(jié)果資料來源：Wind，中金公司研究部圖表37：強化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測的超額收益統(tǒng)計TRPO_LSTM_Top1TRPO_LSTM_Top2TRPO_LSTM_Top3SymbolicRegression_Top1SymbolicRegression_Top2SymbolicRegression_Top30.950.852021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/12021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/1注：1）樣本區(qū)間為2021-03-01至2024-03-01；2）強化學(xué)習(xí)模型TRPO_LSTM及遺傳算法均使用單次訓(xùn)練結(jié)果資料來源：Wind，中金公司研究部模型的參數(shù)敏感度分析本節(jié)主要就因子表現(xiàn)對特征提取模塊和強化學(xué)習(xí)模型組合的敏感度進行分析。分別固定強化學(xué)習(xí)模型和特征提取模塊，統(tǒng)計合成因子在樣本外回測的ICIR及超額收益的平均表現(xiàn)。實驗結(jié)果表明，TRPO、A2C和PPO模型參與因子范式挖掘得到的合成因子具有較為穩(wěn)定的ICIR表現(xiàn)，均超過0.80。特征提取模塊中，Transformer參與組合的模型輸出的因子具有相對最好的ICIR表現(xiàn)，為0.79。?對不同的強化學(xué)習(xí)模型：TRPO模型具有更好的因子范式搜索能力，與其結(jié)合的特征提取模塊訓(xùn)練得到的合成因子兼顧較好的ICIR及超額收益表現(xiàn)。此外，A2C和PPO模型輸出的合成因子回測表現(xiàn)也具有較好的ICIR結(jié)果。SAC模型本身適用于連續(xù)動作空間的任務(wù)，對于當前離散動作空間下（且需要掩碼處理）的因子范式搜索任務(wù)，其性能無法得到有效發(fā)揮，因此其輸出結(jié)果的ICIR和超額收益表現(xiàn)都較為落后。?對不同特征模塊：因子表現(xiàn)對特征提取模型敏感度不高，四類特征提取模塊參與組合的模型輸出的合成因子均具有超過0.70的ICIR表現(xiàn)及4%左右的超額收益。本文認為，由于因子范式長度固定值設(shè)為20，對特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)深度并未提出較高的要求，故時序模型、注意力機制，甚至是常規(guī)的全連接層都發(fā)揮了較好的特征提取效果。圖表38：因子表現(xiàn)對強化學(xué)習(xí)模型敏感度圖表39：因子表現(xiàn)對特征模塊的敏感度ICIR超額收益（右軸）ICIR超額收益（右軸）0.900.800.700.600.500.400.300.200.100.006%5%4%3%2%0%A2CTPROPPOSAC0.900.800.800.700.600.50TransformerLinearLSTMGRU6%5%4%3%2%0%注：1）超額收益相對基準為中證1000成分股等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)模型使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值，并對當前強化學(xué)習(xí)模型組合過的所有特征提取模塊表現(xiàn)計算平均值資料來源：Wind，中金公司研究部注：1）超額收益相對基準為中證1000成分股等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)模型使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值，并對當前特征提取模塊所有組合過的強化學(xué)習(xí)模型表現(xiàn)計算平均值資料來源：Wind，中金公司研究部本節(jié)主要從因子池和模型超參兩個角度探索TRPO_LSTM組合模型性能對參數(shù)的穩(wěn)定性。相較于其他強化學(xué)習(xí)模型，TRPO的性能表現(xiàn)較為穩(wěn)定，對于參數(shù)變化較為不敏感。我們認為主要可能有以下原因。?從TRPO的設(shè)計原理出發(fā)：TRPO使用了信任域優(yōu)化的方法，通過限制策略更新的步幅，確保策略改進過程的平滑和穩(wěn)定，從而減少了因大幅度更新而導(dǎo)致的性能崩潰的風險。TRPO在每次更新時會自適應(yīng)地調(diào)整步長（或?qū)W習(xí)率），以保持策略更新在信任域內(nèi)。由于它會自動調(diào)整步長以滿足KL散度的約束，該算法對學(xué)習(xí)率不是特別敏感。TRPO優(yōu)化的目標函數(shù)使用了廣義優(yōu)勢估計（GAE）來估計策略梯度，并且結(jié)合了值函數(shù)的估計來減小方差。該設(shè)計使其對于獎勵函數(shù)中的噪聲和估計誤差敏感性降低。?從實驗結(jié)果出發(fā)：模型性能與因子池規(guī)模并無嚴格的正相關(guān)關(guān)系。因子池規(guī)模由10增大到50時，模型輸出的合成因子樣本外的ICIR表現(xiàn)呈現(xiàn)上升趨勢；然而當因子池規(guī)模繼續(xù)增大至200時，合成因子的表現(xiàn)有所下降且趨于穩(wěn)定。本文認為，這是由于算子種類較為有限所致，因此簡單的擴大因子池不能直接合成具有更好表現(xiàn)的因子。模型超參：本文從學(xué)習(xí)率、單次更新步數(shù)及批量大小三個參數(shù)探索了模型性能與參數(shù)變化的關(guān)系。實驗結(jié)果表明，在學(xué)習(xí)率lr=1e-3，單次更新步數(shù)nsteps=2048，批處理大小batch_size=128時，模型具有相對更好的性能表現(xiàn)。本文所采用的強化學(xué)習(xí)模型始終貫徹著計算效率和存儲開銷間的平衡。誠然更大的網(wǎng)絡(luò)隱藏層維度及更深的網(wǎng)絡(luò)層數(shù)有可能帶來更好的擬合效果，但復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)面臨著計算效率的降低及模型過擬合的風險。因此在實際應(yīng)用中，如何權(quán)衡這兩者間的關(guān)系也是不可忽視的問題。注：1）超額收益相對基準為中證1000成分股等權(quán)；2）樣本區(qū)間為2021-03-01至注：1）超額收益相對基準為中證1000成分股等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)模型使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值資料來源：Wind，中金公司研究部注：1）超額收益相對基準為中證1000成分股等權(quán)；2）樣本區(qū)間為2021-03-01至2024-03-01；3）強化學(xué)習(xí)模型使用不同隨機數(shù)初始化參數(shù)進行3次訓(xùn)練得到平均值資料來源：Wind，中金公司研究部類別參數(shù)名稱參數(shù)含義取值對模型表現(xiàn)的影響分析n_stepsbatch_sizetarget_klnormalizeadvantage值函數(shù)的學(xué)習(xí)率每次更新中，環(huán)境運行的步數(shù)用于批量下降的批量大小廣義優(yōu)勢估計中偏差與方差的權(quán)衡因子策略更新之間的KL發(fā)散的目標上限是否對優(yōu)勢函數(shù)進行標準化處理2048影響優(yōu)化速度和收斂性，過高可能導(dǎo)致不穩(wěn)定，過低可能導(dǎo)致收斂緩慢決定策略更新的數(shù)據(jù)量，較大的n_steps可以提高樣本多樣性影響學(xué)習(xí)的穩(wěn)定性和內(nèi)存使用，不當?shù)拇笮】赡苡绊懹?xùn)練效率和效果影響優(yōu)勢函數(shù)的估計精度，進而影響策略梯度的穩(wěn)定性和有效性控制策略更新步幅，防止更新過大造成訓(xùn)練不穩(wěn)定可以提高算法的數(shù)值穩(wěn)定性，有助于提升模型的學(xué)習(xí)效率和性能dropout網(wǎng)絡(luò)層數(shù)嵌入層向量維度/LSTM層中隱藏狀態(tài)的維度在LSTM中應(yīng)用隨機失活的比率3層數(shù)增多可以增加模型的復(fù)雜度和學(xué)習(xí)能力，但可能導(dǎo)致過擬合和訓(xùn)練時間增加隱藏狀態(tài)的維度越大，模型的表示能力越強，但計算量也會增大有助于防止過擬合，但如果太高可能導(dǎo)致欠擬合資料來源：“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等（2023Wind，中金公司研究部圖表41：TRPO_LSTM模型樣本外表現(xiàn)隨因子池規(guī)模變化的趨勢超額收益（右軸）9%圖表42：TRPO_LSTM模型樣本外表現(xiàn)隨學(xué)習(xí)率變化的趨勢ICIR超額收益（右軸）1.00.20.01020501020507%6%7%6%5%4%3%2%0%0.6lr=3e-4lr=3e-4lr=5e-4lr=7e-4lr=1e-3lr=3e-38%7%6%5%4%3%2%1%0%圖表43：TRPO_LSTM模型樣本外表現(xiàn)隨單次更新中步數(shù)大小變化的趨勢0.950.900.850.800.750.700.650.60

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)系列（1）：使用深度強化學(xué)習(xí)模型探索因子構(gòu)建范式

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔