版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
證券研究報(bào)告證券研究報(bào)告2024.04.07機(jī)器學(xué)習(xí)系列(1):使用深度強(qiáng)化學(xué)習(xí)模型探索因子構(gòu)建范式xiaoxiao.zhou@cicc.wencai3.zheng@cicc.c強(qiáng)化學(xué)習(xí)模型作為機(jī)器學(xué)習(xí)模型的重要分支在各領(lǐng)域應(yīng)用廣泛,從AlphaGo到ChatGPT均不乏其身影。在金融領(lǐng)域強(qiáng)化學(xué)習(xí)同樣具備無(wú)需獨(dú)立同分布假設(shè)等優(yōu)勢(shì)。本文結(jié)合強(qiáng)化學(xué)習(xí)和特征提取的結(jié)構(gòu)生成的選股因子在多個(gè)股票池中均取得良好選股表現(xiàn),且模型表現(xiàn)對(duì)參數(shù)敏感性較低,樣本外穩(wěn)定性高。為什么在量化中嘗試強(qiáng)化學(xué)習(xí)模型作為機(jī)器學(xué)習(xí)重要的發(fā)展分支之一,不論是在近幾年討論度較高的LLM大語(yǔ)言模型還是在圍棋領(lǐng)域戰(zhàn)勝世界冠軍的AlphaGo中都不乏強(qiáng)化學(xué)習(xí)的身影。強(qiáng)化學(xué)習(xí)已被證實(shí)在不同應(yīng)用場(chǎng)景下對(duì)多種任務(wù)都有較好表現(xiàn)。我們認(rèn)為強(qiáng)化學(xué)習(xí)在金融領(lǐng)域特別是量化策略中可能將具有良好效果,主要出于強(qiáng)化學(xué)習(xí)模型以下四個(gè)特點(diǎn):1.適合處理序列決策任務(wù);務(wù);2.輸入數(shù)據(jù)無(wú)需遵從獨(dú)立同分布的假設(shè);3.通過與環(huán)境交互探索來(lái)不斷優(yōu)化當(dāng)前策略;4.數(shù)據(jù)無(wú)需具備標(biāo)簽。因子構(gòu)建的本質(zhì):數(shù)據(jù)與操作符的有機(jī)結(jié)合數(shù)據(jù)+操作符:因子挖掘的過程本質(zhì)上屬于尋找數(shù)據(jù)與操作符的結(jié)合方式,挖掘方式可以被分為人工挖掘或模型挖掘兩種。我們?cè)谥暗囊幌盗幸蜃邮謨?cè)中展示的因子均為通過一定邏輯采用人工構(gòu)建的方式得到。而通過人工構(gòu)建的方式在確定性上雖然比機(jī)器更高,但效率理論上來(lái)說(shuō)遠(yuǎn)不及機(jī)器學(xué)習(xí)模型。特征提取模塊+強(qiáng)化學(xué)習(xí)模型:為尋求機(jī)器挖掘因子的高確定性,我們通過結(jié)合強(qiáng)化學(xué)習(xí)模型和特征提取模塊,構(gòu)建了包含6個(gè)常見日度價(jià)量特征的數(shù)據(jù)集,并定義了22個(gè)操作符算子和19個(gè)常數(shù)算子的數(shù)據(jù)集合。特征提取模塊將主要通過對(duì)因子表達(dá)式進(jìn)行線性或非線性方法提取特征,強(qiáng)化學(xué)習(xí)模型則主要負(fù)責(zé)學(xué)習(xí)如何將數(shù)據(jù)特征和操作符以及常數(shù)算子有機(jī)結(jié)合起來(lái),高效尋找合理因子范式。TRPO樣本外穩(wěn)定性較高在我們的測(cè)試框架下,強(qiáng)化學(xué)習(xí)模型在樣本外的表現(xiàn)均明顯優(yōu)于作為比較基準(zhǔn)的遺傳算法和傳統(tǒng)機(jī)器學(xué)習(xí)方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000范圍回測(cè)結(jié)果表現(xiàn)突出:ICIR約為0.90,樣本外超額夏普均超過1.1,并且在今年年初市場(chǎng)快速回撤環(huán)境下表現(xiàn)仍然平穩(wěn)。相比之下,兩組對(duì)照方法的收益凈值曲線在今年年初出機(jī)器學(xué)習(xí)模型的穩(wěn)定性也一直是投資者關(guān)注的重點(diǎn)之一。我們分別固定強(qiáng)化學(xué)習(xí)模型和特征提取模塊,統(tǒng)計(jì)合成因子在樣本外回測(cè)的ICIR及超額收益的平均表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,TRPO、A2C和PPO模型參與因子范式挖掘得到的合成因子具有較為穩(wěn)定的ICIR表現(xiàn),均超過0.80。特征提取模塊中,Transformer參與組合的模型輸出的因子具有相對(duì)最好的ICIR表現(xiàn),達(dá)到0.79。TRPO相對(duì)穩(wěn)定的模型結(jié)構(gòu)解釋:1)相較于其他強(qiáng)化學(xué)習(xí)模型,TRPO使用了信任域優(yōu)化的方法,通過限制策略更新的步幅,確保策略改進(jìn)過程的平滑和穩(wěn)定。2)TRPO在每次更新時(shí)會(huì)自適應(yīng)地調(diào)整學(xué)習(xí)率來(lái)保持策略更新在信任域內(nèi),因此其對(duì)學(xué)習(xí)率參數(shù)不是特別敏感。3)TRPO優(yōu)化的目標(biāo)函數(shù)使用了廣義優(yōu)勢(shì)估計(jì)(GAE)來(lái)估計(jì)策略梯度,并且結(jié)合了值函數(shù)的估計(jì)來(lái)減小方差,該設(shè)計(jì)使其對(duì)于獎(jiǎng)勵(lì)函數(shù)中的噪聲和估計(jì)誤差敏感性降低。風(fēng)險(xiǎn)提示:模型基于歷史數(shù)據(jù)構(gòu)建,未來(lái)可能存在失效風(fēng)險(xiǎn)。更多作者及其他信息請(qǐng)見文末披露頁(yè)1量化領(lǐng)域下的強(qiáng)化學(xué)習(xí) 4為什么選擇強(qiáng)化學(xué)習(xí) 4強(qiáng)化學(xué)習(xí)在金融領(lǐng)域中的應(yīng)用 5如何尋找因子的構(gòu)建范式 7因子構(gòu)建本質(zhì):數(shù)據(jù)與操作符的有機(jī)結(jié)合 7測(cè)試框架:特征提取+強(qiáng)化學(xué)習(xí) 11TRPO+LSTM:兼顧收益與穩(wěn)定 14回測(cè)結(jié)果:TRPO+LSTM樣本外表現(xiàn)更優(yōu)穩(wěn)定性高 14算法對(duì)比:強(qiáng)化學(xué)習(xí)性能與透明度更優(yōu) 20模型的參數(shù)敏感度分析 21附錄 24因子合成模塊的損失函數(shù)及其推導(dǎo) 24特征提取模塊和強(qiáng)化學(xué)習(xí)模型 25圖表1:強(qiáng)化學(xué)習(xí)模型示意圖 5圖表2:強(qiáng)化學(xué)習(xí)發(fā)展歷史 5圖表3:FinRL整體框架 6圖表4:StockFormer整體框架 6圖表5:數(shù)據(jù)與操作符的結(jié)合方式 逆波蘭表達(dá)式........................................................................................................7圖表6:馬爾可夫決策過程示意圖 8圖表7:強(qiáng)化學(xué)習(xí)因子挖掘框架 9圖表8:強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)和遺傳算法的比較 10圖表9:算子定義表 11圖表10:強(qiáng)化學(xué)習(xí)主流方法各項(xiàng)特點(diǎn)對(duì)比 12圖表11:特征提取模塊和強(qiáng)化學(xué)習(xí)模型組合,前者負(fù)責(zé)提取因子表達(dá)式的抽象特征 12圖表12:強(qiáng)化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)定義 13圖表13:強(qiáng)化學(xué)習(xí)模型輸出因子在中證1000范圍全樣本月度回測(cè)的有效性檢驗(yàn)結(jié)果 14圖表14:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計(jì)(全樣本) 15圖表15:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計(jì)(全樣本) 15圖表16:A2C_Linear模型因子與常見因子相關(guān)系數(shù) 15圖表17:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計(jì)(全樣本) 15圖表18:強(qiáng)化學(xué)習(xí)和特征提取模塊組合模型的合成因子在中證1000范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果 16圖表19:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計(jì)(樣本外) 16圖表20:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計(jì)(樣本外) 16圖表21:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計(jì)(樣本外) 17圖表22:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計(jì)(樣本外) 17圖表23:TRPO_LSTM模型合成因子與常見因子相關(guān)系數(shù) 17圖表24:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的分組年化超額收益統(tǒng)計(jì)(樣本外) 17圖表25:TRPO_LSTM模型因子池中表現(xiàn)較好因子的表達(dá)式及合成權(quán)重 172圖表26:強(qiáng)化學(xué)習(xí)模型輸出因子在全市場(chǎng)范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果 18圖表27:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的年化多空收益統(tǒng)計(jì)(樣本外) 18圖表28:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的超額收益統(tǒng)計(jì)(樣本外) 18圖表29:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計(jì)(樣本外) 19圖表30:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計(jì)(樣本外) 19圖表31:PPO_Linear模型因子與常見因子相關(guān)系數(shù) 19圖表32:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計(jì)(樣本外) 19圖表33:強(qiáng)化學(xué)習(xí)模型(部分)及對(duì)照方法合成因子在中證1000范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果 20圖表34:中證1000范圍合成因子年化多空收益統(tǒng)計(jì) 20圖表35:中證1000范圍合成因子年化超額收益統(tǒng)計(jì) 20圖表36:強(qiáng)化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測(cè)的IC_IR統(tǒng)計(jì) 21圖表37:強(qiáng)化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測(cè)的超額收益統(tǒng)計(jì) 21圖表38:因子表現(xiàn)對(duì)強(qiáng)化學(xué)習(xí)模型敏感度 22圖表39:因子表現(xiàn)對(duì)特征模塊的敏感度 22圖表40:TRPO_LSTM模型主要參數(shù)設(shè)置及影響分析 23圖表41:TRPO_LSTM模型樣本外表現(xiàn)隨因子池規(guī)模變化的趨勢(shì) 23圖表42:TRPO_LSTM模型樣本外表現(xiàn)隨學(xué)習(xí)率變化的趨勢(shì) 23圖表43:TRPO_LSTM模型樣本外表現(xiàn)隨單次更新中步數(shù)大小變化的趨勢(shì) 23圖表44:TRPO_LSTM模型樣本外表現(xiàn)隨batch_size數(shù)量變化趨勢(shì) 233量化領(lǐng)域下的強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)重要的發(fā)展分支之一,不論是在近幾年討論度較高的LLM大語(yǔ)言模型還是在圍棋領(lǐng)域戰(zhàn)勝世界冠軍的AlphaGo中都不乏強(qiáng)化學(xué)習(xí)的身影。強(qiáng)化學(xué)習(xí)已被證實(shí)在不同應(yīng)用場(chǎng)景下對(duì)多種任務(wù)都有較好表現(xiàn)。我們?cè)谑褂脗鹘y(tǒng)統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)模型時(shí),經(jīng)常容易忽略的一點(diǎn)就是關(guān)于數(shù)據(jù)的假設(shè)。例如對(duì)于線性回歸、邏輯回歸、樸素貝葉斯以及KNN等機(jī)器學(xué)習(xí)模型來(lái)說(shuō),一個(gè)基礎(chǔ)的假設(shè)就是輸入數(shù)據(jù)需要服從獨(dú)立同分布。而對(duì)于金融數(shù)據(jù)來(lái)說(shuō),獨(dú)立同分布很多時(shí)候都是一個(gè)過于嚴(yán)格的前提。?時(shí)間相關(guān)性:金融數(shù)據(jù)通常是時(shí)間序列數(shù)據(jù),相鄰時(shí)間點(diǎn)的數(shù)據(jù)之間可能存在相關(guān)性。例如,股票價(jià)格在短時(shí)間內(nèi)可能會(huì)呈現(xiàn)出一定的自相關(guān)性或者相關(guān)性結(jié)構(gòu)。?波動(dòng)性聚集:金融市場(chǎng)中的波動(dòng)通常會(huì)出現(xiàn)波動(dòng)性聚集(volatilityclustering)的現(xiàn)象,即波動(dòng)性的大幅度變化往往會(huì)聚集在一起,而不是均勻分布。這意味著金融數(shù)據(jù)的波動(dòng)性即波動(dòng)性的大幅度變化往往會(huì)聚集在一起,而不是均勻分布。這意味著金融數(shù)據(jù)的波動(dòng)性不是獨(dú)立同分布的。?異方差性:金融數(shù)據(jù)中常見的異方差性(heteroscedasticity)表現(xiàn)為不同時(shí)間點(diǎn)的數(shù)據(jù)具有不同的方差。這違反了獨(dú)立同分布的假設(shè),因?yàn)榉讲畈⒉皇呛愣ǖ摹?非正態(tài)分布:許多金融數(shù)據(jù)并不遵循正態(tài)分布,而是具有偏態(tài)、厚尾或者其它非正態(tài)的分布特征。由于這些特殊性質(zhì)存在,我們將金融數(shù)據(jù)應(yīng)用在使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型時(shí),需要謹(jǐn)慎考慮其適配性,而不是強(qiáng)行將數(shù)據(jù)直接輸入模型中。但強(qiáng)化學(xué)習(xí)則不需要輸入數(shù)據(jù)滿足這一要求。此外強(qiáng)化學(xué)習(xí)通過與環(huán)境交互進(jìn)行試錯(cuò)探索,進(jìn)而對(duì)當(dāng)前策略進(jìn)一步優(yōu)化的模式與量化策略的更新迭代也有諸多相似之處。我們認(rèn)為強(qiáng)化學(xué)習(xí)在金融領(lǐng)域特別是量化策略中可能將具有良好效果,主要出于強(qiáng)化學(xué)習(xí)模型以下四個(gè)特點(diǎn):1.適合處理序列決策任務(wù);2.輸入數(shù)據(jù)無(wú)需遵從獨(dú)立同分布的假設(shè);3.通過與環(huán)境交互探索來(lái)不斷優(yōu)化當(dāng)前策略;4.數(shù)據(jù)無(wú)需具備標(biāo)簽。我們從強(qiáng)化學(xué)習(xí)的基本原理開始。以AlphaGo訓(xùn)練為例,它主要是通過不斷進(jìn)行下棋的嘗試,以獲得足夠多成功或者失敗的經(jīng)驗(yàn),從而不斷地進(jìn)行策略的優(yōu)化。結(jié)合強(qiáng)化學(xué)習(xí)的示意圖:AlphaGo對(duì)標(biāo)強(qiáng)化學(xué)習(xí)中的智能體;它進(jìn)行下棋嘗試的棋盤就是示意圖中的環(huán)境;每次棋局,AlphaGo落子前棋面的情況,即環(huán)境傳遞給智能體的狀態(tài)(stAlphaGo落子的位置對(duì)應(yīng)示意圖中智能體傳遞回環(huán)境的動(dòng)作(at);棋局結(jié)束時(shí)AlphaGo成功或失敗的結(jié)果對(duì)應(yīng)著示意圖中環(huán)境反饋給智能體的獎(jiǎng)勵(lì)r;每一輪棋局稱作一個(gè)回合(Episode);回合中包含的落子次數(shù)稱作當(dāng)前回合的步長(zhǎng)(Step)。由此,可以得到強(qiáng)化學(xué)習(xí)的定義為:智能體學(xué)習(xí)如何在復(fù)雜、不確定的環(huán)境下優(yōu)化策略使獎(jiǎng)勵(lì)最大化。4圖表1:強(qiáng)化學(xué)習(xí)模型示意圖資料來(lái)源:“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等(2023中金公司研究部強(qiáng)化學(xué)習(xí)模型作為機(jī)器學(xué)習(xí)的重要分支近年來(lái)發(fā)展迅速。2015年由DeepMind研究專家提出的DQN模型,首次將深度學(xué)習(xí)與Q學(xué)習(xí)算法相結(jié)合,成功地在多個(gè)Atari游戲中表現(xiàn)超越了人類水平;2016年以其為核心的AlphaGo在更復(fù)雜的圍棋比賽中,戰(zhàn)勝了世界圍棋冠軍李世石。2022年,OpenAI參照強(qiáng)化學(xué)習(xí)的范式通過對(duì)大語(yǔ)言模型ChatGPT進(jìn)行了微調(diào)(RLHF)將人工智能帶入了新的階段。目前,強(qiáng)化學(xué)習(xí)已經(jīng)在許多領(lǐng)域中得到了實(shí)際應(yīng)用,其中在金融領(lǐng)域的訂單執(zhí)行、市場(chǎng)做市以及投資組合優(yōu)化等任務(wù)中都取得了成功的探索。圖表2:強(qiáng)化學(xué)習(xí)發(fā)展歷史2018年2022年2018年2022年2016年1989年OpenAI參照強(qiáng)化學(xué)習(xí)的范式通過對(duì)大語(yǔ)言模型Chatgpt進(jìn)行微調(diào)(RLHF)SAC算法TD3算法Q-OpenAI參照強(qiáng)化學(xué)習(xí)的范式通過對(duì)大語(yǔ)言模型Chatgpt進(jìn)行微調(diào)(RLHF)SAC算法TD3算法Q-learning算法AlphaGo擊敗李世石DDPG算法算法OpenAI的AI系統(tǒng)戰(zhàn)勝Dota2職業(yè)選手1994年2015年TRPO算法1994年2015年TRPO算法A3C算法2019年AlphaStar誕生…SARSA算法PPOSARSA算法AlphaZero誕生資料來(lái)源:Wind,中金公司研究部在金融領(lǐng)域方面,目前較為成熟的應(yīng)用包括資產(chǎn)配置/資產(chǎn)管理任務(wù)。例如,Liu等人在2021年提出的FinRL框架1,首次將前沿的強(qiáng)化學(xué)習(xí)算法系統(tǒng)的應(yīng)用到了資產(chǎn)配置任務(wù)中,并開源了對(duì)應(yīng)的算法框架;Gao等人在2023年基于FinRL提出的StockFormer模型2,結(jié)合了預(yù)測(cè)編碼良好的建模能力和強(qiáng)化學(xué)習(xí)策略靈活性的優(yōu)勢(shì),優(yōu)化交易策略。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)方案不同,該模型借助Transformer模型顯式考慮了未來(lái)趨勢(shì)和不同投資資產(chǎn)之間的相關(guān)性。此外,也有少量研究在因子挖掘及合成任務(wù)上取得了突破性的進(jìn)展3。FinRL:Deepreinforcementlearningframeworktoautomatetradinginquantitativefinance.StockFormer:Learninghybridtradingmachineswithpredictivecoding.“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等(2023).5圖表3:FinRL整體框架資料來(lái)源:“FinRL:DeepReinforcementLearningFrameworktoAutomateTradinginQuantitativeFinance.”XiaoyangLiu等(2021中金公司研究部圖表4:StockFormer整體框架資料來(lái)源:“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等(2023中金公司研究部6如何尋找因子的構(gòu)建范式本文利用強(qiáng)化學(xué)習(xí)模型來(lái)尋找有效的因子構(gòu)建范式,因子構(gòu)建范式具體指代包含量?jī)r(jià)等數(shù)據(jù)特征和數(shù)學(xué)操作符的因子表達(dá)公式。在實(shí)際操作中,我們使用樹結(jié)構(gòu)來(lái)表示因子范式:非葉節(jié)點(diǎn)代表操作符,節(jié)點(diǎn)的子節(jié)點(diǎn)代表操作數(shù),本文將每個(gè)節(jié)點(diǎn)稱為算子(token),并借助逆波蘭表達(dá)式的思想將樹結(jié)構(gòu)保存為其后序遍歷的序列,有效發(fā)揮了逆波蘭表達(dá)式不含歧義,以及易于被計(jì)算機(jī)程序解析和計(jì)算的優(yōu)勢(shì)。與直接預(yù)測(cè)收益率任務(wù)相比,該任務(wù)具有更好的解釋性。圖表5:數(shù)據(jù)與操作符的結(jié)合方式--逆波蘭表達(dá)式注:(A)因子范式的示例;(B)因子范式對(duì)應(yīng)的樹結(jié)構(gòu);(C)使用逆波蘭表示法(RPN)的結(jié)果,其中BEG和SEP表示序列指示符;(D)在一個(gè)示例時(shí)間序列上逐步計(jì)算這個(gè)Alpha因子資料來(lái)源:“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等(2023中金公司研究部強(qiáng)化學(xué)習(xí)模型的數(shù)學(xué)基本框架為馬爾可夫決策過程(MDP),它共包含五個(gè)核心元素:(S,A,T,R,γ),其目標(biāo)為最大化每一個(gè)回合累計(jì)獎(jiǎng)勵(lì)值,公式如下,其中P表示當(dāng)前回合的總步長(zhǎng),τ表示一個(gè)軌跡(或回合即智能體從開始到結(jié)束在環(huán)境中經(jīng)歷的一系列狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的序列,π表示策略,策略是從狀態(tài)到動(dòng)作的映射,定義了智能體在給定狀態(tài)下選擇動(dòng)作的概率分布,形式上,策略π(a|s)表示在狀態(tài)s下選擇動(dòng)作a的概率。Gt=Eτ~π[∑=1yt?1rt]7對(duì)因子構(gòu)建范式挖掘任務(wù),每個(gè)元素的定義如下:?S表示可觀測(cè)的數(shù)據(jù)集合(強(qiáng)化學(xué)習(xí)示意圖中的狀態(tài)st集合定義為t時(shí)刻下的逆波蘭表達(dá)式序列,固定為“BEG”標(biāo)識(shí)符開始??紤]到因子的可解釋性,以及公式過長(zhǎng)帶來(lái)的解釋性降低,我們將公式的長(zhǎng)度閾值(max_expr_length)限制在20個(gè)算子以內(nèi)。具體實(shí)現(xiàn)方面,我們對(duì)所有算子(圖表9)使用整數(shù)編碼進(jìn)行標(biāo)識(shí),利用離散的編碼構(gòu)建表達(dá)式序列。?A表示動(dòng)作集合(強(qiáng)化學(xué)習(xí)示意圖中的動(dòng)作at集合),定義為合法的候選算子(包括操作數(shù)或操作符,需要根據(jù)當(dāng)前序列篩選有效的算子)。當(dāng)因子范式包含的算子數(shù)量超過提前設(shè)置好的閾值(max_expr_length)或當(dāng)前選擇的動(dòng)作為結(jié)束符“SEP”,當(dāng)前回合結(jié)束。?T表示狀態(tài)轉(zhuǎn)移概率方程T(st+1|st,at),表示采取動(dòng)作at加入表達(dá)式序列后的因子范式。?R表示獎(jiǎng)勵(lì)函數(shù)(強(qiáng)化學(xué)習(xí)示意圖中的Tt可以根據(jù)預(yù)期的策略進(jìn)行針對(duì)性的設(shè)計(jì)。本文的任務(wù)本質(zhì)是一個(gè)稀疏函數(shù)的馬爾可夫決策過程,對(duì)于尚未完全形成的序列,環(huán)境不提供即時(shí)獎(jiǎng)勵(lì)。只有在回合結(jié)束時(shí)且因子范式有效的情況下,才會(huì)進(jìn)行表達(dá)式解析,因子回測(cè)等后續(xù)操作。我們首先將當(dāng)前因子與歷史挖掘到的有效因子進(jìn)行合成,而后回測(cè)合成因子的IC值,將其作為強(qiáng)化學(xué)習(xí)模型獎(jiǎng)勵(lì)值,而無(wú)效的因子范式則統(tǒng)一設(shè)置-1的獎(jiǎng)勵(lì)值。?γ表示折扣因子,值域?yàn)?0,1),表示對(duì)未來(lái)獎(jiǎng)勵(lì)值打折扣。當(dāng)折扣因子為0時(shí),智能體只關(guān)注當(dāng)前的獎(jiǎng)勵(lì);當(dāng)其值為1時(shí),表示對(duì)未來(lái)的獎(jiǎng)勵(lì)并沒有打折扣,未來(lái)獲得的獎(jiǎng)勵(lì)與當(dāng)前的獎(jiǎng)勵(lì)是一樣的??紤]對(duì)因子范式長(zhǎng)度沒有特別的需求,我們將折扣因子設(shè)置為γ=1。圖表6:馬爾可夫決策過程示意圖資料來(lái)源:“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等(2023中金公司研究部模型架構(gòu)層面,本文將多因子挖掘任務(wù)及因子合成任務(wù)使用串聯(lián)的形式集成到端到端的強(qiáng)化學(xué)習(xí)框架內(nèi),發(fā)揮其強(qiáng)大的探索能力。具體來(lái)說(shuō),框架主要包含基于強(qiáng)化學(xué)習(xí)的Alpha生成器和Alpha組合模型兩個(gè)模塊。Alpha生成器的主要作用為挖掘因子范式,并將有效的因子范式加入到因子池中,賦予隨機(jī)的合成權(quán)重。隨后Alpha組合模型采用梯度下降的優(yōu)化方式對(duì)因子池中的因子進(jìn)行線性組合,優(yōu)化各自權(quán)重。我們對(duì)組合模型輸出的因子進(jìn)行回測(cè),將IC結(jié)果用作獎(jiǎng)勵(lì)信號(hào),以訓(xùn)練基于策略梯度算法的Alpha生成器中的強(qiáng)化學(xué)習(xí)策略。采用這樣的訓(xùn)練架構(gòu)和流程,能促使Alpha生成器在重復(fù)的訓(xùn)練和優(yōu)化中產(chǎn)生提升組合模型的因子,從而增強(qiáng)整體的預(yù)測(cè)能力。此外,我們?cè)O(shè)置了一個(gè)閾值(pool_size)來(lái)限制因子池的大小,僅保留具有最大絕對(duì)權(quán)重的主要因子。如果擴(kuò)展集合中的因子數(shù)量超過了這一閾值,權(quán)重最小的非主要因子將連同其對(duì)應(yīng)的權(quán)重一起從集合中移除。8*L(W)=1/n(-2***強(qiáng)化學(xué)習(xí)策略損失函數(shù)梯度下降算法掩碼分類分布擴(kuò)展ICs&IC相關(guān)系數(shù)矩陣&權(quán)重…特征選取采樣…SEP■■■■Tokens或…注:(A)一個(gè)生成表達(dá)式的Alpha生成器,通過策略梯度算法進(jìn)行優(yōu)化。(B)一個(gè)維護(hù)主要因子加權(quán)組合的組合模型,同時(shí)提供評(píng)估信號(hào)以指導(dǎo)生成器。資料來(lái)源:“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等(2023*L(W)=1/n(-2***強(qiáng)化學(xué)習(xí)策略損失函數(shù)梯度下降算法掩碼分類分布擴(kuò)展ICs&IC相關(guān)系數(shù)矩陣&權(quán)重…特征選取采樣…SEP■■■■Tokens或…注:(A)一個(gè)生成表達(dá)式的Alpha生成器,通過策略梯度算法進(jìn)行優(yōu)化。(B)一個(gè)維護(hù)主要因子加權(quán)組合的組合模型,同時(shí)提供評(píng)估信號(hào)以指導(dǎo)生成器。資料來(lái)源:“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等(2023中金公司研究部Alpha生成器包含兩個(gè)核心模塊:強(qiáng)化學(xué)習(xí)模塊和特征提取模塊。?強(qiáng)化學(xué)習(xí)模塊:考慮到本文任務(wù)為挖掘因子范式,建模的馬爾可夫決策過程中使用了定義在離散空間的動(dòng)作集合,且每一次新的動(dòng)作采取需要根據(jù)當(dāng)前序列篩選合法的算子,因此我們主要考慮了采用Actor-critic架構(gòu)的強(qiáng)化學(xué)習(xí)模型和Maskable(遮罩)機(jī)制。Actor-critic框架:主要包含一個(gè)價(jià)值網(wǎng)絡(luò)(valuenetwork)和一個(gè)策略網(wǎng)路(policynetwork),其中價(jià)值網(wǎng)絡(luò)負(fù)責(zé)評(píng)估當(dāng)前強(qiáng)化學(xué)習(xí)策略的好壞,通常通過估計(jì)價(jià)值函聚合模型聚合模型IC股價(jià)評(píng)估表達(dá)式數(shù)來(lái)實(shí)現(xiàn);而策略網(wǎng)路負(fù)責(zé)選擇動(dòng)作,即直接對(duì)策略進(jìn)行參數(shù)化。策略網(wǎng)絡(luò)輸出動(dòng)作的概率分布,從中可以采樣以決定下一步要采取的動(dòng)作。Maskable機(jī)制:能夠在每個(gè)時(shí)間步過濾掉非法行動(dòng),只保留合法的行動(dòng)供策略選擇。這樣做可以確保生成的序列始終符合逆波蘭表達(dá)式的語(yǔ)法要求。?特征提取模塊:特征提取模塊主要負(fù)責(zé)將離散的算子序列也即因子表達(dá)式轉(zhuǎn)換為連續(xù)的抽象表征,以作為強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模塊的輸入。強(qiáng)化學(xué)習(xí)模型的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)路共享一個(gè)輸入特征的提取模塊??紤]到合成因子環(huán)節(jié)的可解釋性,本文僅采用傳統(tǒng)的線性組合方案,并未引入其他機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的方法,因而該模塊的技術(shù)細(xì)節(jié)在此不做過多贅述,損失函數(shù)的含義及推導(dǎo)過程詳見附深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要分支,常和其他深度學(xué)習(xí)模型比較。與深度學(xué)習(xí)和遺傳算法有一些類似之處,但在不同的場(chǎng)景下具備其獨(dú)特的優(yōu)勢(shì)。9圖表8:強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)和遺傳算法的比較學(xué)習(xí)機(jī)制強(qiáng)化學(xué)習(xí)通過與環(huán)境互動(dòng)來(lái)學(xué)習(xí)最優(yōu)策略深度學(xué)習(xí)通過大量數(shù)據(jù)學(xué)習(xí)特征表示遺傳算法通過模擬自然選擇和遺傳機(jī)制優(yōu)化問題的解主要目標(biāo)最大化長(zhǎng)期累積獎(jiǎng)勵(lì)從數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型尋找問題的最優(yōu)解或足夠好的解決策方式序列決策(考慮長(zhǎng)期影響)單步?jīng)Q策(基于當(dāng)前輸入做出預(yù)測(cè))基于種群的迭代搜索反饋類型延遲反饋(獎(jiǎng)勵(lì)),可以處理稀疏和時(shí)變的信號(hào)立即反饋,需要大量標(biāo)簽數(shù)據(jù)間接反饋,適者生存原則指導(dǎo)搜索環(huán)境適應(yīng)性能夠適應(yīng)和學(xué)習(xí)動(dòng)態(tài)變化的環(huán)境需要固定的數(shù)據(jù)分布,變化的環(huán)境可能需要重新訓(xùn)練可以適應(yīng)一定范圍的環(huán)境變化,但可能需要重新運(yùn)行算法探索與利用內(nèi)建探索/利用權(quán)衡,能夠探索新策略同時(shí)利用已知策略側(cè)重于利用已有數(shù)據(jù)進(jìn)行學(xué)習(xí)通過隨機(jī)變異和選擇探索解空間數(shù)據(jù)效率可以通過探索和利用機(jī)制高效使用數(shù)據(jù),通過近似值函數(shù)或策略函數(shù)來(lái)加速學(xué)習(xí)過程需要大量數(shù)據(jù)進(jìn)行有效訓(xùn)練不需要訓(xùn)練數(shù)據(jù),通過生成和選擇過程自然地探索解空但在搜索空間較大時(shí)可能會(huì)面臨搜索效率低下的問題在線/離線學(xué)習(xí)可以在線學(xué)習(xí)和適應(yīng),也能進(jìn)行離線訓(xùn)練主要是離線訓(xùn)練,需要大量數(shù)據(jù)集主要是離線過程,每一代個(gè)體通常需要全面評(píng)估可解釋性可以構(gòu)建可解釋的策略深層網(wǎng)絡(luò)的決策過程往往不夠透明解的結(jié)構(gòu)和進(jìn)化過程可以提供一定程度的可解釋性實(shí)時(shí)性可以實(shí)時(shí)地調(diào)整策略以響應(yīng)環(huán)境變化對(duì)實(shí)時(shí)性支持有限,對(duì)新數(shù)據(jù)的適應(yīng)通常需要重新訓(xùn)練不專注于實(shí)時(shí)決策,更關(guān)注于長(zhǎng)期解的優(yōu)化適應(yīng)及泛化能力強(qiáng)化學(xué)習(xí)模型能夠適應(yīng)環(huán)境變化并泛化到新情況模型泛化能力取決于訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量泛化能力有限,側(cè)重于特定問題的解資料來(lái)源:“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等(2023Wind,中金公司研究部?透明度:算法決策過程的可解釋性和可理解性強(qiáng)化學(xué)習(xí):透明度取決于所采用的模型和策略復(fù)雜性。例如,基于表格的方法相對(duì)透明,采用深度網(wǎng)絡(luò)結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)方法的透明度較低。在本文的因子范式挖掘任務(wù),強(qiáng)化學(xué)習(xí)表現(xiàn)出了良好的可解釋性。深度學(xué)習(xí):可解釋性通常較低,深度學(xué)習(xí):可解釋性通常較低,尤其是在深層神經(jīng)網(wǎng)絡(luò)中,其決策過程被認(rèn)為是一個(gè)“黑盒”,難以解釋和理解。遺傳算法:相對(duì)于深度學(xué)習(xí),遺傳算法在透明度上表現(xiàn)更好。盡管其搜索過程可能復(fù)雜,但是算法的運(yùn)作原理(選擇、交叉、變異)相對(duì)容易理解。?效率:算法達(dá)到目標(biāo)所需的資源(如時(shí)間、算力)強(qiáng)化學(xué)習(xí):效率可能因任務(wù)而異,對(duì)于復(fù)雜環(huán)境和策略,可能需要大量的交互和數(shù)據(jù)來(lái)學(xué)習(xí)有效的策略,影響效率。實(shí)驗(yàn)結(jié)果表明強(qiáng)化學(xué)習(xí)在因子范式搜索任務(wù)上具有較高的搜索效率。深度學(xué)習(xí):在擁有充足標(biāo)注數(shù)據(jù)和計(jì)算資源的情況下,深度學(xué)習(xí)可以較為高效地處理大規(guī)模數(shù)據(jù)集。但訓(xùn)練深度模型通常計(jì)算密集且耗時(shí)。遺傳算法:雖然遺傳算法不需要訓(xùn)練數(shù)據(jù),但通常需要大量的迭代和評(píng)估才能收斂到好的解,這可能導(dǎo)致效率較低。?穩(wěn)定性:算法輸出的一致性和對(duì)輸入擾動(dòng)的穩(wěn)定性強(qiáng)化學(xué)習(xí):穩(wěn)定性可能受到探索策略和學(xué)習(xí)率的影響,環(huán)境的變化或初始化的不同可能導(dǎo)致學(xué)習(xí)結(jié)果的顯著差異。深度學(xué)習(xí):在相同條件下,深度學(xué)習(xí)模型通常能夠給出一致的預(yù)測(cè)結(jié)果。但是,它們可能對(duì)數(shù)據(jù)分布的改變和輸入擾動(dòng)敏感。遺傳算法:穩(wěn)定性取決于種群的多樣性和進(jìn)化過程的設(shè)計(jì)。結(jié)果可能在不同運(yùn)行間有所變化,但通??梢酝ㄟ^足夠的迭代次數(shù)找到穩(wěn)定解。資料來(lái)源:Wind,中金公司研究部資料來(lái)源:Wind,中金公司研究部數(shù)據(jù)集按照2015/01/05-2018/12/31、2019/01/02-2020/12/31、2021/01/04-2024/03/01三個(gè)區(qū)間被依次劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。我們利用驗(yàn)證集篩選模型參數(shù),并在測(cè)試集上比較模型的表現(xiàn)。本文特別考慮了使用全歷史股票池范圍可能存在的數(shù)據(jù)泄露問題。在使用訓(xùn)練集評(píng)估因子表達(dá)式的IC均值時(shí),我們只考慮了當(dāng)期截面上有效的成分股范圍,并未引入任何未來(lái)的成分股數(shù)據(jù)以干擾因子評(píng)估的準(zhǔn)確性。本文使用中證1000指數(shù)成分股的歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,將其6個(gè)常見的日度價(jià)量特征作為強(qiáng)化學(xué)習(xí)模型所需的特征算子。此外,操作符算子包括截面運(yùn)算符(一元運(yùn)算符和二元運(yùn)算符)和時(shí)序運(yùn)算符(如均值和標(biāo)準(zhǔn)差)共22個(gè),以及常數(shù)算子包括截面常數(shù)14個(gè)和時(shí)序常數(shù)圖表9:算子定義表子類具體定義算子類別子類具體定義本文所定義的強(qiáng)化學(xué)習(xí)任務(wù)具有離散型的動(dòng)作空間,我們選擇了與之適配的PPO、TRPO和A2C模型,以及常用于連續(xù)型動(dòng)作空間下的SAC模型(對(duì)連續(xù)型動(dòng)作空間進(jìn)行離散化處理),并將上述四個(gè)模型與四類不同的特征提取模塊LSTM、GRU、Transformer和Linear分別進(jìn)行組合??紤]到強(qiáng)化學(xué)習(xí)模型本身存在的隨機(jī)性,上述組合均使用三個(gè)不同的隨機(jī)數(shù)對(duì)模型參數(shù)初始化并進(jìn)行訓(xùn)練。本文測(cè)試提及的強(qiáng)化學(xué)習(xí)和特征提取模塊較多,各類模型都具有獨(dú)特的應(yīng)用場(chǎng)景和特點(diǎn),我們將具體模型介紹置于附錄部分便于參考,下表為主流強(qiáng)化學(xué)習(xí)模型的各項(xiàng)特點(diǎn)對(duì)比,我們?cè)诤罄m(xù)的測(cè)試中也同樣能尋找到與模型特點(diǎn)吻合的測(cè)試結(jié)果。SAC···Linear圖表10:強(qiáng)化學(xué)習(xí)主流方法各項(xiàng)特點(diǎn)對(duì)比SAC···Linear資料來(lái)源:“StockFormer:Learninghybridtradingmachineswithpredictivecoding.”SiyuGao等(2023Wind,中金公司研究部由于強(qiáng)化學(xué)習(xí)模型無(wú)法直接讀取離散形態(tài)的因子表達(dá)式,因此在本模型結(jié)構(gòu)中特征提取模塊將主要通過對(duì)因子表達(dá)式進(jìn)行線性或非線性方法提取特征,強(qiáng)化學(xué)習(xí)模型則主要負(fù)責(zé)學(xué)習(xí)如何將數(shù)據(jù)特征和操作符以及常數(shù)算子有機(jī)結(jié)合起來(lái),尋找到合理的特征與操作符結(jié)合的策略。圖表圖表11:特征提取模塊和強(qiáng)化學(xué)習(xí)模型組合,前者負(fù)責(zé)提取因子表達(dá)式的抽象特征因子表達(dá)式(a+b)*2-c(a*b)^2/cmax(a-b,0)強(qiáng)化學(xué)習(xí)特征提取模塊TransformerTRPOLSTMGRUPPOA2C資料來(lái)源:Wind,中金公司研究部為了驗(yàn)證深度強(qiáng)化學(xué)習(xí)模型在因子挖掘任務(wù)上的有效性,本文同時(shí)考慮了在因子范式構(gòu)建任務(wù)上具有廣泛應(yīng)用的遺傳算法(SymbolicRegression模型)和傳統(tǒng)機(jī)器學(xué)習(xí)方法代表XGBoost,并將以上兩組模型設(shè)為對(duì)照組。由于XGBoost的架構(gòu)并不適用于因子范式挖掘任務(wù),我們使用日度價(jià)量特征作為模型輸入,將模型的優(yōu)化目標(biāo)定義為全市場(chǎng)股票20交易日后的收益率。上述所有模型均可在一張GeForceRTX3080Ti上完成訓(xùn)練,模型代碼均由基于Pytorch的開源三方庫(kù)實(shí)現(xiàn)。強(qiáng)化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)有如下定義(模型超參定義詳見第三章):圖表12:強(qiáng)化學(xué)習(xí)模型在因子范式挖掘任務(wù)上的共性參數(shù)定義參數(shù)名稱參數(shù)含義參數(shù)取值1資料來(lái)源:Wind,中金公司研究部本文對(duì)模型輸出的因子采用IC檢驗(yàn)和分組回測(cè)檢驗(yàn),展示不同因子的有效性水平。我們將對(duì)各個(gè)模型多次訓(xùn)練后輸出的因子分別在中證1000和全市場(chǎng)范圍內(nèi)進(jìn)行IC檢驗(yàn)與分組回測(cè)檢驗(yàn),分析不同模型在測(cè)試集上收益率預(yù)測(cè)的穩(wěn)定性、單調(diào)性、有效性和與其他常見因子的相關(guān)性。其中因子測(cè)試框架如下:?全樣本測(cè)試區(qū)間:2015.01.02–2024.03.01;樣本外測(cè)試區(qū)間:2021.01.04–2024.03.01??股票池:全市場(chǎng)、中證1000中剔除ST、停牌、一字板和上市未滿一年股票?換倉(cāng)頻率:月度,并在每月第一個(gè)交易日換倉(cāng)?分組回測(cè)組數(shù):按照因子值由小到大的順序?qū)⒐善背氐确譃?0組使用多種指標(biāo)展示因子的有效性水平。在IC檢驗(yàn)中,我們使用IC均值、ICIR絕對(duì)值等指標(biāo)展示因子暴露與下期收益率的秩相關(guān)性,反映因子對(duì)收益率的預(yù)測(cè)能力。在分組回測(cè)中,使用多頭年化收益率、多頭年化超額收益率、多頭超額最大回撤等指標(biāo)展示多頭組合的選股能力。5.73%5.34%5.32%6.20%0.760.710.695.94%A2C_LinearA2C_TransformerTRPO_LSTMTRPO_TransformerA2C_GRUA2C_LSTMTRPO_LinearTRPO_GRUSAC_LinearSAC_LSTM強(qiáng)化學(xué)習(xí)算法和特征提取模塊組合后輸出的合成因子在全樣本范圍中取得較好回測(cè)表現(xiàn)的有A2C_Linear,A2C_Transformer,PPO_Transformer,TRPO_LSTM和TRPO_Transformer。其中,A2C_Linear模型全樣本表現(xiàn)較好,ICIR為0.95,超額收益和超額夏普分別為10.53%和1.94,且與常見的相關(guān)因子的截面相關(guān)性較小。此外,與Transformer模塊組合后表現(xiàn)較好的三種強(qiáng)化學(xué)習(xí)模型,它們的合成因子在全樣本的ICIR均超過了0.80,多空收益穩(wěn)定在23%以上,超額收益的平均表現(xiàn)超過7%。上述方法分組年化超額收益均具有良好的單調(diào)性。圖表13:強(qiáng)化學(xué)習(xí)模型輸出因子在中證1000范圍全樣本月度回測(cè)的有效性檢驗(yàn)結(jié)果模型股票池多頭收益多頭換手多空收益超額收益超額夏普超額回撤注:1)樣本區(qū)間為2015-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果資料來(lái)源:Wind,中金公司研究部A2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1MA2C_LinearA2C_TransformerPPO_TransformerTRPO_LSTMTRPO_TransformerBP_LRTURNOVER_1MROE_TTMVSTD_1M圖表14:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益統(tǒng)計(jì)(全樣本)A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer2.90.9資料來(lái)源:Wind,中金公司研究部圖表15:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計(jì)(全樣本)2.10.9A2C_Linear A2C_TransformerPPO_TransformerTRPO_LSTMTRPO_Transformer資料來(lái)源:Wind,中金公司研究部圖表16:A2C_Linear模型因子與常見因子相關(guān)系數(shù)圖表17:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出的合成因子分組年化超額收益統(tǒng)計(jì)(全樣本)EP_TTMEP_TTMLn_MCNP_ZMomentum_1M因子截面相關(guān)性IC相關(guān)性group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%注:1)統(tǒng)計(jì)時(shí)間為2015-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)相對(duì)凈值的比較基準(zhǔn)為中證1000成分股等權(quán)資料來(lái)源:Wind,中金公司研究部注:1)統(tǒng)計(jì)時(shí)間為2015-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)超額收益的比較基準(zhǔn)為中證1000成分股等權(quán);3)Group0為因子值最小一組,Group9為因子值最大一組資料來(lái)源:Wind,中金公司研究部A2C_Linear或存在過擬合,樣中證1000數(shù)據(jù)集樣本外回測(cè)結(jié)果中表現(xiàn)突出的組合方案是TRPO_LSTM模型。其輸出的合成因子IC均值為6.35%,多空收益為22.99%,具有7.83%的超額收益以及1.56的超額夏普率。與全樣本表現(xiàn)較好的A2C_Linear模型相比,通過多次隨機(jī)數(shù)初始化參數(shù)訓(xùn)練得到的TRPO_LSTM方法在樣本外具有更好的平均表現(xiàn)和穩(wěn)定性。此外,在與常見因子相關(guān)系數(shù)的計(jì)算中,該因子的截面相關(guān)性均保持在0.5以內(nèi)。圖表18:強(qiáng)化學(xué)習(xí)和特征提取模塊組合模型的合成因子在中證1000范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤TRPO_LSTM10006.35%0.906.99%59.60%22.99%7.83%1.564.36%TRPO_Transformer10005.92%0.903.59%60.78%16.27%4.40%0.916.27%A2C_Linear10006.08%0.894.51%57.56%17.22%5.32%1.146.09%A2C_Transformer10005.79%0.873.08%55.37%15.21%3.89%0.816.00%PPO_Transformer10006.10%0.853.07%60.29%17.21%3.87%0.825.74%PPO_Linear10005.84%0.842.55%61.79%17.83%3.35%0.715.22%A2C_GRU10005.39%0.843.33%55.15%17.71%4.14%0.855.96%TRPO_GRU10005.70%0.824.70%58.60%18.09%5.51%1.075.61%A2C_LSTM10005.76%0.813.08%55.61%19.07%3.88%0.776.10%PPO_LSTM10005.53%0.783.02%57.13%15.31%3.83%0.815.17%TRPO_Linear10005.50%0.754.30%54.77%17.70%5.11%0.996.87%PPO_GRU10006.06%0.733.59%57.15%19.75%4.39%0.856.75%SAC_Linear10004.18%0.570.58%50.05%7.02%1.36%0.2711.06%SAC_GRU10003.74%0.542.90%44.42%12.65%3.71%0.747.65%SAC_Transformer10003.89%0.533.04%40.93%10.82%3.84%0.757.79%SAC_LSTM10003.42%0.481.11%39.59%9.29%1.89%0.389.54%注:1)樣本區(qū)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果資料來(lái)源:Wind,中金公司研究部圖表20:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計(jì)(樣本外)圖表圖表20:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益統(tǒng)計(jì)(樣本外)合成因子的年化多空收益統(tǒng)計(jì)(樣本外)TRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerTRPO_LSTMA2C_LinearTRPO_TransformerA2C_TransformerPPO_TransformerA2C_TransformerPPO_Transformer2210.810.810.950.90.850.8資料來(lái)源:Wind,中金公司研究部資料來(lái)源:Wind,中金公司研究部TRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTMTRPO_LSTMTRPO_TransformerA2C_LinearA2C_TransformerPPO_TransformerTURNOVER_1MSTD_1MEP_TTM圖表21:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計(jì)(樣本外)TRPO_LSTMA2C_Linear2.2210.82021/3/12021/9/12022/3/12022/9/12023/3/12023/9/12024/3/注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)虛線為3次訓(xùn)練標(biāo)準(zhǔn)差波動(dòng);4)相對(duì)凈值的比較基準(zhǔn)為中證1000成分股等權(quán)資料來(lái)源:Wind,中金公司研究部圖表22:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計(jì)(樣本外)TRPO_LSTMA2C_Linear10.90.8注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)虛線為3次訓(xùn)練標(biāo)準(zhǔn)差波動(dòng);4)相對(duì)凈值的比較基準(zhǔn)為中證1000成分股等權(quán)資料來(lái)源:Wind,中金公司研究部圖表23:TRPO_LSTM模型合成因子與常見因子相關(guān)系數(shù)BP_LRVSTD_1MLn_MCROE_TTMLn_MCMomentum_1M圖表24:中證1000范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的分組年化超額收益統(tǒng)計(jì)(樣本外)group0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相關(guān)性IC相關(guān)性注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)相對(duì)凈值的比較基準(zhǔn)為中證1000成分股等權(quán)資料來(lái)源:Wind,中金公司研究部注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)超額收益的比較基準(zhǔn)為中證1000成分股等權(quán);3)Group0為因子值最小一組,Group9為因子值最大一組資料來(lái)源:Wind,中金公司研究部圖表25:TRPO_LSTM模型因子池中表現(xiàn)較好因子的表達(dá)式及合成權(quán)重因子表達(dá)式權(quán)重IC均值注:1)樣本區(qū)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)模型TRPO_LSTM使用單次訓(xùn)練結(jié)果;3)回測(cè)范圍中證1000資料來(lái)源:Wind,中金公司研究部注:樣本外區(qū)間為2021-03-01至2024-03-01,強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果我們將在中證1000數(shù)據(jù)集下訓(xùn)練得到的強(qiáng)化學(xué)習(xí)模型應(yīng)用到范圍更廣的全市場(chǎng)股票域內(nèi)進(jìn)行測(cè)試發(fā)現(xiàn):TRPO_LSTM模型依然具有較好的回測(cè)表現(xiàn)。其ICIR為1.14,多空收益超過了30%,超額收益穩(wěn)定在8.43%,超額夏普為1.92注:樣本外區(qū)間為2021-03-01至2024-03-01,強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果此外,全市場(chǎng)范圍內(nèi)樣本外回測(cè)結(jié)果表現(xiàn)較好的模型還有PPO_Linear,PPO_Transformer,A2C_Linear和TRPO_Transformer,它們的ICIR表現(xiàn)均穩(wěn)定在1.0以上,IC均值穩(wěn)定在7.5%之上,PPO_Transformer模型輸出的合成因子具有28.33%的多空收益,而A2C_Linear模型輸出的合成因子具有8.14%的超額收益。上述方法在全市場(chǎng)范圍內(nèi)分組年化超額收益依然保持較好的單調(diào)性和區(qū)分度。圖表26:強(qiáng)化學(xué)習(xí)模型輸出因子在全市場(chǎng)范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果模型模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤TRPO_LSTM8.32%1.1410.37%59.27%30.96%8.43%1.924.00%PPO_Linear7.88%1.098.28%60.31%26.20%6.37%1.514.68%PPO_Transformer8.10%1.099.58%59.59%28.33%7.65%1.784.65%A2C_Linear7.76%1.0810.08%56.03%27.45%8.14%1.953.68%TRPO_Transformer7.54%1.079.46%59.41%25.91%7.53%1.824.41%A2C_LSTM7.85%7.85%1.031.038.75%8.75%53.97%53.97%26.24%26.24%6.84%6.84%1.561.564.33%PPO_LSTM7.59%7.59%1.021.027.50%7.50%57.58%57.58%24.84%24.84%5.61%5.61%1.331.334.48%SAC_Linear6.12%6.12%1.001.006.76%6.76%49.33%49.33%19.53%19.53%4.89%4.89%4%TRPO_GRU7.24%7.24%0.990.998.55%8.55%56.86%56.86%26.21%26.21%6.64%6.64%1.501.505.26%A2C_A2C_Transformer7.14%7.14%0.980.988.65%8.65%53.46%53.46%23.22%23.22%6.74%6.74%1.651.654.41%A2C_GRU6.89%6.89%0.980.989.00%9.00%54.34%54.34%25.32%25.32%7.09%7.09%1.761.763.65%TRPO_Linear7.63%7.63%0.950.958.66%8.66%53.62%53.62%26.23%26.23%6.75%6.75%1.441.445.86%PPO_GRU8.02%8.02%0.900.907.49%7.49%56.21%56.21%27.63%27.63%5.60%5.60%8%SAC_GRU5.85%5.85%0.890.897.31%7.31%43.12%43.12%21.44%21.44%5.42%5.42%0%SAC_LSTM5.63%5.63%0.840.846.76%6.76%37.43%37.43%21.47%21.47%4.88%4.88%1.071.076.85%SAC_TransformerSAC_Transformer6.10%6.10%0.820.826.90%6.90%38.46%38.46%20.50%20.50%5.02%5.02%1.031.036.30%資料來(lái)源:Wind,中金公司研究部圖表27:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的年化多空收益統(tǒng)計(jì)(樣本外)0.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer資料來(lái)源:Wind,中金公司研究部圖表28:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出合成因子的超額收益統(tǒng)計(jì)(樣本外) 1.25 1.15 1.05 0.950.9TRPO_LSTM PPO_LinearPPO_TransformerA2C_LinearTRPO_Transformer資料來(lái)源:Wind,中金公司研究部TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分組年化超額收益統(tǒng)計(jì)(樣本外)TRPO_LSTMPPO_LinearPPO_TransformerA2C_LinearTRPO_TransformerTURNOVER_1M的合成因子分組年化超額收益統(tǒng)計(jì)(樣本外)圖表29:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的年化多空收益穩(wěn)定性統(tǒng)計(jì)(樣本外)TRPO_LSTMPPO_Linear210.8注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)虛線為3次訓(xùn)練標(biāo)準(zhǔn)差波動(dòng);4)相對(duì)凈值的比較基準(zhǔn)為全市場(chǎng)等權(quán)資料來(lái)源:Wind,中金公司研究部圖表31:PPO_Linear模型因子與常見因子相關(guān)系數(shù)圖表30:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型合成因子的超額收益穩(wěn)定性統(tǒng)計(jì)(樣本外)TRPO_LSTMPPO_Linear10.90.8注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)虛線為3次訓(xùn)練標(biāo)準(zhǔn)差波動(dòng);4)相對(duì)凈值的比較基準(zhǔn)為全市場(chǎng)等權(quán)資料來(lái)源:Wind,中金公司研究部圖表32:全市場(chǎng)范圍內(nèi)表現(xiàn)較好的強(qiáng)化學(xué)習(xí)模型輸出BP_LRVSTD_1MEP_TTMEP_TTMLn_MCROE_TTMLn_MCNP_ZMomentum_1Mgroup0group1group2group3group4group5group6group7group8group95%0%-5%-10%-15%-20%因子截面相關(guān)性IC相關(guān)性注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)相對(duì)凈值的比較基準(zhǔn)為全市場(chǎng)等權(quán)資料來(lái)源:Wind,中金公司研究部注:1)統(tǒng)計(jì)時(shí)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練,獲取平均結(jié)果;3)超額收益的比較基準(zhǔn)為全市場(chǎng)等權(quán);3)Group0為因子值最小一組,Group9為因子值最大一組資料來(lái)源:Wind,中金公司研究部算法對(duì)比:強(qiáng)化學(xué)習(xí)性能與透明度更優(yōu)我們經(jīng)過試驗(yàn)對(duì)比發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)模型在樣本外的表現(xiàn)均明顯優(yōu)于遺傳算法和機(jī)器學(xué)習(xí)方法。其中TRPO_LSTM和A2C_Linear兩種組合方案在中證1000范圍內(nèi)樣本外回測(cè)的平均結(jié)果較為突出:ICIR約為0.90,超額夏普均超過了1.1,并具有累計(jì)7.83%和5.32%的超額收益。相比之下,兩組對(duì)照方法的收益凈值曲線在今年年初出現(xiàn)了明顯的回撤,超額收益不足2%。以XGBoost為代表的機(jī)器學(xué)習(xí)(深度學(xué)習(xí))方法屬于“黑盒”模型,模型從輸入的量?jī)r(jià)數(shù)據(jù)到輸出的預(yù)測(cè)結(jié)果過程中缺乏可解釋性,且預(yù)測(cè)結(jié)果相比本文的因子范式也缺少一定的透明度。因此當(dāng)模型性能在樣本外下降時(shí),這類模型的優(yōu)化和調(diào)整將成為新的挑戰(zhàn)。對(duì)于本文所提出的因子范式挖掘及合成任務(wù),實(shí)驗(yàn)結(jié)果表明強(qiáng)化學(xué)習(xí)模型相比遺傳算法具有更強(qiáng)的搜索效率。當(dāng)固定因子池的大小為20時(shí),以TRPO_LSTM為代表的強(qiáng)化學(xué)習(xí)模型搜索到的因子范式,在樣本外回測(cè)得到的ICIR和超額收益表現(xiàn)均明顯優(yōu)于遺傳算法搜索到的結(jié)果如下表所示。對(duì)比發(fā)現(xiàn)對(duì)照組ICIR不足0.5,TRPO_LSTM模型ICIR可達(dá)0.9,也具有顯著更高的超額收益。圖表33:強(qiáng)化學(xué)習(xí)模型(部分)及對(duì)照方法合成因子在中證1000范圍樣本外月度回測(cè)的有效性檢驗(yàn)結(jié)果注:注:1)樣本區(qū)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值資料來(lái)源:Wind,中金公司研究部模型股票池IC均值|IC_IR|多頭收益多頭換手多空收益超額收益超額夏普超額回撤SymbolicRegressionSAC_TransformerTRPO_LSTMA2C_LinearPPO_GRUXGBoost40.93%22.99%57.15%57.56%38.17%58.09%59.60%19.75%17.22%10.82%15.16%10.19%3.84%1.07%4.39%5.32%7.83%1.65%4.51%4.36%2.08%6.35%6.06%6.99%6.08%6.75%6.09%8.32%3.59%0.29%3.04%0.87%3.89%3.86%7.49%7.79%0.530.451000100010001000100010000.890.900.730.410.360.850.750.251.561.14圖表34:中證1000范圍合成因子年化多空收益統(tǒng)計(jì)圖表35:中證1000范圍合成因子年化超額收益統(tǒng)計(jì)TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost210.8注:1)超額收益相對(duì)基準(zhǔn)為全市場(chǎng)等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)模型及遺傳算法均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值資料來(lái)源:Wind,中金公司研究部TRPO_LSTMA2C_LinearPPO_GRUSAC_TransformerSymbolicRegressionXGBoost10.9注:1)超額收益相對(duì)基準(zhǔn)為全市場(chǎng)等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)及遺傳算法模型均使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值資料來(lái)源:Wind,中金公司研究部圖表36:強(qiáng)化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測(cè)的IC_IR統(tǒng)計(jì)TRPO_LSTMSymbolicRegression0Top1_FactorTop2_FactorTop3_FactorTop4_Factor注:1)樣本區(qū)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)模型TRPO_LSTM及遺傳算法均使用單次訓(xùn)練結(jié)果資料來(lái)源:Wind,中金公司研究部圖表37:強(qiáng)化學(xué)習(xí)和遺傳算法因子池中表現(xiàn)較好的因子在中證1000范圍樣本外回測(cè)的超額收益統(tǒng)計(jì)TRPO_LSTM_Top1TRPO_LSTM_Top2TRPO_LSTM_Top3SymbolicRegression_Top1SymbolicRegression_Top2SymbolicRegression_Top30.950.852021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/12021/3/12021/5/12021/7/12021/9/12021/11/12022/1/12022/3/12022/5/12022/7/12022/9/12022/11/12023/1/12023/3/12023/5/12023/7/12023/9/12023/11/12024/1/12024/3/1注:1)樣本區(qū)間為2021-03-01至2024-03-01;2)強(qiáng)化學(xué)習(xí)模型TRPO_LSTM及遺傳算法均使用單次訓(xùn)練結(jié)果資料來(lái)源:Wind,中金公司研究部模型的參數(shù)敏感度分析本節(jié)主要就因子表現(xiàn)對(duì)特征提取模塊和強(qiáng)化學(xué)習(xí)模型組合的敏感度進(jìn)行分析。分別固定強(qiáng)化學(xué)習(xí)模型和特征提取模塊,統(tǒng)計(jì)合成因子在樣本外回測(cè)的ICIR及超額收益的平均表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,TRPO、A2C和PPO模型參與因子范式挖掘得到的合成因子具有較為穩(wěn)定的ICIR表現(xiàn),均超過0.80。特征提取模塊中,Transformer參與組合的模型輸出的因子具有相對(duì)最好的ICIR表現(xiàn),為0.79。?對(duì)不同的強(qiáng)化學(xué)習(xí)模型:TRPO模型具有更好的因子范式搜索能力,與其結(jié)合的特征提取模塊訓(xùn)練得到的合成因子兼顧較好的ICIR及超額收益表現(xiàn)。此外,A2C和PPO模型輸出的合成因子回測(cè)表現(xiàn)也具有較好的ICIR結(jié)果。SAC模型本身適用于連續(xù)動(dòng)作空間的任務(wù),對(duì)于當(dāng)前離散動(dòng)作空間下(且需要掩碼處理)的因子范式搜索任務(wù),其性能無(wú)法得到有效發(fā)揮,因此其輸出結(jié)果的ICIR和超額收益表現(xiàn)都較為落后。?對(duì)不同特征模塊:因子表現(xiàn)對(duì)特征提取模型敏感度不高,四類特征提取模塊參與組合的模型輸出的合成因子均具有超過0.70的ICIR表現(xiàn)及4%左右的超額收益。本文認(rèn)為,由于因子范式長(zhǎng)度固定值設(shè)為20,對(duì)特征提取模塊的網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)深度并未提出較高的要求,故時(shí)序模型、注意力機(jī)制,甚至是常規(guī)的全連接層都發(fā)揮了較好的特征提取效果。圖表38:因子表現(xiàn)對(duì)強(qiáng)化學(xué)習(xí)模型敏感度圖表39:因子表現(xiàn)對(duì)特征模塊的敏感度ICIR超額收益(右軸)ICIR超額收益(右軸)0.900.800.700.600.500.400.300.200.100.006%5%4%3%2%0%A2CTPROPPOSAC0.900.800.800.700.600.50TransformerLinearLSTMGRU6%5%4%3%2%0%注:1)超額收益相對(duì)基準(zhǔn)為中證1000成分股等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)模型使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值,并對(duì)當(dāng)前強(qiáng)化學(xué)習(xí)模型組合過的所有特征提取模塊表現(xiàn)計(jì)算平均值資料來(lái)源:Wind,中金公司研究部注:1)超額收益相對(duì)基準(zhǔn)為中證1000成分股等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)模型使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值,并對(duì)當(dāng)前特征提取模塊所有組合過的強(qiáng)化學(xué)習(xí)模型表現(xiàn)計(jì)算平均值資料來(lái)源:Wind,中金公司研究部本節(jié)主要從因子池和模型超參兩個(gè)角度探索TRPO_LSTM組合模型性能對(duì)參數(shù)的穩(wěn)定性。相較于其他強(qiáng)化學(xué)習(xí)模型,TRPO的性能表現(xiàn)較為穩(wěn)定,對(duì)于參數(shù)變化較為不敏感。我們認(rèn)為主要可能有以下原因。?從TRPO的設(shè)計(jì)原理出發(fā):TRPO使用了信任域優(yōu)化的方法,通過限制策略更新的步幅,確保策略改進(jìn)過程的平滑和穩(wěn)定,從而減少了因大幅度更新而導(dǎo)致的性能崩潰的風(fēng)險(xiǎn)。TRPO在每次更新時(shí)會(huì)自適應(yīng)地調(diào)整步長(zhǎng)(或?qū)W習(xí)率),以保持策略更新在信任域內(nèi)。由于它會(huì)自動(dòng)調(diào)整步長(zhǎng)以滿足KL散度的約束,該算法對(duì)學(xué)習(xí)率不是特別敏感。TRPO優(yōu)化的目標(biāo)函數(shù)使用了廣義優(yōu)勢(shì)估計(jì)(GAE)來(lái)估計(jì)策略梯度,并且結(jié)合了值函數(shù)的估計(jì)來(lái)減小方差。該設(shè)計(jì)使其對(duì)于獎(jiǎng)勵(lì)函數(shù)中的噪聲和估計(jì)誤差敏感性降低。?從實(shí)驗(yàn)結(jié)果出發(fā):模型性能與因子池規(guī)模并無(wú)嚴(yán)格的正相關(guān)關(guān)系。因子池規(guī)模由10增大到50時(shí),模型輸出的合成因子樣本外的ICIR表現(xiàn)呈現(xiàn)上升趨勢(shì);然而當(dāng)因子池規(guī)模繼續(xù)增大至200時(shí),合成因子的表現(xiàn)有所下降且趨于穩(wěn)定。本文認(rèn)為,這是由于算子種類較為有限所致,因此簡(jiǎn)單的擴(kuò)大因子池不能直接合成具有更好表現(xiàn)的因子。模型超參:本文從學(xué)習(xí)率、單次更新步數(shù)及批量大小三個(gè)參數(shù)探索了模型性能與參數(shù)變化的關(guān)系。實(shí)驗(yàn)結(jié)果表明,在學(xué)習(xí)率lr=1e-3,單次更新步數(shù)nsteps=2048,批處理大小batch_size=128時(shí),模型具有相對(duì)更好的性能表現(xiàn)。本文所采用的強(qiáng)化學(xué)習(xí)模型始終貫徹著計(jì)算效率和存儲(chǔ)開銷間的平衡。誠(chéng)然更大的網(wǎng)絡(luò)隱藏層維度及更深的網(wǎng)絡(luò)層數(shù)有可能帶來(lái)更好的擬合效果,但復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)面臨著計(jì)算效率的降低及模型過擬合的風(fēng)險(xiǎn)。因此在實(shí)際應(yīng)用中,如何權(quán)衡這兩者間的關(guān)系也是不可忽視的問題。注:1)超額收益相對(duì)基準(zhǔn)為中證1000成分股等權(quán);2)樣本區(qū)間為2021-03-01至注:1)超額收益相對(duì)基準(zhǔn)為中證1000成分股等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)模型使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值資料來(lái)源:Wind,中金公司研究部注:1)超額收益相對(duì)基準(zhǔn)為中證1000成分股等權(quán);2)樣本區(qū)間為2021-03-01至2024-03-01;3)強(qiáng)化學(xué)習(xí)模型使用不同隨機(jī)數(shù)初始化參數(shù)進(jìn)行3次訓(xùn)練得到平均值資料來(lái)源:Wind,中金公司研究部類別參數(shù)名稱參數(shù)含義取值對(duì)模型表現(xiàn)的影響分析n_stepsbatch_sizetarget_klnormalizeadvantage值函數(shù)的學(xué)習(xí)率每次更新中,環(huán)境運(yùn)行的步數(shù)用于批量下降的批量大小廣義優(yōu)勢(shì)估計(jì)中偏差與方差的權(quán)衡因子策略更新之間的KL發(fā)散的目標(biāo)上限是否對(duì)優(yōu)勢(shì)函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理2048影響優(yōu)化速度和收斂性,過高可能導(dǎo)致不穩(wěn)定,過低可能導(dǎo)致收斂緩慢決定策略更新的數(shù)據(jù)量,較大的n_steps可以提高樣本多樣性影響學(xué)習(xí)的穩(wěn)定性和內(nèi)存使用,不當(dāng)?shù)拇笮】赡苡绊懹?xùn)練效率和效果影響優(yōu)勢(shì)函數(shù)的估計(jì)精度,進(jìn)而影響策略梯度的穩(wěn)定性和有效性控制策略更新步幅,防止更新過大造成訓(xùn)練不穩(wěn)定可以提高算法的數(shù)值穩(wěn)定性,有助于提升模型的學(xué)習(xí)效率和性能dropout網(wǎng)絡(luò)層數(shù)嵌入層向量維度/LSTM層中隱藏狀態(tài)的維度在LSTM中應(yīng)用隨機(jī)失活的比率3層數(shù)增多可以增加模型的復(fù)雜度和學(xué)習(xí)能力,但可能導(dǎo)致過擬合和訓(xùn)練時(shí)間增加隱藏狀態(tài)的維度越大,模型的表示能力越強(qiáng),但計(jì)算量也會(huì)增大有助于防止過擬合,但如果太高可能導(dǎo)致欠擬合資料來(lái)源:“GeneratingSynergisticFormulaicAlphaCollectionsviaReinforcementLearning.”ShuoYu等(2023Wind,中金公司研究部圖表41:TRPO_LSTM模型樣本外表現(xiàn)隨因子池規(guī)模變化的趨勢(shì) 超額收益(右軸)9%圖表42:TRPO_LSTM模型樣本外表現(xiàn)隨學(xué)習(xí)率變化的趨勢(shì)ICIR超額收益(右軸)1.00.20.01020501020507%6%7%6%5%4%3%2%0%0.6lr=3e-4lr=3e-4lr=5e-4lr=7e-4lr=1e-3lr=3e-38%7%6%5%4%3%2%1%0%圖表43:TRPO_LSTM模型樣本外表現(xiàn)隨單次更新中步數(shù)大小變化的趨勢(shì)0.950.900.850.800.750.700.650.60
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂職業(yè)學(xué)院《篆刻2》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西應(yīng)用工程職業(yè)學(xué)院《建筑設(shè)備自動(dòng)化系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖北開放職業(yè)學(xué)院《城市設(shè)計(jì)B》2023-2024學(xué)年第一學(xué)期期末試卷
- 遵義職業(yè)技術(shù)學(xué)院《中國(guó)古代文學(xué)5》2023-2024學(xué)年第一學(xué)期期末試卷
- 株洲師范高等??茖W(xué)?!斗沁z影像策劃與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶青年職業(yè)技術(shù)學(xué)院《數(shù)據(jù)結(jié)構(gòu)及算法》2023-2024學(xué)年第一學(xué)期期末試卷
- 株洲師范高等專科學(xué)?!吨攸c(diǎn)傳染病防治知識(shí)規(guī)培》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江外國(guó)語(yǔ)學(xué)院《課程與教學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江工貿(mào)職業(yè)技術(shù)學(xué)院《建筑美術(shù)Ⅲ》2023-2024學(xué)年第一學(xué)期期末試卷
- 中南林業(yè)科技大學(xué)《物理化學(xué)(1)》2023-2024學(xué)年第一學(xué)期期末試卷
- 淺析商務(wù)英語(yǔ)中模糊語(yǔ)言的語(yǔ)用功能
- 老年人能力評(píng)估標(biāo)準(zhǔn)解讀講義課件
- 材料報(bào)價(jià)三家對(duì)比表
- 2024年國(guó)家公務(wù)員考試公共基礎(chǔ)知識(shí)全真模擬試題及答案(共四套)
- 標(biāo)準(zhǔn)輔助航空攝影技術(shù)規(guī)范
- 2023年中國(guó)人保財(cái)險(xiǎn)校園招聘筆試參考題庫(kù)附帶答案詳解
- hdx7底層黑磚刷寫和字庫(kù)救磚教程bysmartyou
- 年會(huì)頒獎(jiǎng)晚會(huì)頒獎(jiǎng)盛典簡(jiǎn)約PPT模板
- 年產(chǎn)10000噸柑橘飲料的工廠設(shè)計(jì)
- 雷電知識(shí)、雷電災(zāi)害防御知識(shí)匯總-上(單選題庫(kù))
- 導(dǎo)學(xué)案 高中英語(yǔ)人教版必修三Unit4 Astronomy the science of the stars
評(píng)論
0/150
提交評(píng)論