機器學(xué)習(xí)系列之四:強化學(xué)習(xí)與基于RRL的因子合成方法_第1頁
機器學(xué)習(xí)系列之四:強化學(xué)習(xí)與基于RRL的因子合成方法_第2頁
機器學(xué)習(xí)系列之四:強化學(xué)習(xí)與基于RRL的因子合成方法_第3頁
機器學(xué)習(xí)系列之四:強化學(xué)習(xí)與基于RRL的因子合成方法_第4頁
機器學(xué)習(xí)系列之四:強化學(xué)習(xí)與基于RRL的因子合成方法_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

請務(wù)必閱讀正文后的聲明及說明強化學(xué)習(xí)與基于RRL的因子合成方法 ---機器學(xué)習(xí)系列之四及在大模型上的關(guān)鍵應(yīng)用,強化學(xué)習(xí)廣泛地走進了人們的視野。強化學(xué)進了強化學(xué)習(xí)融入人工智能前沿的進程,從策略梯度算法的提出到TD3等高效的算法。強化學(xué)習(xí)在量化領(lǐng)域同樣有著廣泛的應(yīng)用,包括組合優(yōu)化、使用簡單高效的循環(huán)強化學(xué)習(xí)RRL對基于日內(nèi)量價序列的Logsig-Alpha息的融合;基于狀態(tài)選擇的動作為因子的權(quán)重向量;目標函數(shù)基于合成因子的整體表現(xiàn)以及與基準的偏差進行設(shè)計。計算目標函數(shù),并利用梯歷史數(shù)據(jù),也就是說其依據(jù)指標的時間序列與期限結(jié)構(gòu)來息輸入更加全面。第二,其目標函數(shù)可以靈活設(shè)定,可以根據(jù)不同的偏 RRL合成月度因子分層回測結(jié)果相關(guān)報告相關(guān)報告《基于營業(yè)利潤計算過程的財務(wù)質(zhì)量研究》《基于CNN-Transformer的深度學(xué)習(xí)模型探究》《可轉(zhuǎn)債風(fēng)險模型構(gòu)建與應(yīng)用》《雪球產(chǎn)品敲入規(guī)模分布估算和市場影響點評angqi_5636iaying@ne金融工程研究 4 5 5 7 72.2.2.Policy-based 8 8 8 2.4.強化學(xué)習(xí)在量化投資上的應(yīng)用簡介 16 21 24 27 28 29 4 5 6 9 表2:Logsig-Alpha-v月度因子 表3:Logsig-Alpha-c月度因子 表4:Logsig-Alpha-oc月度因子 表5:Logsig-Alpha-hl月度因子 表8:RRL算法合成方法與傳統(tǒng)合成方法對比 Models,LLMs)中強化學(xué)習(xí)也起到了關(guān)鍵的作用,例如人類反饋強化學(xué)習(xí)訓(xùn)練過程,成為一種新的訓(xùn)練范式。強化學(xué)習(xí)在量接強化學(xué)習(xí)(Directreinforcementlearning)方法,即循環(huán)強化學(xué)習(xí)(Recurrentreinforcementlearning,慮了更豐富的信息,線性加權(quán)的方式也讓模型的輸入和目標函數(shù)(Objectivefunc2.強化學(xué)習(xí)理論與應(yīng)用簡介獎勵的同時也進入了下一個狀態(tài),代理需要在新個離散時間的隨機控制過程(Stochasticcontrolprocess它對于狀態(tài)的轉(zhuǎn)移以及決P表示=s,At=a}表示在t時刻s狀態(tài)下選擇動作a轉(zhuǎn)移到s′狀態(tài)的概率。?表示狀態(tài)轉(zhuǎn)移后的期望獎勵,具體來說,Rs,a:=E[Rt+1|st=s,At=a]表示在t時刻s狀態(tài)下選擇動作a轉(zhuǎn)移到s′狀態(tài)得到獎勵Rt+1的期望。程的目標就是選擇最優(yōu)的策略來最大化回報,這里回報定義為Gt=∑0yiRt+i+1,=E[Gt|st=s,At=a].兩者分別滿足Bellman期望方程(Bellman=Eπ[Rt+1+Yqπ(st+1,At+1)lst=s,At=a].據(jù)此可以導(dǎo)出Bellman最優(yōu)方程(Bel略(Exploitation被稱為ExplorationvsExploitationtrade-off。根據(jù)不同的學(xué)習(xí)目標,強化學(xué)習(xí)算法可以分為基于價值的(Value-q(st,At)←q(st,At)+a(Rt+1+yq(st+1,a)?q(st,At)),可以看出,更新方式類似于Bellman最優(yōu)方程,每步將Rt+1+yq(st+1,a)作為q(st,At)←q(st,At)+a(Rt+1+yq(st+1,At+1)?q(st,At)),在更新時,更新目標為Rt+1+yq(st+1,At+1),其中At+1是基于當前策略π選擇的,這種使用同一套策略更新Q函數(shù)與動作選擇的方式稱為同軌(On-policy)。而Q-上述算法均是在離散狀態(tài)離散動作下定義的,為了解決連續(xù)狀態(tài)下不適用的問題,一類結(jié)合神經(jīng)網(wǎng)絡(luò)(Neuralnetwork)的算法被提出,即為深度強化學(xué)習(xí)(Deep算法,它引入了經(jīng)驗回放(Experiencereplay)技巧,即將與環(huán)境交互得到經(jīng)驗提升了樣本的利用率。DQN在訓(xùn)練時引入了目標網(wǎng)絡(luò)(Targetnetwor為(5)DoubleDQN2.2.2.Policy-based算法Value-based算法通過價值函數(shù)的優(yōu)化目標函數(shù)。當J(θ)被定義為初始狀態(tài)的價值函數(shù)時,策略梯度定理(PolicyREINFORCE[7]使用回報G來近似遍歷每一步來計算對應(yīng)的G,對數(shù)概率可以由神經(jīng)網(wǎng)絡(luò)給出,這樣便可以計算出損.Actor-Crit差異可能是巨大的,結(jié)果就引入了高方差(Highvariance)和梯度噪聲(NoisyL12用于更新評估網(wǎng)絡(luò)。為了減小策略梯度中的估計方差,在經(jīng)典的Actor-Critic算法中引入優(yōu)勢函數(shù)對某些動作進行懲罰。A2C策略網(wǎng)絡(luò)的損L1L2(w)=Eπ[(T+Y(s′;w?)?V(s;w))2更新策略網(wǎng)絡(luò)參數(shù)時,優(yōu)勢函數(shù)會影響更新方向,當優(yōu)勢函數(shù)擇相對平均具有優(yōu)勢,就會使得參數(shù)沿著對數(shù)似然的梯度方AsynchronousAdvantageActor-Critic算法(worker采集到足夠的經(jīng)驗后,就會用自身的損失函數(shù)計算梯度并將梯度上傳給為了解決傳統(tǒng)策略梯度方法對步長選擇的敏感性以及采樣效率低下等局限性,Ex~p[f(x)]=Ex~q[f(x).LKL?)?V(s;w))2].行更新。評估網(wǎng)絡(luò)同樣使用目標網(wǎng)絡(luò)的形式。在policygradient,DDPG)[10]關(guān)注確定性策略,即依據(jù)狀態(tài)直接得到確定性動作的策aL1程中給策略加上了動作噪聲,即在生成動作為確定性動作加上一個Ornstein-?)+L1將歷史信息編碼在隱變量(Latentvariable)中。每個時刻依據(jù)模型得到動作at=損失函數(shù)的設(shè)計是多樣的,一般基于每一步動作產(chǎn)生具有兩個退化版本,第一種是將狀態(tài)定義為當前時刻的此架構(gòu)相比于退化版本有一定的優(yōu)勢,一般來說信息所以狀態(tài)的定義應(yīng)該盡可能包含歷史信息,這樣更加貼合真實衍生品對沖方面,[20]應(yīng)用Q-learning在Black-Scholes假設(shè)和無交易建了期權(quán)對沖策略。[21]應(yīng)用循環(huán)強化學(xué)習(xí)的方法提出了一個衍生品組合對沖的框首先對前期報告《日內(nèi)成交量分布因子及Logsig-Alpha因子生成——因子選股系建低頻化選股因子。Logsig-Alpha是一個從序列到因子將原始的序列轉(zhuǎn)化為一個特征集,再進行標準化操作后得到基礎(chǔ)因子;相關(guān)性,將正交轉(zhuǎn)換后的因子進行標準化后輸出,或是等權(quán)合成。架構(gòu)簡單高效,log-signature特征集。Lead-lag變換優(yōu)勢在于可以提取到序列前后項形成的變差對于原始長度為N+1的d維序列x,其lead-lag變換包含兩個長度為2N+1的d維序列xlead和xlag:xad={xg={xtixtixtixti08每個樣本中,上述計算好的log-signature作為特征,t+1至t+21的收益率在經(jīng)過08算相關(guān)系數(shù)時對較大的因子值分配更大的權(quán)重,即最終優(yōu)化目標更偏向多頭表現(xiàn)。按上述方式滾動訓(xùn)練得到月頻因子Logsig-Alpha-v。也其轉(zhuǎn)換為特征集,這樣的輸入設(shè)定希望可以捕捉到日內(nèi)因子名稱RankICICIR多頭年化收益多頭年化超額多頭換手率多空年化收益多空年化波動率多空SharpeRatio多空最大回撤Logsig-Alpha-v31.01%9.56%3.24Logsig-Alpha-c0.948.74%9.09%24.06%6Logsig-Alpha-oc0.80%Logsig-Alpha-hl0.958.47%8.82%20.5%6表2:Logsig-Alpha-v月度因子分yearyearRankICICIR多頭年化收益多頭年化超額多空年化收益多空年化波動率多空SharpeRatio201810.06%1.28-26.96%3.22%27.81%7.30%3.81201911.45%1.3244.58%17.13%36.77%9.48%3.88202011.93%0.9233.91%20.16%33.64%11.50%2.9320216.47%0.7029.30%5.22%17.58%10.28%1.71202211.95%1.772.01%11.68%39.21%8.59%4.56202312.29%1.3016.73%9.96%23.87%9.36%2.55匯總10.87%1.1712.64%12.99%31.01%9.57%3.24yearyearRankICICIR多頭年化收益多頭年化超額多空年化收益多空年化波動率多空SharpeRatio201811.33%2.32-24.64%5.54%28.90%10.52%2.7520198.80%0.7231.86%4.41%16.33%11.30%1.4520209.45%0.6420.28%6.53%8.97%14.69%0.61202111.15%0.7835.73%11.65%25.55%15.55%1.64202211.95%1.29-2.60%7.07%38.38%13.00%2.9520239.94%0.8812.34%5.57%18.27%11.10%1.65匯總10.76%0.948.74%9.09%24.06%12.95%1.86yearyearRankICICIR多頭年化收益多頭年化超額多空年化收益多空年化波動率多空SharpeRatio201810.35%1.16-27.52%2.66%22.52%11.28%2.0020197.12%0.5127.73%0.28%10.61%12.17%0.8720208.35%0.5519.58%5.83%2.41%15.43%0.16202110.89%0.7738.50%14.42%21.75%16.96%1.28202210.27%0.92-8.17%1.50%24.81%13.43%1.85202312.59%0.9518.90%12.13%24.12%11.73%2.06匯總10.22%0.807.06%7.41%18.50%13.67%1.35yearyearRankICICIR多頭年化收益多頭年化超額多空年化收益多空年化波動率多空SharpeRatio20188.90%1.51-27.63%2.55%22.93%8.77%2.6120199.15%0.9034.52%7.07%18.92%9.41%2.01202011.01%0.9125.31%11.56%15.87%11.93%1.3320218.14%0.6632.73%8.65%13.01%12.97%1.00202212.16%1.20-0.28%9.39%34.86%11.56%3.0220239.52%0.769.17%2.40%12.44%10.58%1.18匯總10.07%0.958.47%8.82%20.58%11.05%1.86相對全A等權(quán)組合有一定超額。下面測試因子與常見高頻因子之間的請務(wù)必閱讀正文后的聲明及說明日內(nèi)反轉(zhuǎn)Logsig-Alpha-cLogsig-Alpha-hlLogsig-Alpha-ocLogsig-Alpha-v對數(shù)成交量日內(nèi)偏度日內(nèi)反轉(zhuǎn)1.00-0.40-0.36-0.40-0.401.000.490.59-0.360.491.000.70-0.400.590.701.00-0.270.360.350.310.19-0.31-0.31-0.29-0.28-0.29Logsig-Alpha-cLogsig-Alpha-hlLogsig-Alpha-oc0.190.260.430.47-4-0.31-0.27-0.26-0.630.24-0.37-0.37-0.29-0.35-0.36-0.530.32-0.35-0.38-0.28-0.27-0.25-0.600.22-0.29-0.32-0.29-0.36-0.32-0.350.35-0.41-0.411.000.320.270.41-7早盤成交量占比穩(wěn)定性已實現(xiàn)峰度已實現(xiàn)偏度已實現(xiàn)波動UOIDR早盤成交量波動穩(wěn)定性早盤成交量占比穩(wěn)定性日內(nèi)反轉(zhuǎn)0.26-0.27-0.35-0.27-0.360.321.000.690.44-0.500.350.570.43-0.26-0.36-0.25-0.320.270.691.000.41-0.360.270.410.47-0.63-0.53-0.60-0.350.410.440.411.00-0.340.380.46-20.220.35-0.18-0.50-0.36-0.341.00-0.40-0.440.16-0.37-0.35-0.29-0.410.250.350.270.38-0.401.000.840.24-0.37-0.38-0.32-0.410.270.570.410.46-0.440.841.00Logsig-Alpha-cLogsig-Alpha-hlLogsig-Alpha-ocLogsig-Alpha-v對數(shù)成交量日內(nèi)偏度已實現(xiàn)峰度已實現(xiàn)偏度已實現(xiàn)波動UOIDR早盤成交量波動穩(wěn)定性早盤成交量占比穩(wěn)定性請務(wù)必閱讀正文后的聲明及說明不含有未來數(shù)據(jù)。?1指前一步RankIC信息與歷史RankIC信息的融合。事實上,包含一年的數(shù)據(jù)。每一步輸出的因子權(quán)重可以用來計算合成因子x={xt}t=1中xt=1wx。然后計算合成因子序列對應(yīng)的RankIC序列IC={ICt}t=1,?,T。J(θ)=ICT+a?β(w?2.請務(wù)必閱讀正文后的聲明及說明請務(wù)必閱讀正文后的聲明及說明并將其與上一步輸出的歷史信息進行融合得到新的狀態(tài),輸入到策略網(wǎng)絡(luò)中得利用合成因子序列的評估指標與權(quán)重向量序列計算目標函數(shù),最大化目標函數(shù)加一個Softmax操作層,前者降低模型過擬合風(fēng)險,后者使得輸出的權(quán)重向一個episode從可選日期中隨機選擇一取結(jié)束點對應(yīng)的因子權(quán)重進行線性合成。這樣在因子的合成另外需要提到的一點是,基于RRL的因子合成模型參數(shù)量較少請務(wù)必閱讀正文后的聲明及說明半年優(yōu)化一次?;鶞屎铣煞椒榈葯?quán)、IC加權(quán)、ICIR加pwixi,R)==.w=Σ?1IC.表8:RRL算法合成方法與傳統(tǒng)合成方法對比因子名稱RankICICIR多頭年化收益多頭年化超額多頭換手率多空年化收益多空年化波動率多空SharpeRatio多空最大回撤等權(quán)13.60%16.08%15.39%34.06%13.62%2.513.34%ICIR加權(quán)12.46%14.86%14.17%30.97%12.40%2.512.62%IC加權(quán)12.54%0.9215.64%14.95%33.04%13.27%2.4912.88%最大化預(yù)期IC11.29%0.9513.50%12.81%30.70%11.78%2.6110.78%RRL13.61%16.46%15.77%34.79%13.37%2.613.49%因子名稱RankICICIR多頭年化收益多頭年化超額多頭換手率多空年化收益多空年化波動率多空SharpeRatio多空最大回撤Logsig-Alpha-c11.77%11.77%0.980.9812.09%12.09%11.40%11.40%1.441.4431.15%31.15%13.36%13.36%2.332.3310.73%10.73%Logsig-Alpha-hl10.26%10.26%0.870.879.85%9.85%9.16%9.16%1.381.3819.77%11.69%11.69%1.691.6910.79%10.79%Logsig-Alpha-oc11.97%11.97%0.930.9311.30%11.30%10.61%10.61%1.3727.15%27.15%13.88%13.88%1.961.9613.26%13.26%Logsig-Alpha-v9.46%9.46%1.081.0812.63%12.63%11.94%11.94%1.281.2825.28%25.28%8.94%8.94%2.832.836.84%請務(wù)必閱讀正文后的聲明及說明請務(wù)必閱讀正文后的聲明及說明加權(quán)表現(xiàn)一般,說明傳統(tǒng)的基于單期指標的合成方法考慮不夠全面,請務(wù)必閱讀正文后的聲明及說明指標,該點狀態(tài)定義為當前信息與歷史信息的融指標,且包含歷史數(shù)據(jù),也就是說其依據(jù)指標的時間序列與期限結(jié)構(gòu)來得到權(quán)重,請務(wù)必閱讀正文后的聲明及說明Learning3,9–44.(1988).[4]Mnih,V.etal.Human-levelcontr529–33(Feb.2015).[5]VanHasselt,H.,Guez,A.&Silver,D.DeepReinforcementLearningwithDoubleQ-ReinforcementLearningwithFunctionApproximationiReinforcementLearning.MachineLearning8,229–256.(2004).[8]Mnih,V.etal.AsynchronousMethodsforDeepReinforcementLearning(Feb.2016).OptimizationAlgorithms(2017).[10]Lillicrap,T.etal.Cont

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論