人工智能研究報(bào)告:機(jī)器學(xué)習(xí)模型在因子選股上的比較分析_第1頁(yè)
人工智能研究報(bào)告:機(jī)器學(xué)習(xí)模型在因子選股上的比較分析_第2頁(yè)
人工智能研究報(bào)告:機(jī)器學(xué)習(xí)模型在因子選股上的比較分析_第3頁(yè)
人工智能研究報(bào)告:機(jī)器學(xué)習(xí)模型在因子選股上的比較分析_第4頁(yè)
人工智能研究報(bào)告:機(jī)器學(xué)習(xí)模型在因子選股上的比較分析_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄索引 HYPERLINK l _TOC_250018 一、題景5 HYPERLINK l _TOC_250017 二、器習(xí)型紹5 HYPERLINK l _TOC_250016 器習(xí)子股架 HYPERLINK l _TOC_250015 類邏回歸 HYPERLINK l _TOC_250014 持量機(jī) HYPERLINK l _TOC_250013 機(jī)林10 HYPERLINK l _TOC_250012 限度升樹 HYPERLINK l _TOC_250011 層經(jīng)絡(luò) HYPERLINK l _TOC_250010 同器習(xí)型特點(diǎn)析 HYPERLINK l _TOC_250009 三、股略

2、述15 HYPERLINK l _TOC_250008 型練法 HYPERLINK l _TOC_250007 器習(xí)練臺(tái)模型參數(shù) HYPERLINK l _TOC_250006 略測(cè)置 HYPERLINK l _TOC_250005 四、證析18 HYPERLINK l _TOC_250004 器習(xí)型測(cè)能比較 HYPERLINK l _TOC_250003 器習(xí)型分關(guān)性析 HYPERLINK l _TOC_250002 機(jī)學(xué)模選表現(xiàn) HYPERLINK l _TOC_250001 器習(xí)型風(fēng)分析 HYPERLINK l _TOC_250000 五、結(jié)展望30圖表索引 HYPERLINK l _b

3、ookmark0 圖 1:器習(xí)股架6 HYPERLINK l _bookmark1 圖2:MLR意圖7 HYPERLINK l _bookmark2 圖 3:SVM二類意圖8 HYPERLINK l _bookmark3 圖 4:間隔SVM類示圖9 HYPERLINK l _bookmark4 圖 5:SVM用多類題示圖10 HYPERLINK l _bookmark5 圖 6:成習(xí)意圖 HYPERLINK l _bookmark6 圖7:Bagging和Boosting模訓(xùn)示圖 HYPERLINK l _bookmark7 圖 8:RF示圖12 HYPERLINK l _bookmark8

4、圖 9:XGBoost模求示意圖13 HYPERLINK l _bookmark9 圖10:DNN示圖14 HYPERLINK l _bookmark10 圖 日樣和月樣本樣意圖15 HYPERLINK l _bookmark11 圖 12:型動(dòng)新圖16 HYPERLINK l _bookmark12 圖 13:間組叉示意圖17 HYPERLINK l _bookmark15 圖 14:頻本型月頻本型試準(zhǔn)率對(duì)比19 HYPERLINK l _bookmark16 圖 15:頻本型月頻本型練間比20 HYPERLINK l _bookmark18 圖 16:頻本型IC序列21 HYPERLINK

5、 l _bookmark24 圖 17:頻器習(xí)選股現(xiàn)等)24 HYPERLINK l _bookmark26 圖 18:頻本器模型股沖益等)25 HYPERLINK l _bookmark28 圖 19:頻器習(xí)選股現(xiàn)行中)26 HYPERLINK l _bookmark30 圖 20:頻本器模型股沖益行中性)27 HYPERLINK l _bookmark35 圖 21:同器習(xí)選股分風(fēng)因相性雷圖日樣)29 HYPERLINK l _bookmark37 圖 22:同器習(xí)選股分風(fēng)因相性雷圖半頻本)30 HYPERLINK l _bookmark13 表 1:頻本型集預(yù)準(zhǔn)率18 HYPERLINK

6、 l _bookmark14 表 2:月樣模試集測(cè)確率19 HYPERLINK l _bookmark17 表 3:器習(xí)型IC20 HYPERLINK l _bookmark19 表 4:頻本器模型分關(guān)性21 HYPERLINK l _bookmark20 表 5:月樣機(jī)習(xí)模打相性22 HYPERLINK l _bookmark21 表 6:頻本器模型IC關(guān)性22 HYPERLINK l _bookmark22 表 7:月樣機(jī)習(xí)型IC相22 HYPERLINK l _bookmark23 表 8:同器習(xí)等權(quán)股略沖現(xiàn)日頻本)23 HYPERLINK l _bookmark25 表 9:同器習(xí)等權(quán)

7、股略年對(duì)收益日樣)25 HYPERLINK l _bookmark27 表 10:同器習(xí)行業(yè)性股略沖現(xiàn)(頻本)25 HYPERLINK l _bookmark29 表 不機(jī)學(xué)模行業(yè)性股略年對(duì)沖益日樣)27 HYPERLINK l _bookmark31 表 12:器習(xí)型性能較等組)28 HYPERLINK l _bookmark32 表 13:器習(xí)型性能較行中組)28 HYPERLINK l _bookmark33 表 14:格子表28 HYPERLINK l _bookmark34 表 15:同器習(xí)選股分風(fēng)因相性(頻本)29 HYPERLINK l _bookmark36 表 16:同器習(xí)選

8、股分風(fēng)因相性(月樣)30一、問(wèn)題背景2016AI Powered Equity ETF(AIEQ)2017A“Alpha(本報(bào)告以因子選股為背景,比較分析典型的機(jī)器學(xué)習(xí)方法,包括邏輯回歸、支持向量機(jī)、隨機(jī)森林、極限梯度提升樹、深層神經(jīng)網(wǎng)絡(luò)等模型。主要內(nèi)容有以下幾點(diǎn):性能。相關(guān)性。二、機(jī)器學(xué)習(xí)模型介紹機(jī)器學(xué)習(xí)因子選股框架因子選股是通過(guò)對(duì)股票的收益率進(jìn)行預(yù)測(cè),尋找能夠產(chǎn)生超額收益的股票。機(jī)器學(xué)習(xí)通過(guò)對(duì)股票歷史數(shù)據(jù)的學(xué)習(xí),建立股票收益率的預(yù)測(cè)模型。1 156 因子再挖掘?!俺瑓?shù)可以調(diào)節(jié)機(jī)器學(xué)習(xí)模型的擬合能力和泛化能力,減少模型的過(guò)擬合。其中, 樣比例和特征采樣比例等。深層神經(jīng)網(wǎng)絡(luò)中,需要事先確定的

9、模型超參數(shù)包括網(wǎng)絡(luò)確定模型的超參數(shù)之后,可以定期訓(xùn)練模型,在隨后一段時(shí)間采用訓(xùn)練好的模型進(jìn)行股票的收益率預(yù)測(cè)和選股交易,并對(duì)策略收益表現(xiàn)進(jìn)行分析。圖 1:機(jī)器學(xué)習(xí)選股框架數(shù)據(jù)來(lái)源: 股票和ST10“標(biāo)簽上漲“”和“”1010%45%至55%)。模型的目標(biāo)是尋找能夠產(chǎn)生超額收益的股票。因此,機(jī)器學(xué)習(xí)模型在訓(xùn)練時(shí)需要建立起股票因子和未來(lái)漲跌屬性之間的關(guān)系,構(gòu)建一個(gè)以股票因子為輸入,股票收益率漲跌標(biāo)簽為輸出的模型。股票因子標(biāo)記為 = 0-1。(one-hot code) = (1)()其中,=3,通過(guò)1 0 0、0 1 0和0 0 1表示三種不同的類別。12,3)的預(yù)測(cè)概率為p( = |) = f(

10、; )其中,表示模型參數(shù)。p( = |)越大,表示股票樣本屬于第類的概率越大。選股策略選擇最有可能產(chǎn)生超額收益的股票構(gòu)建多頭組合,因此,機(jī)器學(xué)習(xí)的目標(biāo)也就是識(shí)別出p( = 1|)最大的股票,本報(bào)告將p( = 1|)定義為機(jī)器學(xué)習(xí)模型打分或機(jī)器學(xué)習(xí)選股因子。本報(bào)告選擇了多類別邏輯回歸、支持向量機(jī)、隨機(jī)森林、極限梯度提升樹和深層神經(jīng)網(wǎng)絡(luò)5種不同的分類模型來(lái)進(jìn)行比較分析。多類別邏輯回歸多類別邏輯回歸(Multinomial Logistic Regression MLR)Softmax Regression2 K MLR ()(=1,2,K)的概率(, ) = 0 + 11 + 22 + + = 最

11、終的預(yù)測(cè)概率為(,)p( = |) = (,)其中,p( = |)關(guān)于(, )的函數(shù)稱為Softmax 函數(shù)。通過(guò)預(yù)測(cè)概率p(|),可以完成對(duì)樣本的分類。圖 2:MLR示意圖數(shù)據(jù)來(lái)源: 一般通過(guò)極大似然法估計(jì)MLR 模型的參數(shù),對(duì)于訓(xùn)練集(, ) 然函數(shù)為() = ln p(|, )=1可以采用梯度下降方法更新參數(shù),獲取最優(yōu)的參數(shù)值。支持向量機(jī)(Support Machine,SVM)20 60 90 SVM 在二分類SVM 中,分類超平面可以用如下線性方程來(lái)描述 + = 0其中, = (1, 2, , )為法向量,決定了超平面的方向,為偏置項(xiàng)。如下圖所示,假設(shè)分類超平面可以將訓(xùn)練樣本進(jìn)行正確

12、分類,其中,紅色點(diǎn)為正樣本, = 1 = 1。那么,可以尋找到超平面 + = 0,使得: + +1, = +1; + 1, = 1。圖 3:SVM二分類示意圖數(shù)據(jù)來(lái)源: 在圖中虛線上的點(diǎn)可以使得上式的等號(hào)成立,被稱為“支持向量”(spport ecoargn2 = SVM 模型的目標(biāo)是尋找具有最大間隔的分類超平面,也就是尋找合適的參數(shù) 和,使得間隔最大:2max ,b s. t. ( + ) 1, = 1,2, ,當(dāng)樣本線性不可分時(shí),可以通過(guò)核函數(shù)隱式地構(gòu)建一個(gè)非線性映射,將樣本從原始空間映射到高維特征空間,使得樣本在特征空間線性可分。對(duì)于在樣本空間或者特征空間線性不可分的問(wèn)題,可以引入“軟間

13、隔”(soft margin)的概念,允許支持向量機(jī)在一些樣本上分類出錯(cuò)。如下圖中圓圈標(biāo)記的點(diǎn)所示,這些點(diǎn)不滿足約束( + ) 1在軟間隔 SVM 中,在最大化間隔的同時(shí),要使得不滿足約束的樣本盡可能少, 通過(guò)引入松弛變量,優(yōu)化問(wèn)題可以寫成min 1 2 + ,b, 2=1s. t. ( + ) 1 0, = 1,2, ,圖 4:軟間隔SVM二分類示意圖數(shù)據(jù)來(lái)源: 為了求解SVM SVM SVM 3 3 圖 5:SVM用于多分類問(wèn)題示意圖數(shù)據(jù)來(lái)源: SVM 1,2,p( = |) = 隨機(jī)森林集成學(xué)習(xí)是一大類機(jī)器學(xué)習(xí)方法,通過(guò)構(gòu)建多個(gè)學(xué)習(xí)器并結(jié)合起來(lái),完成監(jiān)督學(xué)習(xí)任務(wù)。其一般思路是:先用現(xiàn)有的

14、機(jī)器學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中構(gòu)建一組個(gè)體學(xué)習(xí)器(一般稱為基學(xué)習(xí)器或者弱學(xué)習(xí)器),再用某種策略將個(gè)體學(xué)習(xí)器結(jié)合起來(lái)。如圖6所示。一般來(lái)說(shuō),集成學(xué)習(xí)通過(guò)將多個(gè)學(xué)習(xí)器進(jìn)行結(jié)合,可以獲得比單個(gè)學(xué)習(xí)器顯著優(yōu)越的泛化能力。在二分類問(wèn)題中,如果通過(guò)簡(jiǎn)單的投票法進(jìn)行集成,假設(shè)單個(gè)學(xué)習(xí)器的分類錯(cuò)誤率為且不同學(xué)習(xí)器的分類錯(cuò)誤率相互獨(dú)立,則可以證明,個(gè)學(xué)習(xí)器集成模型的分類錯(cuò)誤率低于exp(0.5(1 2)2)。隨著集成學(xué)習(xí)中學(xué)習(xí)器數(shù)量的增大,集成學(xué)習(xí)的分類錯(cuò)誤率將指數(shù)級(jí)下滑。圖 6:集成學(xué)習(xí)示意圖數(shù)據(jù)來(lái)源: Bagging和BoostingBoosting圖 7:Bagging和Boosting模型訓(xùn)練示意圖數(shù)據(jù)來(lái)源:

15、 Bagging(Random Forest,RF)。RFBreiman2001RF ROE預(yù)RF(集成)。圖 8:RF示意圖數(shù)據(jù)來(lái)源: 如果某RF模型由棵決策樹構(gòu)成,其中第棵決策樹預(yù)測(cè)樣本屬于類別的概率為( = |)那么隨機(jī)森林模型預(yù)測(cè)樣本屬于類別的概率為1( =|)=( = |)=1要獲得好的集成效果,作為基學(xué)習(xí)器的決策樹應(yīng)該具有一定的準(zhǔn)確度,并且具有多樣性。隨機(jī)森林從樣本采樣和特征采樣兩方面提高個(gè)體學(xué)習(xí)器的多樣性。樣本采樣又叫行采樣,是指每次訓(xùn)練一棵新的決策樹時(shí),從訓(xùn)練樣本總體中采樣,獲得訓(xùn)練單一決策樹的樣本。特征采樣又叫列采樣,是指每次訓(xùn)練一棵新的決策樹時(shí),從全部特征中隨機(jī)挑選部分特征

16、。通過(guò)樣本采樣和特征采樣方法,每次用于訓(xùn)練一棵決策樹時(shí)所采用的樣本和特征與訓(xùn)練其他決策樹都會(huì)有所差別,從而增加了決策樹之間的多樣性,可以使得隨機(jī)森林模型具有較好的性能。極限梯度提升樹極限梯度提升樹(eXtreme Gradient Boosting,XGBoost或XGB)是近年來(lái)Boosting方法中最熱門的一種算法,由華盛頓大學(xué)的陳天奇博士于發(fā)起,是梯度提升樹的一種高效實(shí)現(xiàn),曾經(jīng)橫掃Kaggle大賽。XGBoostXGBoostXGBoostXGBoosti = ()=1XGBoost0 = 0() = 01(),2(),和 ()。第t步求解的模型是: = () =1 +()=1其中,表示

17、總共棵決策樹組成的模型,表示第棵決策樹的輸出。實(shí)際上, 1XGBoost圖 9:XGBoost模型求解示意圖數(shù)據(jù)來(lái)源: 求解第棵決策樹時(shí),最小化以下目標(biāo)函數(shù): = (,)+()=1=1= (,1 +()+()+=1() 1以獲得決策樹模型的最優(yōu)參數(shù)。深層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)是深度學(xué)習(xí)主流的實(shí)現(xiàn)方法, 通過(guò)多層神經(jīng)網(wǎng)絡(luò),建立起輸入和輸出的關(guān)系。深層神經(jīng)網(wǎng)絡(luò)一般含有多個(gè)隱層, 如下圖所示。本報(bào)告采用包含 5 個(gè)隱層的全連接深層神經(jīng)網(wǎng)絡(luò)模型。圖 10:DNN示意圖數(shù)據(jù)來(lái)源: 其中,第個(gè)隱含層(=1,2,3,4,5)的節(jié)點(diǎn) j 可表示為() = (1

18、)(1)即第 1個(gè)隱含層的節(jié)點(diǎn)(1)經(jīng)過(guò)線性加權(quán),再經(jīng)過(guò)非線性激活函數(shù)變換之后的值。輸出層的節(jié)點(diǎn)可表示為= (5)(5)為 softmax (cross () = og +(1)o(1)=1 =1DNN 模型訓(xùn)練時(shí),一般采用誤差反向傳播的方式求取梯度,優(yōu)化參數(shù)。Dropout Batch Normalization 技術(shù)提高模型的訓(xùn)練效率。 不同機(jī)器學(xué)習(xí)模型的特點(diǎn)分析5 和SVM MLR SVM MLR SVM RF 和XGBoost RF XGBoost 的,每次新加入的決策樹是為了擬合此前決策樹的預(yù)測(cè)殘差,最終分類結(jié)果是不同決策樹分類結(jié)果的加總,從模型訓(xùn)練流程而言,決策樹是依次訓(xùn)練出來(lái)的。

19、從模型的線性和非線性來(lái)看, MLR 和線性 SVM 屬于線性分類器,而 RF、XGBoostDNNMLRRF、XGBoostDNN SVM XGBoost 、SVM 和DNN 28 轉(zhuǎn)化成 28 個(gè) 0-1 啞變量。XGBoost SVM 和DNN 模三、選股策略描述模型訓(xùn)練方法本報(bào)告考察在不同訓(xùn)練樣本量下,機(jī)器學(xué)習(xí)策略的表現(xiàn)。因此采用日頻樣本和半月頻樣本兩種采樣模式進(jìn)行比較?!啊?、“” 和“下跌10 所示。因此,日頻樣本模式下,訓(xùn)練集的樣本量(平均為 48 萬(wàn))大約為半月頻樣本模(4.8 萬(wàn)10 t “”t+1 “”圖 11:日頻樣本和半月頻樣本采樣示意圖數(shù)據(jù)來(lái)源: 考慮到市場(chǎng)在不斷演化,市

20、場(chǎng)數(shù)據(jù)中包含的信息也在不斷更新,因此,本報(bào)告4 2017A20172017B 2017 2017 7 1 2017A (2017 7 10 2017 7 2018 1 1 日2017B 圖 12:模型滾動(dòng)更新示意圖數(shù)據(jù)來(lái)源: 機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)和模型超參數(shù)本報(bào)告中的模型是在Python 3.6 MLR、SVM RF scikit learn (sklearn)XGBoost xgboost tensorflow keras xgboost tensorflow 模U 運(yùn)算和CU kearn 模塊只支持CU GPU 本報(bào)告中,采用交叉驗(yàn)證方法獲取模型超參數(shù):MLR 中,通過(guò)交叉驗(yàn)證確定正則化參數(shù)C

21、。SVM O(2)O(3)SVM SVM 中,通過(guò)交叉驗(yàn)證獲取松弛變量懲罰系數(shù)C。RF 中,通過(guò)交叉驗(yàn)證確定決策樹最大深度和決策樹數(shù)量。XGBoost 中,通過(guò)交叉驗(yàn)證確定決策樹最大深度、決策樹數(shù)量、樣本采樣比例和特征采樣比例。DNN 中,通過(guò)交叉驗(yàn)證確定神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)量。K K K 每次取其中一組作為測(cè)試集,其他組作為訓(xùn)練集,考察不同的超參數(shù)在測(cè)試集的表K 與訓(xùn)練集樣本不同的時(shí)刻表現(xiàn)依然有效。K 20072010 44 4 圖 13:時(shí)間分組交叉驗(yàn)證示意圖數(shù)據(jù)來(lái)源: 對(duì)日頻樣本下的數(shù)據(jù)進(jìn)行分組交叉驗(yàn)證,得到的模型超參數(shù)如下:MLR 中,正則化參數(shù)C=0.01。線性SVM 中,松弛變量懲

22、罰系數(shù) C=0.01。RF 中,決策樹最大深度為 14,決策樹數(shù)量為 250。XGBoost 51000.8, 0.9。DNN 中,5 個(gè)隱層節(jié)點(diǎn)數(shù)量依次為 512、200、200、200、128。本報(bào)告的后續(xù)測(cè)算按照上述超參數(shù)進(jìn)行模型的測(cè)試和比較。策略回測(cè)設(shè)置在每個(gè)調(diào)倉(cāng)日,根據(jù)機(jī)器學(xué)習(xí)模型的打分,篩選打分靠前的 10%的股票構(gòu)建組合,進(jìn)行策略的回測(cè)。相關(guān)參數(shù)如下:調(diào)倉(cāng)周期:10 個(gè)交易日;股票池:全市場(chǎng)選股、剔除漲停、跌停的股票,停牌股票和ST 股票; 超配組合:機(jī)器學(xué)習(xí)打分前 10%的股票;對(duì)沖基準(zhǔn):中證 500 指數(shù);原始因子數(shù)據(jù):估值因子、規(guī)模因子、反轉(zhuǎn)因子、流動(dòng)性因子、波動(dòng)性因子、技

23、術(shù)指標(biāo),共計(jì) 128 個(gè)因子,以及 28 個(gè)行業(yè) 0-1 變量;機(jī)器學(xué)習(xí)模型訓(xùn)練:每半年滾動(dòng)更新模型,采用最近 4 年的樣本作為訓(xùn)練集; 組合構(gòu)建:等權(quán)、行業(yè)中性兩種方案;1 月-2019 4 26 四、實(shí)證分析機(jī)器學(xué)習(xí)模型預(yù)測(cè)性能比較采用日頻樣本訓(xùn)練模型時(shí),每隔半年訓(xùn)練的機(jī)器學(xué)習(xí)模型對(duì)測(cè)試集的預(yù)測(cè)準(zhǔn)確率如下表所示。其中第二列展示了每個(gè)模型訓(xùn)練時(shí)所用的訓(xùn)練樣本數(shù)量,日頻樣本訓(xùn)練模式下,平均每個(gè)模型訓(xùn)練時(shí)的訓(xùn)練樣本為48萬(wàn)。對(duì)于三分類問(wèn)題,隨機(jī)預(yù)測(cè)的準(zhǔn)確率為33.3%。可以看到,不同的機(jī)器學(xué)習(xí)模型的樣本外預(yù)測(cè)準(zhǔn)確率都顯著超過(guò)了隨機(jī)預(yù)測(cè)。其中,DNN模型的預(yù)測(cè)準(zhǔn)確率最高,其次為XGBoost模型。

24、表 1:日頻樣本模型測(cè)試集預(yù)測(cè)準(zhǔn)確率模型訓(xùn)練樣本數(shù)量MLRSVMRFXGBoostDNN2010B29980048.7%49.0%54.2%55.8%58.6%2011A31990049.0%49.1%54.2%56.0%58.5%2011B34350048.6%48.6%53.7%55.3%57.9%2012A36930048.6%48.7%53.6%55.0%58.6%2012B40010048.4%48.4%52.9%55.2%59.3%2013A42780049.1%49.2%53.9%55.7%59.2%2013B46130049.5%49.5%53.9%55.5%58.9%2014

25、A49210049.8%49.8%54.3%56.0%59.9%2014B52060049.5%49.5%54.4%55.6%58.5%2015A53550050.1%50.1%54.9%56.0%59.7%2015B53620050.6%50.6%54.4%56.2%59.7%2016A54990051.0%50.9%54.6%56.5%60.2%2016B56170051.5%51.6%54.9%56.7%59.8%2017A57260051.1%51.1%55.1%56.7%60.1%2017B58290051.2%51.1%55.5%56.9%59.3%2018A60280051.0%

26、50.9%55.6%57.0%60.4%2018B61760051.4%51.2%55.9%57.3%59.6%平均值481976.549.9%50.0%54.5%56.1%59.3%數(shù)據(jù)來(lái)源:Wind, 4.8XGBoost模表 2:半月頻樣本模型測(cè)試集預(yù)測(cè)準(zhǔn)確率模型樣本數(shù)量MLRSVMRFXGBoostDNN2010B2970048.1%48.7%49.6%49.6%44.4%2011A3200049.7%50.0%49.7%48.9%48.0%2011B3450048.3%48.5%49.6%49.4%49.2%2012A3700047.4%48.1%48.6%49.0%47.8%201

27、2B3990048.2%48.5%49.2%49.3%47.9%2013A4270048.5%49.5%48.6%49.8%49.9%2013B4610048.9%49.1%50.0%50.2%50.6%2014A4920049.8%49.5%51.4%50.6%50.3%2014B5170049.1%49.3%49.3%49.4%49.2%2015A5330049.9%49.3%50.2%50.0%50.0%2015B5290050.8%50.9%51.2%52.4%53.0%2016A5500050.4%50.3%51.0%51.8%52.5%2016B5560050.4%50.2%51.

28、2%51.7%53.0%2017A5710051.6%51.7%52.0%52.7%52.6%2017B5760049.5%49.8%51.3%51.7%52.3%2018A5950051.8%51.3%52.7%54.2%53.8%2018B6210050.7%50.7%52.0%53.4%52.8%平均值47994.149.6%49.7%50.4%50.8%50.4%數(shù)據(jù)來(lái)源:Wind, 14RFDNN圖 14:日頻樣本模型與半月頻樣本模型測(cè)試集準(zhǔn)確率對(duì)比62%60%58%圖 14:日頻樣本模型與半月頻樣本模型測(cè)試集準(zhǔn)確率對(duì)比62%60%58%56%54%52%50%48%46%44%ML

29、RSVMRFXGBDNN數(shù)據(jù)來(lái)源:Wind,廣發(fā)證券發(fā)展研究中心MLR40.23.8DNN810.218920.1秒(5.3。總體來(lái)看,日頻樣本下,DNN模型的表現(xiàn)最好,但模型訓(xùn)練耗時(shí)最長(zhǎng)。半月頻樣本下,XGBoost模型表現(xiàn)最好,而且模型訓(xùn)練耗時(shí)和線性模型差別不大。圖 15:日頻樣本模型與半月頻樣本模型訓(xùn)練時(shí)間對(duì)比100000日頻樣本模型半月頻樣本模型18920.1810.2387.018920.1810.2387.0148.0211.996.940.29.215.73.8訓(xùn)練時(shí)間(秒)1000100101MLRSVMXGBDNN數(shù)據(jù)來(lái)源:Wind, 機(jī)器學(xué)習(xí)模型打分相關(guān)性分析ICICICI

30、CIRXGBoostSVMRFIC表 3:機(jī)器學(xué)習(xí)模型IC模型指標(biāo)MLRSVMRFXGBoostDNNIC 平均值7.4%7.5%7.8%9.9%10.7%日頻樣本模型IC 標(biāo)準(zhǔn)差16.2%16.6%16.7%13.5%10.5%ICIR0.460.460.470.731.02IC 平均值6.5%6.7%6.2%7.8%8.4%半月頻樣本模型IC 標(biāo)準(zhǔn)差16.0%15.8%15.3%12.0%13.7%ICIR0.410.420.410.650.61數(shù)據(jù)來(lái)源:Wind, 日頻樣本訓(xùn)練的模型中,不同機(jī)器學(xué)習(xí)模型的IC序列如下圖所示??梢钥吹?,不同機(jī)器學(xué)習(xí)模型的IC相關(guān)性很高。這意味著不同機(jī)器學(xué)習(xí)

31、模型的表現(xiàn)有很強(qiáng)的相關(guān)性。圖 16:日頻樣本模型IC序列MLRSVMRFXGBDNN0.80.60.40.20-0.2-0.4-0.6數(shù)據(jù)來(lái)源:Wind, 和SVM和線性SVMDNNRF和XGBoost表 4:日頻樣本機(jī)器學(xué)習(xí)模型打分相關(guān)性模型MLRSVMRFXGBoostDNNMLR10.9760.7120.6830.571SVM10.6920.6740.569RF10.7180.564XGBoost10.606DNN1數(shù)據(jù)來(lái)源:Wind, 下表展示了半月頻樣本訓(xùn)練時(shí),不同的機(jī)器學(xué)習(xí)模型打分的相關(guān)系數(shù)均值。與日頻樣本模型相似, MLR模型和SVM模型的相關(guān)性非常高,相關(guān)系數(shù)超過(guò)0.97。XG

32、BoostDNN模表 5:半月頻樣本機(jī)器學(xué)習(xí)模型打分相關(guān)性模型MLRSVMRFXGBoostDNNMLR10.9720.7020.6380.764SVM10.6560.6240.760RF10.6570.647XGBoost10.632DNN1數(shù)據(jù)來(lái)源:Wind, 模型ICICIC的ICICRF模型IC0.848和SVMIC表 6:日頻樣本機(jī)器學(xué)習(xí)模型IC相關(guān)性模型MLRSVMRFXGBoostDNNMLR10.9940.9460.9610.860SVM10.9380.9570.862RF10.9430.848XGBoost10.894DNN1數(shù)據(jù)來(lái)源:Wind, 下表展示了半月頻訓(xùn)練樣本下,

33、不同機(jī)器學(xué)習(xí)模型IC的相關(guān)性。與日頻樣本訓(xùn)練的模型相比,半月頻樣本模型中,模型IC之間的相關(guān)性更高,其中相關(guān)性最低的是DNN模型和RF模型的相關(guān)系數(shù),為0.908。表 7相關(guān)性模型MLRSVMRFXGBoostDNNMLR10.9930.9490.9570.943SVM10.9260.9500.938RF10.9500.908XGBoost10.939DNN1數(shù)據(jù)來(lái)源:Wind, 機(jī)器學(xué)習(xí)模型選股表現(xiàn)MLRSVM30%38.51%MLRSVMRF表 8:不同機(jī)器學(xué)習(xí)模型等權(quán)選股策略對(duì)沖表現(xiàn)(日頻樣本)年份MLRSVMRFXGBoostDNN累積收益率765.75%796.19%1203.96%

34、1127.61%1369.75%年化收益率29.90%30.45%36.52%35.52%38.51%最大回撤-18.36%-20.20%-21.98%-13.64%-10.96%夏普比率2.652.673.043.434.20數(shù)據(jù)來(lái)源:Wind, 不同機(jī)器學(xué)習(xí)模型等權(quán)選股策略的凈值表現(xiàn)如圖17所示。如上文所述,不同機(jī)器學(xué)習(xí)模型選股的收益曲線有較強(qiáng)的相關(guān)性。5種機(jī)器學(xué)習(xí)選股策略在2015年都收益很高,而在2017年有一定的回撤。2016年之前表現(xiàn)最好的是RF模型,但2017年RF模型回撤最大,而DNN模型相對(duì)更穩(wěn)定。圖 17:日頻機(jī)器學(xué)習(xí)模型選股表現(xiàn)(等權(quán))數(shù)據(jù)來(lái)源:Wind, 分年度的策略表

35、現(xiàn)如下表所示。在2017年,不同機(jī)器學(xué)習(xí)模型策略的對(duì)沖收益都為負(fù),其中表現(xiàn)最好的是DNN。在其他年份,所有機(jī)器學(xué)習(xí)模型的對(duì)沖收益都為正。對(duì)沖策略的凈值比較如圖18所示。表 9:不同機(jī)器學(xué)習(xí)模型等權(quán)選股策略分年度對(duì)沖收益(日頻樣本)年份MLRSVMRFXGBoostDNN201131.17%29.89%31.17%31.08%23.80%201234.86%37.05%38.21%41.20%38.11%201332.70%34.92%41.67%27.82%35.58%201417.49%16.69%23.37%23.02%28.07%2015126.01%137.08%139.64%139.

36、10%127.83%201622.92%22.66%37.50%37.16%49.46%2017-13.98%-14.81%-16.67%-12.06%-4.01%201826.91%22.19%39.99%39.08%40.32%20193.50%5.64%7.07%5.17%7.93%數(shù)據(jù)來(lái)源:Wind, 圖 18:日頻樣本機(jī)器學(xué)習(xí)模型選股對(duì)沖收益(等權(quán))中證500凈值MLR超額凈值超額凈值RF超額凈值XGB超額凈值DNN超額凈值1614121086420 數(shù)據(jù)來(lái)源:Wind, 行業(yè)中性組合下, 不同機(jī)器學(xué)習(xí)模型選股策略的對(duì)沖表現(xiàn)如下表所示。其中, MLR模型收益稍差,年化對(duì)沖收益為24.

37、08%,DNN模型表現(xiàn)最好,年化對(duì)沖收益為29.06%。行業(yè)中性下,SVM和RF模型仍然有較大的回撤。DNN模型具有最高的年化收益和夏普比率。表 10:不同機(jī)器學(xué)習(xí)模型行業(yè)中性選股策略對(duì)沖表現(xiàn)(日頻樣本)年份MLRSVMRFXGBoostDNN累積收益率493.11%562.42%635.45%567.26%720.51%年化收益率24.08%25.76%27.36%25.87%29.06%最大回撤-9.81%-11.24%-15.49%-8.62%-6.53%夏普比率2.562.722.683.223.82數(shù)據(jù)來(lái)源:Wind, DNN2017DNN圖 19:日頻機(jī)器學(xué)習(xí)模型選股表現(xiàn)(行業(yè)中性

38、)數(shù)據(jù)來(lái)源:Wind, 分年度的策略表現(xiàn)如下表所示。DNN模型在所有年份都獲得了正的對(duì)沖收益。表 11:不同機(jī)器學(xué)習(xí)模型行業(yè)中性選股策略分年度對(duì)沖收益(日頻樣本)年份MLRSVMRFXGBoostDNN201123.41%26.89%32.23%26.12%18.96%201232.00%32.89%30.33%34.30%32.47%201320.71%24.26%18.98%20.70%19.82%201416.88%12.31%20.57%23.06%20.38%201588.58%103.00%91.38%68.80%74.38%201622.62%23.81%31.95%29.31%

39、35.97%2017-6.70%-6.65%-11.98%-2.02%10.06%201816.41%16.32%32.06%24.96%34.83%20192.75%3.15%1.34%-0.76%2.59%數(shù)據(jù)來(lái)源:Wind, 對(duì)沖策略的凈值比較如下圖所示。2016年之前,DNN相比其他機(jī)器學(xué)習(xí)模型稍差,但整個(gè)回測(cè)區(qū)間的表現(xiàn)更好一些。圖 20:日頻樣本機(jī)器學(xué)習(xí)模型選股對(duì)沖收益(行業(yè)中性)中證500凈值MLR超額凈值超額凈值RF超額凈值XGB超額凈值DNN超額凈值9876543210 數(shù)據(jù)來(lái)源: MLR2.24。2.98DNN4.20DNN表 12:機(jī)器學(xué)習(xí)模型選股性能比較(等權(quán)組合)模型指

40、標(biāo)MLRSVMRFXGBoostDNN年化收益率29.90%30.45%36.52%35.52%38.51%日頻樣本模型最大回撤-18.36%-20.20%-21.98%-13.64%-10.96%夏普比率2.652.673.043.434.20年化收益率25.52%24.87%30.19%28.92%27.09%半月頻樣本模型最大回撤-20.55%-20.60%-21.66%-16.37%-15.72%夏普比率2.242.212.592.982.60數(shù)據(jù)來(lái)源:Wind, 、SVMRFDNN表 13:機(jī)器學(xué)習(xí)模型選股性能比較(行業(yè)中性組合)模型指標(biāo)MLRSVMRFXGBoostDNN年化收益率24.08%25.76%27.36%25.87%29.06%日頻樣本模型最大回撤-9.81%-11.24%-15.49%-8.62%-6.53%夏普比率2.562.722.683.223.82年化收益率26.56%26.66%24.29%22.78%23.09%半月頻樣本模型最大回撤-16.35%-15.21%-17.83%-10.64%-8.10%夏普比率2.952.982.642.982.89

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論