版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
:包贊:包贊ozanztscomcn風(fēng)險(xiǎn)提示:本報(bào)告結(jié)論完全基于公開(kāi)的歷史數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、測(cè)算,文中部分?jǐn)?shù)據(jù)有一定滯后性,同時(shí)存在第三方數(shù)據(jù)提供不準(zhǔn)確風(fēng)險(xiǎn);模型均基于歷史數(shù)據(jù)得到的統(tǒng)計(jì)結(jié)論且模型自身具有一定局限性并不能完全準(zhǔn)確地刻畫(huà)現(xiàn)實(shí)環(huán)境以及預(yù)測(cè)未來(lái);模型根據(jù)歷史規(guī)律總結(jié),歷史規(guī)律可能失效;模型結(jié)論基于統(tǒng)計(jì)工具得到,在極端情形下或存在解釋力不足的風(fēng)險(xiǎn),因此其結(jié)果僅做分析參考。本報(bào)告提到的任何基金產(chǎn)品不構(gòu)成任何投資收益的保證或投資建議。告FarmPredict傳統(tǒng)人工智能方法挖掘文本信息從而構(gòu)建股票組合效果一般,范劍青老師等人提出了一個(gè)通用的和自適應(yīng)的高維數(shù)據(jù)機(jī)器學(xué)習(xí)框架FarmPredict,該模型可以從文本數(shù)據(jù)中提取潛在測(cè)股票未來(lái)收益。他們?cè)谥袊?guó)股市的實(shí)證結(jié)果表面,ct分的向量。潛在因子的數(shù)量由調(diào)整后特征值閾值方法估計(jì)(Fan等,2020a)。這是一個(gè)純粹了在文本數(shù)據(jù)中使用無(wú)監(jiān)督學(xué)習(xí)的必要性,因?yàn)樗梢员苊庵饔^(guān)假設(shè)和限制數(shù)據(jù)使用的潛在偏差。第二步,我們通過(guò)特質(zhì)因子與學(xué)習(xí)目標(biāo)(關(guān)聯(lián)股票的貝塔調(diào)整后收益)的基于因子條們使用LASSO模型基于潛在因子和篩選后的特質(zhì)因子預(yù)測(cè)資產(chǎn)價(jià)格。在每個(gè)分析步驟中new的50支股票的權(quán)重均為/20請(qǐng)/20告2/20請(qǐng)務(wù)必閱讀正文之后的聲明部分2/20 t 圖3:(0,1)X向量下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍(lán)) 14圖4:X向量為(0,1)下的組合 14 3/20請(qǐng)務(wù)必閱讀正文之后的聲明部分3/20本中直接提取此類(lèi)信息。tFarmPredict第一步是無(wú)監(jiān)督地從高維新聞向量中學(xué)習(xí)隱含特征。通過(guò)主成分分析(PCA)將多篇新聞詞向量X轉(zhuǎn)換為k有來(lái)自先驗(yàn)假設(shè)(非參數(shù)統(tǒng)計(jì))的干擾,所有信息都是從新聞學(xué)習(xí)的。這種方法也可以避第二步是條件相關(guān)篩選(conditionalcorrelationscreening),篩選與學(xué)習(xí)目標(biāo)(即新聞對(duì)應(yīng)的股票收益率Y或tchargedwords告4/20請(qǐng)務(wù)必閱讀正文之后的聲明部分4/202.FarmPredict機(jī)器學(xué)習(xí)框架2.1問(wèn)題設(shè)置我們用詞級(jí)別的統(tǒng)計(jì)數(shù)據(jù)作為n篇文章(詞包)中每一篇的總結(jié)。設(shè)D是我們的n篇文章數(shù)據(jù)中所有可能在范的914K篇文章的數(shù)據(jù)集中,有1,181K個(gè)獨(dú)特的詞1在整個(gè)D組中,只有71K個(gè)詞出現(xiàn)在至少50篇文章中。2.2FarmPredict方法情 (FarmPredict)。 (1)選擇經(jīng)常使用的詞語(yǔ):在我們數(shù)據(jù)集里超過(guò)110萬(wàn)個(gè)不同的詞(和短語(yǔ))中,大部分都很少出現(xiàn)。告5/20請(qǐng)務(wù)必閱讀正文之后的聲明部分5/20這些詞也幾乎沒(méi)有用處,因?yàn)樗鼈儾惶赡艹霈F(xiàn)在要打分的新文章中。這種篩選也有助于我們將重Dfreq={j-thwordinD:kj3k}(2.1) Xi=Bfi+ui,i=1,…,n,(2.2)其中fi=Rk是k個(gè)潛在因子的向量,B是因子載荷矩陣,ui=RDfreq是不能被fi解釋(與fi不相關(guān))的特X=FBT+U其中X和U是nDfreq的數(shù)據(jù)和特異成分的矩陣,并且F是n×k的潛在因子的矩陣。這里,只有X是可這些因子可以被理解為類(lèi)似于話(huà)題得分,而因子載荷B給這些因子(話(huà)題)提供了不同的組合。對(duì)這些因素 Dfreq的回報(bào)結(jié)果Yi。按照Fan等人(2020b)的類(lèi)似想法,我們用潛在的fi和ui預(yù)測(cè)因子,建立模型:Yi=a+bTfi+bTui+ei(2.3)告6/20請(qǐng)務(wù)必閱讀正文之后的聲明部分6/20 (3)學(xué)習(xí)因素和特異性成分:對(duì)于一定數(shù)量的因子k,我們通過(guò)最小二乘法擬合近似的因子模型(2.2),Tntala說(shuō),k被估計(jì)為校正后的值在統(tǒng)計(jì)學(xué)上大于1的數(shù)量。=max{j<Dfreq:入?>1+CDfreq/(n-1)}(2.4)CXjjnCjpDfreq給定的j,定義:mn,j(z)=p-j-ê1l(l-z)-1+3(j?j+1/)4-z)-ú,1mn,j(z)=-(1-pj,n-1)z-1+pj,n-1mn,j(z) uY行帶截距項(xiàng)的線(xiàn)性回歸之后的殘差向量。這就取出了Y中可YuFanLv說(shuō),u與詞j的特異性成分j之間告7/20請(qǐng)務(wù)必閱讀正文之后的聲明部分7/20Fjk閾值α將被定為選擇1000個(gè)左右的詞。這一步是可選的(對(duì)應(yīng)于α=0),但有助于我們加快計(jì)算速度。 ta?,,=argmina,b,b?i(Yi-a-bTfi-bTui,)2+入‖b‖1(2.6)Dfrequi是指ui在帶情感色彩的的詞中的成分。懲罰λ,將由交叉驗(yàn)證選擇,控制模型的偏差-方差DfreqSCAD和elasticnet等(Fan等人,2020c;Nagel,2021)。 兩個(gè)步驟。對(duì)于一個(gè)給定的新特征Xnew,讓我們把它分解為因素和特異性成分。用給定的,將最小二乘法應(yīng)用于模型(2.2),我們可以得到潛在的因子fnew以及與特征Xnew相關(guān)的特異性成分unew:fnew=T-1TXnew,unew=Xnew-new(2.7)new=a?+Tfnew+Tunew,(2.8)告8/20請(qǐng)務(wù)必閱讀正文之后的聲明部分8/202.3FarmPredict的變種的任務(wù)。首先,響應(yīng)變量變量Y可以是超額收益或二分法的收益(正或負(fù))。在后一種情況下,我們可以使用條件篩選(2.5)和條件預(yù)測(cè)(2.7)也可以進(jìn)行修改以適應(yīng)Logistic回歸模型;見(jiàn)Fan等人(2020c)。或Logistic回歸中得知。最后,線(xiàn)性預(yù)測(cè)模型(2.3)可以被非線(xiàn)性模型所取代:如神經(jīng)網(wǎng)絡(luò)模型(Horel和Giesecke,2020)或結(jié)構(gòu)化非參數(shù)模型(Fan等,2020c)。2.4特別主題模型SESTM,由Ke等人(2019)提出,是一個(gè)特別的的雙主題模型,用于學(xué)習(xí)基于股票收益的新文章的情緒。iiYiSSdi,S~Multinomial(si,piq++(1-pi)q-)(2.9)告9/20請(qǐng)務(wù)必閱讀正文之后的聲明部分9/20θ+和θ_.前者使用Fan和Lv(2008)中的確定(邊際)篩選技術(shù),后者則在訓(xùn)練集中回報(bào)Yi的百分位排名的學(xué)習(xí)。一旦學(xué)會(huì)了帶感情色彩的詞和它們的語(yǔ)義,一篇新的文章的感情分?jǐn)?shù)pi就可以用基于模S個(gè)條件。首先。它需要出現(xiàn)得足夠頻繁。第二,該詞需要與Yi有足夠的相關(guān)性,這是由它與回報(bào)率的符號(hào)的邊際相關(guān)性(Fan和Lv,2008)來(lái)衡量的。在目前的情況fj=#articleswithwordj#articlesfj=#articleswithwordjScreen={j:fj30.5+a+orfj£0.5-a-}?{j:kj3k}(2.10) =(PTP)-1PTDS(2.11)2這里計(jì)算了當(dāng)詞j出現(xiàn)在文章里時(shí),詞j與正收益相關(guān)的比例。既然收益要么正要么負(fù),很少正好是0,那么1-fj就是詞j與負(fù)收10/20請(qǐng)務(wù)必閱讀正文之后的聲明部分10/20P有最主題模型中,SESTM使用信息Y來(lái)指導(dǎo)用(2.11)對(duì)的學(xué)習(xí)。對(duì)于每一篇文章i,將pi的值分配為歸一化秩 (normalizedrank)p?i=(rankofYiin{Yj}=1/n(2.12)給新文章打分有了在(2.10)中定義的估計(jì)量Topic,+and-,我們已經(jīng)準(zhǔn)備好了為新文章分配情感。對(duì)于一篇新文章的字?jǐn)?shù)為dnew的新文章,其情感分?jǐn)?shù)是通過(guò)懲罰性最大似然法(PMLE)估計(jì)的。SESTMp?new=argmaxp?log(p++(1-p)q?j-)d+入PMLElog(p(1-p)),(2.13)j?Sj?S2.5FarmSelect與SESTM的比較FarmSelectSESTMXiYi。FarmSelect考慮到了情感分配作用。和相互作用,而SESTM則主要使用單個(gè)詞來(lái)計(jì)算情感分?jǐn)?shù)。而SESTM主。在選擇情感變化的詞時(shí),F(xiàn)armSelect從一個(gè)全面的詞匯集開(kāi)始,選擇一個(gè)詞的子集以通過(guò)(2.6)對(duì)結(jié)果進(jìn)行最佳預(yù)測(cè)。相比之下,SESTM依靠邊際篩選(2.10)來(lái)選擇,這就忽略了詞語(yǔ)之間有著更高的日收益的文章未必表明它有更高的情感。并且,收益是橫跨多年比較1/20請(qǐng)務(wù)必閱讀正文之后的聲明部分1/20的相互作用。這一步驟可以通過(guò)使用懲罰性邏輯回歸(2.14)來(lái)改善,代價(jià)是更高的計(jì)算成本,這使得它與minw,c?iiw+c-log1+expw+c+入Logistic‖w‖1(2.14)Lasso就導(dǎo)致了三種選擇帶有感情色彩的詞Topic用于主題建模的可能1.通過(guò)邊際相關(guān)篩選出的詞Screen2.通過(guò)懲罰性邏輯回歸選擇的詞Logistic3.兩種方法選擇的詞的并集ScreenLogisticFarmPredictSESTMFarmPredict預(yù)測(cè)結(jié)果。然而。SESTM主要依靠?jī)蓚€(gè)模型(2.11)和(2.13)以及情感分?jǐn)?shù)分配(2.12)。因此,它對(duì)模型假設(shè)的穩(wěn)健12/20請(qǐng)務(wù)必閱讀正文之后的聲明部分12/20告3.數(shù)據(jù)獲取與定義1數(shù)據(jù)獲取不同于Fanetal.(2021)使用新浪財(cái)經(jīng)的新聞數(shù)據(jù),本文使用的新聞數(shù)據(jù)來(lái)自于金融界()。httpstockjrjcomcnxwk00104_1.shtml上即可查看。Fanetal以廣度優(yōu)先的方式從新浪財(cái)經(jīng)主頁(yè)開(kāi)始抓取,這種方法依賴(lài)于新浪財(cái)經(jīng)主頁(yè)的狀態(tài),不同時(shí)間3.2變量定義二進(jìn)制詞向量表示新聞的分詞結(jié)果是否出現(xiàn)在當(dāng)期詞袋Dfreq中(Dfreq會(huì)在后續(xù)給出定義)。詞頻向量表示新聞的詞袋中13/20請(qǐng)務(wù)必閱讀正文之后的聲明部分13/20告yrawret發(fā)布,yrawret為周三的收益率yrawret_dyrawret大于0,rawret_d為1,否則為0ynextrawret收益率ynextrawret_dybetaretMybetaret_dybetaret大于0,ybetaret_d為1,否則為0ynextbetaretynextrawretCAPM到估計(jì)收益ynextbetaret_dynextbetaret大于0,ynextbetaret_d為1,否則為0表示訓(xùn)練時(shí)X使用xd(二進(jìn)制詞向量),Y使用yrawret(包含新聞發(fā)布時(shí)間的兩個(gè)相鄰收盤(pán)價(jià)計(jì)算出來(lái)的收益率),預(yù)測(cè)時(shí)同樣使用xd(二進(jìn)制詞向量)帶入訓(xùn)練模型進(jìn)行預(yù)測(cè)。4.模型訓(xùn)練與預(yù)測(cè)計(jì)算1具體訓(xùn)練過(guò)程 (1)在每次訓(xùn)練時(shí),使用最近1年的所有新聞數(shù)據(jù),對(duì)其利用Jieba分詞,去除常見(jiàn)停用詞和純數(shù)字分詞結(jié)果,freq告14/20請(qǐng)務(wù)必閱讀正文之后的聲明部分14/20Dfreq={jthwordinD:k3k}(1) 建詞向量X。我們構(gòu)建的詞向量包括二進(jìn)制詞向量(分詞結(jié)果是否出現(xiàn)在當(dāng)期詞袋中)和詞頻向量(分詞結(jié)果出現(xiàn)在當(dāng)期詞袋中的次數(shù))。 (3)對(duì)詞向量進(jìn)行分解降維。按照Fanetal.(2021)的文章,對(duì)詞向量進(jìn)行下列建模:Xi=Bfi+ui,i=1,...,n,=max{j<|Dfreq|:>1+C}X=FBT+U按照Fanetal.(2021)的方法,估計(jì)出和后,可以計(jì)算出估計(jì)的:=X-T (4)中并非所有的詞都與新聞相對(duì)應(yīng)的收益Y有很高的相關(guān)性,因此根據(jù)Fanetal.(2021)對(duì)進(jìn)行條件相關(guān)篩選(conditionalcorrelationscreening)。u是Y對(duì)線(xiàn)性回歸后的殘差。篩選過(guò)程如下:告15/20請(qǐng)務(wù)必閱讀正文之后的聲明部分15/20 Yi=a+bTfi+bTui,+ei(7),,=argmina,b,b?i(Yi-a+bTfi+bTui,)2+入b1(8)4.2預(yù)測(cè) 分詞,利用和訓(xùn)練期相同的詞袋構(gòu)建詞向量(二進(jìn)制詞向量和詞頻向量),得到本交易日的Xnew。 (2)利用訓(xùn)練期估計(jì)的因子載荷矩陣,計(jì)算本交易日新的隱含因子Fnew和特質(zhì)矩陣Unew。再結(jié)合訓(xùn)練期篩選出的,將Fnew和Unew()帶入訓(xùn)練期已經(jīng)估計(jì)好的Lasso模型,得到預(yù)測(cè)的new。Fnew=T-1TXnew(9)U=XU=X-BFnewnewnewi,new=+Tfi,new+Tui,new,(11) 練和預(yù)測(cè),我們舉例說(shuō)明。比如,在2021年12月31日對(duì)模型進(jìn)行更新時(shí),使用的告16/20請(qǐng)務(wù)必閱讀正文之后的聲明部分16/20訓(xùn)練期模型更新日期預(yù)測(cè)期前十二個(gè)月當(dāng)日后六個(gè)月例12021年1月1日至2021年12月31日2021年12月31日2022年1月1日至2022年6月30日例22021年7月1日至2022年6月30日2022年6月30日2022年6月30日至2022年12月31日12/31區(qū)間內(nèi)全除停用詞和純數(shù)字分詞結(jié)果,用2.隨機(jī)抽樣區(qū)間內(nèi)5000條新聞,并3.利用FARM方法(公式2-公式5)4.對(duì)U進(jìn)行條件相關(guān)篩選,選取和預(yù)測(cè)期(2022/1/1-2022/06/30):1.每個(gè)交易日收盤(pán)前獲取自上次收2.利用訓(xùn)練期FARM得到的估計(jì)fnew和unew,將fnew和unew()帶入訓(xùn)練期的Lasso模型得到預(yù)測(cè)5.利用公式8進(jìn)行Lasso擬合,保5.計(jì)算結(jié)果組合構(gòu)建規(guī)則就是每天收盤(pán)集合競(jìng)價(jià)開(kāi)始計(jì)算模型,算完后,按照當(dāng)天收盤(pán)價(jià)買(mǎi)入當(dāng)前交易日預(yù)測(cè)值new靠前的50條新聞對(duì)應(yīng)的股票,以當(dāng)前交易日收盤(pán)時(shí)的總市值為權(quán)重,并持有至下一個(gè)交易日收盤(pán)時(shí),這個(gè)是告X向量是詞語(yǔ)頻數(shù),Y向量是股票當(dāng)天或者下一天的收X下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍(lán))上圖,如果把X換成(0,1)輸入值,效果更好。圖3:(0,1)X向量下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍(lán))17/20請(qǐng)務(wù)必閱讀正文之后的聲明部分告18/20請(qǐng)務(wù)必閱讀正文之后的聲明部分18/20圖4:X向量為(0,1)下的組合
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年稅務(wù)會(huì)計(jì)咨詢(xún)合同
- 銀行網(wǎng)點(diǎn)租賃合同模板
- 空氣凈化設(shè)備租賃協(xié)議樣本
- 排水管道管涵施工合同
- 超市收銀區(qū)地磚鋪裝項(xiàng)目協(xié)議
- 醫(yī)院防雷施工合同
- 商場(chǎng)衛(wèi)生清潔工招聘合同
- 未婚夫婚前房產(chǎn)協(xié)議
- 養(yǎng)老院租賃協(xié)議
- 通信工程商品混凝土施工協(xié)議
- 排球試題題庫(kù)
- CJJT148-2010 城鎮(zhèn)燃?xì)饧映艏夹g(shù)規(guī)程
- 人教版八年級(jí)上冊(cè)地理問(wèn)答題提綱
- 試驗(yàn)檢測(cè)方案
- 小學(xué)語(yǔ)文朗讀指導(dǎo)案例
- 小提琴入門(mén)教學(xué)法智慧樹(shù)知到期末考試答案章節(jié)答案2024年四川音樂(lè)學(xué)院
- MOOC 研究生學(xué)術(shù)規(guī)范與學(xué)術(shù)誠(chéng)信-南京大學(xué) 中國(guó)大學(xué)慕課答案
- 高爾斯華綏《品質(zhì)》原文閱讀-中學(xué)語(yǔ)文在線(xiàn)
- 西方文明史導(dǎo)論智慧樹(shù)知到期末考試答案2024年
- IATF16949質(zhì)量管理體系過(guò)程風(fēng)險(xiǎn)和機(jī)遇評(píng)估分析表
- 《小巴掌童話(huà)》試題及答案共6套
評(píng)論
0/150
提交評(píng)論