基于支持向量機(jī)的股票投資價(jià)值分類模型_第1頁(yè)
基于支持向量機(jī)的股票投資價(jià)值分類模型_第2頁(yè)
基于支持向量機(jī)的股票投資價(jià)值分類模型_第3頁(yè)
基于支持向量機(jī)的股票投資價(jià)值分類模型_第4頁(yè)
基于支持向量機(jī)的股票投資價(jià)值分類模型_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于支持向量機(jī)的股票投資價(jià)值分類模型

一、股票投資價(jià)值分類模型建立背景隨著證券市場(chǎng)股權(quán)分置問(wèn)題的順利解決和其他相關(guān)改革方案的不斷推進(jìn),中國(guó)的證券市場(chǎng)日益規(guī)范。過(guò)去,非理性的簡(jiǎn)單投機(jī)操作將不可避免地退出歷史舞臺(tái),價(jià)值投資將不可避免地變得繁榮。但是由于股票價(jià)格現(xiàn)象是一個(gè)非線性的復(fù)雜系統(tǒng),傳統(tǒng)的股票投資價(jià)值研究方法有諸多不足,其中計(jì)量模型方法或是用簡(jiǎn)單的財(cái)務(wù)指標(biāo)做影響因子來(lái)解釋股票收益,或是用未來(lái)現(xiàn)金流的貼現(xiàn)值來(lái)估計(jì)股票的內(nèi)在價(jià)值,因此采用傳統(tǒng)的模型方法研究股票投資問(wèn)題,無(wú)法克服模型檢驗(yàn)困難和推廣泛化能力差這兩個(gè)難題。而綜合評(píng)價(jià)方法多是從公司價(jià)值的角度來(lái)設(shè)置指標(biāo),既缺乏面向投資的針對(duì)性,又無(wú)法進(jìn)行檢驗(yàn),可信程度低。最近大量的研究表明:人工智能方法在處理非線性復(fù)雜系統(tǒng)問(wèn)題時(shí)的能力尤為突出,其中應(yīng)用最為廣泛的是人工神經(jīng)網(wǎng)絡(luò)方法。盡管大量的理論和實(shí)證研究均證明人工神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)方法相比在處理非線性復(fù)雜系統(tǒng)問(wèn)題時(shí)更有效,但是神經(jīng)網(wǎng)絡(luò)也存在許多其自身無(wú)法克服的缺陷,其主要缺陷如下:①神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本數(shù)量、分布性和有效性要求較高,樣本質(zhì)量對(duì)神經(jīng)網(wǎng)絡(luò)的使用效果影響很大;②神經(jīng)網(wǎng)絡(luò)訓(xùn)練容易陷入局部極小點(diǎn),雖然目前已經(jīng)出現(xiàn)了許多補(bǔ)救措施可以使神經(jīng)網(wǎng)絡(luò)擺脫局部最小,但都無(wú)法從根本上克服這個(gè)缺陷;③神經(jīng)網(wǎng)絡(luò)的泛化能力差。神經(jīng)網(wǎng)絡(luò)存在的缺陷無(wú)法從自身得到根本性的解決,這就制約了其在股票投資價(jià)值分類模型中的使用效果。本文嘗試采用支持向量機(jī)方法建立股票投資價(jià)值分類模型,并重點(diǎn)考察支持向量機(jī)股票投資價(jià)值分類模型的分類效果和泛化能力。支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)上的,其主要思想就是將輸入空間中的非線性問(wèn)題映射為高維特征空間里的線性問(wèn)題,在高維特征空間中發(fā)現(xiàn)超平面并最大化超平面與支持向量之間的距離,這就保證了其分類效果和泛化能力要顯著優(yōu)于人工神經(jīng)網(wǎng)絡(luò)。二、原則和方法(一)教學(xué)模式的工作過(guò)程模式識(shí)別(patternrecognition)是指對(duì)表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過(guò)程。換言之,模式識(shí)別就是把具體事物歸到具體的某一類別的過(guò)程,也就是先用一定數(shù)量的樣本,根據(jù)它們之間的相似性進(jìn)行分類器設(shè)計(jì),而后用所設(shè)計(jì)的分類器對(duì)待識(shí)別的樣本進(jìn)行分類決策。模式識(shí)別的具體工作過(guò)程如圖1所示。從理論上講,股票投資價(jià)值背后包含的價(jià)值信息可視為股票投資價(jià)值的特征,深入挖掘股票的價(jià)值信息,并通過(guò)適當(dāng)?shù)姆椒ū憧梢詷?gòu)造股票投資價(jià)值分類器,依此分類器可實(shí)現(xiàn)對(duì)股票投資價(jià)值的識(shí)別??梢?jiàn),依據(jù)模式識(shí)別的思想建立股票投資價(jià)值分類模型在理論上是可行的。(二)最優(yōu)分類面基本思想支持向量機(jī)是建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則基礎(chǔ)上,通俗地說(shuō)就是通過(guò)對(duì)推廣誤差風(fēng)險(xiǎn)上界的最小化達(dá)到最大的泛化能力。支持向量機(jī)的基本思想是在樣本空間或特征空間,構(gòu)造出最優(yōu)超平面,使得超平面與不同類樣本集之間的距離最大,從而達(dá)到最大的泛化能力。從理論上講,支持向量機(jī)能夠克服學(xué)習(xí)問(wèn)題和維數(shù)災(zāi)難問(wèn)題,具有全局最優(yōu)性和較好的泛化能力,因此,支持向量機(jī)在求解模式識(shí)別問(wèn)題上的使用效果要優(yōu)于建立在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則基礎(chǔ)上的神經(jīng)網(wǎng)絡(luò)方法。從本質(zhì)上講,支持向量機(jī)是一種算法。當(dāng)樣本線性可分時(shí),支持向量機(jī)是在樣本空間中求解最大間隔解的算法;當(dāng)樣本不是線性可分時(shí),支持向量機(jī)的具體算法是通過(guò)恰當(dāng)?shù)暮撕瘮?shù)將樣本集映射到高維空間,實(shí)現(xiàn)樣本集的像在高維空間線性可分。其建立的基礎(chǔ)是小樣本統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化。具體的算法原理如下:支持向量機(jī)是由最優(yōu)分類超平面的概念引出的,其基本思想可由圖2所示的二維兩類可分情況來(lái)說(shuō)明。圖2中圓圈和方塊分別表示兩類訓(xùn)練樣本,H為把兩類樣本完全無(wú)誤分開(kāi)的分類線,H1、H2分別為通過(guò)兩類樣本中離分類線最近的樣本且平行于分類線的直線,它們之間的間隔為分類間隔,上面的樣本點(diǎn)就是支持向量。所謂的最優(yōu)分類線就是不但將兩類樣本準(zhǔn)確無(wú)誤的分開(kāi),而且使分類間隔最大的分類線。如果推廣到高維空間,最優(yōu)分類線就成了最優(yōu)分類面。設(shè)線性可分情況下的樣本集為(xi,yi),i=1,2,…,n,x∈Rd,y∈{-1,+1}。d維空間里線性分類函數(shù)的一般形式是g(x)=w·x+b,分類面方程為:w·x+b=0(1)將分類函數(shù)做歸一化處理,使兩類樣本都滿足|g(x)|≥1,也就是使離分類面最近的樣本的|g(x)|=1,這樣分類間隔就等于2/||w||,因而要使分類間隔最大就是使||w||或||w||2最小;如果要求分類面對(duì)所有的樣本都能夠分類正確,則必須要求滿足:yi[(w·x)+b-1]≥0,i=1,2,…,n(2)至此,滿足上述條件且使||w||2最小的分類面就是最優(yōu)分類面。對(duì)最優(yōu)分類面的求解可轉(zhuǎn)化為如下的約束優(yōu)化問(wèn)題,即在式(2)的條件約束下,求函數(shù):φ(w)=12||w||2=12(w?w)(3)的最小值??蓪⒋藛?wèn)題轉(zhuǎn)化為L(zhǎng)agrange函數(shù)求解上述問(wèn)題后得到的最優(yōu)分類函數(shù)是sgn()為符號(hào)函數(shù)。以上只適用于樣本嚴(yán)格線性可分的情況,而在不能?chē)?yán)格線性可分的情況下可以通過(guò)在條件(2)中增加一個(gè)松弛項(xiàng)ξi≥來(lái)滿足條件,即將條件(2)變成yi[(w·x)+b-1]+ξi≥0,i=1,2,…,n(6)同時(shí)目標(biāo)函數(shù)也改為求Φ(w,ξ)=12∥W∥2+c|n∑i=1ξi|(7)的最小值,即折衷考慮最少錯(cuò)分樣本和最大分類間隔而得到廣義最優(yōu)分類面,其中,C>0為一常數(shù),它控制對(duì)錯(cuò)分樣本的懲罰程度。但是,要處理非線性復(fù)雜系統(tǒng)問(wèn)題僅通過(guò)以上方法是不夠的,支持向量機(jī)最為突出的優(yōu)勢(shì)并不在于解決線性可分問(wèn)題,而是解決非線性問(wèn)題,它通過(guò)非線性變換將該非線性問(wèn)題轉(zhuǎn)換成為某個(gè)高維空間中的線性問(wèn)題,在高維空間中求取最優(yōu)分類面,實(shí)現(xiàn)線性分類。支持向量機(jī)就是通過(guò)內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)高維空間里求最優(yōu)分類面,而這種非線性變換是通過(guò)定義適當(dāng)?shù)膬?nèi)積函數(shù)實(shí)現(xiàn)的。采用不同的內(nèi)積函數(shù)(核函數(shù))將產(chǎn)生不同的支持向量機(jī),形成不同的算法。在本文中選用徑向基核函數(shù),如公式(8)所示:Κ(x,xi)=exp{-|x-xi|2σ2}(8)該徑向基核函數(shù)支持向量分類機(jī),與傳統(tǒng)徑向基神經(jīng)網(wǎng)絡(luò)的主要區(qū)別就是:它的每個(gè)基函數(shù)中心對(duì)應(yīng)一個(gè)支持向量,支持向量與輸出權(quán)值都是由算法自動(dòng)確定的。(三)股票投資價(jià)值分類器的構(gòu)造步驟第一步:依據(jù)模式識(shí)別的工作過(guò)程,選取股票樣本,以股票財(cái)務(wù)指標(biāo)作為樣本的特征空間。第二步:采用模糊聚類技術(shù)對(duì)股票的樣本空間進(jìn)行指標(biāo)約簡(jiǎn),實(shí)現(xiàn)樣本特征的選擇與提取。樣本特征的選擇與提取是決定樣本之間的相似性和分類器設(shè)計(jì)的關(guān)鍵,運(yùn)用科學(xué)的方法提取出最能反映分類本質(zhì)的特征,更加容易發(fā)現(xiàn)研究對(duì)象之間的固有聯(lián)系,能夠提高分類器的性能。第三步:采用支持向量機(jī)方法構(gòu)造股票投資價(jià)值分類器。具體來(lái)講,股票投資價(jià)值分類問(wèn)題可以理解為幾何空間中點(diǎn)的分割問(wèn)題,假設(shè)股票樣本的特征空間中有n個(gè)指標(biāo),有投資價(jià)值的股票數(shù)量是m,組成集合X,沒(méi)有投資價(jià)值的股票數(shù)量是k,組成集合Y。顯然,股票樣本的特征空間中的n個(gè)指標(biāo),可以形成一個(gè)n維歐式空間,在此空間中,m個(gè)xi(xi1,xi2,…,xin)(這里i=1,2,…,m)和k個(gè)yj(yj1,yj2,…,yjn)(這里j=1,2,…,k)以這n個(gè)指標(biāo)為坐標(biāo),呈散點(diǎn)狀態(tài)分布于n維空間中,它們可以歸結(jié)為兩個(gè)集合,一個(gè)是有投資價(jià)值的股票集合X,另一個(gè)是沒(méi)有投資價(jià)值的股票集合Y。兩個(gè)集合之間可能存在交集,構(gòu)造股票投資價(jià)值分類器的目的是如何以最小的出錯(cuò)率和最高的效率將這兩個(gè)集合分開(kāi),而支持向量機(jī)方法處理這類問(wèn)題的優(yōu)勢(shì)是最為突出的。第四步:檢驗(yàn)股票投資價(jià)值分類器的分類效果。通常從訓(xùn)練樣本內(nèi)和訓(xùn)練樣本外分別選取若干樣本組成測(cè)試樣本集,來(lái)檢驗(yàn)分類器的分類效果。為確保分類器分類效果的穩(wěn)定性,要重復(fù)實(shí)驗(yàn)若干次。三、模糊等價(jià)矩陣的建立價(jià)值投資基本觀點(diǎn)是依據(jù)微觀基本面信息分析判斷出股票的內(nèi)在價(jià)值,進(jìn)而選擇恰當(dāng)?shù)耐顿Y策略。通過(guò)梳理文獻(xiàn)發(fā)現(xiàn),股票投資價(jià)值的影響因素主要包括:流通市值A(chǔ)1、每股凈資產(chǎn)A2、當(dāng)前收盤(pán)價(jià)A3、資產(chǎn)報(bào)酬率A4、股東權(quán)益凈利潤(rùn)率A5、凈利潤(rùn)增長(zhǎng)率A6、主營(yíng)業(yè)務(wù)收入增長(zhǎng)率A7、每股收益A8、市盈率A9、帳面市值比A10。如果直接采用這10項(xiàng)指標(biāo)作為股票投資價(jià)值的特征集,容易造成模型效率低下,而且這10項(xiàng)指標(biāo)之間的相關(guān)性較強(qiáng),也影響模型的準(zhǔn)確性。因此本文在股票投資價(jià)值特征集的選取上采用模糊聚類技術(shù)對(duì)影響股票投資價(jià)值的各因素進(jìn)行聚類、篩選,以確保股票投資價(jià)值特征集的完備性和可操作性。第一步:我們選取滬深股市全部A股一般行業(yè)上市公司(共1349家,篩除311家所需數(shù)據(jù)不完整的上市公司)2004年的財(cái)務(wù)數(shù)據(jù)為樣本,數(shù)據(jù)來(lái)源于國(guó)泰安上市公司財(cái)務(wù)年報(bào)數(shù)據(jù)庫(kù)和股票收益數(shù)據(jù)庫(kù)。第二步:數(shù)據(jù)標(biāo)準(zhǔn)化,采用相關(guān)系數(shù)法建立模糊相似矩陣,如式(9)所示。|1.00000.40410.24170.51520.33300.64070.45330.38800.27500.62820.40411.00000.96480.14420.11030.60410.61350.37310.53250.55300.24170.96481.00000.11680.10660.60400.60540.37890.53190.37250.51520.14420.11681.00000.85860.41510.25680.54070.66360.20600.33300.11030.10660.85861.00000.33010.20130.40790.52900.12090.60490.60410.60400.41510.33011.00000.90610.62200.82910.37390.45330.61350.60540.25680.20130.90611.00000.52460.68490.46050.38800.37310.37890.54070.40790.62200.52461.00000.75930.27280.27500.53250.53190.66360.52900.82910.68490.75931.00000.35210.62820.55300.37250.20600.12090.37380.46050.27280.35211.0000|(9)第三步:通過(guò)平方法求傳遞閉包,即模糊等價(jià)矩陣,如式(10)。|1.00000.61350.61350.64070.64070.64070.64070.64070.64070.62820.61351.00000.96480.61350.61350.61350.61350.61350.61350.61350.61350.96481.00000.61350.61350.61350.61350.61350.61350.61350.64070.61350.61351.00000.85860.66360.66360.66360.66360.62820.64070.61350.61350.85861.00000.66360.66360.66360.66360.62820.64070.61350.61350.66360.66361.00000.90610.75930.82910.62820.64070.61350.61350.66360.66360.90611.00000.75930.82910.62820.64070.61350.61350.66360.66360.75930.75931.00000.75930.62820.64070.61350.61350.66360.66360.82910.82910.75931.00000.62820.62820.61350.61350.62820.62820.62820.62820.62820.62821.0000|(10)第四步:聚類。求出模糊等價(jià)矩陣后,通過(guò)計(jì)算截矩陣的方法獲得不同的分類,換言之就是根據(jù)特定的值選擇分類。對(duì)從大到小依次賦值,對(duì)模糊等價(jià)矩陣進(jìn)行聚類,聚類結(jié)果如表1所示。通過(guò)計(jì)算F統(tǒng)計(jì)量確定最佳λ值為0.6636,λ值取0.6636時(shí)的分類為四類,具體分類是:{流通市值}{每股凈資產(chǎn)、當(dāng)前收盤(pán)價(jià)}{資產(chǎn)報(bào)酬率、股東權(quán)益凈利潤(rùn)率、凈利潤(rùn)增長(zhǎng)率、主營(yíng)業(yè)務(wù)收入增長(zhǎng)率、每股收益、市盈率}{帳面市值比}。第五步:篩選同類指標(biāo)。其中流通市值和賬面市值比是單獨(dú)一類,可直接納入特征集。每股凈資產(chǎn)和當(dāng)前收盤(pán)價(jià)是一類,可任選其一,本文選擇當(dāng)前收盤(pán)價(jià)。而資產(chǎn)報(bào)酬率、股東權(quán)益凈利潤(rùn)率、凈利潤(rùn)增長(zhǎng)率、主營(yíng)業(yè)務(wù)收入增長(zhǎng)率、每股收益和市盈率聚為一類,需要從中選出一個(gè)典型指標(biāo)納入指標(biāo)集,可采用相關(guān)指數(shù)法篩選。①計(jì)算相關(guān)系數(shù)r,結(jié)果如表2所示。②計(jì)算相關(guān)指數(shù)RR4=(r245+r246+r247+r248+r249)/5=0.3416R5=(r254+r256+r257+r258+r259)/5=0.2666R6=(r264+r265+r267+r268+269)/5=0.4353R7=(r274+r275+r276+r278+r279)/5=0.3344R8=(r284+r852+r862+r872+r892)/5=0.3395R9=(r942+r952+r962+r972+r982)/5=0.4906根據(jù)相關(guān)指數(shù)計(jì)算結(jié)果可知:R9>R6>R4>R8>R7>R5,R9最大,故將A9納入特征集。通過(guò)模糊聚類和指標(biāo)篩選,將影響股票投資價(jià)值的10項(xiàng)指標(biāo)精簡(jiǎn)為4項(xiàng)指標(biāo),即股票的流通市值、賬面市值比、當(dāng)前收盤(pán)價(jià)、市盈率,這4項(xiàng)指標(biāo)基本涵蓋了股票投資價(jià)值所包含的有效信息。三、股票投資價(jià)值分類模型的驗(yàn)證(一)票收益數(shù)據(jù)庫(kù)我們選取滬深股市全部A股一般行業(yè)上市公司2004年的財(cái)務(wù)數(shù)據(jù)為樣本,從中隨機(jī)抽取500支股票,數(shù)據(jù)來(lái)源:國(guó)泰安上市公司財(cái)務(wù)年報(bào)數(shù)據(jù)庫(kù)和股票收益數(shù)據(jù)庫(kù)。根據(jù)財(cái)務(wù)年報(bào)數(shù)據(jù)庫(kù)中的財(cái)務(wù)指標(biāo)計(jì)算出2004年最后一個(gè)交易日的股票的流通市值、賬面市值比、當(dāng)前收盤(pán)價(jià)、市盈率,以此作為輸入變量。股票投資的目的是為了盈利,因此本文以股票在一年內(nèi)的平均月度收益率作為輸出變量,平均月度收益率為正,記為+1,否則

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論