版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1章緒論1.1選題背景與意義股票的市場價格是由股票的價值所決定,股票價值受多方面因素的影響,在宏觀上,社會、政治、經(jīng)濟、文化等方面對股票價值均可能對其產(chǎn)生影響。在產(chǎn)業(yè)和區(qū)域上,產(chǎn)業(yè)發(fā)展程度和地方經(jīng)濟水平也產(chǎn)生結(jié)構(gòu)性的影響。還有上市公司的經(jīng)營狀況以及科技開發(fā)水平、產(chǎn)品競爭實力、財務(wù)水平從不同方面對股票價格產(chǎn)生或多或少的影響,股票市場的運作、人為的操縱也對股票價格產(chǎn)生一定影響。在高速發(fā)展的時代,國民對股票進行投資成為趨勢,而股票價格的走勢并非是無跡可循的,因此對股價進行準(zhǔn)確的預(yù)測成為每一個投資者夢味以求的心愿。數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中通過算法將數(shù)據(jù)中隱含的信息提煉挖掘出來,轉(zhuǎn)換成為人們迫切所需有用的知識和信息。[1]目前大數(shù)據(jù)研究發(fā)展迅速,一旦有新的信息,便可以通過模型進行預(yù)測,提前獲得消息,如今數(shù)據(jù)挖掘技術(shù)與多種應(yīng)用相結(jié)合為人們提供方便。而股票漲跌是以概率方式呈現(xiàn)的,隨著數(shù)據(jù)挖掘技術(shù)的崛起,可以通過建立模型進行預(yù)測,海量的股票數(shù)據(jù)通過分析不再雜亂無章,大大提高了投資盈利的概率。在股票預(yù)測中,人們一直在用不同的方法進行預(yù)測從而獲得更大的利潤,如森林算法、K線圖走勢分析、RBF神經(jīng)網(wǎng)絡(luò)等?;跀?shù)據(jù)挖掘進行總結(jié)、分類、關(guān)聯(lián)、聚類、預(yù)測等對數(shù)據(jù)處理可以獲得更多信息,其中成功的案例如市場菜籃案例、啤酒尿布案例等。中國的近十年時間,股民結(jié)構(gòu)也發(fā)生了重大的變化,股市也是跌宕起伏,隨著數(shù)據(jù)的積累、計算機技術(shù)的不斷發(fā)展,看上去無次序、沒有任何關(guān)聯(lián)的數(shù)據(jù)之間通過分類、關(guān)聯(lián)等技術(shù)產(chǎn)生了聯(lián)系,其中分類的方法也是多種多樣,如判定樹歸納分類、SLIQ、貝葉斯等技術(shù)以及用機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)、粗糙器方法構(gòu)造分類器也是多種多樣的。由此利用數(shù)據(jù)挖掘技術(shù)進行股票預(yù)測的方法也是多種多樣。1.2國內(nèi)外研究現(xiàn)狀隨著計算機技術(shù)的不斷發(fā)展以及數(shù)據(jù)挖掘技術(shù)的不斷成熟,使數(shù)據(jù)的運用越來越有效率和靈活,但是當(dāng)人們面對海量數(shù)據(jù)時,整理和分類運用的能力卻十分欠缺,面對海量的數(shù)據(jù),通過算法從數(shù)據(jù)中提煉出對人們有用的信息顯得至關(guān)重要,于是數(shù)據(jù)挖掘技術(shù)開始崛起。從早期利用道氏理論、K線圖走勢分析、點數(shù)圖走勢分析、柱狀圖走勢分析等進行股票上的預(yù)測,到利用預(yù)測模型進行預(yù)測,在1989年舉辦的國際人工智能專題研討會中,基于數(shù)據(jù)挖掘的知識發(fā)現(xiàn)首次被提出,數(shù)據(jù)處理不再成為難題。數(shù)據(jù)挖掘逐步運用在各個領(lǐng)域,對數(shù)據(jù)的處理也越發(fā)成熟。在1991年,數(shù)據(jù)挖掘技術(shù)在股票分析上運用提出,通過利用股票上的海量數(shù)據(jù)對股票價格進行了預(yù)測。現(xiàn)如今數(shù)據(jù)爆炸的年代,如果不能很好地將數(shù)據(jù)有效的提煉出,大量的數(shù)據(jù)將不能有跡可循,不能再為我們提供更多的信息,這樣信息豐富但是知識貧乏的年代,人們想要獲得數(shù)據(jù)中隱含信息的心情日益強烈,于是數(shù)據(jù)挖掘技術(shù)開始崛起,將過多無用的數(shù)據(jù)進行篩選,獲得隱藏在里面的信息,并能夠讓我們充分應(yīng)用。近些年,國內(nèi)外都開始推出了一些新進的數(shù)據(jù)挖掘工具,許多企業(yè)通過自己的需求和人才的累計,對不同數(shù)據(jù)挖掘工具進行選取和應(yīng)用。近年來,國外多個國家如美國、英國、日本,加拿大等不斷將數(shù)據(jù)挖掘技術(shù)融入服務(wù)與管理中,設(shè)計了許多方面從環(huán)境規(guī)劃到企業(yè)投資,數(shù)據(jù)挖掘已經(jīng)得到了充分的應(yīng)用。美國某公司利用數(shù)據(jù)挖掘?qū)γ癖娺M行調(diào)查,分析了民眾對某股票的買入情況來判斷是否購買該股票,那次該季度獲得了高于平時的收益率。國內(nèi)利用數(shù)據(jù)挖掘進行股票應(yīng)用是由香港科技大學(xué)BeatWuthrich首次研發(fā)提出來,之后其他專家也提出了一些關(guān)于股票預(yù)測上的研發(fā)。到如今,數(shù)據(jù)挖掘的成熟,算法的多種多樣也使得在股票預(yù)測上方法也是層出不窮。國外在數(shù)據(jù)挖掘進行股票預(yù)測的研究早于中國許久,在應(yīng)用上也較為成熟一些,AI是最早研發(fā)出的系統(tǒng),針對股票投資者而研究出來的軟件,利用可視化、聚類技術(shù)來預(yù)測投資時間獲取最大利潤。之后有技術(shù)人員利用粗糙集算法分析海量股票價格數(shù)據(jù),得出依賴關(guān)系從而進行預(yù)測。數(shù)據(jù)挖掘在股票上的應(yīng)用也是越來越廣泛。許多專家對數(shù)據(jù)進行歸一化和離散化處理,提供了許多信息,為股票投資者提供有利信息。[2]如今,國內(nèi)外在數(shù)據(jù)挖掘進行股票預(yù)測已能者輩出,從AtiyaAF、ChenJF、Racine、Meissner等利用指針通過神經(jīng)網(wǎng)絡(luò)進行預(yù)測,還有Koohzadietal等采用ARIMA模型進行預(yù)測,還有Timmermann利用神經(jīng)網(wǎng)絡(luò)進行計算,以及臺灣地區(qū),張文信利用反向傳播算法預(yù)測,其正確率高達(dá)67%。1.3主要研究內(nèi)容本論文的研究內(nèi)容主要是對股票價格走勢進行預(yù)測分析,通過數(shù)據(jù)挖掘技術(shù)進行總體研究。數(shù)據(jù)挖掘技術(shù)進行預(yù)測的方法多種多樣,本文采用了三種預(yù)測方法:主成分分析、時間序列預(yù)測、神經(jīng)網(wǎng)絡(luò)BP,對股票價格走勢進行預(yù)測。以下對這三種預(yù)測方法進行簡要說明:第三章利用主成分分析進行研究,影響股票價格走勢的由許多因素,如科技開發(fā)水平、產(chǎn)品競爭實力、財務(wù)水平等多個變量,多個變量之間存在一定的關(guān)聯(lián)關(guān)系,而這些關(guān)聯(lián)的變量增大了研究的難度,利用主成分分析進行降維,通過相關(guān)矩陣、成分矩陣得到相應(yīng)的主成分系數(shù),便可以得到主成分變量,通過主成分變量的相應(yīng)信息進行股票走勢的預(yù)測。第四章時間序列通過對按照時間先后順序排列的數(shù)據(jù)進行研究長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動,預(yù)測現(xiàn)象的發(fā)展趨勢和前景。指數(shù)平滑用來描述股票價格變化趨勢,是一種加權(quán)移動平均,根據(jù)參數(shù)的數(shù)量不同,分別進行但參數(shù)指數(shù)平滑、雙參數(shù)指數(shù)平滑、三參數(shù)指數(shù)平滑進行預(yù)測,通過調(diào)整權(quán)數(shù),獲得與模型最接近的預(yù)測模型,一次對股票價格走勢進行預(yù)測。第五章神經(jīng)網(wǎng)絡(luò)算法通過劃分訓(xùn)練集和驗證集,用驗證集去評定模型的穩(wěn)健性,防止過擬合,在進行數(shù)據(jù)歸一化消除數(shù)據(jù)間的影響,使數(shù)據(jù)具有可比性,構(gòu)建神經(jīng)網(wǎng)絡(luò)與訓(xùn)練歷史可視化,通過九個股票的關(guān)聯(lián),利用其中八個股票對第九個股票價格進行預(yù)測。第六章通過三種算法進行比較,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)最適應(yīng)影響因素較多的股票預(yù)測。第2章數(shù)據(jù)挖掘技術(shù)概述2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是指從海量的數(shù)據(jù)中通過一些算法將數(shù)據(jù)提煉出重要的信息的技術(shù),數(shù)據(jù)挖掘技術(shù)與計算機息息相關(guān),又離不開統(tǒng)計,是通過統(tǒng)計分析處理、機器學(xué)習(xí)、高性能計算、信息檢索等多種技術(shù)實現(xiàn)的。并不是所有的的系統(tǒng)都進行著真正的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是涉及多學(xué)科的綜合,是通過數(shù)據(jù)準(zhǔn)備、規(guī)律尋找、規(guī)律表示從大量數(shù)據(jù)中分析每一個數(shù)據(jù)并從中尋找出規(guī)律的技術(shù),想從數(shù)據(jù)中找出相關(guān)的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘所需要的數(shù)據(jù)集,通過算法將數(shù)據(jù)集中的規(guī)律提煉出來,再用可視化讓人們易懂。數(shù)據(jù)挖掘的數(shù)據(jù)類型、挖掘方法、挖掘?qū)ο蠖伎梢远喾N多樣,類型可以是結(jié)構(gòu)化、異構(gòu)型、半結(jié)構(gòu)化,挖掘的方法可以是數(shù)學(xué)、非數(shù)學(xué)、歸納的。挖掘的對象也可以是關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本、空間數(shù)據(jù)、web數(shù)據(jù)等。隨著計算機技術(shù)的不斷發(fā)展,大量的數(shù)據(jù)被存儲下來,可如何運用數(shù)據(jù)挖掘,用哪些數(shù)據(jù)進行挖掘,具體如何實施,現(xiàn)在許多公司已經(jīng)給出具體步驟,先要定義問題,只有目標(biāo)明確才能知道具體想要做什么,不同的目標(biāo)收集的數(shù)據(jù)也會千差萬別,必須要對目標(biāo)有一個清晰的認(rèn)識。其次建立數(shù)據(jù)挖掘庫,先進行數(shù)據(jù)的收集,在對數(shù)據(jù)進行物理描述和邏輯描述,把具體事務(wù)轉(zhuǎn)換成能被計算機處理的信息,選擇數(shù)據(jù),對數(shù)據(jù)進行質(zhì)量評估和數(shù)據(jù)清理,只有良好的數(shù)據(jù)才能使挖掘的內(nèi)容質(zhì)量較高,較差的數(shù)據(jù)會影響數(shù)據(jù)挖掘結(jié)果,失之毫米,差之千里。之后對預(yù)測影響最大的數(shù)據(jù)進行分析,是否需要導(dǎo)出。此時再進行準(zhǔn)備數(shù)據(jù),選擇變量、記錄,創(chuàng)建和轉(zhuǎn)化變量,此時就可以建立模型,建立模型是一個反復(fù)的過程,只有經(jīng)過反復(fù)的建立才能判讀哪一個模型對目標(biāo)最有利,一般先用一部分?jǐn)?shù)據(jù)建立米星,剩余數(shù)據(jù)分成兩部分,一部分用來檢驗,另一部分用來測試,模型準(zhǔn)確性較高時模型才算真正的建立成功,便可以對模型進行解釋和價值的評定,用通俗易懂的語言反饋給客戶,最后便可以實施了。而數(shù)據(jù)挖掘分析也是個重要的部分,分類、估值、預(yù)測都是有指導(dǎo)的數(shù)據(jù)挖掘,無指導(dǎo)的數(shù)據(jù)挖掘通常指關(guān)聯(lián)和聚類。2.2基于數(shù)據(jù)挖掘的股票預(yù)測方法2.2.1主成分分析概念及優(yōu)缺點主成分分析方法是一種統(tǒng)計上的方法,將一組可能存在關(guān)系的多個變量通過正交變換法轉(zhuǎn)換成一組線性不相關(guān)的變量,這是一種多元統(tǒng)計的方法,從大量的變量中導(dǎo)出少數(shù)的幾個主成分,并且讓這少量的成分盡可能的多包涵一些信息。在對一個目標(biāo)進行研究的時候,為了更好的研究這個目標(biāo),通常需要很多的相關(guān)變量,但是有些變量對該目標(biāo)的影響不大,有些變量和變量之間產(chǎn)生關(guān)聯(lián)關(guān)系對目標(biāo)變量產(chǎn)生新的影響,這會大大增加研究的難度,所以需要少量的幾個成分稱為主成分來代表之前的多個變量。主成分分析是一種降維的統(tǒng)計方法,降低研究目標(biāo)的數(shù)據(jù)維度,從Bracais開始不斷有科學(xué)家對主成分的發(fā)展提出了研究,例如霍特林、皮爾遜等,要對原來多個變量進行研究,刪去重復(fù)多余的變量,建立盡可能少并且兩兩不相關(guān)的變量。正如一千個人的身材都不一樣,為每個人定制衣服定然是不靠譜,但是對一千個人甚至更多的人進行操作,你就會發(fā)現(xiàn)有幾個主要的成分是相同或者相似的,采用這幾種主要的成分定制衣服就可以多人穿同樣大小的衣服,為工廠提供了變量,提高了效率。主成分分析已經(jīng)深入生活的領(lǐng)域,如人口統(tǒng)計、數(shù)理分析、分子動力等,是一種常用的多變量分析。[3]主成分分析中將原本相關(guān)的變量重新篩選組合成互相無關(guān)的變量,一般用方差來表示,Var越大表示其包含的數(shù)據(jù)越多,將方差最大的作為第一主成分,如果第一主成分不足夠表示原先的變量所代表信息,這個時候在添加第二主成分,以此類推。相比起因子分析、聚類分析,主成分分析是如果通過少量的變量代表多變量來盡可能多的包含更多信息,并使少量變量之間存在彼此不相關(guān),而因子分析是根據(jù)相關(guān)性大小進行變量分組,然后尋找起著支配作用的變量的因子模型的。主成分能解釋所有變異,而因子分析只能解釋部分。聚類分析是類間相關(guān)小,類內(nèi)相關(guān)大,通過將原來的數(shù)據(jù)按照某一特征進行分類,獲得某種規(guī)律。主成分分析會產(chǎn)生新的變量,而聚類分析不能產(chǎn)生新的變量。[2]主成分分析會對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化來消除量綱和數(shù)量級,因子分析對這一方便沒有太高的要求,但是通常數(shù)據(jù)存在量綱和數(shù)量級是不能進行比較,只有消除影響才能更好的比較,得到更好的信息,這是選擇主成分分析的主要原因。對于聚類分析,如果采用的量綱不同會導(dǎo)致錯誤的聚類結(jié)果。主成分分析在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力程度上,但是主成分分析的變量有正有負(fù),導(dǎo)致評價不能明確,清晰度低。2.2.2時間序列分析概念及優(yōu)缺點時間序列從統(tǒng)計意義上將,就是按照時間的先后順序?qū)δ骋蛔兞窟M行描述,通過簡歷時間序列模型可以用來預(yù)測,是一個常用的預(yù)測方法。通常一個時間序列會包含長期趨勢、循環(huán)變動、周期變動以及不規(guī)則變動,是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法。[3]而平滑法是用來預(yù)測和趨勢預(yù)測的重要的方法,可以消弱不規(guī)則變動對時間序列的影響,使時間序列平滑顯出長期趨勢的規(guī)律。每一個數(shù)列都是對過去信息的記載,通過時間序列分析可以找到數(shù)據(jù)中存在的規(guī)律和統(tǒng)計信息,盡可能的獲得更多的我們所需要的信息并對未來進行預(yù)測。時間序列分析按照手段不同可以分為、數(shù)據(jù)圖法、指標(biāo)法、模型法。數(shù)據(jù)圖法使通過在平面直角坐標(biāo)系上橫軸為時間,縱軸為統(tǒng)計變量,進行繪制,通過圖形的轉(zhuǎn)折點和異常點、周期性等的分析可以直觀的了解到一些主觀性較大的信息。指標(biāo)法相比數(shù)據(jù)圖提供的信息更多一些,通過計算一些數(shù)據(jù)綜合指標(biāo)來表示信息,本文采用的是模型法,通過理論,整理數(shù)據(jù),建立適當(dāng)?shù)哪P驮龠M行預(yù)測。指數(shù)平滑是一種加權(quán)移動平均法,不僅可以對時間序列進行預(yù)測還可以描述時間序列的變化趨勢等,用時間序列以往的數(shù)據(jù)進行加權(quán)平均來作為未來的預(yù)測值,靠近現(xiàn)在的時刻的權(quán)值越大,通過對權(quán)值的調(diào)整來建立適合的模型,根據(jù)參數(shù)的數(shù)目分為單參數(shù)指數(shù)平滑、雙參數(shù)指數(shù)平滑和三參數(shù)指數(shù)平滑。對于單參數(shù)指數(shù)平滑,根據(jù)實踐經(jīng)驗,一般權(quán)值的選區(qū)范圍在0.1到0.3,對于權(quán)值的確定取值,需要根據(jù)理論分析和模型的對比。一般根據(jù)時間序列的波動大小來調(diào)整權(quán)值的選擇。一般時間序列的波動小的話,就可以把權(quán)值選的小一點,如果時間序列的波動較大,就要將權(quán)值選擇大一定。單參數(shù)時間序列分析方法一般用于不包含長期趨勢和季節(jié)變動的平穩(wěn)時間序列的預(yù)測,而對于雙參數(shù)指數(shù)平滑一般用于只含長期趨勢的非平穩(wěn)時間序列分析的預(yù)測中,三參數(shù)指數(shù)平滑用于包含長期趨勢和季節(jié)變動的非平穩(wěn)時間序列分析預(yù)測中。時間序列的數(shù)據(jù)具有不規(guī)律性,用時間預(yù)測進行股票研究拋開了市場發(fā)展的因果關(guān)系,而且時間序列會導(dǎo)致多重共線性,影響最后預(yù)測結(jié)果。[4]時間序列通過以往數(shù)據(jù)來通過模型預(yù)測未來數(shù)據(jù),從而獲得信息。而時間序列指數(shù)平滑法是特殊的一種時間序列法,沒有ARIMA模型表示的信息多。指數(shù)平滑法所要求的數(shù)據(jù)也是有限制的,不同的方法不能適用于所有數(shù)據(jù),這也使時間序列指數(shù)平滑法不能靈活運用。時間序列預(yù)測法可用不同長度的時間預(yù)測,有簡單平均數(shù)法、加權(quán)平均數(shù)法。根據(jù)有限長度的數(shù)據(jù)記錄,建立可以及時準(zhǔn)確反應(yīng)序列的動態(tài)關(guān)系的模型,用來對未來進行報告。[5]2.2.3BP神經(jīng)網(wǎng)絡(luò)概念及優(yōu)缺點神經(jīng)網(wǎng)絡(luò)算法時數(shù)據(jù)挖掘算法中非常重要的一種經(jīng)典算法,通過模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能模擬人腦的神經(jīng)元,將每一個連接的地方看作一個需要處理的單元,[6]進行分裂、特征挖掘、聚類等數(shù)據(jù)挖掘方法,通過訓(xùn)練數(shù)據(jù)進行通過改變權(quán)值來進行機器學(xué)習(xí)的非線性預(yù)測模型。感知機網(wǎng)絡(luò)對神經(jīng)網(wǎng)絡(luò)具有重大的推動作用,也是如今BP神經(jīng)網(wǎng)絡(luò)運用如此成熟的原因,二十世紀(jì)八十年代中期BP算法被發(fā)明出來,解決了網(wǎng)絡(luò)隱藏連接問題,具有多問函數(shù)映射能力,增強了網(wǎng)絡(luò)分類和識別能力,BP具有輸入輸出和隱藏層,不用先確定輸入輸出層的關(guān)系,可以通過訓(xùn)練和機器學(xué)習(xí),進行預(yù)期輸出,是誤差反傳的梯度搜索,就像人的神經(jīng)元一樣,BP網(wǎng)絡(luò)里面的神經(jīng)元稱為隱單元。BP網(wǎng)絡(luò)現(xiàn)在主要用于四個方面,用輸入輸出通過學(xué)習(xí)和訓(xùn)練、轉(zhuǎn)換無限逼近一個函數(shù)、或者將輸入輸出進行連接的模式識別、已經(jīng)將輸入變量通過訓(xùn)練或者謀者算法進行分類,[7]以及進行降維使得數(shù)據(jù)容易傳輸和儲存。BP網(wǎng)絡(luò)是用反向和正向進行反復(fù)訓(xùn)練計算,主要是反向傳播,在這個過程中不斷收集誤差,在將這些誤差返回給輸出值,并用誤差調(diào)整權(quán)重,從而模擬出一個BP神經(jīng)網(wǎng)絡(luò)模型,Rumelhart和Mcclelland為首的科學(xué)家提出。BP神經(jīng)網(wǎng)絡(luò)現(xiàn)如今已經(jīng)比較成熟,具有非常強非線性映射能力和靈活的網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)元的個數(shù),網(wǎng)絡(luò)層數(shù)都是較為自由,可以根據(jù)具體情況進行選擇,隨著結(jié)構(gòu)的選取的不同,功能也是有相應(yīng)的變化。BP網(wǎng)絡(luò)也存在一些缺點,機器學(xué)習(xí)速度較慢,即便研究的目標(biāo)數(shù)據(jù)不雜亂,也學(xué)要成千次的學(xué)習(xí)才能夠進行收斂,而且容易導(dǎo)致局部極小值,出現(xiàn)極端值,其次神經(jīng)元的個數(shù)和網(wǎng)絡(luò)層數(shù)較為自由,沒有理論表示哪一種取值范圍或者數(shù)據(jù)特征出現(xiàn)神經(jīng)元數(shù)量的選取,所以需要自己摸索,網(wǎng)絡(luò)推廣能力也是非常有限,隨著時代的發(fā)展,雖然解決了一些問題,但是還是容易現(xiàn)如極端值并導(dǎo)致收斂速度變得很慢。[8]第3章主成分分析方法在股票預(yù)測上的應(yīng)用主成分分析是一種常用的統(tǒng)計方法,將可能具有相關(guān)性的數(shù)據(jù)進行正交變化成彼此不存在線性相關(guān)性的數(shù)據(jù),形成的數(shù)據(jù)成為主成分。[9]主成分是統(tǒng)計中用于多元統(tǒng)計的方法,通過較少的成分即主成分來盡可能多的表達(dá)更多成分所代表的數(shù)據(jù)信息,并且盡可能的保留原始數(shù)據(jù)的信息,主成分分析主要用于降維,通過降維才能將多種成分降維成較少的成分。本論文主要對海航創(chuàng)新數(shù)據(jù)進行PCA算法降維,通過對股票價格的收盤價、成交量和成交額進行正交變化得到具體的相關(guān)系數(shù),從而進行分析。3.1主成分分析主成分分析已經(jīng)廣泛運用于數(shù)據(jù)的統(tǒng)計運算,可以進行高位數(shù)據(jù)集的挖掘和可視化,也可以用于數(shù)據(jù)壓縮和預(yù)處理。[10]將線性相關(guān)的變量轉(zhuǎn)換成線性無關(guān)的低維度的保留較多原始信息的變量。在進行主成分分析中需要先了解關(guān)于PCA的幾個相關(guān)術(shù)語,方差、協(xié)方差、協(xié)方差矩陣以及特征向量和特征值。方差是用各個樣本與其均值之差的平方和的均值,方差是用于數(shù)據(jù)離散程度的度量,公式為:S2=協(xié)方差用來查看變量之間線性相關(guān)程度的計算,如果兩個變量之間的協(xié)方差為0,可以看做兩個變量之間線性不關(guān),不能認(rèn)為變量無關(guān),因為還存在曲線相關(guān),協(xié)方差矩陣是由變量之間協(xié)方差組成的矩陣形式,呈現(xiàn)為對稱形式,公式為:CovX,Y=i=1特征向量是用來描述數(shù)據(jù)結(jié)構(gòu)的非零向量。本論文利用海航創(chuàng)新股票數(shù)據(jù)進行PCA,首先加載包,解決了中文顯示問題并且指定默認(rèn)字體,解決保存圖像的問題,之后對數(shù)據(jù)進行讀取,如下圖所示:表3-1海航創(chuàng)新用于PCA的部分?jǐn)?shù)據(jù)收盤成交量成交額02.235.0401119.7812.222.700598.0722.2814.1703163.5232.249.4302123.2042.3421.1304885.1352.3411.9502779.7162.319.2112132.1372.317.7601782.6782.4445.63011200.0092.3323.2405446.83102.4328.3906847.64112.3715.2203628.91122.3810.2002614.62經(jīng)過標(biāo)準(zhǔn)化歸一化處理數(shù)據(jù)之后,具體處理過程是通過獲得相關(guān)系數(shù)矩陣,也就是歸一化后的協(xié)方差矩陣XXTXi得出結(jié)果如下表所示:表3-2海航創(chuàng)新用于PCA的協(xié)方差矩陣收盤成交量(萬)成交額(萬)收盤1.0000000.3773780.547320成交量(萬)0.3773781.0000000.530589成交額(萬)0.5473200.5305891.0000000對協(xié)方差矩陣XXT特征值和特征向量,先對特征值進行分解,進行特征值排序,獲得累積貢獻(xiàn)度再合并到特征向量中,[11]表3-3海航創(chuàng)新用于PCA的特征值和特征向量Eig_valueEig_cum01201.9739340.657978-0.560638-0.553008-0.61633410.6229780.865637-0.6849770.727944-0.03007120.4030881.000000-0.465286-0.4053150.786911之后進行主成分的提取工作,假設(shè)要求累積貢獻(xiàn)度要達(dá)到70%則取兩個主成分,從而得到因子載荷矩陣,如下圖所示:表3-4海航創(chuàng)新用于PCA的因子載荷矩陣01Vars0-0.560638-0.684977收盤1-0.5530080.727944成交量(萬)2-0.616334-0.030071成交額(萬)通過因子載荷矩陣的進行計算得分,首先要對數(shù)據(jù)進行精度上的研究,通過累積貢獻(xiàn)度的值可以看出前兩個主成分的累積共享值以及到達(dá)72%,把此次研究的準(zhǔn)確度定為72%。再進行主成分得分,得到標(biāo)準(zhǔn)化之后數(shù)據(jù)的因子載荷矩陣。如下圖所示:表3-5海航創(chuàng)新用于PCA的標(biāo)準(zhǔn)化部分因子載荷矩陣0100.857842-0.47196510.953316-0.51825620.467323-0.31283030.91389-0.36807340.125717-0.23470250.440745-0.49278360.583761-0.51113070.6344630.2568788-0.912840-0.156056之后在查看變量在新坐標(biāo)中的坐標(biāo),從下圖可以看出,成交額對第一主成分的影響程度最大,其次成交量對第二主成分影響程度大于收盤價格對股票杰哥的的影響,其中影響程度的大小和成分系數(shù)沒有關(guān)系,只看絕對值的大小,所以可以看出成交量的影響力略微大于收盤價得影響。圖3-1海航創(chuàng)新用于PCA的主成分影響程度得到了三個變量對主成分的影響程度之后,可以觀察數(shù)據(jù)在主成分中的影響程度,于是查看了每個數(shù)據(jù)在新坐標(biāo)中的位置,如下圖所示:圖3-2海航創(chuàng)新用于PCA的數(shù)據(jù)在主成分中的影響程度可以由圖3-6可以看出第一主成分的所有系數(shù)都是負(fù)數(shù),而影響程度的大小和正負(fù)號沒有關(guān)系,看絕對值就大小來查看影響程度,所有負(fù)向得分越高,對第一主成分的影響越大[12],從圖3-7可以看出63號數(shù)據(jù)對第一主成分的影響最大,說明63號數(shù)據(jù)的成交額對股票價格預(yù)測最有幫助。對于第二組主成分可以看出,50號數(shù)據(jù)的成交量對股票數(shù)據(jù)的預(yù)測幫助最大。以上方法從PCA的原理上解釋了第一主成分和第二主成分的所包含的信息過程,而現(xiàn)在Python已經(jīng)有被封裝的PCA包,可以通過調(diào)用PCA包進行運算[13],如下圖所示:圖3-3海航創(chuàng)新用于PCA圖直接用于PCA算法的數(shù)據(jù)比先前的變量多,用了開盤價、收盤價、最高價格、最低價格以及成交量,通過對五個變量進行降維可以清晰地得到兩個主成分的圖,此種方法需要對數(shù)據(jù)是矩陣格式,[14]然后進行計算均值和方差,在進行標(biāo)準(zhǔn)化,然后經(jīng)過PCA的計算協(xié)方差矩陣并求協(xié)方差矩陣的特征值和特征呢過想想,經(jīng)過特征值排序得到主成分圖形。3.2主成分分析預(yù)測結(jié)果和分析從以上的實驗可以通過主成分分析看出變量對于主成分的影響程度,比如成交額和成交量分別對第一主成分和第二主成分的影響較大,可以認(rèn)為在進行股票預(yù)測的時候,成交額和成交量是對進行股票價格預(yù)測趨勢的關(guān)鍵,之后對不同詩句進行觀察其對第一主成分和第二主成分的影響發(fā)現(xiàn)63號數(shù)據(jù)的成交額對第一主成分的影響較大,在進行股票預(yù)測時,可以看63號數(shù)據(jù)成交額的大小,來看股該股價格是否適合購買,之后發(fā)展趨勢向上發(fā)展,也可以看出50號數(shù)據(jù)的交易量對第二主成分的影響較大,可以觀察該成交量的大小,如成交量的較大,可以進行購買,但是該數(shù)據(jù)采用的是以往數(shù)據(jù)進行研究,雖然可以看出交易額和交易量對股票價格的影響較大,但是不能簡單的認(rèn)為沒有其他影響,在現(xiàn)實生活中,股票價格的影響繁多,從宏觀到微觀,從國家政策到個人喜好,都對股票中交易量和交易額的大小存在影響,如果要準(zhǔn)確地預(yù)測股票的交易額和交易量的趨勢,需要更加精確的分析,所以看出主成分分析并不是足夠精確,也同樣存在一些問題,但是亦可以對股票的成交額和成交量進行人為主觀上的分析,可以給認(rèn)為是否進行購買提供一定的基礎(chǔ)。第4章時間序列方法在股票預(yù)測上的應(yīng)用在進行數(shù)據(jù)預(yù)測中,時間序列分析已經(jīng)相當(dāng)成熟,將數(shù)據(jù)按照時間的先后順序進行某一特征的排列,研究自身規(guī)律進行趨勢預(yù)測的一種方法。指數(shù)平滑法也是時間序列進行預(yù)測的重要方法之一。在股票價格預(yù)測中,指數(shù)平滑法也得到了充分的廣泛實踐,此技術(shù)已經(jīng)足夠成熟。[15]時間序列指數(shù)平滑法根據(jù)參數(shù)的不同可以分為,單參數(shù)指數(shù)平滑預(yù)測、雙參數(shù)指數(shù)平滑預(yù)測和三參數(shù)指數(shù)平滑預(yù)測三種方法。指數(shù)平滑通過加權(quán)移動平均,不僅可以對時間序列進行預(yù)測還可以描述時間序列的變化趨勢等,用時間序列以往的數(shù)據(jù)進行加權(quán)平均來作為未來的預(yù)測值,靠近現(xiàn)在的時刻的權(quán)值越大,通過對權(quán)值的調(diào)整來建立適合的模型。4.1單參數(shù)指數(shù)平滑預(yù)測單參數(shù)時間序列分析方法一般用于不包含長期趨勢和季節(jié)變動的平穩(wěn)時間序列的預(yù)測,經(jīng)常應(yīng)用于直線型數(shù)據(jù)。[16]對于指數(shù)平滑預(yù)測來說,選擇合適的平滑系數(shù)是提高預(yù)測準(zhǔn)度的關(guān)鍵,根據(jù)經(jīng)驗,一般選擇0.1-0.3的平滑系數(shù)較好,除此之外還需要根據(jù)時間序列的波動來判斷,如果序列的波動比較小,就可以選擇較小的平滑系數(shù),反之,選擇較大的平滑系數(shù)。在選擇完平滑系數(shù)之后,根據(jù)計算所得到的預(yù)測誤差的大小來綜合判斷合適的平滑系數(shù)。單參數(shù)指數(shù)平滑模型:St(1)=α其中St(1)表示第t期的指數(shù)平滑值,St?1本論文通過對海航創(chuàng)新的股票數(shù)據(jù),從2019年12月10日到2020年3月4日的收盤價進行單參數(shù)時間平滑預(yù)測,將55個數(shù)據(jù)分成兩組,第一組27個數(shù)據(jù),第二組27個數(shù)據(jù),最后一個進行結(jié)果比對,選擇這個數(shù)據(jù)的原因是,第二組數(shù)據(jù)呈現(xiàn)平穩(wěn)分布,較為穩(wěn)定,但是也存在一定的波動,可以用單參數(shù)指數(shù)平滑進行比對。表4-1海航創(chuàng)新2019年12月10日~2020年3月4日收盤價時間收盤價時間收盤價時間收盤價2019/12/102.232019/12/232.332020/1/62.362019/12/112.222019/12/242.432020/1/72.42019/12/122.282019/12/252.372020/1/82.342019/12/132.242019/12/262.382020/1/92.362019/12/162.342019/12/272.342020/1/102.392019/12/172.342019/12/302.332020/1/132.362019/12/182.312019/12/312.312020/1/142.352019/12/192.312020/1/22.342020/1/152.332019/12/202.442020/1/32.352020/1/162.282020/1/172.272020/2/171.792020/2/282.42020/2/51.692020/2/181.832020/3/22.562020/2/61.692020/2/191.852020/3/32.632020/2/71.72020/2/202.042020/3/42.542020/2/101.752020/2/212.242020/3/52.512020/2/111.752020/2/242.122020/3/62.442020/2/121.792020/2/252.332020/3/92.342020/2/131.742020/2/262.562020/3/102.352020/2/141.742020/2/272.62020/3/112.592020/3/122.852020/3/133.14通過遍歷的方式將數(shù)據(jù)存在數(shù)組中,兩組數(shù)據(jù)共兩行,建立一個空數(shù)組作為臨時儲存地,每次換行被清空,在通過均方誤差的大小來選擇最優(yōu)的α。先對兩組數(shù)據(jù)進行散點圖標(biāo)記。圖4-1海航創(chuàng)新2019年12月10日~2020年1月16日收盤價圖4-2海航創(chuàng)新2020年1月17日~2020年3月16日收盤價根據(jù)散點圖可以看出,第一組數(shù)據(jù)波動較大,而第二組趨于較穩(wěn)定的上升。根據(jù)經(jīng)驗法則選取α,由于第一組數(shù)據(jù)波動較大,不適合用單參數(shù)指數(shù)平滑法,第二組數(shù)據(jù)波動不大,但是呈現(xiàn)向上趨勢,選取平滑指數(shù)α要選擇0.6到1之間,由于第一組數(shù)據(jù)不適合該方法,便不對第一組數(shù)據(jù)進行分析,第二組數(shù)據(jù)的均方誤差為0.165634,預(yù)測值隨α的增大不斷增大,一般選擇0.6以上,下表寫出不同平滑系數(shù)對應(yīng)的預(yù)測值。表4-2海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值第二組α預(yù)測值0.120.11.20.220.21.40.320.31.60.420.41.80.520.520.620.62.20.720.72.40.820.82.60.920.92.8根據(jù)上表數(shù)據(jù),可以看出,將平滑系數(shù)選擇較大,得到的預(yù)測值和實際值依舊偏差較大。這是因為海航創(chuàng)新的數(shù)據(jù)無論是第一組還是第二組都不是平穩(wěn)數(shù)據(jù),第一組波動很大,而在第二組,可以明顯看出向上的趨勢,所以單參數(shù)平滑不適合用于波動較大的股票數(shù)據(jù)預(yù)測中。4.2雙參數(shù)指數(shù)平滑預(yù)測通過單參數(shù)指數(shù)平滑預(yù)測的結(jié)果表現(xiàn),單參數(shù)指數(shù)平滑對波動較大或者有明顯向上向下趨勢的序列預(yù)測誤差較大,只有對平穩(wěn)數(shù)據(jù)進行預(yù)測才能得到準(zhǔn)確的數(shù)值,而雙參數(shù)指數(shù)平滑相對于單參數(shù)指數(shù)平滑而言,彌補了一些缺陷,例如對于波動較大的數(shù)據(jù),可以進行更好的預(yù)測,是為具有線性趨勢的數(shù)據(jù)所進行的。雙參數(shù)指數(shù)平滑是基于數(shù)據(jù)進行單參數(shù)指數(shù)平滑的基礎(chǔ)上再進行一次指數(shù)平滑。[7]適用于只包含長期趨勢的非平穩(wěn)時間序列預(yù)測的。雙參數(shù)指數(shù)平滑模型:St(1)St(2)用來預(yù)測未來T期的xtfx=xt+TAT=2BT通過設(shè)定不同的指數(shù)平滑系數(shù),如下表所示:表4-3海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值均方誤差第二組α預(yù)測值均方誤差0.12.339562300.12.7789880.13353890.22.299625300.22.9045870.09799070.32.274607700.33.0135940.08281730.42.258587500.43.13876720.07407410.52.224930300.53.24719460.06415010.62.245261800.63.32656010.05237830.72.245107100.73.37793650.05237830.82.247864600.83.40743310.03703710.92.2529334700.93.42242710根據(jù)圖一可以看出第一組數(shù)據(jù)是非平穩(wěn)數(shù),但是不是只具有長期趨勢,可以從上表中看出,均方誤差接近于0,而第二種趨勢可以看出有向上的長期趨勢,所以第二組數(shù)據(jù)提供的信息較為準(zhǔn)確一些,可以看出當(dāng)平滑指數(shù)選擇0.9時,均方誤差已經(jīng)接近于0,此時對與雙參數(shù)指數(shù)平滑可以采用平滑指數(shù)為0.9進行計算,根據(jù)2020年3月16日提供的數(shù)據(jù)可以知道當(dāng)日的收盤價為3.45,與預(yù)測值十分接近,而第一組數(shù)據(jù)選取同樣的平滑系數(shù)0.9,真實值為2.35,相差不大,此時可以用平滑系數(shù)進行預(yù)測多期。根據(jù)預(yù)測可以得出后6期數(shù)據(jù):表4-4海航創(chuàng)新2019年12月10日~2020年3月16日后五期期預(yù)測數(shù)據(jù)第一組時間實際值預(yù)測值第二組時間實際值預(yù)測值2020/1/202.352.25292020/3/163.453.42242020/1/212.292.23622020/3/173.123.7053由上表數(shù)據(jù)可以看出,第一組數(shù)據(jù)的預(yù)測值貼近真實值,表明第一組數(shù)據(jù)具有長期趨勢,而第二組數(shù)據(jù)預(yù)測值也接近真實值,相比起單參數(shù)指數(shù)平滑,雙參數(shù)指數(shù)平滑在預(yù)測波動較大或者具有向上向下趨勢的序列上,精準(zhǔn)度大大提升。4.3三參數(shù)指數(shù)平滑預(yù)測三參數(shù)指數(shù)平滑針對具有長期趨勢和季節(jié)變動的非平穩(wěn)數(shù)據(jù)預(yù)測而言的,具有三個平滑系數(shù),可以看作對雙參數(shù)指數(shù)平滑的基礎(chǔ)上,在進行一次指數(shù)平滑。[8]三參數(shù)指數(shù)平滑模型:StStSt預(yù)測未來T期的值:xt+TAT=BT=αCT通過設(shè)定不同的指數(shù)平滑系數(shù),如下表所示:表4-5海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值均方誤差第二組α預(yù)測值均方誤差0.1-1.257300.1-0.55810.16560.2-5.060200.2-4.94080.11710.3-8.990100.3-9.47680三參數(shù)指數(shù)平滑的預(yù)估值為負(fù)數(shù),雖然均方誤差較小,但是不符合實際,故可以認(rèn)為,三參數(shù)指數(shù)平滑不適合該數(shù)據(jù)的運算,根據(jù)實驗可以看出,進行預(yù)測的時候,三參數(shù)指數(shù)平滑不一定優(yōu)于雙參數(shù)指數(shù)平滑,只有在具有曲率的時候及長期趨勢和季節(jié)變動的非平穩(wěn)序列中,三參數(shù)指數(shù)平滑才具有研究的意義。4.4時間序列預(yù)測結(jié)果和分析根據(jù)以上三個實驗可以看出,在進行預(yù)測的時候,對于不同的數(shù)據(jù)趨勢需要選定不同的參數(shù)個數(shù)進行預(yù)測,對于海航創(chuàng)新數(shù)據(jù)而言,具有長期趨勢,相比較的情況下,最適合用于雙參數(shù)指數(shù)平滑預(yù)測法,對于單參數(shù)指數(shù)平滑而言,數(shù)據(jù)不是平穩(wěn)序列,第一組數(shù)據(jù)波動很大,第二組數(shù)據(jù)呈現(xiàn)向上趨勢,均不適合單參數(shù)指數(shù)平滑,對于三參數(shù)指數(shù)平滑[17],由于序列不是對曲率地方進行預(yù)測,數(shù)據(jù)預(yù)測結(jié)果意義不大,相比較而言雙參數(shù)指數(shù)平滑的均方誤差較小,且預(yù)測值和真實值較為接近,但是時間序列分析僅是根據(jù)時間數(shù)據(jù)進行分析的,對于外界因素的變動沒有辦法進行分析,對于較長時間的預(yù)測而言,外界因素的影響導(dǎo)致了數(shù)據(jù)預(yù)測準(zhǔn)確性降低,使預(yù)測和實際嚴(yán)重不和或者偏差較大,例如在雙參數(shù)指數(shù)平滑第二組數(shù)據(jù),數(shù)據(jù)長時間呈現(xiàn)向上趨勢,但是由于疫情等政策的影響,會導(dǎo)致股票價格下降,這些外界因素不能代入計算,指數(shù)平滑只是根據(jù)以往數(shù)據(jù)進行預(yù)測,這也導(dǎo)致了在預(yù)測過程中,容易造成較大的偏差第5章BP神經(jīng)網(wǎng)絡(luò)在股票預(yù)測上的應(yīng)用BP算法是近些年較為流行的數(shù)據(jù)挖掘算法之一,是由輸入層、隱含層和輸出層組成,隱含層的層數(shù)和神經(jīng)元的個數(shù)是由人為決定的,通常情況下,輸入層的神經(jīng)元個數(shù)可以根據(jù)特征值來決定,而輸出層的層數(shù)是由變量的個數(shù)所決定的。每個神經(jīng)元都是對數(shù)據(jù)的一次處理,[18]BP神經(jīng)網(wǎng)絡(luò)是利用逆向傳播訓(xùn)練數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),也是近幾年神經(jīng)網(wǎng)絡(luò)中運用最廣泛的一種,通過函數(shù)映射以及模式分類,利用誤差平方的函數(shù),進行梯度下降來計算數(shù)據(jù)。[9]BP算法主要是向前傳播和反向傳播通常運用于函數(shù)逼近、模式識別、分類和數(shù)據(jù)壓縮中,也常用語預(yù)測數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)是非線性分析,雖然算法本身具有一定的局限性,但是具有自組織、自適應(yīng)和容錯性等優(yōu)點,適用于處理股票價格預(yù)測等具有諸多因素影響的非線性序列的預(yù)測中。本論文采用來"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",曲江文旅這九個股票從2019年12月18日到2020年3月19日的數(shù)據(jù)進行BP算法,通過前八個股票進行近期眾信旅游股票價格的預(yù)測。5.1BP神經(jīng)網(wǎng)絡(luò)BP網(wǎng)絡(luò)中,通過找到合適的權(quán)值和閾值,使得E進行目標(biāo)訓(xùn)練,再利用Sigmoid函數(shù)進行隱含層和輸出層的對應(yīng)函數(shù)。[19]在輸入層中,Xi輸入信號,Xd是隱層中的的閾值是通過Sigmoid中分離得到的,對通過對應(yīng)的函數(shù)進行對應(yīng)信號神經(jīng)元輸入權(quán)值,隱層獲得權(quán)值之后再對輸出層進行對應(yīng)神經(jīng)元的權(quán)值輸出。BP的反向傳播主要利用最小二乘法的方式進行回歸計算。最小二乘法公式:E=對于所用的數(shù)據(jù),每一列都是一組訓(xùn)練集,用于一個輸入層進行計算,本論文采用了九個訓(xùn)練集,行數(shù)代表輸入層的神經(jīng)元個數(shù),用于采用了59行的數(shù)據(jù),所以還有59個輸入層神經(jīng)元,通過三層的BP網(wǎng)絡(luò),其中隱層可以有一層,也可以多多層,網(wǎng)絡(luò)選用Sigmoid傳遞函數(shù),在通過誤差E反向傳遞不斷地通過訓(xùn)練調(diào)整權(quán)值和閾值使誤差E達(dá)到極小值。[20]Sigmoid傳遞函數(shù)公式:fx誤差公式:E=該模型由每組數(shù)據(jù)的海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游”,為輸入,以曲江文旅股票收盤價格為輸出,所以輸入層的節(jié)點數(shù)為8,輸出層的節(jié)點數(shù)為1.。本論文利用了海航創(chuàng)新,"嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游”,曲江文旅九個股票數(shù)據(jù)進行BP算法,找出九個股票之間的關(guān)聯(lián),進行數(shù)據(jù)的訓(xùn)練,最后對眾信旅游數(shù)據(jù)進行預(yù)測數(shù)據(jù)格式如下:表5-1BP算法數(shù)據(jù)海航創(chuàng)新嶺南控股ST云網(wǎng)西安飲食華天酒店張家界騰邦國際眾信旅行曲江文旅2.317.422.494.122.615.155.335.68.652.317.492.544.122.635.225.56.168.72.447.482.544.062.65.165.3268.662.337.272.573.952.565.085.16.048.462.437.342.613.992.65.175.166.218.55……2.856.382.34.13.094.944.386.2783.146.312.324.113.354.944.186.218.163.456.22.334.523.34.93.935.598.393.126.112.454.213.034.83.855.318.552.816.032.574.633.054.83.65.258.92.536.072.75.093.144.943.635.35——進行2020年3月19日的數(shù)據(jù)預(yù)測,通過至18日的九個股票數(shù)據(jù)進行訓(xùn)練,通過privite_data=np.array([2.53,6.07,2.7,5.09,3.14,4.94,3.63,5.35])將19日數(shù)據(jù)預(yù)測出來,如下圖所示:圖5-12020年3月19日預(yù)測結(jié)果可以用此方法對后十期數(shù)據(jù)進行預(yù)測,然后通過對比真實值和預(yù)測值來觀察BP算法進行股票預(yù)測的準(zhǔn)確度,將3月6日之前的九個股票的收盤價格進行續(xù)訓(xùn)練,每得到一個預(yù)測值之后,添加3月6日的九個數(shù)據(jù)真實值加入訓(xùn)練,之后得到3月9日的預(yù)測值,以此類推,從而得到3月6日至3月19日的預(yù)測值,然后將預(yù)測值和真實值的數(shù)據(jù)進行對比,如下表所示:表5-2曲江文旅預(yù)測結(jié)果比對時間真實值預(yù)測值2020年3月6日7.897.6462548969715162020年3月9日7.657.5856211797359732020年3月10日7.847.9982148974939352020年3月11日88.1348367057243322020年3月12日8.168.2431509716458772020年3月13日8.398.349362678908722020年3月17日8.558.5853236572996472020年3月18日8.98.2871742592945222020年3月19日8.438.57037899323225圖5-2曲江文旅預(yù)測結(jié)果比對直線圖由曲線圖可以看出根據(jù)另外八個股票預(yù)測額曲江文旅的股票數(shù)據(jù)與真實值相近,可以看出BP神經(jīng)算法的準(zhǔn)確性較高。這是因為,在機器學(xué)習(xí)的過程中,信號從輸入層輸入,進過隱藏層處理之后傳遞給輸出層,此時進行輸出層預(yù)期值和實際值的對比,如果對比較大,進行誤差的反向傳播,將信號傳入隱藏層處理反向傳遞給輸入層,從而獲得每一個層的誤差信號,再通過權(quán)值的修改,直到輸出層的預(yù)測值和實際值較為接近為止。在傳遞過程中,只用的是單極性的sigmoid函數(shù)進行梯度下降法,可以求得目標(biāo)函數(shù)的極小值,得到最小均方誤差。[21]5.2BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果和分析由實驗中得到數(shù)據(jù)所做的折線圖可以看出,預(yù)測數(shù)據(jù)和真實數(shù)據(jù)之間的擬合程度較強,比較貼近,BP神經(jīng)算法具有自適應(yīng)性,可以通過訓(xùn)練數(shù)據(jù),得到數(shù)據(jù)之間的關(guān)聯(lián),在數(shù)據(jù)中,通過九個股票之間的聯(lián)系,可以得到人腦不能總結(jié)出的信息,再通過正向傳播和反向傳播,使預(yù)測數(shù)據(jù)不斷接近真實數(shù)據(jù),實際上,BP神經(jīng)算法已經(jīng)廣泛用于類似股票預(yù)測的領(lǐng)域當(dāng)中,因為股票預(yù)測具有不確定性,受外界干擾較多,影響因素也繁多,但是根據(jù)機器學(xué)習(xí),可以通過成百上千次的學(xué)習(xí),得到最符合現(xiàn)實的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)是近代以來得到廣泛應(yīng)用的數(shù)據(jù)挖掘方法之一,本模型沒有對一個股票的常用技術(shù)指標(biāo)進行詳細(xì)分析,而是采用九個股票之間的聯(lián)系,得到曲江文旅股票收盤價格的預(yù)測,根據(jù)實驗結(jié)果,雖然BP網(wǎng)絡(luò)的預(yù)測結(jié)果比較好,但是影響股票的因素很多,如果只根據(jù)這一網(wǎng)絡(luò)進行預(yù)測,可以不能及時了解到股票的走向,因為每一天的數(shù)據(jù)都是新加上去的,但是在選取股票是否進行購買的時候,并不是根據(jù)一天數(shù)據(jù)就能確定是否購買,而該模型不能對長期進行預(yù)測,由于里面的權(quán)值和閾值都是在變化的,所以的預(yù)測值也是不斷在變化,只能在大概范圍內(nèi)確定該股票的購買是否可行,卻不能看出能否長期盈利,比如該模型進行預(yù)測值,得到預(yù)測值在7.5-8.5上下浮動,可以看出近期的股票收盤價格已經(jīng)高于8.5,而得到的預(yù)測結(jié)果雖然隨著權(quán)值和閾值不斷變化,但是預(yù)測值卻低于8.5,購買的意義不大,基本可以看出現(xiàn)在的收盤價在較高價格,如果現(xiàn)在進行購買容易導(dǎo)致虧損。第6章三種算法比較6.1三種算法比較通過本論文的三個模型進行股票預(yù)測。首先利用了主成分分析對海航創(chuàng)新的收盤價、交易額和交易量等進行研究發(fā)現(xiàn)交易額和交易量股票趨勢的主要成分,交易額對第一主成分影響較大,而交易量略大于收盤價對第二主成分的影響,根據(jù)主成分進行分析,以為主成分是通過對數(shù)據(jù)變量進行降維,用最少的成分代表盡可能多的原始數(shù)據(jù),所以可以粗略的根據(jù)股票的交易額和交易量繼續(xù)主觀上的分析來確定是否購買該股票,以及該股票購買的盈利可能性高低,如果交易額和交易量近期的數(shù)量都較多,則可以購買該股票。除此之外,本論文還對開盤價、收盤價、最高價格、最低價格以及成交量也進行了一次主成分分析,可以清晰地看見有兩個主成分,所以也可以從成交量和收盤價來觀察股票的購買盈利性有多大,但是根據(jù)主成分分析的飛一個實驗,可以看出交易額和交易量對主成分的影響比較大一些。第二個實驗是對海航創(chuàng)新股票進行時間序列指數(shù)平滑法,通過參數(shù)的個數(shù)不同,分為了單參數(shù)指數(shù)平滑法、雙參數(shù)指數(shù)平滑法和三參數(shù)指數(shù)平滑法三種類型,將數(shù)據(jù)分為了兩段,第一組數(shù)據(jù)波動較大,第二組數(shù)據(jù)呈現(xiàn)明顯向上趨勢,通過單參數(shù)指數(shù)平滑發(fā)現(xiàn)無論第一組還是第二組數(shù)據(jù)得到的預(yù)測值都不是很理性,雖然MSE的值都比較小,但是預(yù)測值和真實值之間偏差較大,這是因為單參數(shù)指數(shù)平滑適合平穩(wěn)數(shù)據(jù),而第一組和第二組的數(shù)據(jù)都是非平穩(wěn)時間序列,所以不適應(yīng),之后我又進行雙參數(shù)指數(shù)平滑,而雙參數(shù)指數(shù)平滑通常適用于只含有長期趨勢的指數(shù)平滑法,通過對第一組數(shù)據(jù)和第二組數(shù)據(jù)進行研究發(fā)現(xiàn)第一組數(shù)據(jù)和第二組數(shù)據(jù)的MSE都非常小,而第一組數(shù)據(jù)的MES接近于0,是由于存在長期趨勢,但是波動較大,還可能存在其他趨勢,而第二組數(shù)據(jù)的MES也較小,從預(yù)測結(jié)果來看兩組數(shù)據(jù)的預(yù)測比較準(zhǔn)確,之后我又對數(shù)據(jù)進行三參數(shù)指數(shù)平滑法,我發(fā)現(xiàn)兩組數(shù)據(jù)的擬合程度不好,出現(xiàn)了復(fù)數(shù),嚴(yán)重與現(xiàn)實不合,因為三參數(shù)指數(shù)平滑法一般用于含有季節(jié)變動和長期趨勢的非平穩(wěn)時間序列,而三參數(shù)指數(shù)平滑一般用于曲率的地方,所以不適合該數(shù)據(jù)。時間序列平滑法是根據(jù)以往數(shù)據(jù)通過加權(quán)平均的方法進行計算,但是股票是存在許多影響因素,光憑以往數(shù)據(jù)不能及時的反應(yīng)股票趨勢的變化,只適合用于波動不大,具有明顯規(guī)律的序列。[21]第三個實驗是利用BP算法對"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",曲江文旅九個股票進行訓(xùn)練得到之間的關(guān)聯(lián),然后通過"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",對曲江文旅股票的收盤價格進行預(yù)測,通過實驗得到了九組預(yù)測數(shù)據(jù),然后通過和真實數(shù)據(jù)的對比,發(fā)現(xiàn)預(yù)測結(jié)果比較精確,因為BP算法具有自適應(yīng),自學(xué)習(xí)等能力,由于在算法中權(quán)值和閾值是通過不斷地調(diào)整,所以得到的預(yù)測值每次都有一定的變化,但是可以看出整體的趨勢,例如預(yù)測的過程中,得到的預(yù)測值小于8.5,但是最近一次數(shù)據(jù)顯示的真實值大于8.5,則認(rèn)為該股票的股票價格處于較高峰值,該股票不建議購買,總體而言,BP算法的預(yù)測結(jié)果比較好,比較適合像股票預(yù)測具有多因素影響的數(shù)據(jù)預(yù)測中,但是股票預(yù)測中依舊有許多因素影響,有些突發(fā)因素?zé)o法通過學(xué)習(xí)調(diào)整權(quán)值和閾值來做出及時反映,所以光靠這模型來進行預(yù)測是遠(yuǎn)遠(yuǎn)不夠的??偨Y(jié)大數(shù)據(jù)時代已經(jīng)到來,人工智能、數(shù)據(jù)挖掘這些詞匯已經(jīng)耳熟能詳,數(shù)據(jù)的價值也在不斷的提高,數(shù)據(jù)的積累也在不斷增加,過去通過圖表形式展現(xiàn)和分析已經(jīng)不能跟上時代的步伐,為什么數(shù)據(jù)挖掘技術(shù)崛起,因為可以從海量的數(shù)據(jù)中提煉出人腦不能分析和感知出來的聯(lián)系,著名的案例,啤酒和尿布,看似沒有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國標(biāo)簽印刷行業(yè)發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2024-2030年中國林業(yè)市場發(fā)展戰(zhàn)略及投資規(guī)模分析報告
- 2024-2030年中國機油管項目可行性研究報告
- 2024-2030年中國服裝零售行業(yè)經(jīng)營狀況及融資渠道分析報告
- 2024-2030年中國有機茶市場發(fā)展現(xiàn)狀及前景規(guī)劃研究報告
- 2024-2030年中國普通刨花板市場運行動態(tài)及前景趨勢預(yù)測報告
- 2024-2030年中國旅游行業(yè)建設(shè)模式分析及投資戰(zhàn)略建議報告
- 護理思政課程設(shè)計書
- 四季服裝定制課程設(shè)計
- 流動資金貸款管理辦法培訓(xùn)1
- 血管瘤護理措施
- 智能穿戴行業(yè)發(fā)展趨勢
- 公共場所的肺結(jié)核消毒措施
- 圓及其在生活中的應(yīng)用
- 春節(jié)晚宴策劃方案1
- 如何制作一個簡易的動物細(xì)胞模型
- 2024年便攜式X光機行業(yè)分析報告及未來發(fā)展趨勢
- 騰訊公司營銷策略
- 起重指揮手培訓(xùn)課件
- 農(nóng)商銀行信貸客戶經(jīng)理管理辦法
評論
0/150
提交評論