




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘在股票投資中的應用摘要:研究股票價格預測,由于股票價格具有非線性、隨機性等變化規(guī)律,同時股票市場與國內(nèi)外經(jīng)濟政治變化有關(guān),因此通過簡單的單個模型分析是很難準確有效的對股票價格進行預測,更準確的估價預測需要分層進行各類模型分析,本文運用spss clementine系統(tǒng)通過ARIMA法對股票價格進行整體的預測即股指預測,接著利用神經(jīng)網(wǎng)絡(luò)對樂視股票價格進行漲跌預測。摘要:ARIMA;神經(jīng)網(wǎng)絡(luò);樂視股票一、 背景及意義進行股票投資是為了獲得更大的收益,然而由于股票市場具有較大的動態(tài)特性,股票投資的收益與風險往往是成正比的,投資收益越高,存在的風險則越大。有效地進行股票價格的預測,最大程度規(guī)避
2、股票風險,增加投資收益,是股票投資者最關(guān)注的熱點問題。隨著市場經(jīng)濟的不斷發(fā)展和中國股市的規(guī)范化、正規(guī)化,股票投資不斷興起,股票市場在金融投資領(lǐng)域占有越來越重要的地位,成為不可缺少的組成部分。股票價格的變化直接反映出股票市場的狀態(tài),如果能夠很好的預測股票價格的走勢,將不但對我們?nèi)粘I町a(chǎn)生巨大影響,而且還會對國家的經(jīng)濟發(fā)展提供有價值的參考。所謂對股票進行預測,主要是在研究股票指數(shù)過去的信息后,找到適合其數(shù)據(jù)特點的科學方法對其預測,進而得到股市未來價格。但是影響股票價格的因素有很多,如政策、經(jīng)濟狀況、股票投資者心理因素等,并且這些因素相互交錯,彼此存在約束,僅應用線性分析會含有誤差。因此,如何較為
3、準確的預測股票短期內(nèi)發(fā)展趨勢以及長期內(nèi)的大體走向已經(jīng)成為當今較為關(guān)注的熱點之一。股市具有高收益與高風險并存的特性,如何最大程度的獲得高收益,規(guī)避高風險成為人們熱切關(guān)心的問題。因此股市的建模預測研宄對金融建設(shè)及其經(jīng)濟的發(fā)展具有極其重要的意義。在現(xiàn)實的經(jīng)濟活動過程中,股價序列的變化呈現(xiàn)出隨機性和時變性等特性。所以如何把握股價變動的規(guī)律,一直是當今社會經(jīng)濟研宄中的一個極其重要的問題。由于股票價格序列可以看做是含有白噪聲的時間序列,所以可以通過建立估價序列的適應或最有統(tǒng)計模型對股價的變化作出分析與預測。二、 國內(nèi)研究現(xiàn)狀在證券領(lǐng)域,早在 1993年 Agrawal 就提出了通過客戶的交易數(shù)據(jù)挖掘其中的
4、項集間的關(guān)聯(lián)規(guī)則的方案,隨后吸引了諸多相關(guān)領(lǐng)域的研究人員對如何挖掘關(guān)聯(lián)規(guī)則進行研究,通過引入隨機采樣、并行等方法對原有的算法進行優(yōu)化,關(guān)聯(lián)規(guī)則挖掘也得到推廣。在其基礎(chǔ)上,徐曉峰提出了針對證券交易中單交易項數(shù)據(jù)挖掘的頻繁模式鏈表關(guān)聯(lián)規(guī)則挖掘方法,可以有效的提高客戶的個性化服務質(zhì)量。董澤坤則針對關(guān)聯(lián)規(guī)則的挖掘算法,提出了 ES-Apriori 算法,對關(guān)聯(lián)規(guī)則分析過程中的數(shù)據(jù)庫掃描次數(shù)進行了簡化。周昌樂基于 BP 神經(jīng)網(wǎng)絡(luò)容易陷入局部最小解和網(wǎng)絡(luò)只有一個隱含層的缺陷,提出一種新的部分神經(jīng)進化網(wǎng)絡(luò),增加了網(wǎng)絡(luò)的隱層數(shù),將預測效果提升了很多。對于非線性時間序列的研究是一個難點,王上飛在充分學習滑動窗口
5、技術(shù)的基礎(chǔ)上,將其與 RBF 神經(jīng)網(wǎng)絡(luò)聯(lián)系起來對國際商業(yè)機器公司(IBM)公司股票進行預測,最終得到的股票數(shù)據(jù)走勢基本相同,曲線擬合效果很好。針對股價數(shù)據(jù)非平穩(wěn)、非線性的特點,崔建福,李興緒分別建立 GARCH 模型與 BP 網(wǎng)絡(luò)模型對比分析兩個模型的預測效果。得到結(jié)論:對于波動幅度大的時間序列,神經(jīng)網(wǎng)絡(luò)以其較強的泛化能力,使得從非線性角度建模效果優(yōu)于非平穩(wěn)角度建模,但 BP 網(wǎng)絡(luò)也存在訓練時間長、易陷入局部極小值的問題。三、數(shù)據(jù)挖掘(一) 數(shù)據(jù)挖掘的概念、社會需求數(shù)據(jù)挖掘概念最早是由Usama Fayaad 1995年加拿大蒙特利爾的第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會議上提出的,它的提出是與計算
6、機科學、人工智能相關(guān)的機器學習等發(fā)展分不開的,數(shù)據(jù)挖掘一般是指在數(shù)據(jù)庫中,利用各種分析方法與技術(shù),將過去所累積的大量繁雜的歷史數(shù)據(jù)中,進行分析、歸納與整合等工作,以萃取出有用的信息,找出有意義且用戶有興趣的模式,提供企業(yè)管理階層在進行決策時的參考依據(jù)。隨著計算機技術(shù),特別是數(shù)據(jù)庫技術(shù)的快速發(fā)展和廣泛應用,各行各業(yè)積累的數(shù)據(jù)量越來越大。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,必
7、將導致“數(shù)據(jù)包扎但知識貧乏”的現(xiàn)象。例如,股票經(jīng)紀人如何從日積月累的大量股票行情變化的歷史記錄中發(fā)現(xiàn)其變化規(guī)律,預測未來趨勢,從而決定未來投資方向;大型賣場的決策人員怎樣才能根據(jù)過去幾年的銷售記錄來判斷分析顧客的消費習慣和行為,及時變換營銷策略?金融領(lǐng)域的經(jīng)紀人需要從顧客的消費習慣中判斷正常消費,減少金融詐騙的發(fā)生,等等。數(shù)據(jù)挖掘能為決策者提供重要的有價值的信息或知識,產(chǎn)生不可估量的效益。目前,數(shù)劇挖掘產(chǎn)品尚不常熟,但市場份額卻日益擴大。其原因就是越來越多的大中型企業(yè)開始利用數(shù)據(jù)挖掘工具來分析公司的數(shù)據(jù),為決策層做出輔助決策,以便于在市場競爭中領(lǐng)先,從而立于不敗之地。(二)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘
8、的過程大致分為:問題定義、數(shù)據(jù)收集與預處理、數(shù)據(jù)挖掘?qū)嵤?,以及挖掘結(jié)果的及時與評估。(1) 問題定義數(shù)據(jù)挖掘是為了從大量數(shù)據(jù)中發(fā)現(xiàn)游泳的令人感興趣的信息,因此發(fā)現(xiàn)何種知識就成為整個過程中第一個也最重要的一個階段。在這個過程中,必須明確數(shù)據(jù)挖掘任務的具體要求,同時確定數(shù)據(jù)挖掘所需要采用的具體方法。(2) 數(shù)據(jù)收集與預處理這個過程主要包括:數(shù)據(jù)選擇、數(shù)據(jù)預處理和數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)選擇的目的就是確定數(shù)據(jù)挖掘任務所涉及的操作數(shù)據(jù)對象(目標數(shù)據(jù)),也就是根據(jù)數(shù)據(jù)挖掘任務的具體需求,從相關(guān)數(shù)據(jù)源中抽取出于挖掘任務相關(guān)的數(shù)據(jù)集。數(shù)據(jù)預處理通常包括消除噪音、遺漏數(shù)據(jù)處理、消除重復數(shù)據(jù)、數(shù)據(jù)類型轉(zhuǎn)換等處理。數(shù)據(jù)轉(zhuǎn)換
9、的主要目的就是消減數(shù)據(jù)集合的特征維數(shù)(簡稱降維),即從初始特征中篩選出真正與挖掘任務相關(guān)的特征,以便有效提高數(shù)據(jù)挖掘效率。(3) 數(shù)據(jù)挖掘?qū)嵤└鶕?jù)挖掘任務定義及已有的方法(分類、聚類、關(guān)聯(lián)等)選擇數(shù)據(jù)挖掘?qū)嵤┧惴?。其間主要考慮:數(shù)據(jù)特定和結(jié)果知識描述方式。(4) 結(jié)果解釋與評估實施數(shù)據(jù)挖掘所獲得的挖掘結(jié)果,需要進行評估分析,以便有效發(fā)現(xiàn)有意義的知識模式。因為數(shù)據(jù)挖掘所獲得的初始結(jié)果中可能存在冗余或無意義的模式,也可能所獲得的模式不滿足挖掘任務的需要,這時就需要退回到前面的挖掘階段,重新選擇數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種數(shù)據(jù)挖掘算法等。此外還需要對所發(fā)現(xiàn)的模式進行可視化,
10、表示將挖掘結(jié)果轉(zhuǎn)換為用花移動的另一種表示方法。數(shù)據(jù)挖掘的實施,僅僅是整個數(shù)據(jù)挖掘過程中的一個步驟。影響數(shù)據(jù)挖掘質(zhì)量的兩個因素分別是:所采用數(shù)據(jù)挖掘方法的有效性;用于數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量和數(shù)據(jù)規(guī)模。如果選的數(shù)據(jù)集合不合適,或進行了不恰當?shù)霓D(zhuǎn)換,就不能獲得好的挖掘結(jié)果。三、 時間序列模型與神經(jīng)網(wǎng)絡(luò)(一) 時間序列模型1、時間序列時間序列,也叫時間數(shù)列、歷史復數(shù)或動態(tài)數(shù)列。它是將某種統(tǒng)計指標的數(shù)值,按時間先后順序排到所形成的數(shù)列。時間序列預測法就是通過編制和分析時間序列,根據(jù)時間序列所反映出來的發(fā)展過程、方向和趨勢,進行類推或延伸,借以預測下一段時間或以后若干年內(nèi)可能達到的水平。其內(nèi)容包括:收集與整理
11、某種社會現(xiàn)象的歷史資料;對這些資料進行檢查鑒別,排成數(shù)列;分析時間數(shù)列,從中尋找該社會現(xiàn)象隨時間變化而變化的規(guī)律,得出一定的模式;以此模式去預測該社會現(xiàn)象將來的情況。2、時間序列預測法的步驟:第一步:收集歷史資料,加以整理,編成時間序列,并根據(jù)時間序列繪成統(tǒng)計圖。時間序列分析通常是把各種可能發(fā)生作用的因素進行分類,傳統(tǒng)的分類方法是按各種因素的特點或影響效果分為四大類:(1)長期趨勢;(2)季節(jié)變動;(3)循環(huán)變動;(4)不規(guī)則變動。第二步:分析時間序列。時間序列中的每一時期的數(shù)值都是由許許多多不同的因素同時發(fā)生作用后的綜合結(jié)果。第三步:求時間序列的長期趨勢(T)季節(jié)變動(s)和不規(guī)則變動(I)
12、的值,并選定近似的數(shù)學模式來代表它們。對于數(shù)學模式中的諸未知參數(shù),使用合適的技術(shù)方法求出其值。第四步:利用時間序列資料求出長期趨勢、季節(jié)變動和不規(guī)則變動的數(shù)學模型后,就可以利用它來預測未來的長期趨勢值T和季節(jié)變動值s,在可能的情況下預測不規(guī)則變動值I。然后用以下模式計算出未來的時間序列的預測值Y: 加法模式 T+S+I=Y乘法模式 TSI=Y如果不規(guī)則變動的預測值難以求得,就只求長期趨勢和季節(jié)變動的預測值,以兩者相乘之積或相加之和為時間序列的預測值。如果經(jīng)濟現(xiàn)象本身沒有季節(jié)變動或不需預測分季分月的資料,則長期趨勢的預測值就是時間序列的預測值,即T=Y。但要注意這個預測值只反映現(xiàn)象未來的發(fā)展趨勢
13、,即使很準確的趨勢線在按時間順序的觀察方面所起的作用,本質(zhì)上也只是一個平均數(shù)的作用,實際值將圍繞著它上下波動。(二) 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一門活躍的邊緣性交叉學科,是在人腦組織結(jié)構(gòu)和運行機制的認識理解基礎(chǔ)之上模擬其智能行為的一種工程系統(tǒng)。神經(jīng)網(wǎng)絡(luò)既是高度非線性動力學系統(tǒng),又是自適應組織系統(tǒng),可用來描述認知、決策及控制的職能行為,其中心問題是對智能的認知和模擬。神經(jīng)網(wǎng)絡(luò)理論是巨量信息并性處理和大規(guī)模并行計算的基礎(chǔ)。1、 人工神經(jīng)網(wǎng)絡(luò)模型人工神經(jīng)網(wǎng)絡(luò)是大量簡單元件廣泛相連接而成的復雜網(wǎng)絡(luò)系統(tǒng),它是現(xiàn)代神經(jīng)科學成果的基礎(chǔ)下提出的,反映了人腦功能的若干基本特征,但并非神經(jīng)系統(tǒng)的逼真描寫,而只是一種抽象的
14、數(shù)學模型。人工神經(jīng)網(wǎng)絡(luò)其實質(zhì)是一門非線性科學,它具有并行處理、容錯性、自學習功能,有別于傳統(tǒng)方法,己在模式識別、自動化控制等領(lǐng)域取得了驚人的成就。在國外,人工神經(jīng)網(wǎng)絡(luò)已經(jīng)成為了投資公司及基金經(jīng)理的強力工具與高效助手。國內(nèi)起步雖晚,但對于基于神經(jīng)網(wǎng)絡(luò)的股票預測系統(tǒng)也有一定的研究。人工神經(jīng)網(wǎng)絡(luò)的應用按照面向的預測對象可分為這三類。第一類為通過將股票分類為強勢股與弱勢股來預測股票表現(xiàn)為優(yōu)秀股,一般股,較差股。這類人工神經(jīng)網(wǎng)絡(luò)應用做出的決策只提供能否盈利,并不提供期望的價格及期望的盈利。第二類對股票價格進行預測,這些系統(tǒng)基于之前的股價及相關(guān)的金融系數(shù)嘗試預測未來一天或幾天的價格。第三類重要的人工神經(jīng)網(wǎng)
15、絡(luò)在股票市場中的應用是對股票表現(xiàn)建立模型及預測。這類應用不僅預測股票的未來價格,也估算重要影響因素,可能影響結(jié)果的變量的敏感度分析,以及其他相關(guān)性分析。2、人工神經(jīng)元模型 神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點構(gòu)成,這些節(jié)點也稱為神經(jīng)元或單元。節(jié)點之間相互連接,并且具有不同的權(quán)重。每一個節(jié)點都具有其特點的輸出函數(shù),稱之為激活函數(shù)。其原理可以表示如圖所示。圖1人工神經(jīng)元模型 其中X1-Xn為輸入信號,Wij為神經(jīng)元i及j之間的連接權(quán)重,為閥值。所以神經(jīng)元i的輸出和輸入一般可以表示為:yi=f(j=1nWijXj-)四、實證分析(一)神經(jīng)網(wǎng)絡(luò)模型預測1、數(shù)據(jù)來源數(shù)據(jù)來源于Wind金融終端,研究對象是上證指數(shù)從201
16、5年7月24日至2016年5月31日以來的收盤價序列數(shù)據(jù)。其中變量date是日期,變量price是上證指數(shù)的收盤價的序列數(shù)據(jù)。選擇輸入變量與預測變量,輸入變量包括當日最高價,當日最低價,當日成交量,當日成交額,5日移動均線序列數(shù)據(jù),7日移動均線序列數(shù)據(jù),輸出變量為當日收盤價。2、變量的重要性圖2由圖可以看出當日最低價對收盤價的影響最大,其次是當日最高價。5日移動均線序列數(shù)據(jù)與成交量對收盤價的影響差不多。7日移動均線序列數(shù)據(jù)對收盤價的影響是最小的。3、預測圖3由預測與實際價格的擬合圖可以看出預測的估價走勢與實際估價走勢大致相同,但預測的偏高。(二)時間序列的預測1、數(shù)據(jù)來源數(shù)據(jù)來源于Wind金融
17、終端,研究對象是上證指數(shù)從2015年7月24日至2016年5月31日以來的收盤價序列數(shù)據(jù)。其中變量date是日期,變量price是上證指數(shù)的收盤價的序列數(shù)據(jù)。2、實證分析(1)序列的平穩(wěn)性圖4收盤價的趨勢圖由圖可以看出收盤價是非平穩(wěn)的且有一定的下降趨勢,沒有明顯的季節(jié)性。(2)建立模型表1圖5表1是建立的時間序列模型,由P值均小于0.05得出模型成立,圖5是收盤價的殘差自相關(guān)函數(shù)圖,可以看出殘差平穩(wěn)。(3)預測圖6圖6是又ARIMA模型進行預測后得到的預測結(jié)果與實際結(jié)果進行的擬合,可以看出二者走勢大致相同,說明擬合的效果不錯。五、結(jié)論本文使用了數(shù)據(jù)挖掘方法中的時間序列預測方法、神經(jīng)網(wǎng)絡(luò)模型對同
18、一股票的當日收盤價的走勢進行了預測。采用數(shù)據(jù)挖掘技術(shù)解決實際問題,說明了在信息科技時代,信息化處理數(shù)據(jù)是一個必然趨勢,對股場中眾多股民在選擇股票及回避風險中具有較為深遠的參考意義。中國的股票市場經(jīng)歷了十多年的發(fā)展,逐漸已經(jīng)走向了成熟,股票市場是金融市的重要組成部分,股票的交易與發(fā)行促進了市場經(jīng)濟的發(fā)展,是一個國家市場經(jīng)濟的產(chǎn)物。近幾年,隨著經(jīng)濟的快速發(fā)展,股票已經(jīng)成為了最常見的一種投資方式,因此股票的預測就成為了人們最為關(guān)心的問題,不論是投資者還是管理者對于股票市場的波動都有著特別的關(guān)注,股票是一種高風險,高收入的投資方式,因此,近幾年,股票的預測也成為一個熱門的話題,對股票進行準確的預測,對
19、管理者來說能夠了解股票市場的動態(tài),從而制定相關(guān)的決策,而對于投資者來說,準確的預測股票價格,可以獲得更高的收益。然而股票的價格受到宏觀經(jīng)濟指標、利率水平、行業(yè)狀況、國家政策、投資心理等因素的影響,股票的價格序列是一個十分復雜的非線性動態(tài)系統(tǒng),要準確預測股票價格趨勢是很難完成的。因此,無論是利用技術(shù)分析還是用時間序列進行建模都有一定的誤差,都需要投資者根據(jù)國家政策,經(jīng)濟狀況和時事熱點等一系列的問題具體情況具體分析,不要只純粹的相信某一指標或者某一模型,畢竟股票市場充滿了不可控性。參考文獻:1 R. Agrawal, T. Imielinski, and A. Swami, Mining association rules between sets ofitems in large databasesJ,Proceedings of the ACM SIGMOD Conference on Management of data, 1993, 207-216 2 R. Agrawal, and R. Srikant,Fast algorithms for mining association rules in la
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 邯鄲市雞澤一中高三上學期第一次月考數(shù)學試卷(文科)
- 地震應急工作自查報告范文(5篇)
- 案場接待年終工作總結(jié)范文(5篇)
- 山西省呂梁市2025年高三年級第二次模擬考試思想政治試題(含解析)
- 河北省邯鄲市部分學校2025屆高考模擬預測地理試題(含答案)
- 2025學年統(tǒng)編版語文六年級下冊第一單元綜合評價試卷
- 2024-2025學年教科版四年級科學下冊月考測試卷(含答案)
- 金融行業(yè)早會方案設(shè)計
- 2025至2031年中國雙灰紙行業(yè)投資前景及策略咨詢研究報告
- 提高初中英語教學質(zhì)量措施
- GB/T 10810.1-2025眼鏡鏡片第1部分:單焦和多焦
- 防詐騙理財培訓
- 中標方轉(zhuǎn)讓合同范例
- 2024-2025學年高中語文選擇性必修下冊 第2單元單元檢測(原卷版)
- 急性胰腺炎完整版2024
- 網(wǎng)評員培訓課件
- 哪吒主題課件模板文檔
- 《四時用藥例》教案-【中職專用】高二語文同步教學(高教版2023·拓展模塊下冊)
- 2025年寧波職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫及答案(歷年真題)
- 《基于PLC的交通信號燈控制系統(tǒng)的設(shè)計》5400字【論文】
評論
0/150
提交評論