論基于股票時間序列數(shù)據(jù)的關(guān)聯(lián)細則挖掘研究_第1頁
論基于股票時間序列數(shù)據(jù)的關(guān)聯(lián)細則挖掘研究_第2頁
論基于股票時間序列數(shù)據(jù)的關(guān)聯(lián)細則挖掘研究_第3頁
論基于股票時間序列數(shù)據(jù)的關(guān)聯(lián)細則挖掘研究_第4頁
論基于股票時間序列數(shù)據(jù)的關(guān)聯(lián)細則挖掘研究_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、南昌大學(xué)2003級碩士學(xué)位論文文獻綜述報告基于股票時刻序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究Study on Mining Association Rules from Stock Time Series Data 系 不: 計算機科學(xué)與技術(shù)系專 業(yè): 計算機應(yīng)用技術(shù)研究方向: 人工智能研 究 生: 汪廷華導(dǎo) 師: 程從從(教授)2005年03月一引言隨著計算機信息系統(tǒng)的日益普及,大容量存儲技術(shù)的進展以及條形碼等數(shù)據(jù)獵取技術(shù)的廣泛應(yīng)用,人們在日常事務(wù)處理和科學(xué)研究中積存了大量的各種類型的數(shù)據(jù)。在這些數(shù)據(jù)中,有專門大一部分是呈現(xiàn)時刻序列(time series)類型的數(shù)據(jù)。所謂時刻序列數(shù)據(jù)確實是按時刻先后順

2、序排列各個觀測記錄的數(shù)據(jù)集1,如金融證券市場中每天的股票價格變化;商業(yè)零售行業(yè)中,某項商品每天的銷售額;氣象預(yù)報研究中,某一地區(qū)的每天氣溫與氣壓的讀數(shù);以及在生物醫(yī)學(xué)中,某一癥狀病人在每個時刻的心跳變化等等。然而,我們應(yīng)該注意到:時刻序列數(shù)據(jù)不僅僅是歷史事件的記錄,更重要的是蘊藏這些數(shù)據(jù)其中不顯現(xiàn)的、有味的模式。隨著時刻推移和時刻序列數(shù)據(jù)的大規(guī)模增長,如何對這些海量數(shù)據(jù)進行分析處理,挖掘其背后蘊藏的價值信息,關(guān)于我們揭示事物進展規(guī)律變化的內(nèi)部規(guī)律,發(fā)覺不同事物之間的相互關(guān)系,為人們正確認識事物和科學(xué)決策提供依據(jù)具有重要的實際意義。時刻序列數(shù)據(jù)分析按照不同的任務(wù)有各種不同的方法,一般包括趨勢分析

3、、相似性搜索、與時刻有關(guān)數(shù)據(jù)的序列模式挖掘、周期模式挖掘等2。本綜述是針對證券業(yè)中股票時刻序列分析的,試圖通過列舉、分析有關(guān)證券業(yè)中股票時刻序列數(shù)據(jù)分析的原理、方法與技術(shù),著重探討數(shù)據(jù)挖掘中基于股票時刻序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘的概念、原理技術(shù)、實施過程及存在的障礙和問題,以期能有新的發(fā)覺和領(lǐng)悟。二股票時刻序列傳統(tǒng)研究方法概述隨著我國市場經(jīng)濟建設(shè)的進展,人們的金融意識和投資意識日益增強。股票市場作為市場經(jīng)濟的重要組成部分,正越來越多地受到投資者的關(guān)注。目前股票投資差不多是眾多個人理財中的一種重要方式。不言而喻,假如投資者能正確預(yù)測股票價格、選準(zhǔn)買賣時機,無疑會給投資者帶來豐厚的收益。因此,在股票的

4、預(yù)測和分析方面出現(xiàn)了大量的決策分析方法和工具,以期能有效地指導(dǎo)投資者的投資決策。目前,我國股市用得較多的方法概括起來有兩類3:一類是差不多分析和技術(shù)分析,另一類是經(jīng)濟統(tǒng)計分析。1差不多分析和技術(shù)分析在股票市場上,當(dāng)投資者考慮是否投資于股票或購買什么股票時,一般能夠運用差不多分析的方法對股市和股票進行分析;而在買賣股票的時機把握上,一般能夠運用技術(shù)分析的方法4。差不多分析指的是通過對阻礙股票市場供求關(guān)系的差不多因素(如宏觀政治經(jīng)濟形勢、金融政策、行業(yè)變動、公司運營財務(wù)狀況等)進行分析,來確定股票的真正價值,推斷以后股市走勢,是長期投資者不可或缺的有效分析手段。技術(shù)分析是完全依照股市行情變化而加以

5、分析的方法,它通過對歷史資料(成交價和成交量)進行分析,來推斷大盤和個股價格的以后變化趨勢,探討股市里投資行為的可能轉(zhuǎn)折,從而給投資者買賣股票的信號,適合于投資者作短期投資。目前技術(shù)分析常用的工具是各種各樣的走勢圖(K線圖、分時圖)和技術(shù)指標(biāo)(MA、RSI、OBV等)。2經(jīng)濟統(tǒng)計學(xué)分析要緊針對時刻序列數(shù)據(jù)進行數(shù)學(xué)建模和分析。傳統(tǒng)的時刻序列數(shù)據(jù)分析差不多是一個進展得相當(dāng)成熟的學(xué)科,有著一整套分析理論和工具,是目前時刻序列數(shù)據(jù)分析的要緊方法,它要緊用經(jīng)濟統(tǒng)計學(xué)的理論和方法對經(jīng)濟變量進行描述、分析和推算。傳統(tǒng)時刻序列數(shù)據(jù)分析的研究目的在于5:分析特定的數(shù)據(jù)集合,建立數(shù)學(xué)模型,進行模式結(jié)構(gòu)分析和實證研

6、究;預(yù)測時刻序列的以后進展情況。傳統(tǒng)的時刻序列數(shù)據(jù)分析最差不多的理論是40年代分不由Norbor Wiener和Andrei Kolmogomor提出的。20世紀(jì)70年代,G.P.Box和G.M.Jenkins發(fā)表專著時刻序列分析:預(yù)測和操縱,對平穩(wěn)時刻序列數(shù)據(jù)提出了自回歸滑動平均模型(ARMA),以及一整套的建模、可能、檢驗和操縱方法,使得時序數(shù)據(jù)分析得以廣泛運用于各種工程領(lǐng)域。其差不多思想是依照各隨機變量間的依存關(guān)系或自相關(guān)性,從而由時刻序列的過去值及現(xiàn)在值來預(yù)測出以后的值。該模型以證券市場為非有效市場為前提,當(dāng)期的股票價格變化不僅受當(dāng)期隨機因素的沖擊,而且受前期阻礙。換句話講,確實是歷史

7、信息會對當(dāng)前的股票價格產(chǎn)生一定程度的阻礙。采納的方法一般是在連續(xù)的時刻流中截取一個時刻窗口(一個時刻段),窗口內(nèi)的數(shù)據(jù)作為一個數(shù)據(jù)單元,然后讓那個時刻窗口在時刻流上滑動,以獲得建立模型所需要的訓(xùn)練集6。7基于股票時刻序列是一種混沌時刻序列的認知,提出一種新穎的非線性時刻序列預(yù)測模型,即滑動窗口二次自回歸(MWDAR)模型,該模型使用部分的歷史數(shù)據(jù)及其二次項構(gòu)造自回歸模型,模型參數(shù)用最小二乘法可能。其差不多理論基礎(chǔ)是:一個線性模型不能描述混沌時刻序列的全局性特征,但在一個小的時刻間隔內(nèi),系統(tǒng)的行為卻能夠用某種線性模型近似。8則提出了一種基于嵌入理論和確定集上的預(yù)測誤差的混沌時刻序列預(yù)測方法,并探

8、討了在股票價格預(yù)測上的應(yīng)用。能夠看出,經(jīng)濟統(tǒng)計學(xué)為問題的探究解決方案提供了有用而實際的框架;模型是經(jīng)濟統(tǒng)計學(xué)的核心,模型的選擇和計算往往被認為是次要的,是建立模型的枝節(jié)。經(jīng)濟統(tǒng)計學(xué)本質(zhì)上是從事“確定性”分析的,能夠講統(tǒng)計方法是“目標(biāo)驅(qū)動”的。然而,在大量數(shù)據(jù)集中往往存在一些未被人們預(yù)期到但又具有價值的信息,人們?yōu)榘l(fā)覺大量數(shù)據(jù)中隱藏的規(guī)律和模式,就需要新的具有“探究性”的分析工具。顯然,數(shù)據(jù)挖掘確實是如此的一門工具。三數(shù)據(jù)挖掘技術(shù)應(yīng)用于股票時刻序列分析的研究現(xiàn)狀數(shù)據(jù)挖掘(DM,Data Mining),也稱為數(shù)據(jù)庫中的知識發(fā)覺(KDD,Knowledge Discovery in Databas

9、e)是數(shù)據(jù)庫技術(shù)和機器學(xué)習(xí)等人工智能技術(shù)相結(jié)合的產(chǎn)物,是一門新興的數(shù)據(jù)智能分析技術(shù)9。20世紀(jì)80年代末,隨著數(shù)據(jù)庫、互聯(lián)網(wǎng)技術(shù)的迅速進展以及治理信息系統(tǒng)(MIS)和網(wǎng)絡(luò)數(shù)據(jù)中心(IDC)的推廣應(yīng)用,數(shù)據(jù)的存取、查詢、描述統(tǒng)計等技術(shù)已日臻完善,但高層次的決策分析、知識發(fā)覺等有用技術(shù)還專門不成熟,導(dǎo)致了“信息爆炸”但“知識貧乏”的現(xiàn)象。到了90年代,人們提出在數(shù)據(jù)庫基礎(chǔ)上建立數(shù)據(jù)倉庫,應(yīng)用機器學(xué)習(xí)和統(tǒng)計分析相結(jié)合的方法處理數(shù)據(jù),這兩者的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的誕生。所謂數(shù)據(jù)挖掘,簡單地講,確實是從大量數(shù)據(jù)中提取或挖掘知識2;詳細一點能夠描述為要緊利用某些特定的知識發(fā)覺算法,在一定的運算效率的限制

10、下,從大量的數(shù)據(jù)中抽取出潛在的、有價值的知識(模型、規(guī)則和趨勢)的過程。挖掘算法的好壞直接阻礙到知識發(fā)覺的質(zhì)量和效率,因此目前大多數(shù)研究都集中于數(shù)據(jù)挖掘算法及其應(yīng)用上。1相關(guān)技術(shù)介紹(1)關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則是美國IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出來的KDD研究的一個重要課題10。關(guān)聯(lián)規(guī)則挖掘本質(zhì)是從大量的數(shù)據(jù)中或?qū)ο箝g抽取關(guān)聯(lián)性,它能夠揭示數(shù)據(jù)間的依靠關(guān)系,依照這種關(guān)聯(lián)性就能夠從某一數(shù)據(jù)對象的信息來推斷另一對象的信息。它能夠做如下形式化定義:設(shè)I = i1,i2,.,im是一組項的集合(例如一個商場的物品),D是一組

11、事務(wù)集(稱之為事務(wù)數(shù)據(jù)庫)。D中的每個事務(wù)T是項的集合,且滿足TI。稱事務(wù)T支持物品集X,假如XT。關(guān)聯(lián)規(guī)則是如下形式的一種蘊含式:XY,其中XI,YI,且XY= 。(1) 稱關(guān)聯(lián)規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為s的支持度,假如物品集XY的支持度為s%,即support(XY)=P(X U Y)。(2) 稱規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為c的可信度,假如D中支持物品集X的事務(wù)中有c%的事務(wù)同時也支持物品集Y,即confidence(XY)=P(Y|X)。從語義的角度來分析,規(guī)則的可信度表示這條規(guī)則的正確程度;支持度表示用這條規(guī)則能夠推出百分之幾的目標(biāo),即這一規(guī)則關(guān)于整體數(shù)據(jù)的重要程度。用戶

12、能夠定義二個閾值,要求數(shù)據(jù)挖掘系統(tǒng)所生成的規(guī)則的支持度和可信度都不小于給定的閾值。如此,就用蘊含式、支持度和可信度唯一標(biāo)識了每一個挖掘出來的關(guān)聯(lián)規(guī)則。已知事物數(shù)據(jù)庫D,關(guān)聯(lián)規(guī)則的挖掘問題確實是產(chǎn)生支持度與置信度分不大于用戶給定的最小閾值的所有關(guān)聯(lián)規(guī)則。該問題分兩步來求解:第一步是找出事務(wù)數(shù)據(jù)庫D中所有滿足條件的具有用戶指定最小支持度的項目集。具有最小支持度的項目集稱為頻繁項集。第二步是從頻繁項集中構(gòu)造可信度不低于用戶要求的規(guī)則。形式地,關(guān)于每一個頻繁項目集A,找出A的所有非空子集a,假如比率support(A)/support(a)min_conf(可信度),就生成關(guān)聯(lián)規(guī)則a(A-a)。識不或

13、發(fā)覺所有的頻繁項集是關(guān)聯(lián)規(guī)則挖掘算法的核心,也是計算量最大的部分。目前已有許多挖掘頻繁項集的方法,其中最聞名的是R.Agrawal和R.Srikant提出的Apriori算法11,其核心是利用如此一個性質(zhì):頻繁項集的所有非空子集差不多上頻繁的。基于如此的先驗知識,Apriori使用一種“逐層搜索“的迭代方法,k-項集用于探究(k+1)項集。首先找出頻繁1-項集,記作L1;用L1找頻繁2-項集L2;而L2用于找L3,如此下去,直到不能找到頻繁k-項集。盡管Apriori算法能最終挖掘出所有的關(guān)聯(lián)規(guī)則,但由于處理的數(shù)據(jù)量特不大,因而算法的效率顯得十分重要。后來的一些研究人員對算法的連接和剪枝過程進

14、行各種優(yōu)化。如12提出了稱為AprioriTid的改進算法,該算法提出了在每一步(第一步除外)計算候選頻繁項集的支持度時不需要掃瞄整個事務(wù)數(shù)據(jù)庫。它認為不包含任何k-項集的事務(wù)不可能包含任何k+1項集,如此,這種事務(wù)在其后的考慮時,能夠加上標(biāo)記或刪除,因為為產(chǎn)生j-項集(jk),掃描數(shù)據(jù)庫時不再需要它們。該算法的本質(zhì)是壓縮進一步迭代掃描的事務(wù)數(shù)。而13提出的AprioriPro算法,其差不多思想與AprioriTid是一致的,也是減少對數(shù)據(jù)集的掃描,不同的是AprioriPro算法是通過在原有的數(shù)據(jù)集上增加一個屬性,通過那個屬性的取值來減少對某些事務(wù)的掃描。14是結(jié)合Apriori和Aprio

15、riTid兩種算法,提出了一種混合挖掘算法AprioriHybrid,其差不多思想是在掃描的早期使用Apriori算法,當(dāng)候選模式集中記錄條數(shù)小到能夠放進內(nèi)存時就轉(zhuǎn)向AprioriTid算法。這些改進算法盡管比Apriori算法在挖掘效率上有一些提高,但本質(zhì)上沒有什么區(qū)不,都要在挖掘過程中生成大量的候選模式集?!坝袥]有如此的算法,挖掘全部的頻繁項集而不產(chǎn)生候選?” 1999年Han等人提出FP-Growth算法15,以及 Agrawal等人提出的樹投影(Tree Project)16關(guān)聯(lián)規(guī)則挖掘算法確實是如此的算法,它們在性能上均獲得了突破,與Apriori算法相比,挖掘效率有了數(shù)量級的提高。

16、利用FP-Tree 能夠壓縮事務(wù)數(shù)據(jù)集,壓縮有的達到100多倍;而樹投影方法從原理上講是適應(yīng)任何數(shù)據(jù)集的,不管其據(jù)量多大該算法都能有效運行,從而使得關(guān)聯(lián)規(guī)則挖掘能夠應(yīng)用于海量數(shù)據(jù)的挖掘和稠密數(shù)據(jù)集的挖掘。除了上述關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法之外,人們著重在以下幾個方面對關(guān)聯(lián)規(guī)則進行了研究。(1)接著通過各種手段提高挖掘效率。這方面包括對原有算法的進一步改進17,18;提出一些并行挖掘算法19,20、增量算法21以及帶約束的關(guān)聯(lián)規(guī)則挖掘策略(元規(guī)則制導(dǎo)關(guān)聯(lián)規(guī)則挖掘)22,23。(2)不同形式關(guān)聯(lián)規(guī)則的研究。關(guān)聯(lián)規(guī)則最早是由購物籃分析開始的,然而隨著研究的擴展和深入,關(guān)聯(lián)規(guī)則的應(yīng)用范圍不斷擴大,因此出現(xiàn)

17、了多種形式關(guān)聯(lián)規(guī)則的研究。由最簡單的單維、單層、布爾關(guān)聯(lián)規(guī)則逐漸向復(fù)雜形式擴展。在差不多關(guān)聯(lián)規(guī)則的基礎(chǔ)上提出了布爾型加權(quán)關(guān)聯(lián)規(guī)則和廣義模糊型加權(quán)關(guān)聯(lián)規(guī)則算法24,由單層的關(guān)聯(lián)規(guī)則擴展為多層次關(guān)聯(lián)規(guī)則的研究25等等。關(guān)聯(lián)規(guī)則形式的多樣化,反映了人們從不同角度認識同一事物的不同視點,加深了對關(guān)聯(lián)規(guī)則的認識與研究。(3)結(jié)合其它理論(如軟計算理論)對關(guān)聯(lián)規(guī)則進行研究。引入粗糙集概念,使關(guān)聯(lián)規(guī)則發(fā)覺的模式具有較高的解釋能力和精確度26;通過引入神經(jīng)網(wǎng)絡(luò)的概念,提出用相互激活與競爭網(wǎng)絡(luò)來進行數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則的發(fā)覺27;還有基于遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘28等。能夠看出通過引入其他領(lǐng)域的先進理論,豐富了

18、關(guān)聯(lián)規(guī)則研究的內(nèi)容,提高了算法的有效性。(4)關(guān)聯(lián)規(guī)則的價值評判標(biāo)準(zhǔn)研究。如29分不討論了關(guān)聯(lián)規(guī)則的客觀評價指標(biāo)(支持度、可信度和相關(guān)強度)和主觀評價指標(biāo)(新穎性、用戶感興趣性和簡潔性),在此基礎(chǔ)上給出了一種關(guān)聯(lián)規(guī)則的綜合自動評價方法。(5)關(guān)聯(lián)規(guī)則的應(yīng)用研究。理論從實踐中來,但最終是為了指導(dǎo)實踐。關(guān)聯(lián)規(guī)則自提出以來,通過許多學(xué)者的研究努力,廣泛應(yīng)用于社會生產(chǎn)和科研的各個方面,產(chǎn)生了巨大的效益30,31,32,33。(2)序列模式挖掘序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出來的34。設(shè)有一個交易數(shù)據(jù)庫D,每個顧客可在不同時刻購買不同物品,每次購買

19、活動稱為交易(Transaction)。那個地點,顧客、交易時刻和所購物品分不以Customer_ID、Transaction_Time和Itemset標(biāo)識。假如以Customer_ID為第一關(guān)鍵字,Transaction_Time為第二關(guān)鍵字對數(shù)據(jù)庫D排序,那么,對每一顧客而言,他進行的所有交易是以交易時刻的升序排列的,從而構(gòu)成一個序列,稱這種序列為顧客序列CS(Customer Sequence)。一般地,令某顧客的各次交易時刻為t1,t2,t3,tn,該顧客在交易時刻ti購買的物品集記為itemset(i),因此該顧客的CS序列為itemset(t1), itemset(t2), ite

20、mset(t3), itemset(tn)。相應(yīng)地,能夠認為上述交易數(shù)據(jù)庫D已轉(zhuǎn)換為顧客序列數(shù)據(jù)庫。假如某序列s包含在某顧客的CS序列中,那么稱該顧客支持(Support)該序列s。某序列的支持度為支持該序列的顧客數(shù)與顧客序列數(shù)據(jù)庫中顧客總數(shù)之比。序列模式確實是在上述顧客序列數(shù)據(jù)庫中滿足用戶指定最小支持度的最長序列。序列模式的問題定義與關(guān)聯(lián)規(guī)則專門相似,它們之間的區(qū)不能夠用下列例子描述,關(guān)聯(lián)規(guī)則描述的是在一次購物中所購買物品之間的關(guān)聯(lián)關(guān)系,而序貫?zāi)J絼t是描述同一顧客在不同次購物所購物品之間可能存在的某種關(guān)聯(lián)關(guān)系。換句話講,關(guān)聯(lián)規(guī)則僅僅發(fā)覺事務(wù)內(nèi)部(intra-transaction)的模式,而

21、序列模式則是發(fā)覺事務(wù)之間(inter-transaction)的模式。序列模式的發(fā)覺方法與關(guān)聯(lián)規(guī)則的發(fā)覺方法大致相同,R.Agrawal在Apriori算法的基礎(chǔ)上提出了三個序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome34。AprioriAll算法采納哈希樹儲存候選序列,將所有的候選序列均儲存在哈希樹的葉子節(jié)點中;將候選序列的記數(shù)劃分為向前及向后兩時期:向前時期跳躍性地產(chǎn)生所有特定長度的頻繁序列,而向后時期找出在向前時期未考慮的頻繁序列。 在3536中提出了挖掘具有概念分層、滑動時刻窗口及最大和最小時刻約束的 GSP(Generalized Seque

22、ntial Patterns)算法。該算法也采納哈希樹存儲候選序列,仍將候選序列的記數(shù)分為向前及向后時期,但此法劃分向前時期與向后時期的目的與實現(xiàn)均與 AprioriAll 算法不同。 PSP(Perfectly Sequential Patterns)算法在37中提出,該算法采納了前綴樹結(jié)構(gòu)(而非哈希樹)存儲候選序列,從而導(dǎo)致該算法的候選序列集的產(chǎn)生和記數(shù)均不同與GSP算法; 同時,由于前綴樹的每個節(jié)點只存儲事務(wù)中的一項,故與哈希樹結(jié)構(gòu)相比較大的節(jié)約了內(nèi)存空間。(3)軟計算方法軟計算(Soft Computing)是方法論的集合,這些方法集互相協(xié)作,并以一種形式或其它某種形式為現(xiàn)實中的模糊情

23、況提供靈活信息處理功能38。它的目的是為了獲得易處理的、粗糙的、低成本的解決方法而對不確定的數(shù)據(jù)進行處理。遵從的原則是以追求近似解決模糊/精確問題,并低成本地設(shè)計解決方案。軟計算方法要緊包括模糊邏輯、Rough集、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。模糊邏輯是處理不確定性概念及其推理機制的過程,Rough集和神經(jīng)網(wǎng)絡(luò)常被用來分類和規(guī)則抽取,遺傳算法包括最優(yōu)解和搜索過程,像問題最優(yōu)解和樣本選擇。針對時刻序列挖掘,軟計算方法的應(yīng)用研究簡要介紹如下:模糊邏輯是最早、應(yīng)用最廣泛的軟計算方法,模糊邏輯的進展導(dǎo)致了軟計算方法的出現(xiàn)。39在挖掘時刻序列數(shù)據(jù)時使用了模糊語言概化;40針對商業(yè)銷售的智能分析需求,提出了一種基

24、于模糊集合的數(shù)據(jù)挖掘時刻序列模式算法。神經(jīng)網(wǎng)絡(luò)是一個黑箱問題,它先前被認為不適合應(yīng)用于數(shù)據(jù)挖掘,且在符號格式中,它并不能獲得有用信息,但卻適合進行解釋。近年來,挖掘訓(xùn)練過的網(wǎng)絡(luò)中的嵌入知識,已廣泛地應(yīng)用于數(shù)據(jù)挖掘中。它對屬性或逐個或合并地進行判不,這關(guān)于決策或分類是特不重要的。它對數(shù)據(jù)挖掘的貢獻是在規(guī)則提取和自組織性上。遺傳算法是可調(diào)節(jié)的、魯棒的、有效率的搜索方法,它適應(yīng)于搜索大空間集。它相對數(shù)據(jù)挖掘的標(biāo)準(zhǔn)來優(yōu)化功能,并達到搜索最優(yōu)解的目的。41提出了一個基于小生境遺傳算法和模式緩存的時刻序列中頻繁結(jié)構(gòu)模式的發(fā)覺算法,該算法具有輕便、靈活、可擴展性好的特點,可依照實際情況合理配置計算時刻和所占

25、用的內(nèi)存資源,可實現(xiàn)挖掘結(jié)果的實時動態(tài)更新輸出,并通過在在實際時刻序列數(shù)據(jù)上的實驗證明了該算法的有效性。 Rough集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理模糊和不確定問題的新型數(shù)學(xué)工具,其動身點是依照目前已有的對給定問題的知識將問題的論域進行劃分,然后對劃分的每一部分確定其對某一概念的支持程度:即確信支持此概念,確信不支持此概念和可能支持此概念,并分不用三個近似集合來表示為正域、負域和邊界。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還能夠?qū)?shù)據(jù)進行分析和推理,從中發(fā)覺隱含的知識和潛在的規(guī)律。同時,Rough集理論在處理大數(shù)據(jù)量,消除冗余信息等方面有

26、著良好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理(數(shù)據(jù)約簡)、規(guī)則生成等方面42,43。股票時刻序列挖掘股票市場高風(fēng)險和高收益并存,因此關(guān)于股票數(shù)據(jù)知識發(fā)覺的研究一直受到人們的關(guān)注。目前對股票時刻序列的數(shù)據(jù)挖掘方法大致集中在以下三個方面。(1)相似性的研究。該方法是在時刻序列數(shù)據(jù)庫中找出與給定查詢序列最接近的數(shù)據(jù)序列,它包含了全序列匹配和子序列匹配兩種問題。子序列匹配確實是找出與給定模式序列相似的所有子序列,而全序列匹配確實是找出彼此間相似的序列。具體的操作時將時刻窗口在時刻序列上滑動,通過距離計算從一個時刻序列和多個時刻序列中查找相似的時刻序列模式進行聚類形成相似組群,當(dāng)有一個新的時刻序列需

27、要分析時,能夠從相似組群中查找與它最相似的類來匹配。一般有兩個研究方向,一種是將時刻序列從時刻域(time domain)到頻率域(frequency domain)后在進行相似性匹配。至于什么緣故要進行這種數(shù)據(jù)變換,要緊是基于許多信號分析技術(shù)(如離散傅立葉變換DFT和離散小波變換DWT)需要數(shù)據(jù)來自頻率域2。另一種則是直接在時刻域上研究。要緊應(yīng)用是從股票數(shù)據(jù)中識不具有相似變化趨勢的模式,以預(yù)測新數(shù)據(jù)在以后的進展行為。在時刻序列相似性方面的研究文獻有44,45,46,47。(2)趨勢分析與值預(yù)測研究。趨勢分析研究時刻序列的變化趨勢,其理論基礎(chǔ)是將時刻序列視為一個動力系統(tǒng),認為在其過去的波動中蘊

28、涵有可用于預(yù)測以后的信息。給定一組值(Y1,Y2,Y3,),確定數(shù)據(jù)趨勢的方法通常有兩種2:一種是N階的移動平均值,即 ()/n,()/n,()/n,。移動平均能夠降低數(shù)據(jù)集中的變化總量,用移動平均替代時序,能夠減少不希望出現(xiàn)的波動,故它也稱為時序的平滑。另一種是最小二乘法,即以最好的擬合曲線C作為最小二乘曲線,即曲線具有最小的,其中偏差或誤差di是指點(xi,yi)的值yi與對應(yīng)曲線C的值之間的差值。趨勢分析能夠用來值預(yù)測,除此之外,用得較多的是神經(jīng)網(wǎng)絡(luò)48,49。這種預(yù)測方法由因此基于時刻序列的具體數(shù)值,而這些數(shù)據(jù)往往含有許多干擾數(shù)據(jù),因此該值預(yù)測方法的抗干擾能力較弱。(3)時刻序列中關(guān)聯(lián)

29、規(guī)則的抽取。Gautam Das等對從時刻序列中發(fā)覺關(guān)聯(lián)規(guī)則進行了研究50,那個地點規(guī)則是對時刻序列中不同模式間關(guān)系的一種描述,50的要緊貢獻在于給出了一個將原始時刻序列轉(zhuǎn)換成有各個模式表示符組成的符號序列的一般方案,該方案由三部分組成,即分割,聚類和符號替換。然后采納序列模式發(fā)覺算法實現(xiàn)了符號序列中規(guī)則的發(fā)覺。針對股票時刻序列的專門性,許多學(xué)者在經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,又提出了許多新的算法。1996年R.Strikant給出了關(guān)系數(shù)據(jù)庫中數(shù)量關(guān)聯(lián)規(guī)則的挖掘算法51;1998年H.Lu對股票變動的預(yù)測以及內(nèi)聯(lián)相關(guān)性分析進行了研究52;1999年M.Garofalakis提出了具有約束限制

30、的時序數(shù)據(jù)挖掘53;2002年 Y.Chen對時序數(shù)據(jù)庫的多維回歸分析進行了研究54。國內(nèi)學(xué)者在這方面也做了相當(dāng)?shù)难芯浚?5對股票時刻序列的挖掘,分不探討了一維和二維關(guān)聯(lián)規(guī)則的發(fā)覺;56通過一個具體的實例描述了從股票時刻序列中挖掘一維關(guān)聯(lián)規(guī)則的方法;57提出了延遲關(guān)聯(lián)規(guī)則的概念,并在股票時刻序列上實現(xiàn)挖掘該規(guī)則的算法;58在時刻序列中引入多重時刻粒度,以模糊規(guī)則的形式給出數(shù)據(jù)挖掘的結(jié)果。Rough集理論在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用要緊體現(xiàn)在數(shù)據(jù)約簡和關(guān)聯(lián)規(guī)則的抽取上,這方面的研究差不多有了少量的文獻。59提出的一種基于Rough集的時刻序列數(shù)據(jù)挖掘策略,顯然適用于股票時刻序列的挖掘;60則提出將正則化

31、神經(jīng)網(wǎng)絡(luò)與Rough集理論相結(jié)合應(yīng)用于股票時刻序列數(shù)據(jù)庫的挖掘。該方法融合了正則神經(jīng)網(wǎng)絡(luò)優(yōu)良的泛化性能和Rough集理論的規(guī)則生成能力,充分展示了軟計算方法應(yīng)用于時刻序列數(shù)據(jù)分析的新穎性。四總結(jié)與展望從大的方面來講,時刻序列數(shù)據(jù)的挖掘技術(shù)可分為統(tǒng)計分析法和數(shù)據(jù)挖掘。眾所周知,統(tǒng)計學(xué)是數(shù)據(jù)挖掘的三大支柱之一(另兩種是數(shù)據(jù)庫和人工智能);同時,數(shù)據(jù)挖掘在統(tǒng)計學(xué)的基礎(chǔ)上另有擴充和進展,這使得數(shù)據(jù)挖掘技術(shù)成為一種更具優(yōu)勢性的研究方法。統(tǒng)計學(xué)為問題的探究解決方案提供了有用而實際的框架;模型是現(xiàn)代統(tǒng)計學(xué)的核心,模型的選擇和計算往往被認為是次要的,是建立模型的枝節(jié)。統(tǒng)計學(xué)本質(zhì)上是從事“確定性”分析的,能夠講

32、統(tǒng)計方法是“目標(biāo)驅(qū)動”的。但數(shù)據(jù)挖掘卻不同,它的核心是算法,因此也考慮模型和可解釋性問題,但算法及可實現(xiàn)性是第一位的。它所強調(diào)的首先是發(fā)覺,其次才是解釋。數(shù)據(jù)挖掘,作為專門多學(xué)科交叉的結(jié)果,繼承了機器學(xué)習(xí)的“冒險”態(tài)度,比統(tǒng)計學(xué)更強調(diào)實踐性、探究性和靈活性。證券市場是國民經(jīng)濟的晴雨表,是政府主管部門、券商和寬敞投資者的興趣中心。長期以來各券商的交易系統(tǒng)一直走在IT技術(shù)應(yīng)用革新的前沿,同時也積存了大量的數(shù)據(jù);挖掘、開發(fā)和利用這些數(shù)據(jù)一方面能夠有效指導(dǎo)證券投資者的投資,另一方面能夠使證券公司進行最適合的定位,從而使企業(yè)長期的積存得以充分發(fā)揮,樹立競爭優(yōu)勢。作為數(shù)據(jù)挖掘的要緊組成部分之一,關(guān)聯(lián)規(guī)則挖

33、掘獲得了廣泛的研究,但從關(guān)聯(lián)規(guī)則的角度進行股票時刻序列分析,從學(xué)術(shù)上來講具有一定的新穎性,其終極目標(biāo)是以極大的概率預(yù)測股價的以后走勢。股票的漲跌不是各自互不阻礙的,傳統(tǒng)意義上的“板塊聯(lián)動”確實是極好的證明??疾旃善眱r格之間的漲跌關(guān)系,如能在傳統(tǒng)分析方法的基礎(chǔ)上,采納先進的數(shù)據(jù)挖掘技術(shù),挖掘出股票之間的價格聯(lián)動關(guān)聯(lián)規(guī)則,顯然具有十分重要的意義。Rough集理論是一種處理模糊和不精確性問題的新型數(shù)學(xué)工具,是采納精確的數(shù)學(xué)方法分析不精確系統(tǒng)的一種理想方法。大量文獻差不多講明Rough集理論是從數(shù)據(jù)集中提取關(guān)聯(lián)規(guī)則的有效方法,其中要緊的緣故應(yīng)歸功于Rough集理論強大的數(shù)據(jù)約簡能力。應(yīng)用Rough集理

34、論對股票時刻序列數(shù)據(jù)進行建模、約簡、規(guī)則抽取,顯然又是一個極具新穎和創(chuàng)新的研究領(lǐng)域。參考文獻 1 安鴻志,陳兆國,杜金觀,潘一民. 時刻序列的分析與應(yīng)用. 科學(xué)出版社 1983.2 Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘: 概念與技術(shù).北京:機械工業(yè)出版社2001.36、278285.3 貝政新,陳瑛. 證券投資通論. 上海:復(fù)旦大學(xué)出版社,1998.4 安妮. 股票投資技術(shù)方法與應(yīng)用. 深圳:海天出版社,1995.5 王耀動,張德遠,張海雄. 經(jīng)濟時刻序列分析. 上海財經(jīng)大學(xué)出版社 1996.6 李民,邵建中,李俊平等. 用ARMA模型預(yù)測深滬股市. 長沙鐵道學(xué)院

35、學(xué)報,2002,18(1):7884.7 李愛國,覃征. 滑動窗口二次自回歸模型預(yù)測非線性時刻序列. 計算機學(xué)報,第27卷,第7期2004年7月.8 孫宏義,朱梅. 混沌時刻序列預(yù)測及在股票市場中的應(yīng)用. 安徽工程科技學(xué)院學(xué)報,第18卷,第4期2003年12月.9 李菁菁,邵培基,黃亦瀟. 數(shù)據(jù)挖掘在中國的現(xiàn)狀和進展研究. 治理工程學(xué)報 2004年第3期.10 R.Agrawal, T.Imielinski, A.Swami. Mining Association Rules Between Sets of Items in Large DatabasesC. Proceedings of A

36、CM SIGMOD Int1 Conf. Management of Data, Washington D.C., 1993.207216. 11 R.Agrawal, R.Srikant. Fast Algorithms for Mining Association RulesJ. VLDB94, Santiago, Chile,1994:478499.12 Mannila H, Toivonen, Inkeri Verkamo A. Efficient algorithms for discovery association rules. In Proceedings of AAAI Wo

37、rkshop on Knowledge Discovery in database. July 1994.181192.13 Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal. Pruning and grouping discovered association rules. In Mlnet workshop on Statistics, Maching Learning and Discovery in Database. Heraklion, Rete. April 1995.14 Agrawal R, Srikant R. F

38、ast Discovery of Association Rules. In Fayyad. 1996.15 J.Han, J.Pei. Mining Frequent Patterns Without Candidate Generation. In Proc. 2000 ACM-SIGMOD Intl. Conf. on Management of Data(SIGMOD2000) Dallas TX 2000,112.16 R.Agarwal, C.Aggarwal, V.Prasad. A Tree Projection Algorithm for Generation of Freq

39、uent Itemsets. Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.17 倪旻,徐曉飛,鄧勝春,趙政. 基于頻繁項目對支持矩陣的Apriori優(yōu)化算法.小型微型計算機系統(tǒng).Vol.25 No.5, May 2004.18 鄧硯谷,王麗珍. 對FP-Tree頭表節(jié)點數(shù)據(jù)結(jié)構(gòu)的改進.計算機工程與應(yīng)用. 2004,25.19 R.Agrawal, J.Shafer. Parallel Mining of Association R

40、ules. IEEE Trans.On Knowledge and Data Engineer 1996,962969.20 張兆功,李建中,張艷秋. 海量數(shù)據(jù)上挖掘關(guān)聯(lián)規(guī)則的并行算法. 哈爾濱工業(yè)大學(xué)學(xué)報,2004年05期.21 朱紅蕾,李明. 一種高效維護關(guān)聯(lián)規(guī)則的增量算法. 計算機應(yīng)用研究,2004年09期.22 M.Kamber, J.Han, J.Y.Chiang. Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl. Conf. Knowle

41、dge Discovery and Data Minin KDD1997 Newport Beach CA. 1997,207-210.23 程繼華,郭建生,施鵬飛. 元規(guī)則指導(dǎo)的知識發(fā)覺方法研究. 計算機工程與應(yīng)用,1999年第10期.24 陸建江. 數(shù)據(jù)庫中布爾型及廣義模糊型加權(quán)關(guān)聯(lián)規(guī)則的挖掘.系統(tǒng)工程理論與實踐,2002,2:2832.25 程繼華,施鵬飛. 多層次關(guān)聯(lián)規(guī)則的有效挖掘算法.軟件學(xué)報,1998,9(12):937941.26 程 巖,黃梯云.粗糙集中定量關(guān)聯(lián)規(guī)則的發(fā)覺及其規(guī)則約簡的方法研究.治理工程學(xué)報,2001,15(3):7377.27 倪志偉,蔡慶生,方瑾.用神經(jīng)網(wǎng)絡(luò)

42、來挖掘數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則.系統(tǒng)仿真學(xué)報,2000,12(6):685687.28 高堅. 基于免疫遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘. 計算機工程與應(yīng)用. 2003年32期. 29 蘇占東,游福成,楊炳儒. 關(guān)聯(lián)規(guī)則的綜合評價方法研究與實例驗證計算機應(yīng)用. 2004年10期.30 李虹,蔡之華. 關(guān)聯(lián)規(guī)則在醫(yī)療數(shù)據(jù)分析中的應(yīng)用. 微機進展. 2003年06期.31 胥桂仙,高旭,于紹娜. 關(guān)聯(lián)規(guī)則算法在中文文本挖掘中的應(yīng)用研究. 中央民族大學(xué)學(xué)報(自然科學(xué)版). 2004年04期.32 姜南,唐曉青. 應(yīng)用關(guān)聯(lián)規(guī)則構(gòu)建質(zhì)量活動鏈模型. 北京航空航天大學(xué)學(xué)報,2004年05期. 33 普杰信,薛冰冰.

43、加權(quán)關(guān)聯(lián)規(guī)則在網(wǎng)絡(luò)入侵檢測系統(tǒng)中的應(yīng)用. 2004年04期. 34 Agrawal R, Srikant R. Mining Sequential Patterns. In Proc.95 Int1 Conf Data Engineering, Taibei,Taiwan. March,5,1995.35 Tamakrishnan Srikant, Rakesh Agrawal. Mining Sequential Patterns: Generalizations and Performance Improvements.36 Ramakishnan Srikant. Fast Algori

44、thms for Mining Association Rules and Sequential Patterns, Chapter 5 Mining Sequential Patterns p113-146.37 F.Masseglia, F.Cathala, P.Poncelet. The PSP Approach for Mining Sequential Patterns.38 L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.39 D

45、. A.Chiang, L.R.Chow,Y.E.Wang. Mining time series data by a fuzzy linguistic summary system. Fuzzy Sets Syst. Vol. 112, pp.419-432, 2002.40 吳煲寧,林天,孫志揮,汪曉剛. 一種基于模糊集的時刻序列挖掘算法的設(shè)計與實現(xiàn). 計算機工程與應(yīng)用,2002年20期. 41 李斌,汪祖媛,高清維,莊鎮(zhèn)泉. 基于遺傳算法的時刻序列中頻繁結(jié)構(gòu)模式發(fā)覺研究. 電路與系統(tǒng)學(xué)報. 第九卷,第四期,2004年8月.42 劉清. Rough集及Rough推理. 科學(xué)出版社,2001

46、.43 韓中華,吳成東,劉海濤. 數(shù)據(jù)挖掘技術(shù)研究進展. 工控智能化,2003(10), pp. 18-23.44 Das G, Gunopulos D. Finding similar time series. In Proc. Of the Conference on Principles of Knowledge Discovery and Data Mining, Trondheim, Norway, 1997:124-135. 45 Eamonn Keogh. A Tutorial on Indexing and Mining Time Series Data. In the 2001 I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論