版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
醫(yī)學(xué)大數(shù)據(jù)分析聚類方法高等教育出版社CONTENTS目錄1聚類的概念2聚類與分類的區(qū)別3劃分方法4層次聚類4聚類算法評估1聚類的概念什么是聚類?
什么是聚類?聚類分析是將物理的或者抽象的數(shù)據(jù)集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數(shù)據(jù)樣本之間具有較高的相似度,而不同類別的數(shù)據(jù)樣本之間具有較低的相似度。每一類稱為一個簇。物以類聚,人以群分聚類和分類的區(qū)別有監(jiān)督學(xué)習(xí)學(xué)習(xí)器通過對大量有標記的訓(xùn)練集進行學(xué)習(xí),從而建立模型用于預(yù)測未見示例的標記,例如神經(jīng)網(wǎng)絡(luò)和決策樹無監(jiān)督學(xué)習(xí)無訓(xùn)練樣本,僅根據(jù)測試樣本的在特征空間分布情況來進行標記/聚簇有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)分類圖示訓(xùn)練數(shù)據(jù)待分類數(shù)據(jù)聚類圖示聚類中沒有任何指導(dǎo)信息,完全按照數(shù)據(jù)的分布進行類別劃分2劃分方法距離度量
距離度量
3劃分方法劃分方法給定n個數(shù)據(jù)對象的數(shù)據(jù)集D,以及要生成的簇數(shù)k,劃分算法把數(shù)據(jù)分成k(k≦n)個分區(qū),其中每個分區(qū)代表一個簇。使得在同一個簇中對象是“相似的”,而不同簇中的對象是“相異的”。也就是說,它將數(shù)據(jù)劃分為k個組,同時滿足如下的要求:每個組至少包含一個對象;每個對象必須屬于且只屬于一個組,同時某些模糊劃分技術(shù)中第二個要求可以放寬。劃分方法主要包含以下兩種:K-均值算法K-中心點算法k均值聚類給定k,算法的處理流程如下:Step1:從D中任意選擇k個對象作為初始簇中心;Step2:將每個對象根據(jù)其與各個簇中心的距離,重新分配到與它最近的簇中;Step3:計算每個簇的平均值,并用該平均值代表相應(yīng)的簇;Step4:回到第2步,直到不再有新的分配發(fā)生。k均值聚類(a)
(b)(c)(d)k均值聚類優(yōu)點相對高效的:算法復(fù)雜度O(tkn),其中n是數(shù)據(jù)對象的個數(shù),k是簇的個數(shù),t是迭代的次數(shù),通常k,t<<n當簇是密集的,簇與簇之間區(qū)別明顯時,它的效果較好。缺點只有當平均值有意義的情況下才能使用,對于類別字段不適用;必須事先給定要生成的簇的個數(shù)k;對“噪聲”和異常數(shù)據(jù)敏感;不能發(fā)現(xiàn)非球形的簇,難以達到全局最優(yōu)k均值聚類缺陷(a)聚類-預(yù)期結(jié)果(b)原始數(shù)據(jù)(c)結(jié)果較差聚類k-中心點聚類k-均值算法對離群點非常敏感。因為擁有極端值的對象將在很大程度上影響數(shù)據(jù)的分布。k-中心點:用中心點(位于簇最中心位置的對象)而不是簇中對象的平均值作為參考點。k-中心點聚類算法實現(xiàn)的過程:設(shè)置聚類簇數(shù)k,從數(shù)據(jù)集中隨機選擇k個數(shù)據(jù)點作為初始簇中心。計算其余數(shù)據(jù)點到聚類簇中心的距離,并將其分配到距離最近的簇中。隨機選擇一個非簇中心代替最開始的初始中心,并進行重新分配剩余的數(shù)據(jù)。計算代替后的總代價,如果該總代價小于代替之前的總代價,則用該非簇中心對象代替原來的簇中心,否則不替換。重復(fù)執(zhí)行步驟3-4,直到?jīng)]有簇中心發(fā)生變化或達到迭代次數(shù),算法停止并輸出聚類簇中心坐標。k-中心點聚類-優(yōu)缺點k-中心點聚類的主要優(yōu)點:該算法原理簡單,容易實現(xiàn)。該算法伸縮性好,能夠處理中小型數(shù)據(jù)集。該算法對于讀入數(shù)據(jù)的順序不敏感,數(shù)據(jù)輸入順序不影響聚類結(jié)果。該算法對離群點或“噪聲”數(shù)據(jù)不敏感。k-中心點聚類-優(yōu)缺點
4層次聚類層次聚類把數(shù)據(jù)分成不同層,將數(shù)據(jù)對象組成層次結(jié)構(gòu)或簇的“樹”,有利于數(shù)據(jù)匯總和可視化。層次聚類使用距離作為衡量標準,不需要輸入聚類的個數(shù)k,但需要設(shè)置終止條件。層次聚類-步驟(1)把n個對象作為n個聚類(2)找出距離最近的兩個聚類合并(3)重復(fù)(2)直至n個對象歸于一類(或幾類)BCAFDEG層次聚類-距離最小距離(SINGLE):最大距離(COMPLETE):距離均值(MEAN):平均距離(AVERAGE):層次聚類-距離(a)最小距離
(b)最大距離(c)平均距離
(d)均值距離當算法使用最小距離衡量簇間距離時,稱為最近鄰聚類算法。此外,如果當最近的簇之間的距離超過某個任意的閾值時聚類過程就會終止,則稱其為單連接算法。當一個算法使用最大距離度量簇間距離時,稱為最遠鄰聚類算法。如果當最近簇之間的最大距離超過某個任意的閾值時聚類過程就會終止,則稱其為全連接算法。距離度量先將五個樣本都分別看成是一個簇,最靠近的兩個簇是3和4,因為他們具有最小的簇間距離D(3,4)=5.0第一步:合并簇3和4,得到新的簇集合1,2,(3,4),5x1x2110522020330104301555101234510.00218.00.00320.614.10.00422.411.25.000.0057.0718.025.025.50.00最小距離層次聚類實例第二步:更新距離矩陣:D(1,(3,4))=min(D(1,3),D(1,4))=min(20.6,22.4)=20.6D(2,(3,4))=min(D(2,3),D(2,4))=min(14.1,11.2)=11.2D(5,(3,4))=min(D(3,5),D(4,5))=min(25.0,25.5)=25.0125(34)10.00218.00.0057.0718.00.00(34)20.611.225.00.002(34)(15)20.00(34)11.20.00(15)18.020.60.00(15)(234)(15)0.00(234)18.00.00最小距離層次聚類實例最小距離層次聚類實例最小和最大度量代表了簇間距離度量的兩個極端。它們趨向?qū)﹄x散點或噪聲數(shù)據(jù)過分敏感。使用均值距離和平均距離是對最小和最大距離之間的一種折中方法,而且可以克服離群點敏感性問題。盡管均值距離計算簡單,但是平均距離也有它的優(yōu)勢,因為它既能處理數(shù)值數(shù)據(jù)又能處理分類數(shù)據(jù)。各種距離優(yōu)缺點層次聚類方法盡管簡單,但經(jīng)常會遇到合并或分裂點選擇的困難。這樣的決定是非常關(guān)鍵的,因為一旦一組對象合并或者分裂,下一步的處理將對新生成的簇進行。(不能撤銷先前步驟所做的工作)不具有很好的可伸縮性,因為合并和分裂的決定需要檢查和估算大量的對象或簇,時間復(fù)雜度為O(n2)層次聚類缺點5聚類算法評估36聚類算法評估主要包括:確定數(shù)據(jù)集中的簇數(shù)測定聚類質(zhì)量算法評估37
算法評估—確定簇數(shù)38外在方法當原始數(shù)據(jù)集含有正確的類別信息,則可以使用與分類算法類似的評估方法對聚類結(jié)果進行評價。含有正確類別信息的數(shù)據(jù)稱為基準數(shù)據(jù)。用一定的度量評判聚類結(jié)果與基準數(shù)據(jù)的符合程度即可。內(nèi)在方法采用輪廓系數(shù)進行衡量算法評估—測定聚類質(zhì)量39算法評估—輪廓系數(shù)
THANKS本講結(jié)束高等教育出版社醫(yī)學(xué)大數(shù)據(jù)分析時間序列分析高等教育出版社CONTENTS目錄1時間序列概述1.1基本概念2時間序列基本模型分類基本分析方法分解與基本特征2.1確定性時間序列模型2.2隨機性時間序列模型1.21.31.41時間序列概述引子時間序列概述時間序列是一種復(fù)雜的數(shù)據(jù)對象類型。最早的時間序列分析可以追溯到7000年前的古埃及。古埃及人把尼羅河漲落的情況逐天記錄下來,然后對這個時間序列長期地觀察,結(jié)果他們發(fā)現(xiàn)尼羅河的漲落是非常有規(guī)律的。由于掌握了尼羅河泛濫的規(guī)律,使得古埃及的農(nóng)業(yè)迅速發(fā)展,從而創(chuàng)建了埃及燦爛的史前文明。在醫(yī)學(xué)研究工作中,有很多類似的序列,這些序列的指標值隨時間變化,有明顯的時間先后順序。比如,人體從清晨到深夜的體溫記錄、人體餐后血糖濃度的變化、不同睡眠階段的腦電波、24小時動態(tài)心電圖等等。時間序列數(shù)據(jù)中的觀測值不獨立,因此不能采用常規(guī)的統(tǒng)計方法解決,此時應(yīng)采用時間序列分析對數(shù)據(jù)進行處理?;跁r間序列模型,可以對醫(yī)院門診量、住院人數(shù)、藥品消耗量、腦電、心電信號等時間序列進行分析和預(yù)測。1.1基本概念所謂時間序列(TimesSeries),是指同一現(xiàn)象或同一變量在不同時間上的觀察值排列而成的數(shù)列,也稱時間數(shù)列,常以Yt表示。形式上由現(xiàn)象所屬的時間和現(xiàn)象在不同時間上的觀察值兩部分組成。這里的時間可以是年份、季度、月份或其他任何時間形式。時間序列是應(yīng)用較普遍的數(shù)據(jù)表現(xiàn)形式和數(shù)據(jù)存儲格式。醫(yī)學(xué)領(lǐng)域也存在著大量的時間序列,比如從1955年到2010年的兒童結(jié)腦死亡率的變化規(guī)律;從1980年到2010年我國高壓氧艙數(shù)量的增長規(guī)律等。時間序列概述——基本概念1.2分類時間序列概述——分類1.3基本分析方法對于給定的時間序列,通??梢詮慕^對增長量、平均增長量、發(fā)展速度、增長速度、平均發(fā)展速度、平均增長速度等方面進行基本分析。時間序列概述——基本分析方法時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)表10-1衛(wèi)生機構(gòu)2000-2008年床位數(shù)的動態(tài)變化時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)時間序列概述——基本分析方法例子:全國衛(wèi)生機構(gòu)2000-2008年床位數(shù)的統(tǒng)計數(shù)據(jù)1.4分解與基本特征時間序列中每一時期形成的的數(shù)值都是由許多不同因素共同作用的結(jié)果,而這些影響因素往往交織在一起,增加了時間序列趨勢分析的困難。在眾多因素中,有的因素起長期的、決定性的作用,使時間序列呈現(xiàn)出某種趨勢性、周期性和一定的規(guī)律性;有的因素則起著短暫、非決定性的作用,使時間序列呈現(xiàn)出某種不規(guī)則性。時間序列由于受到各種偶然因素的影響,往往表現(xiàn)出隨機性且彼此之間存在統(tǒng)計相關(guān)性或存在反映系統(tǒng)動態(tài)變化的特征信息。為了分析時間序列的模式或趨勢,通常需要先了解時間序列的主要成分,然后再進行分解,據(jù)此進行分析。時間序列概述——分解與基本特征組成成分長期趨勢(SecularTrend)一般用T表示。指現(xiàn)象在較長時期內(nèi)持續(xù)發(fā)展變化的一種趨向或狀態(tài)。即時間序列隨時間的變化呈現(xiàn)出逐漸增加或減少的一種長期變化趨勢。這些趨勢可以分為線性趨勢和非線性趨勢。不規(guī)則變動(IrregularVariation)一般用I表示。是指由于突發(fā)事件、偶然因素或不明原因等對時間序列造成的非趨勢性、非季節(jié)性、非循環(huán)性的隨機變動。因此,不規(guī)則變動是沒有規(guī)律的,是不可預(yù)測的。循環(huán)變動(CyclicalVariation)一般用C表示。是指以若干年為周期、不具嚴格規(guī)則的周期性連續(xù)變動。與長期趨勢不同,它不是朝著單一方向的持續(xù)運動,而是漲落相間的如鐘擺般的波浪式起伏變化;與季節(jié)變動也不同,它的波動時間較長,變動的周期長短不一,變動的規(guī)則性和穩(wěn)定性較差。季節(jié)變動(SeasonalVariation)一般用S表示。是指由于季節(jié)的變化而引起的現(xiàn)象發(fā)展水平的規(guī)則變動01020304時間序列概述——分解與基本特征時間序列的組成成分時間序列的組成成分:長期趨勢(SecularTrend)01時間序列概述——分解與基本特征時間序列的組成成分:季節(jié)變動(SeasonalVariation)02時間序列概述——分解與基本特征時間序列的組成成分:循環(huán)變動(CyclicalVariation)03時間序列概述——分解與基本特征時間序列的組成成分:不規(guī)則變動(IrregularVariation)04時間序列概述——分解與基本特征一個時間序列通常包括上述4種成分或其中幾種變動因素,因此分析時間序列的基本思路就是將其中的變動因素一一分解出來,測定其變動規(guī)律,然后再綜合反映它們的變動對時間序列變動的影響。采用何種方法分析和測定時間序列中各因素的變動規(guī)律或變動特征取決于對這4種變動因素之間相互關(guān)系的假設(shè)。一般可對時間序列各變動因素關(guān)系作三種不同的假設(shè),即加法關(guān)系假設(shè)、乘法關(guān)系假設(shè)、加乘混合關(guān)系假設(shè),因而形成了加法模型、乘法模型、加乘混合模型。時間序列概述——分解與基本特征時間序列的分解時間序列的分解加法模型加法模型假設(shè)時間序列中每一個指標數(shù)值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種變動因素構(gòu)成,這些因素之間相互獨立且其數(shù)值可依次相加,即某種成分的變動并不影響其他成分的變動加乘混合模型加乘混合模型是假設(shè)時間序列中每一個指標數(shù)值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分中的幾種成分做乘法,再與另外的成分做加法。乘法模型乘法模型是假設(shè)時間序列中每一個指標數(shù)值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分的乘積。010203時間序列概述——分解與基本特征時間序列的分解時間序列的分解:加法模型01時間序列概述——分解與基本特征時間序列的分解:乘法模型02時間序列概述——分解與基本特征時間序列的分解:加乘混合模型03時間序列概述——分解與基本特征2時間序列基本模型時間序列分析就是通過對時間序列進行觀察研究,發(fā)現(xiàn)蘊含于時間序列中的事物變化的發(fā)展規(guī)律,并用此規(guī)律對事物的發(fā)展變化趨勢進行預(yù)測或施加控制。對于不同的時間序列有不同的分析模型。時間序列基本模型2.1確定性時間序列模型時間序列由長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分組成。前三種成分是依一定的規(guī)則而變動,因此在時間序列分析中,設(shè)法消除不規(guī)則變動,擬合確定型趨勢。為了消除不規(guī)則變動的影響,一種有效的方法就是取一段時間的觀察值的平均值作為下一時刻的預(yù)測值,于是便產(chǎn)生了移動平均法和指數(shù)平滑法。時間序列基本模型——確定性時間序列模型時間序列由長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分組成。前三種成分是依一定的規(guī)則而變動,因此在時間序列分析中,設(shè)法消除不規(guī)則變動,擬合確定型趨勢。為了消除不規(guī)則變動的影響,一種有效的方法就是取一段時間的觀察值的平均值作為下一時刻的預(yù)測值,于是便產(chǎn)生了移動平均法和指數(shù)平滑法。時間序列基本模型——確定性時間序列模型移動平均法簡單移動平均簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。。趨勢移動平均法當預(yù)測目標的基本趨勢在某一水平上下波動時,可用一次移動平均法;當預(yù)測目標的基本趨勢與某一線性模型相吻合時,可用二次移動平均法;當預(yù)測序列同時存在線性趨勢與周期波動時,用趨勢移動平均法。加權(quán)移動平均在簡單移動平均中,每期數(shù)據(jù)在求平均時的作用是相同的。但在實際中每期數(shù)據(jù)所包含的信息量不一樣,近期數(shù)據(jù)包含著更多關(guān)于未來情況的信息。因此把各期數(shù)據(jù)等同看待是不盡合理的,應(yīng)考慮各期數(shù)據(jù)的重要性,對近期數(shù)據(jù)給予較大的權(quán)重,這就是加權(quán)移動平均法的基本思想。0102031.移動平均法時間序列基本模型——確定性時間序列模型移動平均法是對原序列依次求連續(xù)若干期的平均數(shù)作為時間序列某一期的趨勢值,如此逐項遞移求得一系列的移動平均數(shù),形成一個新的平均數(shù)時間序列。移動平均法假定預(yù)測值與其相鄰的若干觀察期數(shù)據(jù)擁有密切關(guān)系。該方法在一定程度上可以消除歷史數(shù)據(jù)隨時間變化引起的不規(guī)則變動的影響,從而分析預(yù)測時間序列的長期趨勢。移動平均法按預(yù)測方法的不同分為簡單移動平均、加權(quán)移動平均和趨勢移動平均。N期移動平均數(shù)01確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。中心化移動平均02確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。N的取值03確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:某地歷年某傳染病人數(shù)的時間序列如下表10-2所示。試用移動平均法預(yù)測t=16時的傳染病人數(shù)。表10-2某地歷年某傳染病人數(shù)確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預(yù)測t=16時的傳染病人數(shù)。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預(yù)測t=16時的傳染病人數(shù)。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預(yù)測t=16時的傳染病人數(shù)。(2).加權(quán)移動平均確定性時間序列模型:移動平均法(3).趨勢移動平均法確定性時間序列模型:移動平均法確定性時間序列模型:移動平均法例題10-2:某醫(yī)院2001-2012年某藥品出庫量(單位:萬盒)如表10-4所示,試用移動平均法(N=3)預(yù)測2013年和2014年的藥品出庫量。確定性時間序列模型:移動平均法例題10-2:試用移動平均法(N=3)預(yù)測2013年和2014年的藥品出庫量。確定性時間序列模型:指數(shù)平滑法(1).指數(shù)平滑法的原理
一次移動平均實際上認為最近N期數(shù)據(jù)對未來值影響相同,都加權(quán)1/N,而N期以前的數(shù)據(jù)對未來值沒有影響,加權(quán)為零。但是二次及更高次移動平均數(shù)的權(quán)數(shù)卻不是1/N。次數(shù)越高,權(quán)數(shù)的結(jié)構(gòu)越復(fù)雜。但永遠保持對稱的權(quán)數(shù),即兩端項權(quán)數(shù)小,中間項權(quán)數(shù)大,這不符合一般系統(tǒng)的動態(tài)性規(guī)律。一般說來,歷史數(shù)據(jù)對未來值的影響是隨時間間隔的增長而遞減的,所以更切合實際的方法應(yīng)是對各期觀測值依時間順序進行加權(quán)平均作為預(yù)測值。這就產(chǎn)生了指數(shù)平滑法。
指數(shù)平滑法是用時間序列過去取值的加權(quán)平均作為未來的預(yù)測值,離當前時刻越近的取值,其權(quán)重越大。指數(shù)平滑法的本質(zhì)是一種加權(quán)移動平均,它既可以用來描述時間序列的變化趨勢,也可以實現(xiàn)時間序列的預(yù)測。
指數(shù)平滑法根據(jù)平滑次數(shù)的不同又分為一次指數(shù)平滑法、二次指數(shù)平滑法和p次指數(shù)平滑法。
確定性時間序列模型:指數(shù)平滑法(2).指數(shù)平滑公式確定性時間序列模型:指數(shù)平滑法(3).平滑系數(shù)的確定確定性時間序列模型:指數(shù)平滑法(4).初始預(yù)測值的確定例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數(shù)平滑法預(yù)測12月份的門診收入。確定性時間序列模型:指數(shù)平滑法例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數(shù)平滑法預(yù)測12月份的門診收入。確定性時間序列模型:指數(shù)平滑法例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數(shù)平滑法預(yù)測12月份的門診收入。確定性時間序列模型:指數(shù)平滑法確定性時間序列模型:指數(shù)平滑法(5).指數(shù)平滑的選擇一次指數(shù)平滑適用于不包含長期趨勢和季節(jié)成分的平穩(wěn)時間序列預(yù)測,雖然克服了移動平均法的缺點,但當時間序列的變動出現(xiàn)直線趨勢時,用一次指數(shù)平滑進行預(yù)測,仍存在明顯的滯后偏差,需要進行二次指數(shù)平滑,即時間序列的變動出現(xiàn)直線趨勢時用二次指數(shù)平滑;當時間序列的變動表現(xiàn)為二次曲線趨勢時,則需要用三次指數(shù)平滑。2.2隨機性時間序列模型時間序列基本模型——隨機性時間序列模型時間序列受偶然因素的影響,出現(xiàn)隨機波動,這些隨機性波動,看似雜亂無章,其實也是有一定規(guī)律的。基于隨機性理論,對時間序列進行分析,形成了隨機性時間序列模型。拿到一個觀察值序列后,首先對它的隨機性和平穩(wěn)性進行檢驗。根據(jù)檢驗結(jié)果可以將序列分為不同的類型,對不同類型的序列采取不同的模型進行分析。隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性對于純隨機序列,又稱為白噪聲序列,序列的各項之間沒有任何相關(guān)關(guān)系,序列在進行完全無序的隨機波動,可以終止對該序列的分析。純隨機序列是沒有信息可提取的平穩(wěn)序列。對于平穩(wěn)非白噪聲序列,它的均值和方差是常數(shù),現(xiàn)已有一套非常成熟的平穩(wěn)時間序列的建模方法。如AR模型、MA模型、ARMA(AutoregressiveandMovingAverage)模型等是最常用的平穩(wěn)序列擬合模型。對于非平穩(wěn)序列,由于它的均值和方差不穩(wěn)定,處理方法一般是將其轉(zhuǎn)變?yōu)槠椒€(wěn)序列,這樣就可以應(yīng)用有關(guān)平穩(wěn)時間序列的分析方法。如果一個時間序列經(jīng)差分運算后具有平穩(wěn)性,則該序列為差分平穩(wěn)序列,可以使用ARIMA(AutoregressiveIntegratedMovingAverage)模型進行分析。(1)平穩(wěn)時間序列的定義隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性(1)平穩(wěn)時間序列的定義隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性如果時間序列{Yt,t∈T}在某一常數(shù)附近波動且波動范圍有限,即有常數(shù)均值和常數(shù)方差,并且延遲k期的序列變量的自協(xié)方差和自相關(guān)系數(shù)是相等的或者延遲k期的序列變量之間的影響程度是一樣的。則稱{Yt,t∈T}為平穩(wěn)序列。平穩(wěn)時間序列沒有明顯的長期趨勢、循環(huán)變動和季節(jié)變動。我們平常所說的平穩(wěn)時間序列是指寬平穩(wěn)時間序列,即在任意時刻,該時間序列的均值為常數(shù),協(xié)方差僅與時間間隔有關(guān),不隨時間的平移而變化。(2)平穩(wěn)性檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性對序列的平穩(wěn)性的檢驗有兩種方法,一種是根據(jù)時序圖、自相關(guān)圖的特征做出判斷的圖檢驗。該方法操作簡單,應(yīng)用廣泛,缺點是帶有主觀性。另一種是根據(jù)統(tǒng)計量進行檢驗的方法。目前最常用的方法是自相關(guān)或偏相關(guān)函數(shù)檢驗法、單位根檢驗、參數(shù)檢驗法、逆序檢驗法、游程檢驗法等。(2)平穩(wěn)性檢驗:①時序圖檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性(2)平穩(wěn)性檢驗:②自相關(guān)圖檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性平穩(wěn)序列具有短期相關(guān)性,這個性質(zhì)表明對平穩(wěn)序列而言通常只有近期的序列值對現(xiàn)時值的影響比較明顯,間隔越遠的過去值對現(xiàn)時值的影響越小。隨著延遲期數(shù)k的增加,平穩(wěn)序列的自相關(guān)系數(shù)會比較快的衰減趨向于零,并在零附近隨機波動,而非平穩(wěn)序列的自相關(guān)系數(shù)衰減的速度比較慢,這就是利用自相關(guān)圖進行平穩(wěn)性檢驗的標準。(2)平穩(wěn)性檢驗:③自相關(guān)系數(shù)ACF隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性時間序列的自相關(guān)系數(shù)是用來描述同一個時間序列相差k個時期的兩個數(shù)據(jù)序列Yt,Yt-k之間的依賴或相關(guān)程度。其取值范圍為-1~1之間,它的絕對值與1越接近,說明時間序列的自相關(guān)程度越高。自相關(guān)系數(shù)可提供時間序列及其模型構(gòu)成的重要信息。對于純隨機序列,即一個由隨機數(shù)字構(gòu)成的時間序列,其各階的自相關(guān)系數(shù)接近于零或等于零。而具有明顯的上升或下降趨勢的時間序列或具有強烈季節(jié)變動或循環(huán)變動性質(zhì)的時間序列將會有高度的自相關(guān)。即平穩(wěn)序列自相關(guān)系數(shù)會很快衰減至0,而非平穩(wěn)時間序列通常衰減速度較慢。(2)平穩(wěn)性檢驗:④偏自相關(guān)系數(shù)PACF隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性在時間序列中偏自相關(guān)是時間序列Yt在給定Yt-1,Yt-2,…,Yt-k-1的條件下,Yt與滯后k期的時間序列之間的條件相關(guān)。它用來度量在其滯后1,2,3…,k-1期的時間序列的作用已知的條件下,Yt與Yt-k之間的相關(guān)程度。(2)平穩(wěn)性檢驗:⑤單位根檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性單位根檢驗是指檢驗序列中是否存在單位根,如果存在存在單位根就是非平穩(wěn)時間序列。(3)純隨機性檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性隨機性時間序列模型:平穩(wěn)時間序列模型對于平穩(wěn)時間序列,常用的模型有:AR模型、MA模型、ARMA模型。(1)p階自回歸模型-AR(p)隨機性時間序列模型:平穩(wěn)時間序列模型(2)滑動平均模型-MA(q)隨機性時間序列模型:平穩(wěn)時間序列模型(3)自回歸滑動平均模型-ARMA(p,q)隨機性時間序列模型:平穩(wěn)時間序列模型(4)有均值項的ARMA模型隨機性時間序列模型:平穩(wěn)時間序列模型隨機性時間序列模型:非平穩(wěn)時間序列模型在實際問題中我們常遇到的序列,特別是反映生理、社會、經(jīng)濟現(xiàn)象的序列時,大多數(shù)并不平穩(wěn),而是呈現(xiàn)出明顯的增長或減少趨勢,或者含有依時間周期變化的趨勢。Box和Jenkins提出的ARIMA模型,即差分自回歸移動平均模型,是國際上流行的一種時間序列預(yù)測模型。該方法的核心思想是采用差分方法將非平穩(wěn)時間序列變成平穩(wěn)時間序列,然后再通過差分的逆操作得到原序列的預(yù)測值。對于有趨勢性時間序列通常采用ARIMA模型進行分析。對于有季節(jié)性的時間序列,可以采用乘積季節(jié)ARIMA模型進行預(yù)測,由于這類模型比較復(fù)雜,本課程不做介紹。(1)差分(Difference)運算隨機性時間序列模型:非平穩(wěn)時間序列模型(2)ARIMA模型隨機性時間序列模型:非平穩(wěn)時間序列模型(1)對時間序列的平穩(wěn)性和隨機性進行檢驗隨機性時間序列模型:隨機性時間序列預(yù)測步驟畫出時序圖或計算時間序列的自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)或計算單位根,判斷時間序列為平穩(wěn)時間序列還是非平穩(wěn)時間序列;對于非平穩(wěn)時間序列,通過差分運算轉(zhuǎn)換成平穩(wěn)時間序列。對時間序列的純隨機性進行檢驗,當計算出p<0.05,說明不是純隨機序列。當一個時間序列被判定為平穩(wěn)非白噪聲序列時,就可以進行時間序列建模。(2)模型識別隨機性時間序列模型:隨機性時間序列預(yù)測步驟(3)模型參數(shù)估計隨機性時間序列模型:隨機性時間序列預(yù)測步驟用時間序列的數(shù)據(jù)估計模型中所含自回歸和移動平均項的參數(shù),并判定所選的模型對數(shù)據(jù)擬合是否夠好?如不恰當則重新選定模型。主要的參數(shù)估計方法有矩估計法、最小二乘估計法和極大似然估計法等,一般都由計算機軟件實現(xiàn),這里不作介紹。(4)模型應(yīng)用隨機性時間序列模型:隨機性時間序列預(yù)測步驟利用所選模型對時間序列進行一步或多步的預(yù)測。利用時間序列模型向前預(yù)測的時期越長,預(yù)測誤差就會越大。例題10-4:表
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專業(yè)定制塑鋼窗戶采購協(xié)議示例(2024年度)版B版
- 二零二五年度瓷磚行業(yè)環(huán)保設(shè)施建設(shè)合同3篇
- 2025年度教育課程策劃開發(fā)合同范本4篇
- 2025年度智慧社區(qū)場商位租賃及社區(qū)服務(wù)合同4篇
- 2025年度文化旅游區(qū)場地承包經(jīng)營與開發(fā)合同模板3篇
- 2025年度現(xiàn)代化廠房施工建設(shè)合同(新版)4篇
- 2024年貨物買賣合同跨境電商條款
- 2025年度叉車租賃與租賃物租賃期限續(xù)簽合同4篇
- 專屬校車司機招聘協(xié)議:2024年版詳盡協(xié)議版B版
- 2024贊助合同書范本:展覽贊助合作協(xié)議3篇
- 智慧工廠數(shù)字孿生解決方案
- 病機-基本病機 邪正盛衰講解
- 品管圈知識 課件
- 非誠不找小品臺詞
- 2024年3月江蘇省考公務(wù)員面試題(B類)及參考答案
- 患者信息保密法律法規(guī)解讀
- 老年人護理風(fēng)險防控PPT
- 充電樁采購安裝投標方案(技術(shù)方案)
- 醫(yī)院科室考勤表
- 鍍膜員工述職報告
- 春節(jié)期間化工企業(yè)安全生產(chǎn)注意安全生產(chǎn)
評論
0/150
提交評論