




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基于相似性的時間序列聚類方法
1時間序列聚類計算方法的選擇隨著傳感器數(shù)量的增加,以及遙感(ri)、計算機科學(xué)(gis)和全球定位系統(tǒng)(gps)的廣泛應(yīng)用,導(dǎo)致了地球物理研究區(qū)域的大量觀測數(shù)據(jù)。這些數(shù)據(jù)不再局限于傳統(tǒng)的靜態(tài)空間中,而是逐漸向時間維擴展,形成了時間序列數(shù)據(jù)。時間序列中蘊藏著不同的模式,而不同的模式反映了不同的序列成因。因此,針對序列模式進行聚類,將其分為不同的類別成為我們認(rèn)識序列數(shù)據(jù),進而理解序列形成本質(zhì)的重要手段。由此看來,針對時間序列數(shù)據(jù)的聚類方法研究具有非常重要的意義。與傳統(tǒng)的點數(shù)據(jù)聚類方法相比,針對時間序列的聚類具有一定復(fù)雜性。首先,時間序列數(shù)據(jù)具有高維性,在這巨大的維數(shù)中往往只有一小部分維度是與表現(xiàn)對象變化特征的簇結(jié)構(gòu)密切相關(guān)的,而其他不相關(guān)或者相關(guān)性很小的維度會產(chǎn)生大量的噪聲,從而掩蓋了真實的簇結(jié)構(gòu)。其次,由于維度較高,數(shù)據(jù)稀疏,維度之間也很可能會有相關(guān)性,傳統(tǒng)的相似性度量方法難以發(fā)現(xiàn)真實的結(jié)果。第三,時間序列相似性的定義多種多樣,基于觀測值的相似性度量只能發(fā)現(xiàn)表面的變化,沒有體現(xiàn)事物的內(nèi)在機制。兩條序列即使觀測值相差很小,也不代表序列就很相似(圖1a);同樣,觀測值完全不同,兩條序列也有可能在某方面具有相似之處(圖1b)。目前,一些學(xué)者提出了許多方法來解決不同類型的時間序列聚類問題。這些方法大致可分為兩種:(1)對現(xiàn)有的靜態(tài)數(shù)據(jù)聚類方法進行改進使其能處理時間序列數(shù)據(jù);(2)將時間序列數(shù)據(jù)轉(zhuǎn)換為靜態(tài)數(shù)據(jù)的形式,然后直接用靜態(tài)數(shù)據(jù)聚類方法來進行聚類。按照這個思路,時間序列聚類方法可分為基于原始測度數(shù)據(jù)的時間序列聚類和基于特征的時間序列聚類。基于原始測度數(shù)據(jù)的時間序列聚類,直接根據(jù)原始數(shù)據(jù)定義相似度,如歐氏距離,相關(guān)系數(shù),DTW距離等,然后進行聚類。Liao總結(jié)了用于時間序列聚類的各種相似性度量方法;Díaz根據(jù)相似性度量的定義中是否需要估計模型參數(shù),將時間序列聚類方法分為有參數(shù)的聚類方法和無參數(shù)的聚類方法。這些方法在現(xiàn)實生活中都有廣泛的應(yīng)用。然而,采用基于原始測度數(shù)據(jù)的時間序列聚類方法,不可避免地要面對高維數(shù)據(jù)的問題;此外,基于原始數(shù)據(jù)僅能發(fā)現(xiàn)序列表面的相似性,沒有觸及序列本身的內(nèi)在機制,聚類結(jié)果有很大的局限性?;谔卣鞯臅r間序列聚類方法,先對原始數(shù)據(jù)進行降維,抽取表征其內(nèi)在變化機制的特征作為相似性度量的基礎(chǔ),然后運用各種聚類方法對這些特征進行聚類,不僅減少了計算量,解決了時間序列高維數(shù)據(jù)問題,而且還可以處理有數(shù)據(jù)缺失、不等長或采樣不均勻的時間序列;最重要的是,基于特征的時間序列可以根據(jù)不同的應(yīng)用問題選取合適的特征,從而發(fā)現(xiàn)時間序列內(nèi)在機制中不同方面的相似性。本文根據(jù)時間序列的不同特征,系統(tǒng)綜述了基于特征的時間序列聚類方法的研究進展。首先介紹了時間序列的定義,概念以及各類特征;然后對基于特征的時間序列聚類方法進行了分析和評述;最后討論了現(xiàn)有方法的問題和挑戰(zhàn),并對未來時間序列聚類方法研究進行了展望。2數(shù)據(jù)和時間序列特征時間序列也稱為動態(tài)序列,由一組隨時間變化的觀測量組成。與傳統(tǒng)靜態(tài)數(shù)據(jù)不同,時間序列是一類復(fù)雜的數(shù)據(jù)對象,描述了事物變化過程。2.1采樣時間序列時間序列有很多種。根據(jù)數(shù)據(jù)類型不同,可以分為數(shù)值型時間序列和類別型時間序列;根據(jù)采樣時間不同可以分為均勻采樣時間序列和非均勻采樣時間序列;根據(jù)觀測值維度不同可以分為單維時間序列和多維時間序列;根據(jù)統(tǒng)計特征不同可以分為平穩(wěn)型時間序列和非平穩(wěn)型時間序列。不同的時間序列具有的特征也不同,本文主要針對數(shù)值型時間序列,如果沒有特殊說明,下文中出現(xiàn)的“時間序列”均指數(shù)值型時間序列。2.2時間序列的認(rèn)知通常時間序列具有多個特征,每個特征刻畫了時間序列的一個方面。從對時間序列不同層次上的認(rèn)知可將時間序列特征分為3種:形態(tài)特征、結(jié)構(gòu)特征以及模型特征。這種分類體現(xiàn)了人們對時間序列認(rèn)識逐步深化的過程。2.2.1從時間序列觀察看,各有以下幾種特征點時間序列的形態(tài)特征主要指時間序列的形狀變化特征,包括全局特征和局部特征。全局特征描述了時間序列的起伏變化,如上升、下降、頭肩模式(圖2)等;局部特征則表現(xiàn)為時間序列局部時間點上的異常觀測值,如不連續(xù)點,極值點、突變點、轉(zhuǎn)折點等。在時間序列最開始的研究中,人們通常是先將時間序列畫出來,然后直觀地通過觀察來研究時間序列的起伏變化或異常點。這類反映時間序列整體變化或局部異常,可以直觀看出的特征,稱為時間序列的形態(tài)特征?;谛螒B(tài)特征的時間序列聚類,可以發(fā)現(xiàn)具有相同形狀的時間序列簇,尋求時間序列的起伏變化規(guī)律。時間序列形態(tài)特征可以在一定程度上表現(xiàn)時間序列的特性,通常適用于描述短時間序列。當(dāng)序列較長時,起伏變化往往比較復(fù)雜,難以用簡單的“上升,下降”描述。雖然可以采用分段描述的方法,但這割裂了時間序列的整體性,不能很好地反映時間序列的全局特征;異常點特征主要描述時間序列上的某些特殊點的特征,同樣難以反映其全局特征。2.2.2時間序列全局特點時間序列的結(jié)構(gòu)特征是對時間序列全局構(gòu)造或內(nèi)在變化機制的描述,它可以很好的表現(xiàn)時間序列全局特點。時間序列的結(jié)構(gòu)特征一般難以直觀的看出,需要對原始數(shù)據(jù)進行統(tǒng)計或者轉(zhuǎn)換得出。時間序列結(jié)構(gòu)特征通常包括以下3類:基本統(tǒng)計特征、時域特征和頻域特征。(1)概率分布密度曲線特征基本統(tǒng)計特征是描述時間序列全局結(jié)構(gòu)的一些統(tǒng)計量,它不是時間序列特有的特征,而是可用于描述任何一組數(shù)據(jù)的特征,包括均值、方差、偏度、峰度等(表1)。均值和方差是用來描述數(shù)據(jù)的中心及其偏差的。偏度是表征概率分布密度曲線相對于均值不對稱程度的特征指數(shù),直觀看就是函數(shù)曲線尾部的相對長度;峰度,則是表征概率密度分布曲線在平均值處峰值高低的特征指數(shù),直觀上反映了函數(shù)曲線尾部的厚度。(2)時間序列時域特征時間序列時域特征是時間序列在時間域上表現(xiàn)出的全局結(jié)構(gòu)特征,它反映了時間序列隨時間變化的規(guī)律。時間序列時域特征包括:趨勢、季節(jié)波動、時間序列的自相關(guān)、混沌等(表2)。趨勢是描述時間序列長期變化情況;季節(jié)性反映了時間序列周期內(nèi)的波動情況;自相關(guān)性是時間序列特有的性質(zhì),表現(xiàn)為時間序列的觀測值依賴于之前觀測值的情況;混沌則表示時間序列受其初值影響的敏感程度。(3)周期強度及譜密度時間序列頻域特征是時間序列在頻率域上表現(xiàn)出的結(jié)構(gòu)特征,它描述了時間序列的組成成分。一條時間序列可以看成由多個不同頻率的振蕩序列疊加而成。時間序列頻域特征主要包括周期解析強度和譜密度。周期強度是在頻率ωj=j/n下,正弦振蕩數(shù)據(jù)相關(guān)的平方度量,為時間序列離散傅里葉轉(zhuǎn)換的模的平方,具體如下式:式中:j表示n個數(shù)據(jù)點的j次循環(huán);P(j/n)表示頻率為jn下的周期強度。譜密度,或者稱(功率譜密度)是平穩(wěn)隨機過程中頻率的一個正值函數(shù),可以看作是時間序列自相關(guān)函數(shù)的傅里葉變換。當(dāng)且僅當(dāng)時間序列是寬平穩(wěn)的時候,才存在功率譜密度。譜密度通常采用傅里葉變換技術(shù)來計算。式中:ω表示頻率;h表示滯后系數(shù);γ(h)表示時間序列的自協(xié)方差函數(shù),要求滿足∑+∞h=-∞|γ(h)|<∞。2.2.3時間序列模型描述時間序列模型特征描述了事物變化潛在的運動規(guī)律。人們通過對大量時間序列的研究,基于某種假設(shè)推理,總結(jié)出的表達(dá)事物變化規(guī)律的抽象數(shù)學(xué)公式就是時間序列模型。模型特征一般表現(xiàn)為不同的參數(shù)特征,不同的時間序列是具有不同參數(shù)的模型表達(dá)。描述時間序列的模型多種多樣,通常是將時間序列看成是一個隨機過程,用不同的隨機過程去模擬時間序列。這些模型包括:高斯過程模型、ARMA(自回歸滑動平均模型)以及ARIMA模型(差分自回歸移動平均模型)、馬爾科夫鏈模型、隱馬爾科夫模型等。(1)高斯過程模型:假設(shè)各個時間點上的觀測值相互獨立,且都服從高斯分布,其模型表達(dá)為:Xt~Niid(μ,σ),主要參數(shù)特征包括均值μ和方差σ。(2)ARMA模型:假設(shè)序列的當(dāng)前觀測值xt與之前的p個值有線性關(guān)系,因此只要知道原始序列的觀測值,就可對未來進行預(yù)測,其模型表達(dá)式為:該模型特征表現(xiàn)為上式中參數(shù)a,?,θ。xt表示t時刻觀測值,wt表示t時刻的高斯噪聲。(3)馬爾科夫鏈模型:常用來描述類別型時間序列,也可以通過離散化處理數(shù)值型時間序列。它將時間序列看成某系統(tǒng)“狀態(tài)”的演變過程,Xt=x表示系統(tǒng)在t時刻處于狀態(tài)x。假設(shè)時間序列的當(dāng)前狀態(tài)只與前一個狀態(tài)有關(guān),記為:P{Xt=xt|X1=x1…Xt-1=xt-1}=P{Xt=xt|Xt-1=xt-1},則時間序列xt是一個馬爾科夫鏈。馬爾科夫鏈模型特征表現(xiàn)為概率轉(zhuǎn)移矩陣。(4)隱馬爾科夫模型:由初始狀態(tài)概率向量π,狀態(tài)轉(zhuǎn)移概率矩陣A和觀察值概率矩陣B組成。表示無法直接觀察到馬爾科夫鏈的狀態(tài)序列,但是可以觀察到其輸出序列,是一個雙重隨機過程,其模型特征表現(xiàn)為O(π,A,B)。上述這些模型都體現(xiàn)了不同的時間序列特征,在時間序列聚類方法中廣泛使用。3基于不同種類的聚類分析聚類分析根據(jù)對象之間的相似性,將其分成不同的組,其中組內(nèi)對象之間距離最小,而組間對象之間距離最大。傳統(tǒng)的靜態(tài)數(shù)據(jù)聚類方法分為5類:基于劃分的聚類、基于層次的聚類、基于密度的聚類、基于格網(wǎng)的聚類以及基于模型的聚類。基于特征的時間序列聚類,在傳統(tǒng)靜態(tài)聚類方法的基礎(chǔ)上引入了時間序列特征的相似性。通過不同的特征來研究時間序列的內(nèi)在變化機制,從而發(fā)現(xiàn)其相似規(guī)律。依據(jù)聚類問題所針對的不同特征,可以將時間序列聚類分為3類:基于形態(tài)特征的時間序列聚類、基于結(jié)構(gòu)特征的時間序列聚類、基于模型特征的時間序列聚類。3.1伏變化或異常點基于形態(tài)特征的時間序列聚類可以揭示時間序列中相似的起伏變化或其異常點。前者表明序列整體趨勢變化相似,后者則是序列局部相似的體現(xiàn)?;谶@點考慮,可將基于形態(tài)特征的時間序列聚類分為全局形態(tài)特征聚類和局部形態(tài)特征聚類。3.1.1時間序列聚類計算的簡化基于全局形態(tài)特征的時間序列聚類方法適用于處理短時間序列,如基因譜聚類,發(fā)現(xiàn)序列的整體相似性。采用原始時間序列的歐氏距離或Pearson相關(guān)系數(shù)距離可以從一定程度上反映全局形態(tài)特征,但無法發(fā)現(xiàn)具有尺度拉伸、位移,強度拉伸、位移的相似形態(tài)特征(圖3a)。此外歐氏距離和Pearson相關(guān)系數(shù)對噪聲相當(dāng)敏感(圖3b),難以處理不等長、非均勻采樣或有數(shù)據(jù)缺失的時間序列。DTW距離放寬了全局形態(tài)特征相似性在尺度上的限制,可以處理不等長的時間序列。它在一定程度上克服了尺度位移的問題,但依然無法發(fā)現(xiàn)具有強度拉伸或位移的相似形態(tài)特征,此外該方法的計算量往往比較大,不適合長時間序列聚類問題。針對噪聲問題,Balasubramaniyan提出Spearman相關(guān)系數(shù)作為基因譜序列的相似性度量,采用觀測值大小的排名來描述時間序列全局形態(tài)特征,而忽略序列觀測值取值本身。Spearman相關(guān)系數(shù)的計算如下式:式中:rX(xi)表示i時刻的觀測值xi在時間序列(x1,x2,…,xn)中的排名;rY(yi)類似;n表示觀測總數(shù)。Spearman相關(guān)系數(shù)的顯著度通過經(jīng)驗分布計算。實驗證明該方法在對具有相似全局形態(tài)特征的短時間序列聚類上可以在一定程度克服噪聲和形狀位移等問題,優(yōu)于傳統(tǒng)的采用歐氏距離和Pearson相關(guān)系數(shù)函數(shù)作為相似性度量的方法(圖3b)。但由于這種方法忽略觀測值本身,聚類結(jié)果往往比較粗糙。M?ller-Levet等定義了短時間序列距離來描述短時間序列全局形態(tài)特征的相似性。每條時間序列的形態(tài)特征用一組分段斜率代替,這樣可以減弱拉伸或位移所帶來的影響。該方法也可以處理非均勻采樣的時間序列數(shù)據(jù),但要求數(shù)據(jù)是等長的。下式是該方法的距離度量:式中:xk和vk表示不同序列第k次觀測時刻的觀測值;tk表示第k次觀測的時間;nt表示觀測時間點總數(shù)。長時間序列由于維數(shù)很高,其全局形態(tài)特征的描述容易受維度之間的相關(guān)性及噪聲的影響。對此,Fu等對長時間序列進行了簡化,采用序列的PIP點(PerceptualImportantPoint)來表征其全局形態(tài)特征,并進行聚類。這種方法很好的克服了噪聲問題,可以發(fā)現(xiàn)表征大尺度變化的相似形態(tài)特征。序列的簡化過程采用道格拉斯壓縮算法,大大提高了聚類算法的效率。3.1.2時間序列特征局部形態(tài)特征可以體現(xiàn)時間序列局部的異常值。針對序列的局部形態(tài)特征,Keogh等提出了分段線性分割的方法,將原始序列分為多個子序列,通過各個子序列的相似性來度量時間序列的整體相似性。每段子序列采用5個參數(shù)來表示:A≡{AXL,AYL,AXR,AYR,AW},分別表示線段的左點x坐標(biāo),左點y坐標(biāo),右點x坐標(biāo),右點y坐標(biāo)以及該段線段權(quán)重,采用分段加權(quán)距離計算序列之間的相似度。Chen等采用與Keogh等類似的方法,也對時間序列進行了分段處理。它認(rèn)為一條時間序列由一組局部模式組成,每個模式可以用5個參數(shù)表示:lp=(θpos,θamp,θshp,θtscl,θascl),分別表示局部模式在原始時間序列中的起始位置,平均振幅,形狀參數(shù),時間尺度和振幅尺度。隨后他定義了局部模式的綜合相似度——SpADe距離。實驗證明采用SpADe距離聚類可以很好的解決拉伸和位移問題,其結(jié)果精度比歐氏距離,DTW距離以及EDR距離都要高。小波變換具有多尺度效應(yīng),基于這點考慮,Hsu對原始序列進行小波處理,采用多尺度的小波系數(shù)表征原始序列的特征,既要突出全局整體特征,又表現(xiàn)局部序列特征。聚類結(jié)果表明采用小波系數(shù)聚類可以很好的發(fā)現(xiàn)降水時間序列局部奇異值和銳轉(zhuǎn)變點的相似特征以及整體周期變化的特征。表3給出了基于形態(tài)特征時間序列聚類方法中各種相似性度量的特點。該方法適用于短時間序列聚類問題,多用于基因序列聚類問題以及一些軌跡聚類問題。當(dāng)處理長時間序列聚類問題時,往往需要進行特殊處理,對序列本身形式有要求,有一定的局限性。3.2結(jié)構(gòu)的復(fù)雜性基于形態(tài)特征的時間序列聚類停留在序列表面形狀的相似上,沒有考慮其內(nèi)部結(jié)構(gòu)的相似性。這類方法適用于短時間序列聚類,對于長時間序列往往有一定的局限性?;诮Y(jié)構(gòu)特征的時間序列聚類能夠揭示時間序列潛在的相似變化機制和結(jié)構(gòu),從而發(fā)現(xiàn)更有意義的聚類結(jié)果。根據(jù)聚類結(jié)構(gòu)特征的不同可以分為基于統(tǒng)計特征的時間序列聚類、基于時域特征的時間序列聚類、基于頻域特征的時間序列聚類(表4)。3.2.1時間序列聚類分析基于統(tǒng)計結(jié)構(gòu)特征的時間序列聚類采用描述一般序列的基本統(tǒng)計量作為時間序列特征來進行聚類。Nanopoulos等最早提出了一種基于統(tǒng)計結(jié)構(gòu)特征的時間序列聚類方法,它選取了時間序列的均值、標(biāo)準(zhǔn)差、偏度、峰度4個基本統(tǒng)計量表征時間序列的結(jié)構(gòu)特征,偏度和峰度包含觀測值分布的形狀信息。分別計算了原始序列及其一階差分序列的均值、標(biāo)準(zhǔn)差、偏度和峰度值,采用神經(jīng)網(wǎng)絡(luò)的方法對這些特征進行了聚類。實驗表明,基于這些統(tǒng)計特征的時間序列聚類在一定程度上克服了噪聲問題,并大大提高了計算效率。Ouyang選取了時間序列的最大值、最小值、均值以及標(biāo)準(zhǔn)差作為時間序列的結(jié)構(gòu)特征,對塔里木流域的單一水文站點不同月份的流量序列進行了聚類,從而發(fā)現(xiàn)了該地區(qū)的不同水文流量時期。3.2.2時間序列聚類基于時域特征的時間序列聚類采用時間序列在時域上特有的一些全局結(jié)構(gòu)特征,如:趨勢、周期、自相關(guān)等,進行聚類。Kontaki等和Kumar等考慮用時間序列的趨勢結(jié)構(gòu)特征和季節(jié)性結(jié)構(gòu)特征進行了聚類。前者采用分段線性概化的方法,定義了DPLA距離表示為分段趨勢距離之和,作為相似性度量;后者在考慮季節(jié)性相似度量時,不僅計算了季節(jié)特征波動部分,而且還考慮其誤差,采用兩個季節(jié)模式具有相同均值的零假設(shè)的顯著性作為季節(jié)性相似的度量。該方法用來對零售商品數(shù)據(jù)的季節(jié)性模式進行聚類,發(fā)現(xiàn)了零售商品中具有相似均值分布的季節(jié)模式。Wang等在上述兩人的基礎(chǔ)上又加入了一部分時間序列特有的特征,包括周期、自相關(guān)性、非線性以及混沌性等共9個特征,采用層次聚類方法和SOM方法,對其進行時間序列聚類。實驗結(jié)果表明,用9個特征代表原始數(shù)據(jù)進行時間序列聚類,不僅可以提高計算效率,而且可以得到更高精度的聚類結(jié)果。此外通過特征選取步驟,可以發(fā)現(xiàn)不同意義的聚類結(jié)果,Wang等將此方法用在對人類行為的聚類研究上。3.2.3基于時間序列的聚類隨后,更多時間序列特有的結(jié)構(gòu)特征被引入時間序列聚類,以發(fā)現(xiàn)其不同方面的內(nèi)在變化機制?;陬l域特征的時間序列聚類可以發(fā)現(xiàn)具有相似周期或譜密度等頻域特征的時間序列。Caiado等提出用周期解析強度作為時間序列的結(jié)構(gòu)特征,定義了標(biāo)準(zhǔn)化周期解析強度的對數(shù)距離作為時間序列的相似性度量。實驗表明基于該特征聚類可以區(qū)分具有不同ARMA或ARIMA模型的時間序列。Shumway等則對多維時間序列的譜密度特征進行聚類,其相似性度量采用了譜矩陣的兩種擬距離:Kullback-Liebler信息散度與Chernoff對稱信息散度。基于該相似性度量,文中采用層次聚類的方法將地震時間序列和爆炸的時間序列數(shù)據(jù)進行了分組。3.2.4基于時間序列的聚類時間序列的結(jié)構(gòu)特征多種多樣,基于不同的特征可以發(fā)現(xiàn)不同方面的序列機制。Alonso等先對時間序列進行預(yù)測,采用時間序列在未來時段預(yù)測值的概率密度分布作為時間序列的特征,然后對其進行聚類。兩條序列的距離度量采用了各自概率密度函數(shù)差的積分。Singhal等對多維時間序列聚類,采用多維時間序列的主成分以及其各維數(shù)據(jù)的質(zhì)量精度來進行聚類。文中定義3個基礎(chǔ)距離度量,分別表示為主成分的夾角、多維數(shù)據(jù)集的馬氏距離以及數(shù)據(jù)質(zhì)量精度差異,最終多維時間序列的距離采用3個基礎(chǔ)距離的加權(quán)和。Díaz等考慮對時間序列的多種特征聚類,這些特征包括時間序列的自相關(guān)函數(shù),部分相關(guān)函數(shù),周期解析強度,譜密度等。文中對比了基于不同特征的相似性度量,將其分為了有參數(shù)和非參數(shù)的聚類方法。有參數(shù)的方法先對時間序列的模型參數(shù)進行估計,然后基于這些參數(shù)計算時間序列的相似度;非參數(shù)的方法則采用統(tǒng)計檢驗,將兩條序列來自同一參數(shù)模型作為零假設(shè),檢驗其顯著性,作為時間序列之間的相似性度量。實驗證明,選擇這些時間序列結(jié)構(gòu)特征聚類,可以解決3種時間序列的聚類問題,包括平穩(wěn)與非平穩(wěn)時間序列區(qū)分,不同ARMA過程的時間序列區(qū)分以及一些非平穩(wěn)時間序列之間的區(qū)分?;诮Y(jié)構(gòu)特征的時間序列聚類可對原始時間序列降維,找出具有相同結(jié)構(gòu)特征的時間序列,從而發(fā)現(xiàn)其潛在機制的相似性。同時它很好的解決了噪聲問題,并可以處理不等長以及非均勻采樣的時間序列數(shù)據(jù)。但由于結(jié)構(gòu)特征種類繁多,具體選擇哪種特征聚類往往與實際問題密切相關(guān),因此還需對如何選取合適的結(jié)構(gòu)特征作進一步的研究。3.3基于聚類分析的時間序列分配算法基于模型特征的時間序列聚類,假設(shè)不同簇的時間序列是由具有不同參數(shù)的模型創(chuàng)建而來的,而具有相同模型特征的時間序列就認(rèn)為是相似的。給定一組時間序列,聚類問題就是找出具有代表性的參數(shù)模型,根據(jù)該模型特征將時間序列分配到相應(yīng)的組中。這種聚類方法往往更能反映時間序列的自然特性,產(chǎn)生有意義的結(jié)果。基于模型特征的時間序列聚類方法可以分為兩種:基于模型參數(shù)特征的時間序列聚類和基于混合模型的時間序列聚類(表5)?;谀P蛥?shù)特征的聚類對時間序列建立模型,然后將該模型的參數(shù)或者擬合的殘差作為時間序列的模型特征,以此定義合適的相似性度量進行聚類;基于混合模型的時間序列聚類將時間序列看成由多個模型組件組成的混合模型,計算模型各組件的后驗概率或?qū)?shù)似然,根據(jù)最大后驗概率或最大似然的原則對混合模型各組件中的模型參數(shù)進行估計,從而確定時間序列各簇對應(yīng)的模型。3.3.1多維時間序列聚類分析基于參數(shù)特征的聚類方法,與之前基于形態(tài)特征和基于結(jié)構(gòu)特征的聚類方法思路大體相同,主要還是建立模型,用模型參數(shù)定義序列之間的相似性度量。Maharaj針對平穩(wěn)型時間序列建立了自回歸模型(AR),對自回歸系數(shù)π進行估計。采用零假設(shè):πx=πy的顯著性作為兩個時間序列的相似性度量,聚類結(jié)果可以發(fā)現(xiàn)具有相同自回歸模型的時間序列。隨后Maharaj將該方法擴展到多維時間序列聚類上,建立了向量自回歸滑動平均模型VAR-MA,同樣采用零假設(shè):πx=πy的顯著性作為兩條序列的相似性度量。Ramoni則對時間序列建立馬爾科夫鏈模型,將每條時間序列看成是一個馬爾科夫鏈,估計其概率轉(zhuǎn)移矩陣,然后定義了轉(zhuǎn)移矩陣的Kullback-Liebler距離,作為序列之間相似性度量。通過層次聚類法,結(jié)合最大后驗概率的原則對時間序列進行聚類。Ramoni等也將該種方法擴展到了多維時間序列聚類上。3.3.2隱馬爾科夫混合模型基于混合模型的時間序列聚類核心問題在于對模型參數(shù)的估計,參數(shù)估計過程中,初始值的選取也往往對聚類結(jié)果有一定的影響。目前有很多種參數(shù)估計的方法:Xiong等隨機選擇初始值,采用EM算法對ARMA模型的混合模型參數(shù)進行了估計,應(yīng)用于人口數(shù)據(jù),氣溫數(shù)據(jù)的聚類等。Bicego等則建立隱馬爾科夫模型,先選擇R條時間序列作為“參考”時間序列,然后通過Baum-Welch算法以及前向后項算法對參數(shù)進行估計,其方法優(yōu)于標(biāo)準(zhǔn)的隱馬爾科夫鏈聚類方法,但還是存在隱馬爾科夫鏈隱狀態(tài)數(shù)未知的問題。Oates等則針對此問題,采用DTW距離先對原時間序列進行聚類找出初始劃分,從而推斷出隱狀態(tài)數(shù)的初始值,然后通過迭代計算找出最優(yōu)的隱馬爾科夫模型,但是他并沒有對聚類簇數(shù)的選擇問題進行探討。Li等則依據(jù)最大后驗概率的原則,對隱馬爾科夫混合模型4個層次的參數(shù)特征進行估計——包括聚類簇數(shù),劃分的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 財務(wù)安全生產(chǎn)
- 肺部手術(shù)中的肺功能評估
- J傳統(tǒng)燃油汽車品牌創(chuàng)新策略研究
- 根本違約之法定解除權(quán)
- 2024年浙江賽福特科技有限公司招聘筆試真題
- 二零二五年度員工試用期間加班費及休息日安排協(xié)議
- 二零二五年度休閑農(nóng)業(yè)園區(qū)物業(yè)用房移交與鄉(xiāng)村旅游服務(wù)協(xié)議
- 2025年度智能物流運輸補充協(xié)議
- 二零二五年度綠色環(huán)保工程中介居間合作協(xié)議
- 2025年度貧困戶殘疾人幫扶合作協(xié)議
- 輪胎英語詞匯
- 按摩技師簽訂勞動合同注意事項
- 項目保證金協(xié)議書范本
- 2022-8口腔質(zhì)控督查表(培訓(xùn)用)
- TD/T 1054-2018 土地整治術(shù)語(正式版)
- JT-GQB-015-1998公路橋涵標(biāo)準(zhǔn)鋼筋混凝土圓管涵洞
- 日料店服務(wù)禮儀標(biāo)準(zhǔn)培訓(xùn)
- 中國保險業(yè)發(fā)展分析和地區(qū)差異研究的開題報告
- 騰訊招聘測評題庫答案大全
- 旅游提成協(xié)議書
- 第六章《平面向量及其應(yīng)用》同步單元必刷卷(基礎(chǔ)卷)(考試版)
評論
0/150
提交評論