基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究_第1頁
基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究_第2頁
基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究_第3頁
基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究_第4頁
基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘的滑坡監(jiān)測信息挖掘研究

1基本概念和方法隨著數(shù)據(jù)庫技術(shù)的快速發(fā)展和廣泛應(yīng)用,收集的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,并根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。但由于缺乏挖掘數(shù)據(jù)背后隱藏的知識手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。面對上述挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)(DMKD)應(yīng)運(yùn)而生,并顯示出強(qiáng)大的生命力。數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)(KDD,KnowledgeDiscoveryinDatabase)最核心的部分,數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。數(shù)據(jù)挖掘的主要任務(wù)有總結(jié)規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、趨勢分析和偏差分析等。常用的數(shù)據(jù)挖掘方法有統(tǒng)計、基于事例的推理、神經(jīng)網(wǎng)絡(luò)、決策樹、規(guī)則推理、貝葉斯信念網(wǎng)絡(luò)、遺傳算法/演化程序設(shè)計、模糊集及粗糙集等方法。雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域,但在科學(xué)研究領(lǐng)域的應(yīng)用還相對較少,尤其是在滑坡監(jiān)測資料分析方面的應(yīng)用尚未見報道。本文運(yùn)用比較常用的關(guān)聯(lián)規(guī)則挖掘方法對滑坡監(jiān)測信息進(jìn)行了研究。2相關(guān)規(guī)則的挖掘2.1項的集合xt設(shè)I={i1,i2,…,im}是二進(jìn)制文字的集合,其中的元素稱為項(item)。記D為交易(transaction)T的集合,這里交易T是項的集合,并且T?I。對應(yīng)每一個交易有唯一的標(biāo)識,如交易號,記作TID。設(shè)X是一個I中項的集合,如果X?T,那么稱交易T包含X。一個關(guān)聯(lián)規(guī)則是形如X?Y的蘊(yùn)涵式,這里X?I,Y?I,并且X∩Y=Φ。規(guī)則X?Y在交易數(shù)據(jù)庫D中的支持度(support)是交易集中包含X和Y的交易數(shù)與所有交易數(shù)之比,記為support(X?Y),即support(X?Y)=|{T:X∪Y?T,T∈D}|/|D|規(guī)則X?Y在交易集中的可信度(confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比,記為confidence(X?Y),即confidence(X?Y)=|{T:X∪Y?T,T∈D}|/|{T:X?T,T∈D}|給定一個交易集D,挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度(minsupp)和最小可信度(minconf)的關(guān)聯(lián)規(guī)則。2.2管理區(qū)域間的關(guān)系可以將關(guān)聯(lián)規(guī)則按不同的情況進(jìn)行分類:(1)基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。(2)基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。(3)基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。2.3生成所有頻集Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,其核心是基于頻集理論的遞推方法。以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究,包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;提出各種變體,如泛化的關(guān)聯(lián)規(guī)則、周期關(guān)聯(lián)規(guī)則等,對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣?,F(xiàn)將經(jīng)典頻集算法簡述如下:Agrawal等1993年設(shè)計的經(jīng)典頻集算法是一個基于兩階段頻集思想的方法,它將關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計可以分解為兩個子問題:①找到所有支持度大于最小支持度的項集(Itemset),這些項集稱為頻集(FrequentItemset)。②使用第1步找到的頻集產(chǎn)生期望的規(guī)則。這里的第2步相對簡單一點。如給定了一個頻集Y=I1,I2,…,Ik,k≥2,Ij∈I,產(chǎn)生只包含集合{I1,I2,…,Ik}中的項的所有規(guī)則(最多k條),其中每一條規(guī)則的右部只有1項,(即形如[Y-Ii]?Ii,∨?1≤i≤k)。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。首先產(chǎn)生頻繁1項集L1,然后是頻繁2項集L2,直到有某個k值使得Lk為空集,這時算法停止。在第k次循環(huán)中,先產(chǎn)生候選k?項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk1的頻集做一個(k2)連接來產(chǎn)生的。Ck中的項集是用來產(chǎn)生頻集的候選集,最后的頻集Lk必須是Ck的一個子集。Ck中的每個元素需在交易數(shù)據(jù)庫中進(jìn)行驗證來決定其是否加入Lk,這里的驗證過程是算法性能的一個瓶頸。這個方法要求多次掃描可能很大的交易數(shù)據(jù)庫,即如果頻集最多包含10個項,那么就需要掃描交易數(shù)據(jù)庫10遍,這需要很大的I/O負(fù)載。Agrawal等引入了修剪技術(shù)(Pruning)來減小候選集Ck的大小,由此可以顯著地改進(jìn)生成所有頻集算法的性能。算法中引入的修剪策略基于這樣一個性質(zhì):一個項集是頻集,當(dāng)且僅當(dāng)它的所有子集都是頻集,那么,如果Ck中某個候選項集有一個(k1)子集不屬于Lk1,則這個項集可以被修剪掉不再被考慮,這個修剪過程可以降低計算所有的候選集的支持度的代價。3計算示例以某水庫庫岸滑坡體為例,介紹用關(guān)聯(lián)規(guī)則挖掘的方法對滑坡體的現(xiàn)場監(jiān)測資料進(jìn)行分析如下。3.1鉆孔傾斜儀監(jiān)測結(jié)果分析該滑坡體是一個具有多級、多期次滑動特征的古滑坡體,滑坡體自1993年以來發(fā)生了明顯位移,且具有顯著增長趨勢。根據(jù)對現(xiàn)場埋設(shè)的鉆孔傾斜儀的監(jiān)測資料表明,到1994年已形成了明顯的滑移面,而且位移幅度較大。例如,埋設(shè)于滑坡體前緣的1#測孔及后緣的4#測孔滑動面的水平相對位移均已超過20.00mm,位移方向大致沿滑坡體長軸方向并指向坡外。3.2滑坡體變形分析若關(guān)系表中的屬性皆為布爾屬性,那么從此關(guān)系表中挖掘的規(guī)則都是布爾聯(lián)系規(guī)則?,F(xiàn)在的問題是滑坡監(jiān)測資料都是數(shù)值型數(shù)據(jù),必須對數(shù)量屬性進(jìn)行必要的處理,使得數(shù)量聯(lián)系規(guī)則的挖掘問題轉(zhuǎn)化為布爾聯(lián)系規(guī)則的挖掘問題。我們的策略是將數(shù)量屬性的值域劃分成若干區(qū)間,按照區(qū)間的劃分將一個數(shù)量屬性分解為若干個布爾屬性。選取1993-1995年1#測孔孔口累計位移、4#測孔孔口累計位移、1#測孔地下水位、降雨量、江水位等5組實測數(shù)據(jù)作為原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,分別對它們進(jìn)行區(qū)間劃分。為了減小計算工作量,對每組標(biāo)準(zhǔn)化處理后的數(shù)據(jù)按平均值進(jìn)行區(qū)間劃分,分別劃分為低值區(qū)和高值區(qū),劃分結(jié)果見表1。運(yùn)用基于經(jīng)典頻集算法對滑坡監(jiān)測資料進(jìn)行了關(guān)聯(lián)規(guī)則挖數(shù)據(jù)挖掘,挖掘出一系列有用的規(guī)則,部分規(guī)則如下:規(guī)則1:w12=yesrain2=yeswaterlevel1=yesd42=yes?d12=yessupport:1confidence:1規(guī)則2:w12=yesrain2=yeswaterlevel1=yesd42=yes?d12=yesd4-1=nosupport:1confidence:1規(guī)則3:rain1=nowaterlevel1=yes?d11=nod12=yesd42=yessupport:1confidence:1規(guī)則4:w12=yesrain2=yeswaterlevel1=yesd12=yes?d42=yessupport:1confidence:1規(guī)則5:w11=norain1=nowaterlevel2=nod42=yes?d12=yessupport:1confidence:1規(guī)則6:w12=yesrain1=nowaterlevel1=yesd12=yes?d42=yessupport:1confidence:1規(guī)則7:w12=yesrain1=nowaterlevel1=yes?d12=yesd42=yessupport:1confidence:1規(guī)則8:rain1=nowaterlevel1=yesd42=yes?d12=yessupport:1confidence:1規(guī)則9:w11=norain1=nowaterlevel2=no?d12=yesd41=nod42=yessupport:1confidence:1規(guī)則10:w11=now12=yesrain1=nowaterlevel1=yesd12=yes?d42=yessupport:1confidence:1規(guī)則11:w11=now12=yesrain1=nowaterlevel1=yeswaterlevel2=nod12=yes?d42=yessupport:1confidence:1規(guī)則12:w11=now12=yesrain1=nowaterlevel1=yes?d12=yesd42=yessupport:1confidence:1規(guī)則13:rain1=yeswaterlevel2=yesd11=yes?d41=yessupport:1confidence:1由以上分析可以得出:(1)在降雨量較大以及地下水位較高的情況下,即使江水位不高,由于滑坡體后緣位移較大,也會促使滑坡體前緣出現(xiàn)較大的位移(根據(jù)規(guī)則1,2,4和5)。(2)在強(qiáng)降雨量條件下,即使江水位不高,滑坡體也可能整體出現(xiàn)較大的位移(根據(jù)規(guī)則3)。(3)在強(qiáng)降雨量條件下,地下水位較高,即使江水位不高,滑坡體前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論