數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇_第1頁
數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇_第2頁
數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇_第3頁
數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇_第4頁
數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘模型的設(shè)計(jì)與選擇

實(shí)際應(yīng)用程序主要根據(jù)任務(wù)特征和數(shù)據(jù)特征進(jìn)行分類。任務(wù)特征:目標(biāo)、目標(biāo)和挖掘類型;數(shù)據(jù)特征:數(shù)據(jù)類型、連續(xù)性、一致性、指導(dǎo)類型和量化。對(duì)這些特征的具體描述就構(gòu)成一個(gè)數(shù)據(jù)挖掘的實(shí)際應(yīng)用的特征集合。應(yīng)用特征集:由多個(gè)集合構(gòu)成,每個(gè)集合即為一類特性的具體特征,則所有集合的并集即為應(yīng)用的所有特征。各個(gè)集合間屬于并列關(guān)系,每個(gè)集合的各元素是互斥關(guān)系。如:挖掘?qū)ο蠹?{工業(yè),農(nóng)業(yè),林業(yè),…},目標(biāo)集合:{個(gè)體,集體,機(jī)關(guān),…},挖掘類型集合:{分類,預(yù)測(cè),聚類,關(guān)聯(lián)規(guī)則,特征化描述和區(qū)分},數(shù)據(jù)類型集合{文本,數(shù)字},連續(xù)性集合{離散,連續(xù)},歸一性集合{歸一,不歸一},指導(dǎo)類型集合{有師,無師},量化性集合{可量化,不可量化}應(yīng)用算子集:包含集合的并集、交集、子集、冪集、笛卡爾積運(yùn)算。每種運(yùn)算均符合規(guī)范的集合運(yùn)算規(guī)則。應(yīng)用有機(jī)特征集:是應(yīng)用特征集中的特征按照某些運(yùn)算規(guī)則組合而生成應(yīng)用特性集合,每一個(gè)集合對(duì)應(yīng)一個(gè)實(shí)際的應(yīng)用。生成規(guī)則:由笛卡爾積算子作用于所有應(yīng)用特征集,生成多個(gè)所有特性的各種有機(jī)組合,使得實(shí)際中的應(yīng)用可以對(duì)應(yīng)于應(yīng)用有機(jī)特征集的某一個(gè)元素。同時(shí)也可以用有條件的交集、并集和冪集運(yùn)算得到相應(yīng)的結(jié)果。數(shù)據(jù)挖掘算法特征集:集合,包含數(shù)據(jù)挖掘所有的算法,同時(shí)每個(gè)挖掘算法所適用的范圍和所具有的特性都可表示。數(shù)據(jù)挖掘算子集:選擇算子,交集,并集。數(shù)據(jù)挖掘算法有機(jī)組合集:是算法的分類集合。根據(jù)算法對(duì)挖掘類型和數(shù)據(jù)描述的適應(yīng)性,對(duì)算法分類。根據(jù)算法是否可獨(dú)立進(jìn)行某類挖掘,得到針對(duì)每一類挖掘的算法集合;針對(duì)算法對(duì)數(shù)據(jù)特性的適用性,得到符合每一類數(shù)據(jù)特征的混合算法集合。例如適用于分類的{決策樹,神經(jīng)網(wǎng)絡(luò),貝葉斯分類,…},適用于預(yù)測(cè)的{多元線性回歸,非線性回歸,廣義線性回歸,…},適用于連續(xù)數(shù)據(jù)的算法集合,適用于歸一類型的算法集合等等。建立應(yīng)用特征集與數(shù)據(jù)挖掘算法特征集的某種映射關(guān)系:分別建立數(shù)據(jù)挖掘算法的屬性庫和實(shí)際應(yīng)用特征庫,根據(jù)應(yīng)用特征,實(shí)現(xiàn)每個(gè)特征與某些算法的一對(duì)一或一對(duì)多關(guān)系,同樣可以實(shí)現(xiàn)一個(gè)算法與多個(gè)應(yīng)用特征的映射關(guān)系。建立應(yīng)用有機(jī)特征集與數(shù)據(jù)挖掘算法有機(jī)組合集的某種映射關(guān)系:在應(yīng)用有機(jī)特征集中每個(gè)應(yīng)用都有其具體的應(yīng)用特征,根據(jù)這些應(yīng)用特征以及數(shù)據(jù)挖掘算法有機(jī)組合集的特征,通過相應(yīng)的運(yùn)算可以實(shí)現(xiàn)在應(yīng)用有機(jī)特征集中的每一個(gè)元素對(duì)應(yīng)數(shù)據(jù)挖掘算法有機(jī)組合集中的一個(gè)或多個(gè)集合的并集或交集,從而實(shí)現(xiàn)完成某種應(yīng)用所需要的獨(dú)立算法集和混合算法集的選擇。2.2該模型用于挖掘方法的選擇2.2.1基于續(xù)性的數(shù)據(jù)挖掘算法描述賦值變量:m,n,s,t,k;賦值矩陣:A(m,n),B(s,t),T(k,t);生成矩陣:D(n,2),E(m,2)。釋義:m:應(yīng)用特征的個(gè)數(shù)(如從:挖掘?qū)ο?挖掘類型,數(shù)據(jù)類型,連續(xù)性來描述應(yīng)用,則m=4);n:應(yīng)用特征的層數(shù)(取所有特征層數(shù)的最大值,如n=4);s:數(shù)據(jù)挖掘算法的個(gè)數(shù);t:挖掘算法所適用的數(shù)據(jù)特征的個(gè)數(shù)(如挖掘類型、數(shù)據(jù)類型、連續(xù)性、歸一性等)k:具體實(shí)際應(yīng)用的個(gè)數(shù)。A(m,n):代表應(yīng)用特征所處應(yīng)用中的位置,按所在層位置定義;B(s,t):代表具體數(shù)據(jù)算法技術(shù)所具備的應(yīng)用特征,按數(shù)據(jù)描述及挖掘類型定義;T(k,t):代表實(shí)際應(yīng)用所具有的特性,根據(jù)任務(wù)描述和數(shù)據(jù)描述定義;D(n,2):集合庫,存放臨時(shí)生成的數(shù)據(jù)挖掘算法集合;E(m,2):最終生成的獨(dú)立數(shù)據(jù)挖掘算法模型庫;最終生成的混合數(shù)據(jù)挖掘算法模型庫。2.2.2算法1:化構(gòu)造獨(dú)立算法(1)ifbik(i=1,2,…,m)=t1k,則,d(k-1)1={bi1,i∈(1,??m)}?(k=2,??l)d(k?1)1={bi1,i∈(1,??m)}?(k=2,??l),所以,e11=∩dk1,k=(1,…,l-1)。即為應(yīng)用獨(dú)立算法。(2)ifbi8(i=1,2,…,m)=t12,則d12={bi1,i∈(1,??m)},d12={bi1,i∈(1,??m)},ifbik(i=1,2,…,m)=t1k,則dk2={bi1,i∈(1,??m)}.(k=2,?l-1)dk2={bi1,i∈(1,??m)}.(k=2,?l?1)。所以e12=∩dk2∪e11,k=(1,…,l-1)。即為應(yīng)用混合算法。2.2.3自動(dòng)選取應(yīng)用tp8=ep1,tp9=ep2(p=1,2,…,m)。注:在該模型中,矩陣A(m,n)與B(s,t)的數(shù)據(jù)為固定模式,用戶只需要確定矩陣T(k,t)即實(shí)際應(yīng)用所具有的特性,即可應(yīng)用該模型實(shí)現(xiàn)數(shù)據(jù)挖掘模型的自動(dòng)選取。2.3dm任務(wù)的挖掘在油田開發(fā)領(lǐng)域中的具體應(yīng)用。油田壓裂選井選層決策系統(tǒng)項(xiàng)目中,應(yīng)用數(shù)據(jù)挖掘方法選擇模型,首先確定矩陣T(1,t),挖掘目的(分類)、數(shù)據(jù)特點(diǎn)(數(shù)值型、連續(xù)型、歸一、有師、可量化)、任務(wù)目標(biāo)(壓裂效果的評(píng)價(jià)與預(yù)測(cè))等方面描述DM任務(wù)。其次,依賴模型化建模方法,選擇挖掘方案,求得e12,得到混合算法庫:決策樹算法結(jié)合神經(jīng)網(wǎng)絡(luò)算法。生產(chǎn)因素?cái)?shù)據(jù)經(jīng)過量化、歸一化預(yù)處理后,轉(zhuǎn)換為數(shù)值信息作為神經(jīng)網(wǎng)絡(luò)的輸入向量。系統(tǒng)調(diào)度路徑分別經(jīng)過了標(biāo)準(zhǔn)BP網(wǎng)絡(luò),共軛梯度BP網(wǎng)絡(luò),和動(dòng)量項(xiàng)慣性系數(shù)指數(shù)增長的BP網(wǎng)絡(luò)。同時(shí)可生成經(jīng)驗(yàn)庫,遇到與此一致的應(yīng)用即可直接選擇上述方法組合進(jìn)行數(shù)據(jù)挖掘。通過油井壓裂措施選井應(yīng)用研究,設(shè)計(jì)適應(yīng)的壓裂措施選井系統(tǒng),該系統(tǒng)能夠正常運(yùn)行,并且較好地完成壓裂井選擇任務(wù),從應(yīng)用角度驗(yàn)證了數(shù)據(jù)挖掘方法模型系統(tǒng)的理論基礎(chǔ)與邏輯設(shè)計(jì)。在數(shù)據(jù)挖掘方法模型研究中,已經(jīng)建立挖掘技術(shù)的表達(dá)框架與表達(dá)形式,使挖掘特征框架更加規(guī)范化,能夠支撐更廣泛的挖掘模型選擇。3階段數(shù)據(jù)挖掘模型的設(shè)計(jì)和選擇本文提出了一種數(shù)據(jù)挖掘模型選擇的方法,根據(jù)該方法對(duì)于一個(gè)具體的數(shù)據(jù)挖掘的實(shí)際應(yīng)用,通過應(yīng)用分析、業(yè)務(wù)分析和數(shù)據(jù)分析給出具體應(yīng)用的特征,應(yīng)用本文研究的模型化的建模方法,可以根據(jù)該應(yīng)用所具備的業(yè)務(wù)、應(yīng)用和數(shù)據(jù)特征,自動(dòng)選擇一種最優(yōu)的數(shù)據(jù)挖掘方法,也許是某種單一的算法,或是多個(gè)算法的組合?,F(xiàn)階段數(shù)據(jù)挖掘(DataMining)模型的選擇與專家的經(jīng)驗(yàn)密切相關(guān),有經(jīng)驗(yàn)的專家就會(huì)選擇良好的,優(yōu)質(zhì)的模型,使得挖掘工作高效、準(zhǔn)確;反之,就會(huì)浪費(fèi)時(shí)間,或得不到理想的結(jié)果,因此數(shù)據(jù)挖掘模型的設(shè)計(jì)和選擇是挖掘工作的關(guān)鍵?,F(xiàn)階段數(shù)據(jù)挖掘模型的選擇是:針對(duì)某些具體的任務(wù)和領(lǐng)域選擇一些已經(jīng)成型的模型,如分類模型、回歸模型、時(shí)間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的建立強(qiáng)調(diào)人工主動(dòng)參與,循環(huán)測(cè)試可能有效的挖掘技術(shù),最終得出相對(duì)可行的系統(tǒng)結(jié)構(gòu),導(dǎo)致了數(shù)據(jù)挖掘的手工化,挖掘數(shù)據(jù)處理復(fù)雜化。本文要建立一個(gè)模型,實(shí)現(xiàn)挖掘目標(biāo)的特征集與挖掘算法集合間的對(duì)應(yīng)關(guān)系。用戶只需提供如挖掘目標(biāo)、數(shù)據(jù)類型等必要的挖掘信息,具體地選擇哪種算法,都可通過該模型實(shí)現(xiàn),最后,用戶可以得到最佳的挖掘方法,應(yīng)用這種挖掘方法就可最好地實(shí)現(xiàn)挖掘目標(biāo)。該模型實(shí)際應(yīng)用在“油田開發(fā)壓裂措施選井”系統(tǒng),研究油田開發(fā)領(lǐng)域業(yè)務(wù)需求,獲取油田開發(fā)壓裂措施設(shè)計(jì)的業(yè)務(wù)特征及數(shù)據(jù)特征,得到了很好的效果。1系統(tǒng)運(yùn)行效率低傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往一次需要處理大量數(shù)據(jù),還可能因?yàn)榈蜏?zhǔn)確性而造成多次重復(fù)操作,并且需要大量的手工參與,這使得系統(tǒng)運(yùn)行效率低,浪費(fèi)了用戶的時(shí)間和精力。如何設(shè)計(jì)適應(yīng)性好、操作方便、擴(kuò)展靈活的DM模型是各個(gè)方法論無可回避的重點(diǎn)內(nèi)容,為具體的挖掘任務(wù)選擇最佳算法配置是DM建模的重要目標(biāo)。1.1dm技術(shù)應(yīng)用傳統(tǒng)的DM模型設(shè)計(jì)是一個(gè)多步驟的、循環(huán)的、非線性的處理過程,完成從源數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的知識(shí)的過程,可以概括為:首先,明確能夠有效挖掘的數(shù)據(jù)源,并且將其組織成為適合挖掘的數(shù)據(jù)形式;然后,根據(jù)建立挖掘模型的基本常識(shí),設(shè)計(jì)可能有效的挖掘模型,即選擇相應(yīng)的挖掘算法及各種算法的搭配組合來處理業(yè)務(wù)數(shù)據(jù),初步建立挖掘模型,通過挖掘模型獲得滿足業(yè)務(wù)需求的知識(shí)與信息;最后,對(duì)挖掘模型進(jìn)行評(píng)估,并且建立適合開發(fā)目標(biāo)的挖掘系統(tǒng),為應(yīng)用部門部署應(yīng)用,通過反饋可能進(jìn)一步調(diào)整系統(tǒng)。這樣,DM可以定義為問題分析、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、DM模型設(shè)計(jì)、模型評(píng)估等基本階段。挖掘模型設(shè)計(jì)本身也是一個(gè)往復(fù)的過程。這種方式不僅需要操作人員具有應(yīng)用領(lǐng)域的專業(yè)知識(shí)而且需要對(duì)DM技術(shù)有廣泛并且深刻的認(rèn)識(shí)。隨著DM技術(shù)研究的不斷發(fā)展,針對(duì)各種不同的應(yīng)用問題催生出各式各樣的DM算法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、粗糙集等。但這些算法有各自的假設(shè)、適用對(duì)象及目標(biāo),并需要設(shè)置各種參數(shù),在沒有足夠DM專業(yè)知識(shí)情況下,很難確定哪些算法或者算法組合能夠有效完成挖掘任務(wù)。從某種程度上,傳統(tǒng)的挖掘模型設(shè)計(jì)方法不但降低了DM模型建立的效率,而且面對(duì)應(yīng)用領(lǐng)域,專業(yè)的建模知識(shí)只掌握在少數(shù)專業(yè)工程師手中,對(duì)數(shù)據(jù)挖掘技術(shù)的推廣和應(yīng)用帶來一定的難度。1.2數(shù)據(jù)挖掘的復(fù)雜過程由于每一種數(shù)據(jù)挖掘技術(shù)方法都有其自身的特點(diǎn)和實(shí)現(xiàn)步驟,數(shù)據(jù)挖掘與具體應(yīng)用問題的密切相關(guān)性。因此,成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)的過程本身就是一件很復(fù)雜的事情。針對(duì)傳統(tǒng)的建模方法存在的局限性,本文研究一種模型化的建模方法,其思想是將專業(yè)建模人員需要完成的分析、選擇、判斷等任務(wù)由程序自動(dòng)完成,這樣呈現(xiàn)給用戶的就是相對(duì)簡(jiǎn)潔的過程,提供具體挖掘的任務(wù)目標(biāo)、數(shù)據(jù)特征的詳細(xì)描述,通過程序就可獲得所需要的挖掘方法。2挖掘方法的選擇2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論