




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘模型的設(shè)計與選擇
實際應(yīng)用程序主要根據(jù)任務(wù)特征和數(shù)據(jù)特征進(jìn)行分類。任務(wù)特征:目標(biāo)、目標(biāo)和挖掘類型;數(shù)據(jù)特征:數(shù)據(jù)類型、連續(xù)性、一致性、指導(dǎo)類型和量化。對這些特征的具體描述就構(gòu)成一個數(shù)據(jù)挖掘的實際應(yīng)用的特征集合。應(yīng)用特征集:由多個集合構(gòu)成,每個集合即為一類特性的具體特征,則所有集合的并集即為應(yīng)用的所有特征。各個集合間屬于并列關(guān)系,每個集合的各元素是互斥關(guān)系。如:挖掘?qū)ο蠹?{工業(yè),農(nóng)業(yè),林業(yè),…},目標(biāo)集合:{個體,集體,機關(guān),…},挖掘類型集合:{分類,預(yù)測,聚類,關(guān)聯(lián)規(guī)則,特征化描述和區(qū)分},數(shù)據(jù)類型集合{文本,數(shù)字},連續(xù)性集合{離散,連續(xù)},歸一性集合{歸一,不歸一},指導(dǎo)類型集合{有師,無師},量化性集合{可量化,不可量化}應(yīng)用算子集:包含集合的并集、交集、子集、冪集、笛卡爾積運算。每種運算均符合規(guī)范的集合運算規(guī)則。應(yīng)用有機特征集:是應(yīng)用特征集中的特征按照某些運算規(guī)則組合而生成應(yīng)用特性集合,每一個集合對應(yīng)一個實際的應(yīng)用。生成規(guī)則:由笛卡爾積算子作用于所有應(yīng)用特征集,生成多個所有特性的各種有機組合,使得實際中的應(yīng)用可以對應(yīng)于應(yīng)用有機特征集的某一個元素。同時也可以用有條件的交集、并集和冪集運算得到相應(yīng)的結(jié)果。數(shù)據(jù)挖掘算法特征集:集合,包含數(shù)據(jù)挖掘所有的算法,同時每個挖掘算法所適用的范圍和所具有的特性都可表示。數(shù)據(jù)挖掘算子集:選擇算子,交集,并集。數(shù)據(jù)挖掘算法有機組合集:是算法的分類集合。根據(jù)算法對挖掘類型和數(shù)據(jù)描述的適應(yīng)性,對算法分類。根據(jù)算法是否可獨立進(jìn)行某類挖掘,得到針對每一類挖掘的算法集合;針對算法對數(shù)據(jù)特性的適用性,得到符合每一類數(shù)據(jù)特征的混合算法集合。例如適用于分類的{決策樹,神經(jīng)網(wǎng)絡(luò),貝葉斯分類,…},適用于預(yù)測的{多元線性回歸,非線性回歸,廣義線性回歸,…},適用于連續(xù)數(shù)據(jù)的算法集合,適用于歸一類型的算法集合等等。建立應(yīng)用特征集與數(shù)據(jù)挖掘算法特征集的某種映射關(guān)系:分別建立數(shù)據(jù)挖掘算法的屬性庫和實際應(yīng)用特征庫,根據(jù)應(yīng)用特征,實現(xiàn)每個特征與某些算法的一對一或一對多關(guān)系,同樣可以實現(xiàn)一個算法與多個應(yīng)用特征的映射關(guān)系。建立應(yīng)用有機特征集與數(shù)據(jù)挖掘算法有機組合集的某種映射關(guān)系:在應(yīng)用有機特征集中每個應(yīng)用都有其具體的應(yīng)用特征,根據(jù)這些應(yīng)用特征以及數(shù)據(jù)挖掘算法有機組合集的特征,通過相應(yīng)的運算可以實現(xiàn)在應(yīng)用有機特征集中的每一個元素對應(yīng)數(shù)據(jù)挖掘算法有機組合集中的一個或多個集合的并集或交集,從而實現(xiàn)完成某種應(yīng)用所需要的獨立算法集和混合算法集的選擇。2.2該模型用于挖掘方法的選擇2.2.1基于續(xù)性的數(shù)據(jù)挖掘算法描述賦值變量:m,n,s,t,k;賦值矩陣:A(m,n),B(s,t),T(k,t);生成矩陣:D(n,2),E(m,2)。釋義:m:應(yīng)用特征的個數(shù)(如從:挖掘?qū)ο?挖掘類型,數(shù)據(jù)類型,連續(xù)性來描述應(yīng)用,則m=4);n:應(yīng)用特征的層數(shù)(取所有特征層數(shù)的最大值,如n=4);s:數(shù)據(jù)挖掘算法的個數(shù);t:挖掘算法所適用的數(shù)據(jù)特征的個數(shù)(如挖掘類型、數(shù)據(jù)類型、連續(xù)性、歸一性等)k:具體實際應(yīng)用的個數(shù)。A(m,n):代表應(yīng)用特征所處應(yīng)用中的位置,按所在層位置定義;B(s,t):代表具體數(shù)據(jù)算法技術(shù)所具備的應(yīng)用特征,按數(shù)據(jù)描述及挖掘類型定義;T(k,t):代表實際應(yīng)用所具有的特性,根據(jù)任務(wù)描述和數(shù)據(jù)描述定義;D(n,2):集合庫,存放臨時生成的數(shù)據(jù)挖掘算法集合;E(m,2):最終生成的獨立數(shù)據(jù)挖掘算法模型庫;最終生成的混合數(shù)據(jù)挖掘算法模型庫。2.2.2算法1:化構(gòu)造獨立算法(1)ifbik(i=1,2,…,m)=t1k,則,d(k-1)1={bi1,i∈(1,??m)}?(k=2,??l)d(k?1)1={bi1,i∈(1,??m)}?(k=2,??l),所以,e11=∩dk1,k=(1,…,l-1)。即為應(yīng)用獨立算法。(2)ifbi8(i=1,2,…,m)=t12,則d12={bi1,i∈(1,??m)},d12={bi1,i∈(1,??m)},ifbik(i=1,2,…,m)=t1k,則dk2={bi1,i∈(1,??m)}.(k=2,?l-1)dk2={bi1,i∈(1,??m)}.(k=2,?l?1)。所以e12=∩dk2∪e11,k=(1,…,l-1)。即為應(yīng)用混合算法。2.2.3自動選取應(yīng)用tp8=ep1,tp9=ep2(p=1,2,…,m)。注:在該模型中,矩陣A(m,n)與B(s,t)的數(shù)據(jù)為固定模式,用戶只需要確定矩陣T(k,t)即實際應(yīng)用所具有的特性,即可應(yīng)用該模型實現(xiàn)數(shù)據(jù)挖掘模型的自動選取。2.3dm任務(wù)的挖掘在油田開發(fā)領(lǐng)域中的具體應(yīng)用。油田壓裂選井選層決策系統(tǒng)項目中,應(yīng)用數(shù)據(jù)挖掘方法選擇模型,首先確定矩陣T(1,t),挖掘目的(分類)、數(shù)據(jù)特點(數(shù)值型、連續(xù)型、歸一、有師、可量化)、任務(wù)目標(biāo)(壓裂效果的評價與預(yù)測)等方面描述DM任務(wù)。其次,依賴模型化建模方法,選擇挖掘方案,求得e12,得到混合算法庫:決策樹算法結(jié)合神經(jīng)網(wǎng)絡(luò)算法。生產(chǎn)因素數(shù)據(jù)經(jīng)過量化、歸一化預(yù)處理后,轉(zhuǎn)換為數(shù)值信息作為神經(jīng)網(wǎng)絡(luò)的輸入向量。系統(tǒng)調(diào)度路徑分別經(jīng)過了標(biāo)準(zhǔn)BP網(wǎng)絡(luò),共軛梯度BP網(wǎng)絡(luò),和動量項慣性系數(shù)指數(shù)增長的BP網(wǎng)絡(luò)。同時可生成經(jīng)驗庫,遇到與此一致的應(yīng)用即可直接選擇上述方法組合進(jìn)行數(shù)據(jù)挖掘。通過油井壓裂措施選井應(yīng)用研究,設(shè)計適應(yīng)的壓裂措施選井系統(tǒng),該系統(tǒng)能夠正常運行,并且較好地完成壓裂井選擇任務(wù),從應(yīng)用角度驗證了數(shù)據(jù)挖掘方法模型系統(tǒng)的理論基礎(chǔ)與邏輯設(shè)計。在數(shù)據(jù)挖掘方法模型研究中,已經(jīng)建立挖掘技術(shù)的表達(dá)框架與表達(dá)形式,使挖掘特征框架更加規(guī)范化,能夠支撐更廣泛的挖掘模型選擇。3階段數(shù)據(jù)挖掘模型的設(shè)計和選擇本文提出了一種數(shù)據(jù)挖掘模型選擇的方法,根據(jù)該方法對于一個具體的數(shù)據(jù)挖掘的實際應(yīng)用,通過應(yīng)用分析、業(yè)務(wù)分析和數(shù)據(jù)分析給出具體應(yīng)用的特征,應(yīng)用本文研究的模型化的建模方法,可以根據(jù)該應(yīng)用所具備的業(yè)務(wù)、應(yīng)用和數(shù)據(jù)特征,自動選擇一種最優(yōu)的數(shù)據(jù)挖掘方法,也許是某種單一的算法,或是多個算法的組合?,F(xiàn)階段數(shù)據(jù)挖掘(DataMining)模型的選擇與專家的經(jīng)驗密切相關(guān),有經(jīng)驗的專家就會選擇良好的,優(yōu)質(zhì)的模型,使得挖掘工作高效、準(zhǔn)確;反之,就會浪費時間,或得不到理想的結(jié)果,因此數(shù)據(jù)挖掘模型的設(shè)計和選擇是挖掘工作的關(guān)鍵。現(xiàn)階段數(shù)據(jù)挖掘模型的選擇是:針對某些具體的任務(wù)和領(lǐng)域選擇一些已經(jīng)成型的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的建立強調(diào)人工主動參與,循環(huán)測試可能有效的挖掘技術(shù),最終得出相對可行的系統(tǒng)結(jié)構(gòu),導(dǎo)致了數(shù)據(jù)挖掘的手工化,挖掘數(shù)據(jù)處理復(fù)雜化。本文要建立一個模型,實現(xiàn)挖掘目標(biāo)的特征集與挖掘算法集合間的對應(yīng)關(guān)系。用戶只需提供如挖掘目標(biāo)、數(shù)據(jù)類型等必要的挖掘信息,具體地選擇哪種算法,都可通過該模型實現(xiàn),最后,用戶可以得到最佳的挖掘方法,應(yīng)用這種挖掘方法就可最好地實現(xiàn)挖掘目標(biāo)。該模型實際應(yīng)用在“油田開發(fā)壓裂措施選井”系統(tǒng),研究油田開發(fā)領(lǐng)域業(yè)務(wù)需求,獲取油田開發(fā)壓裂措施設(shè)計的業(yè)務(wù)特征及數(shù)據(jù)特征,得到了很好的效果。1系統(tǒng)運行效率低傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往一次需要處理大量數(shù)據(jù),還可能因為低準(zhǔn)確性而造成多次重復(fù)操作,并且需要大量的手工參與,這使得系統(tǒng)運行效率低,浪費了用戶的時間和精力。如何設(shè)計適應(yīng)性好、操作方便、擴展靈活的DM模型是各個方法論無可回避的重點內(nèi)容,為具體的挖掘任務(wù)選擇最佳算法配置是DM建模的重要目標(biāo)。1.1dm技術(shù)應(yīng)用傳統(tǒng)的DM模型設(shè)計是一個多步驟的、循環(huán)的、非線性的處理過程,完成從源數(shù)據(jù)中發(fā)現(xiàn)有價值的知識的過程,可以概括為:首先,明確能夠有效挖掘的數(shù)據(jù)源,并且將其組織成為適合挖掘的數(shù)據(jù)形式;然后,根據(jù)建立挖掘模型的基本常識,設(shè)計可能有效的挖掘模型,即選擇相應(yīng)的挖掘算法及各種算法的搭配組合來處理業(yè)務(wù)數(shù)據(jù),初步建立挖掘模型,通過挖掘模型獲得滿足業(yè)務(wù)需求的知識與信息;最后,對挖掘模型進(jìn)行評估,并且建立適合開發(fā)目標(biāo)的挖掘系統(tǒng),為應(yīng)用部門部署應(yīng)用,通過反饋可能進(jìn)一步調(diào)整系統(tǒng)。這樣,DM可以定義為問題分析、數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、DM模型設(shè)計、模型評估等基本階段。挖掘模型設(shè)計本身也是一個往復(fù)的過程。這種方式不僅需要操作人員具有應(yīng)用領(lǐng)域的專業(yè)知識而且需要對DM技術(shù)有廣泛并且深刻的認(rèn)識。隨著DM技術(shù)研究的不斷發(fā)展,針對各種不同的應(yīng)用問題催生出各式各樣的DM算法,如神經(jīng)網(wǎng)絡(luò)、支持向量機、粗糙集等。但這些算法有各自的假設(shè)、適用對象及目標(biāo),并需要設(shè)置各種參數(shù),在沒有足夠DM專業(yè)知識情況下,很難確定哪些算法或者算法組合能夠有效完成挖掘任務(wù)。從某種程度上,傳統(tǒng)的挖掘模型設(shè)計方法不但降低了DM模型建立的效率,而且面對應(yīng)用領(lǐng)域,專業(yè)的建模知識只掌握在少數(shù)專業(yè)工程師手中,對數(shù)據(jù)挖掘技術(shù)的推廣和應(yīng)用帶來一定的難度。1.2數(shù)據(jù)挖掘的復(fù)雜過程由于每一種數(shù)據(jù)挖掘技術(shù)方法都有其自身的特點和實現(xiàn)步驟,數(shù)據(jù)挖掘與具體應(yīng)用問題的密切相關(guān)性。因此,成功應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)的過程本身就是一件很復(fù)雜的事情。針對傳統(tǒng)的建模方法存在的局限性,本文研究一種模型化的建模方法,其思想是將專業(yè)建模人員需要完成的分析、選擇、判斷等任務(wù)由程序自動完成,這樣呈現(xiàn)給用戶的就是相對簡潔的過程,提供具體挖掘的任務(wù)目標(biāo)、數(shù)據(jù)特征的詳細(xì)描述,通過程序就可獲得所需要的挖掘方法。2挖掘方法的選擇2.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小導(dǎo)管注漿施工工藝流程圖
- 2025年陶瓷分離膜及功能隔膜項目申請報告模板
- 《彩色的夢》課件 部編人教版二年級下冊
- 《職業(yè)素養(yǎng)》課件 模塊5-8 綠色技能 -職業(yè)發(fā)展素養(yǎng)
- 汽車傳感器與檢測技術(shù)電子教案:流量傳感器工作原理
- 創(chuàng)傷性脊柱脊髓損傷康復(fù)治療專家共識
- 商場員工關(guān)系管理制度
- 咖啡書屋公司管理制度
- 安徽省安慶、池州、銅陵三市2022-2023學(xué)年高二下學(xué)期化學(xué)期末檢測試題(含答案)
- 倉庫公司推廣活動方案
- DBJT13-119-2010 福建省住宅工程質(zhì)量分戶驗收規(guī)程
- 2025年貴州盤江精煤股份有限公司招聘筆試參考題庫含答案解析
- GB/T 26718-2024城市軌道交通安全防范系統(tǒng)技術(shù)要求
- 馬工程《藝術(shù)學(xué)概論》課件424P
- 2025屆上海交大附屬中學(xué)高三第三次模擬考試英語試卷含解析
- 安全管理知識培訓(xùn)課件
- 月亮姑娘做衣裳
- 汽車教練員測試題(含參考答案)
- 中控室安全生產(chǎn)制度模版(3篇)
- 年產(chǎn)xxx結(jié)構(gòu)鋁單板項目可行性研究報告(立項說明)
- 控制心血管疾病的生活方式
評論
0/150
提交評論