![基于GP算法的知識(shí)發(fā)現(xiàn)系統(tǒng)_第1頁](http://file4.renrendoc.com/view/732a2f009b06675f708095267df53cda/732a2f009b06675f708095267df53cda1.gif)
![基于GP算法的知識(shí)發(fā)現(xiàn)系統(tǒng)_第2頁](http://file4.renrendoc.com/view/732a2f009b06675f708095267df53cda/732a2f009b06675f708095267df53cda2.gif)
![基于GP算法的知識(shí)發(fā)現(xiàn)系統(tǒng)_第3頁](http://file4.renrendoc.com/view/732a2f009b06675f708095267df53cda/732a2f009b06675f708095267df53cda3.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于GP算法的知識(shí)發(fā)現(xiàn)系統(tǒng)
摘要本文提出了一個(gè)新的知識(shí)發(fā)現(xiàn)系統(tǒng)。該系統(tǒng)以遺傳編程算法為核心,解決發(fā)現(xiàn)一組屬于面向?qū)ο髷?shù)據(jù)庫的對(duì)象所具有的共性問題。本文對(duì)系統(tǒng)作了扼要的說明,對(duì)GP算法進(jìn)行了描述,并給出了一個(gè)實(shí)驗(yàn)例子。關(guān)鍵詞進(jìn)化計(jì)算遺傳編程知識(shí)發(fā)掘在數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識(shí)是數(shù)據(jù)挖掘(DataMining,DM)的主要任務(wù),在一定的情況下,所有的數(shù)據(jù)庫查詢可以認(rèn)為是完成這項(xiàng)任務(wù)。我們現(xiàn)在有一套分析和探索數(shù)據(jù)的工具:SQL查詢、OLAP和數(shù)據(jù)挖掘技術(shù)。SQL查詢由關(guān)系代數(shù)所構(gòu)成;OLAP提供了建立在多維數(shù)據(jù)模型基礎(chǔ)上的高水平查詢;而數(shù)據(jù)挖掘提供了最抽象的數(shù)據(jù)分析操作。我們可以認(rèn)為不同的數(shù)據(jù)挖掘任務(wù)是在高水平上的復(fù)雜查詢。數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)和數(shù)據(jù)庫技術(shù)的交叉學(xué)科,DM系統(tǒng)的主要特點(diǎn)是:在數(shù)據(jù)庫中發(fā)現(xiàn)能夠用某些規(guī)則表述的、隱含的知識(shí);與數(shù)據(jù)庫是緊密集成的;高度自動(dòng)化的;對(duì)知識(shí)發(fā)現(xiàn)的處理是有效率的(尤其對(duì)大型數(shù)據(jù)庫)。這里我們給出一種基于GP(GeneticProgramming,遺傳編程)算法的知識(shí)發(fā)現(xiàn)系統(tǒng),和通常對(duì)數(shù)據(jù)庫的查詢不同的是,這個(gè)系統(tǒng)可對(duì)特定的對(duì)象集產(chǎn)生特定的查詢集,系統(tǒng)自動(dòng)根據(jù)查詢集訪問數(shù)據(jù)庫,從而發(fā)掘出數(shù)據(jù)庫中隱含的知識(shí)。本文將對(duì)上述知識(shí)發(fā)掘過程進(jìn)行詳細(xì)描述,并提出了一種用遺傳編程(GP)來進(jìn)行數(shù)據(jù)挖掘的方法,GP個(gè)體由數(shù)據(jù)庫查詢組成,而這些查詢代表了高水平上的規(guī)則。1系統(tǒng)基本結(jié)構(gòu)我們在[1]文給出的知識(shí)發(fā)現(xiàn)系統(tǒng)結(jié)構(gòu)基礎(chǔ)上加以改進(jìn),給出如圖1的基于GP算法的知識(shí)發(fā)現(xiàn)系統(tǒng)。1.1系統(tǒng)結(jié)構(gòu)描述整個(gè)系統(tǒng)由GP引擎、OODBMS(Object-OrientedDatabaseManagementSystem,面向?qū)ο髷?shù)據(jù)庫管理系統(tǒng))、知識(shí)庫、DB接口和用戶接口組成。系統(tǒng)以一組對(duì)象、領(lǐng)域知識(shí)和模式信息作為輸入。根據(jù)所給輸入,GP引擎將產(chǎn)生許多隨機(jī)的查詢,系統(tǒng)將這些查詢應(yīng)用于OODBMS,OODBMS將返回其結(jié)果。系統(tǒng)用給定的輸入對(duì)該返回結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)是計(jì)算個(gè)體查詢的適應(yīng)值的過程。那些能夠匹配所給對(duì)象集的查詢或查詢集將被選中,在沒有查詢能夠匹配所給對(duì)象集時(shí),那么其最好的查詢將被選中。最后,將能夠最好地描述所給對(duì)象集特性的查詢作為輸出。1.2面向?qū)ο蟮臄?shù)據(jù)庫這里,我們假定一個(gè)基于面向?qū)ο蠛秃瘮?shù)的數(shù)據(jù)庫模型(Object-OrientedandFunctionalDataModel,OOFDM),OOFDM具有面向?qū)ο蠛秃瘮?shù)數(shù)據(jù)模式的特性。這種模型要比傳統(tǒng)的關(guān)系數(shù)據(jù)庫模型在表達(dá)知識(shí)時(shí)更加逼近和容易。OOFDM的基本概念是"將感知到的真實(shí)世界作為相互關(guān)系對(duì)象的變量,并從不同的更細(xì)的層次上觀察這些對(duì)象。"[2]函數(shù)數(shù)據(jù)模型可以簡單地借助函數(shù)的數(shù)學(xué)符號(hào)來表示數(shù)據(jù)間的關(guān)系。每個(gè)類(或?qū)嶓w集)有自己的屬性和值,類與屬性間的關(guān)系是將類中的對(duì)象集映射到屬性域的一個(gè)函數(shù)。關(guān)系或逆關(guān)系組成了類間的連接。1.3查詢算子我們使用下列查詢算子作為其面向?qū)ο髷?shù)據(jù)庫的查詢語言。①SELC-1[(謂詞)]該算子選擇所有屬于C-1且滿足謂詞的對(duì)象。C-1既可以是一個(gè)類名也可以是一個(gè)屬于C-1的查詢。謂詞是一個(gè)可選項(xiàng)。如果在這個(gè)算子里沒有謂詞,它將選擇該類中的所有對(duì)象。②RESC-1謂詞該算子根據(jù)所給謂詞,限制給定集合的對(duì)象與另一個(gè)類的對(duì)象關(guān)聯(lián)。C-1和謂詞同SEL算子,但對(duì)于RES的謂詞屬性必須是關(guān)系型的屬性,而對(duì)于SEL算子謂詞屬性則必須是非關(guān)系型屬性。③RELC-1R-rClass-2該算子選擇所有C-1中與C-2中對(duì)象有關(guān)聯(lián)的對(duì)象。這是一個(gè)通過R-r將一個(gè)類C-1與另一個(gè)類C-2關(guān)聯(lián)起來的關(guān)系算子。R-r可以是一個(gè)通過C-1中定義的關(guān)系集中的關(guān)系屬性之一。C-1既可以是一個(gè)類名也可以是一個(gè)屬于C-1的查詢。C-2必須是一個(gè)類名或是一個(gè)屬于C-2的查詢,并且通過R-r關(guān)聯(lián)到另一個(gè)類C-1。④G-RELC-1R-rC-2該算子是REL的逆算子,它選擇所有C-2中與C-1中對(duì)象有關(guān)聯(lián)的對(duì)象。C-1、C-2以及R-r的意義同REL算子。2GP算法遺傳編程(GP)屬于進(jìn)化計(jì)算(EvolutionaryComputation,EC)模型的一種。EC是一種借鑒自然界進(jìn)化機(jī)制而產(chǎn)生的并行隨機(jī)搜索算法。進(jìn)化算法的基本原理是選擇和改變,它區(qū)別于其他搜索方法有兩個(gè)顯著特征:首先這些算法都是基于種群(population)的;其次在種群中個(gè)體(indvidual)之間存在競爭。為搜索特定的(感興趣的)查詢需要一種工具,這種工具可智能生成一組查詢并以它們是否能導(dǎo)出與用戶給定的同樣的對(duì)象集來進(jìn)行評(píng)價(jià)。GP算法對(duì)這一類問題是很實(shí)用的。2.1函數(shù)集與端點(diǎn)集一般GP中可生成的程序集是使用者定義的函數(shù)集和端點(diǎn)集。表1給出了相應(yīng)的函數(shù)集和端點(diǎn)集,其中函數(shù)集由1.3中定義的查詢算子、邏輯運(yùn)算算子以及比較算子所組成。函數(shù)集{SEL,REL,G-REL,RES},{UNI,INT,DIF},{AND,OR,NOT},{>,>=,=,<,<=}端點(diǎn)集類集,屬性集,值集表1函數(shù)集和端點(diǎn)集在我們的應(yīng)用中還有一些具有不同句法的查詢算子。每個(gè)算子具有不同的句法且假定的數(shù)據(jù)庫是面向?qū)ο蟮摹R虼?,它具有為?chuàng)建個(gè)體而使用的特別的函數(shù)集(或算子集)和端點(diǎn)集。從而,構(gòu)成種群的所有個(gè)體的創(chuàng)建必然受到每個(gè)算子的約束[3]。約束可以是算子的句法和查詢的類型,或者是為創(chuàng)建查詢選擇適當(dāng)屬性值的領(lǐng)域知識(shí)。比較算子和邏輯算子只使用于查詢的謂詞。當(dāng)比較符號(hào)操作數(shù)時(shí),僅使用'='。端點(diǎn)集由CLASS-SET、SLOT-SET和VALUE-SET組成。CLASS-SET由1.2中定義的類名組成,SLOT-SET由每個(gè)類的所有屬性構(gòu)成,VALUE-SET由數(shù)值和符號(hào)值所構(gòu)成(它們均為屬性值)。數(shù)值由整型或?qū)嵭蛿?shù)構(gòu)成,其數(shù)值范圍由所用數(shù)據(jù)庫模式定義。符號(hào)值由字符串表示的符號(hào)屬性值構(gòu)成。2.2創(chuàng)建初始種群為了創(chuàng)建一個(gè)個(gè)體(查詢),首先必須確定特定查詢所返回的對(duì)象類型。結(jié)果類型被選擇后,從所選類型返回例子的算子集中隨機(jī)地選擇一個(gè)算子,這個(gè)過程對(duì)查詢的每個(gè)參數(shù)遞歸地進(jìn)行。最初,那些句法正確的預(yù)定義數(shù)量的查詢被隨機(jī)地產(chǎn)生,形成初始種群。2.3選擇屬性值由于可選擇范圍大,要從某個(gè)查詢的值集中選擇一個(gè)屬性值(數(shù)值或符號(hào)常數(shù))是相當(dāng)困難的。對(duì)于一個(gè)范圍為[1,10000]的整數(shù)集,隨機(jī)選到一個(gè)特定整數(shù)的概率僅為1/10000。而對(duì)于符號(hào)常數(shù),則需要很強(qiáng)的背景知識(shí)。因此,我們僅就發(fā)生在數(shù)據(jù)庫里的范圍選擇屬性值。2.4繁殖新一代種群每個(gè)個(gè)體用預(yù)定義的適應(yīng)函數(shù)來進(jìn)行評(píng)價(jià)。較適應(yīng)的查詢有較高的概率被選來繁殖新種群,這個(gè)過程用三個(gè)遺傳算子:選擇、雜交和變異來完成。為了產(chǎn)生下一代,選擇算子根據(jù)個(gè)體的適應(yīng)值來選擇個(gè)體。我們用一個(gè)樹來表示一個(gè)查詢,雜交算子用交換兩個(gè)父輩的子樹來創(chuàng)建兩個(gè)后代。變異算子用一個(gè)新的子樹來代替一個(gè)父輩的子樹,從而產(chǎn)生一個(gè)新的后代。選擇-雜交-變異循環(huán)反復(fù)地進(jìn)行直到終止標(biāo)準(zhǔn)被滿足。2.5評(píng)價(jià)(適應(yīng)函數(shù)測量)我們使用如下的適應(yīng)函數(shù)f來評(píng)價(jià)種群中的個(gè)體查詢i:f(ni,hi)=T-(hi*hi)/ni,其中:ni>0,T≥hi,且i=1,2,…,種群的大?。═是被確定的對(duì)象集的勢,hi是一個(gè)個(gè)體查詢i被選中的次數(shù),ni是查詢i結(jié)果集的勢)。上述適應(yīng)函數(shù)依賴于hi和ni,如果一個(gè)查詢沒有被選中(hi=0),則函數(shù)的值為T,這是最差的一個(gè)適應(yīng)值。另一方面,如果查詢結(jié)果能夠很好地匹配提交給系統(tǒng)的對(duì)象集,那么它的適應(yīng)值為0(在這種情況下hi=ni=T)。如果種群中出現(xiàn)個(gè)體適應(yīng)值遠(yuǎn)遠(yuǎn)超過種群平均適應(yīng)值,該個(gè)體很快就會(huì)在群體中占有絕對(duì)的比例,從而出現(xiàn)過早收斂的現(xiàn)象。另一方面,在搜索過程的后期,群體的平均適應(yīng)值可能會(huì)接近群體的最優(yōu)適應(yīng)值,從而導(dǎo)致搜索目標(biāo)難以得到改善,出現(xiàn)停滯現(xiàn)象[4]。為了防止上述情況的發(fā)生,我們將對(duì)一個(gè)個(gè)體查詢的例子個(gè)數(shù)ni作為分母。3一個(gè)例子我們首先給出一個(gè)如表2所示的模擬"售后質(zhì)量管理函數(shù)數(shù)據(jù)庫",用它來代表一個(gè)基于OOFDM的面向?qū)ο髷?shù)據(jù)庫,它包含了客戶及其相關(guān)的信息。表3說明了類間的相互聯(lián)系。類屬性值客戶代碼、電話、名稱、地址、類別、地區(qū)、委托、購買代理商代碼、名稱、地址、電話、信譽(yù)等級(jí)產(chǎn)品名稱、編號(hào)、出廠日期、購買日期、檢驗(yàn)員維修記錄問題、維修時(shí)間、維修次數(shù)、維修員使用培訓(xùn)否、技術(shù)力量質(zhì)量問題外觀、電器、機(jī)械、裝配表2售后質(zhì)量管理數(shù)據(jù)庫類客戶代理商產(chǎn)品維修記錄使用質(zhì)量問題客戶+++代理商+產(chǎn)品+
++維修記錄+使用++
質(zhì)量問題
++
表3類間的連接表3.1問題的提出根據(jù)質(zhì)量管理部門反映,有兩個(gè)客戶反饋的產(chǎn)品質(zhì)量問題較為嚴(yán)重,我們希望通過對(duì)數(shù)據(jù)庫的查詢來找出這兩個(gè)客戶在購買的產(chǎn)品及使用上所具有的共性。3.2實(shí)驗(yàn)結(jié)果在我們的數(shù)據(jù)庫里包含如表2所示的模式組織起來的客戶信息,我們通過用"選擇反代fafihini完全選中?026.6818.671012N226.5719.7127100N1025.7019.651323N2522.3911.001616N3617.690.002727Y522.850.002727Y932.170.002727Y1992.590.002727Y(T=27,P=100,代數(shù)=200)映質(zhì)量問題達(dá)到或超過3次的客戶"的查詢,即:(G-REL(RES產(chǎn)品(≥送交維修3))購買by客戶)得到27個(gè)例子的對(duì)象集{"客戶C5","客戶B2",…}。將這個(gè)對(duì)象集提交給系統(tǒng),查詢的發(fā)掘過程以100個(gè)隨機(jī)產(chǎn)生的查詢開始。表2顯示了發(fā)掘出的每一代最好的查詢摘要。fi,hi和ni分別是最佳查詢i的適應(yīng)值、被選中次數(shù)和結(jié)果集的勢,fa為平均標(biāo)準(zhǔn)適應(yīng)值(fa=(∑fi)/P,P是種群的大小,(∑fi)為種群適應(yīng)值的和)。在第52代時(shí),我們已經(jīng)得到了相當(dāng)好的結(jié)果。此時(shí),平均適應(yīng)值已由第0代的26.68降到2.85。其最好的查詢被完全選中,查詢可敘述為"選擇反映質(zhì)量問題達(dá)到或超過3次的客戶,并且購買的產(chǎn)品的出廠日期為97年
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工廠員工辭職申請(qǐng)書
- 中國銀行助學(xué)貸款申請(qǐng)書
- 無堿玻璃纖維綁扎帶行業(yè)深度研究分析報(bào)告(2024-2030版)
- 電子設(shè)備在應(yīng)急廣播中的應(yīng)用
- 痛風(fēng)患者自我管理技巧分享匯報(bào)
- 遵義醫(yī)藥高等??茖W(xué)?!秵纹瑱C(jī)原理與接口技術(shù)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 生產(chǎn)線設(shè)備的智能化布局與配置研究報(bào)告
- 河北司法警官職業(yè)學(xué)院《養(yǎng)老機(jī)構(gòu)運(yùn)營管理實(shí)務(wù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣西藍(lán)天航空職業(yè)學(xué)院《幼兒音樂教育與活動(dòng)指導(dǎo)》2023-2024學(xué)年第二學(xué)期期末試卷
- 臺(tái)州學(xué)院《能源互聯(lián)網(wǎng)》2023-2024學(xué)年第二學(xué)期期末試卷
- DZ∕T 0051-2017 地質(zhì)巖心鉆機(jī)型式與規(guī)格系列(正式版)
- 《行業(yè)標(biāo)準(zhǔn)-太陽能光熱發(fā)電技術(shù)監(jiān)督導(dǎo)則》
- 壓力管道穿(跨)越施工工藝規(guī)程2015
- 業(yè)主授權(quán)租戶安裝充電樁委托書
- 建筑工人實(shí)名制管理制度及實(shí)施方案
- 《養(yǎng)老護(hù)理員》-課件:協(xié)助老年人穿脫簡易矯形器
- GB 1886.227-2024食品安全國家標(biāo)準(zhǔn)食品添加劑嗎啉脂肪酸鹽果蠟
- 部編版五年級(jí)下冊語文作業(yè)本答案
- 五年級(jí)數(shù)學(xué)(方程)習(xí)題及答案匯編
- 蕭條中的生存智慧:越是不景氣越要成為引擎般的存在
- 海南礦業(yè)股份有限公司選礦實(shí)驗(yàn)中心建設(shè)項(xiàng)目 環(huán)評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論