版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
PAGE畢業(yè)論文(設(shè)計)論文(設(shè)計)題目:信息、知識、智能的轉(zhuǎn)換和算法分析系別:專業(yè):學(xué)號:姓名:指導(dǎo)教師:畢業(yè)論文(設(shè)計)開題報告系別:計算機與信息科學(xué)系專業(yè):網(wǎng)絡(luò)工程學(xué)號姓名蒙劍論文(設(shè)計)題目信息、知識、智能的轉(zhuǎn)換和算法分析命題來源eq\o\ac(□,√)教師命題□學(xué)生自主命題□教師課題選題意義(不少于300字):隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫應(yīng)用的規(guī)模、范圍和深度不斷擴大,已經(jīng)從單臺機器發(fā)展到網(wǎng)絡(luò)環(huán)境。由于各種新型技術(shù)與數(shù)據(jù)庫技術(shù)的有機結(jié)合,使數(shù)據(jù)庫領(lǐng)域中的新內(nèi)容、新應(yīng)用、新技術(shù)層出不窮,形成了龐大的數(shù)據(jù)庫體系,如商業(yè)條碼的推廣、企業(yè)和政府利用計算機管理事務(wù)的能力增強,產(chǎn)生了大規(guī)模的數(shù)據(jù).而簡單數(shù)據(jù)信息查詢只是數(shù)據(jù)庫內(nèi)容的選擇性輸出,無論是查詢、統(tǒng)計還是報表,其處理方式都是對指定的數(shù)據(jù)進行簡單的數(shù)字處理,而不是對這些數(shù)據(jù)所包含的內(nèi)在信息進行提取,因此它和人們期望的分析預(yù)測、決策支持等高級應(yīng)用仍有很大的距離,人們希望能夠提供更高層次的數(shù)據(jù)分析功能,自動和智能的將待處理的數(shù)據(jù)信息轉(zhuǎn)化為有用的知識.數(shù)據(jù)挖掘之所以吸引專家學(xué)者的研究和引起商業(yè)廠家的廣泛關(guān)注,主要在于大型數(shù)據(jù)系統(tǒng)的廣泛使用和把數(shù)據(jù)轉(zhuǎn)換成有用的知識,推動社會進步,為企業(yè)提供能帶來商業(yè)利潤的決策信息使企業(yè)在市場競爭中立于不敗之地。研究綜述(前人的研究現(xiàn)狀及進展情況,不少于600字):Shannon信息論和人工智能理論分別于20世紀(jì)40年代和50年代相繼產(chǎn)生,系統(tǒng)的知識理論卻長期無人問津,成為一段理論空白。這種狀況在信息論和人工智能理論發(fā)展的初期似乎并沒有造成明顯的問題,但是,隨著研究的不斷的深入,知識理論的空白就逐漸成為一種制約,信息論和智能理論的發(fā)展陷入受限的尷尬境地。20世紀(jì)70年代,由于研究和建造專家系統(tǒng)的需要而出現(xiàn)了“知識工程”。然而,知識工程主要關(guān)注了知識的表示和知識的演繹推理的問題,至于如何獲取專家系統(tǒng)所需要的知識,則幾乎完全依靠專家系統(tǒng)設(shè)計者的手工操作.因此,知識工程沒有能夠形成完全的知識理論。與此同時,數(shù)據(jù)庫系統(tǒng)的三個主要模式:層次、網(wǎng)絡(luò)和關(guān)系型數(shù)據(jù)庫的研究和開發(fā)取得了重要進展。20世紀(jì)80年代,關(guān)系型數(shù)據(jù)庫及其相關(guān)的數(shù)據(jù)模型工具、數(shù)據(jù)索引及數(shù)據(jù)組織技術(shù)得到廣泛采用,并形成了整個數(shù)據(jù)庫市場的主導(dǎo)。事務(wù)數(shù)據(jù)庫、主動數(shù)據(jù)庫、知識庫、辦公信息庫等技術(shù)也得到蓬勃發(fā)展.從20世紀(jì)80年代中期開始,關(guān)系型數(shù)據(jù)庫技術(shù)和新型技術(shù)的結(jié)合成為數(shù)據(jù)庫研究和開發(fā)的重要標(biāo)志。20世紀(jì)90年代,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)應(yīng)運而生。數(shù)據(jù)挖掘是一個多學(xué)科交叉研究領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、知識工程、面向?qū)ο蠓椒?、信息檢索、高性能計算以及數(shù)據(jù)可視化等最新技術(shù)的研究成果。基于統(tǒng)計學(xué)、人工智能、面向?qū)ο蠓椒ǖ仍趦?nèi)的理論與技術(shù)成果已經(jīng)被成功的應(yīng)用到商業(yè)處理和分析中,這些應(yīng)用從某種程度上為數(shù)據(jù)挖掘技術(shù)提出和發(fā)展起到了極大的推動作用。然而,作為人工智能系統(tǒng)研究的三大主流學(xué)派,結(jié)構(gòu)主義、功能主義、行為主義方法各自在信息智能決策中取得了不少的進展和成果,但卻是計算機科學(xué)研究中爭議最多而又始終保持強大生命力的研究領(lǐng)域。在這樣的背景下,我國著名信息學(xué)者、全信息創(chuàng)始人鐘義信教授提出智能系統(tǒng)智能生成的共性核心機制:信息—知識-智能的轉(zhuǎn)換.“信息—知識-智能的轉(zhuǎn)換”的研究方法將能夠更好地為智能理論研究服務(wù),在社會走向信息化和智能化的時代將為人類做出更大的貢獻.研究的目標(biāo)和主要內(nèi)容(不少于400字)本選題將數(shù)據(jù)挖掘與機器知行學(xué)相結(jié)合,通過關(guān)聯(lián)規(guī)則挖掘算法,從事務(wù)數(shù)據(jù)庫中挖掘知識,實現(xiàn)信息、知識、智能的轉(zhuǎn)換。本選題研究內(nèi)容如下:(1)對信息、知識、智能的轉(zhuǎn)換理論體系結(jié)構(gòu)及數(shù)據(jù)挖掘原理的應(yīng)用進行探究.(2)關(guān)聯(lián)規(guī)則Apriori算法分析,Apriori算法的內(nèi)容分析如下:1)關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)的基本思路:關(guān)聯(lián)規(guī)則是用來揭示數(shù)據(jù)之間未知的相關(guān)依賴關(guān)系,通過設(shè)置支持度和置信度,生成所需要的數(shù)據(jù)信息。2)Apriori算法的實施思想:掌握Apriori算法運算的基本思想,是實施Apriori算法應(yīng)用實現(xiàn)的基礎(chǔ)。3)Apriori算法性能的分析:了解Apriori算法的優(yōu)點和不足,為算法的改進優(yōu)化具有重要意義。4)Apriori挖掘算法的實現(xiàn):根據(jù)關(guān)聯(lián)規(guī)則Apriori挖掘算法的描述,用VisualC++編譯器編寫Apriori算法代碼,并于一例子中實現(xiàn)。5)對具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘方法的探討:傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法大都依賴于一個統(tǒng)一的支持度和置信度閾值設(shè)置,在此基礎(chǔ)上所挖掘出的結(jié)果有很多是沒有任何意義或是錯誤的關(guān)聯(lián)規(guī)則。如何引入具有語義最小支持度對算法做相應(yīng)的改進,是舍棄無效的、虛假的、具有誤導(dǎo)性的規(guī)則起輔助作用,增強了決策功能。擬采用的研究方法查閱相關(guān)資料,借助機器知行學(xué)的思想和數(shù)據(jù)挖掘技術(shù)對關(guān)聯(lián)規(guī)則Apriori算法進行分析。使用VisualC++編譯器編寫代碼,實現(xiàn)Apriori算法。研究工作的進度安排2010年11月24號-11月30號與指導(dǎo)老師溝通交流,完成畢業(yè)論文選題;2010年12月1號-12月31號搜集資料,查閱文獻,完成開題報告;?2011年1月1號—1月31號完成文獻綜述,定出算法的需求分析案例; 2011年2月1號—2月28號整理相關(guān)資料并完成概要和詳細(xì)設(shè)計;?2011年3月1號—4月30號扼寫及整理修改初稿; 2011年5月10號—5月31號總結(jié)畢業(yè)設(shè)計的整個過程,完成畢業(yè)設(shè)計論文初稿;2011年6月1號—6月3號定稿,打印裝訂,參加答辯;參考文獻目錄(作者、書名或論文題目、出版社或刊號、出版年月日或出版期號)[1]毛國君,段立娟,王實,石云.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007.12[2]何宏.關(guān)聯(lián)規(guī)則挖掘算法的研究與實現(xiàn)[D]。湖南:湘潭大學(xué),2006:47-50[3]紀(jì)希禹,韓秋明,李微,李華鋒。數(shù)據(jù)挖掘技術(shù)應(yīng)用實例[M].北京:機械工業(yè)出版社,2009[4]陳競.基于數(shù)據(jù)挖掘技術(shù)的零售業(yè)精確營銷應(yīng)用研究[J]。中國市場,2010,14:16-18[5]張玲玲,李軍,石勇,周琳.基于數(shù)據(jù)挖掘的智能知識管理模型構(gòu)架研究[J].中國管理科學(xué),2009,17(10):620-624[6]宮鐵峰,髙劍平,韓慧君.基于全信息的智能決策支持系統(tǒng)研究[J].上海海運學(xué)院學(xué)報,1996,17(2):84—89[7]張磊,夏士雄,周勇,牛強。具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘方法[J].微電子學(xué)與計算機,2008,25(9):14-17[8]謝康林,葉瑾,周瑞凌。在數(shù)據(jù)倉庫中進行基于在語義層次的關(guān)聯(lián)規(guī)則挖掘[J].小型微型計算機系統(tǒng)2003,24(1):58-60[9]K.P.Soman,ShyamDiwakar,V。Ajay[印度].?dāng)?shù)據(jù)挖掘基礎(chǔ)教程[M]。范明,牛常勇譯.北京:機械工業(yè)出版社,2009[10]鐘義信.機器知行學(xué)原理:信息、知識、智能的轉(zhuǎn)換與統(tǒng)一理論[M].北京:科學(xué)出版社,2007指導(dǎo)教師意見簽名:年月日教研室主任意見簽名:年月日PAGE6目錄TOC\o"1—3"\h\z\uHYPERLINK\l”_Toc294708304"[摘要]?PAGEREF_Toc294708304\h1HYPERLINK\l"_Toc294708305"[關(guān)鍵字]?PAGEREF_Toc294708305\h1HYPERLINK\l”_Toc294708306"引言 PAGEREF_Toc294708306\h1HYPERLINK\l"_Toc294708307”1信息、知識、智能轉(zhuǎn)換的統(tǒng)一理論 PAGEREF_Toc294708307\h2HYPERLINK\l"_Toc294708308"1.1信息、知識、智能簡要概述 PAGEREF_Toc294708308\h2HYPERLINK\l"_Toc294708309"1。1。1信息的基本概念?PAGEREF_Toc294708309\h2HYPERLINK\l”_Toc294708310"1.1.2知識的基本概念?PAGEREF_Toc294708310\h2HYPERLINK\l”_Toc294708311"1.1.3智能的基本概念?PAGEREF_Toc294708311\h2HYPERLINK\l"_Toc294708312"1。2信息、知識、智能的轉(zhuǎn)換機制?PAGEREF_Toc294708312\h2HYPERLINK\l"_Toc294708313"2數(shù)據(jù)挖掘和知識發(fā)現(xiàn)?PAGEREF_Toc294708313\h3HYPERLINK\l”_Toc294708314"2.1數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的概念?PAGEREF_Toc294708314\h3HYPERLINK\l”_Toc294708315”2.1.1數(shù)據(jù)挖掘的基本概念 PAGEREF_Toc294708315\h3HYPERLINK2。2數(shù)據(jù)挖掘的分析方法?PAGEREF_Toc294708317\h4HYPERLINK\l”_Toc294708318"2.3知識發(fā)現(xiàn)的過程步驟及技術(shù)?PAGEREF_Toc294708318\h4HYPERLINK\l”_Toc294708319"2.3。1知識發(fā)現(xiàn)過程的步驟?PAGEREF_Toc294708319\h4HYPERLINK\l”_Toc294708320”2.3。2知識發(fā)現(xiàn)技術(shù)?PAGEREF_Toc294708320\h5HYPERLINK\l"_Toc294708321”3數(shù)據(jù)挖掘算法分析?PAGEREF_Toc294708321\h6HYPERLINK\l"_Toc294708322”3.1關(guān)聯(lián)規(guī)則挖掘算法基本概述 PAGEREF_Toc294708322\h6HYPERLINK\l"_Toc294708323"3.2Apriori算法基本原理與優(yōu)化分析?PAGEREF_Toc294708323\h6HYPERLINK\l”_Toc294708324"3.2。1Apriori算法基本原理?PAGEREF_Toc294708324\h6HYPERLINK\l"_Toc294708325"3。2.2Apriori算法優(yōu)化分析?PAGEREF_Toc294708325\h8HYPERLINK\l”_Toc294708326”3。3Apriori算法的實現(xiàn)與應(yīng)用?PAGEREF_Toc294708326\h9HYPERLINK\l"_Toc294708327”3.3。1Apriori算法的實現(xiàn)?PAGEREF_Toc294708327\h9HYPERLINK\l”_Toc294708328”3.3.2Apriori算法在購物籃中的應(yīng)用?PAGEREF_Toc294708328\h13HYPERLINK\l"_Toc294708329"4具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘方法?PAGEREF_Toc294708329\h14HYPERLINK\l”_Toc294708330"5小結(jié) PAGEREF_Toc294708330\h15HYPERLINK\l"_Toc294708331"參考文獻 PAGEREF_Toc294708331\h16HYPERLINK\l”_Toc294708332”[Abstract]?PAGEREF_Toc294708332\h16HYPERLINK人工智能、HYPERLINK"http://wiki。mbalib.com/wiki/%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2"\o"信息檢索"信息檢索、數(shù)據(jù)庫、HYPERLINK”http://wiki。mbalib.com/wiki/%E7%BB%9F%E8%AE%A1%E5%AD%A6”\o"統(tǒng)計學(xué)”統(tǒng)計學(xué)、模糊集和HYPERLINK”http://wiki。mbalib。com/wiki/%E7%B2%97%E7%B3%99%E9%9B%86”\o"粗糙集”粗糙集理論等領(lǐng)域中發(fā)展來的。典型的基于算法的知識發(fā)現(xiàn)技術(shù)包括:或然性和最大可能性估計的貝葉斯理論、衰退分析、最近鄰、HYPERLINK"http://wiki.mb/wiki/%E5%86%B3%E7%AD%96%E6%A0%91"\o”決策樹”決策樹、K一方法聚類、關(guān)聯(lián)規(guī)則挖掘、Web和HYPERLINK”http://wiki。mbalib。com/wiki/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E"\o”搜索引擎”搜索引擎、HYPERLINK”http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93”\o"數(shù)據(jù)倉庫”數(shù)據(jù)倉庫和HYPERLINK"http://wiki.mbali/wiki/%E8%81%94%E6%9C%BA%E5%88%86%E6%9E%90%E5%A4%84%E7%90%86"\o"聯(lián)機分析處理"聯(lián)機分析處理(On—lineAnalyticalProcessing,OLAP)、HYPERLINK"http://wiki。mbalib.com/wiki/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C”\o"神經(jīng)網(wǎng)絡(luò)"神經(jīng)網(wǎng)絡(luò)、HYPERLINK"http://wiki.mba/wiki/%E9%81%97%E4%BC%A0%E7%AE%97%E6%B3%95"\o"遺傳算法"遺傳算法、模糊分類和聚類、粗糙分類和規(guī)則歸納等。3數(shù)據(jù)挖掘算法分析3。1關(guān)聯(lián)規(guī)則挖掘算法基本概述Agrawal等人于1993年首次提出了關(guān)聯(lián)規(guī)則挖掘,最初的動機是針對購物籃分析(BasketAnalysis)問題提出的,其目的是為了發(fā)現(xiàn)交易數(shù)據(jù)庫中的不同商品之間的相關(guān)關(guān)系。之后,諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行大量的研究,用來揭示數(shù)據(jù)之間未知的相關(guān)依賴關(guān)系,它是數(shù)據(jù)挖掘中最為活躍的研究方法之一。一個事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘可以描述如下:設(shè)I={,,.。.,}是一個項目集合,事務(wù)數(shù)據(jù)庫D={,,..。,}是由一系列具有唯一標(biāo)識TID的事務(wù)組成,每個事務(wù)(i=1,2,...,n)都對應(yīng)I上的一個子集。設(shè)?I,項目集在數(shù)據(jù)集D上的支持度(Support)是包含的事物在D中所占的百分比,即support()=||{t∈D|?t}||/||D||。對項目集I和事務(wù)數(shù)據(jù)庫D,T中所有滿足用戶指定的最小支持度的項目集,即大于或等于最小支持度的I非空子集,稱為頻繁項目集或者大項目集。在頻繁項目集中挑選出所有不被其它元素包含的頻繁項集稱為最大頻繁項目集或最大項目集。一個定義在I和D上的形如的關(guān)聯(lián)規(guī)則通過滿足一定的可信度或置信度(Confidence)來給出??尚哦仁侵赴偷氖聞?wù)與包含的事務(wù)數(shù)之比,即Confidence()=support(∪)/support(),其中,?I;∩=Ф。把D在I上滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則。通過用戶給定的最小支持度,尋找所有頻繁項目集,即滿足支持度不小于最小支持度的所有項目子集.發(fā)現(xiàn)所有的頻繁項目集是形成關(guān)聯(lián)規(guī)則的基礎(chǔ),在此基礎(chǔ)上尋找置信度不小于最小置信度則是生成關(guān)聯(lián)規(guī)則。3。2Apriori算法基本原理與優(yōu)化分析3.2.1Apriori算法基本原理Apriori算法是一個基于兩階段頻集思想的方法,關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計可以分解為兩個子問題:(1)找到所有支持度大于最小支持度的項集(Itemset),這些項集稱為頻集(FrequentItemset)。(2)使用第1步找到的頻集產(chǎn)生期望的規(guī)則.具體地說,在第一次循環(huán)時,經(jīng)掃描數(shù)據(jù)庫得到1階頻繁集,在之后的第k(k>1)次循環(huán)中,對第k—1階頻繁項集Lk—1實施Apriro_gen運算生成k階侯選集Ck。再次掃描數(shù)據(jù)庫,得到Ck的支持度,從而得到Ck中支持度不小于最小支持度的k階頻繁項集Lk.重復(fù)以上步驟,直到某一階的頻繁項集為空時算法停止。為生成所有頻繁項集,Apriori使用了遞推的方法,其核心思想是:(1)
L1
=find_frequent_1-itemsets(D);(2)for(k=2;Lk—1
≠Φ;k++){(3)
Ck
=apriori_gen(Lk-1
,min_sup);(4)
foreachtransactiont∈
D
{//scanDforcounts(5)
Ct
=subset(Ck,t);//getthesubsetsoftthatarecandidat(yī)es(6)
foreachcandidatec∈Ct(7)
c.count++;(8)
}(9)
Lk
={c∈Ck|c.count≥min_sup}(10)
}(11)returnL=∪
k
Lk;如何利用Lk和如何找到Lk是Apriori的關(guān)鍵所在,主要有如下兩個步驟:(1)連接步.為找Lk,通過Lk—1與自己連接產(chǎn)生侯選k—項集的集合。該侯選項集的結(jié)合記作Ck。(2)剪枝步。Ck是Lk的超集,即它的成員可以是也可以不是頻繁的,但所有的頻繁k-項集都包含在Ck中。發(fā)現(xiàn)頻繁集中調(diào)用了apriori-gen(Lk-1),是為了通過(k-1)—頻繁項集產(chǎn)生K-候選集。產(chǎn)生候選集可以描述如下:(1)FORallitemsetp∈Lk-1DO(2)FORallitemsetq∈Lk—1DO(3)IFp.item1=q.item1,p。item2=q。item2,…,p.itemk-2=q。itemk-2,p.itemk—1q.itemk-1THENBEGI(4)c=p∞q;(5)IFhas_infrequent_subset(c,Lk-1)THEN(6)deletec;(7)ELSEaddctoCk;(8)END(9)ReturnCk;根據(jù)Agrawal的項目集格空間理論,含有非頻繁項子集的元素不可能是頻繁項目集,候選集生成算法中調(diào)用了has_infrequent_subset(c,Lk-1),是為了判斷c是否需要加入到候選集中,以便及時裁減那些含有非頻繁項集子集的項集,以提高效率.判斷候選集的元素算法描述如下:(1)FORall(k—1)—subsetsofcDO(2)IFS¢Lk—1THENReturnTRUE;(3)ReturnFALSE;Apriori算法是通過項集元素數(shù)目的不斷增長來逐步完成頻繁項目集的發(fā)現(xiàn),在得到所有頻繁項集后,從給定的頻繁項集中生成強關(guān)聯(lián)規(guī)則.強關(guān)聯(lián)規(guī)則算法可以描述如下:Rule—generate(L,minconf)(1)FOReachfrequentitemsetlKinL(2)genrules(lk,lk);該算法的核心是genrules遞歸過程,它實現(xiàn)一個頻繁項集中所有強關(guān)聯(lián)規(guī)則的生成。3。2.2Apriori算法優(yōu)化分析雖然Apriori算法自身已經(jīng)進行了一定的優(yōu)化,但是在實際的應(yīng)用中,還是存在不令人滿意的地方,于是人們相繼提出了一些優(yōu)化的方法:(1)
基于劃分的方法。Savasere等人設(shè)計了一個基于劃分(partition)的算法,這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。上面所討論的算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進行通信來產(chǎn)生全局的候選k-項集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。其它的方法還有在多處理器之間共享一個雜湊樹來產(chǎn)生頻集。(2)基于hash的方法。一個高效地產(chǎn)生頻集的基于雜湊(hash)的算法由Park等人提出來。通過實驗可以發(fā)現(xiàn)尋找頻集主要的計算是在生成頻繁2—項集Lk上,Park等就是利用了這個性質(zhì)引入雜湊技術(shù)來改進產(chǎn)生頻繁2—項集的方法。(3)基于采樣的方法?;谇耙槐閽呙璧玫降男畔?對此仔細(xì)地作組合分析,可以得到一個改進的算法,Mannila等人考慮了這一點,他們認(rèn)為采樣是發(fā)現(xiàn)規(guī)則的一個有效途徑。隨后又由Toivonen進一步發(fā)展了這個思想,先使用從數(shù)據(jù)庫中抽取出來的采樣得到一些在整個數(shù)據(jù)庫中可能成立的規(guī)則,然后對數(shù)據(jù)庫的剩余部分驗證這個結(jié)果。Toivonen的算法相當(dāng)簡單并顯著地減少了I/O代價,但是一個很大的缺點就是產(chǎn)生的結(jié)果不精確,即存在所謂的數(shù)據(jù)扭曲(dat(yī)askew)。分布在同一頁面上的數(shù)據(jù)時常是高度相關(guān)的,可能不能表示整個數(shù)據(jù)庫中模式的分布,由此而導(dǎo)致的是采樣5%的交易數(shù)據(jù)所花費的代價可能同掃描一遍數(shù)據(jù)庫相近。Lin和Dunham討論了反扭曲(Anti—skew)算法來挖掘關(guān)聯(lián)規(guī)則,他們引入的技術(shù)使得掃描數(shù)據(jù)庫的次數(shù)少于2次,算法使用了一個采樣處理來收集有關(guān)數(shù)據(jù)的次數(shù)來減少掃描遍數(shù)。Brin等人提出的算法使用比傳統(tǒng)算法少的掃描遍數(shù)來發(fā)現(xiàn)頻集,同時比基于采樣的方法使用更少的候選集,這些改進了算法在低層的效率.具體的考慮是,在計算k-項集時,一旦我們認(rèn)為某個(k+1)-項集可能是頻集時,就并行地計算這個(k+1)-項集的支持度,算法需要的總的掃描次數(shù)通常少于最大的頻集的項數(shù)。這里他們也使用了雜湊技術(shù),并提出產(chǎn)生“相關(guān)規(guī)則”(CorrelationRules)的一個新方法,這是基于他們工作基礎(chǔ)上的。(4)減少交易的個數(shù),減少用于未來掃描的事務(wù)集的大小。一個基本的原理就是當(dāng)一個事務(wù)不包含長度為k的大項集,則必然不包含長度為k+1的大項集。從而我們就可以將這些事務(wù)移去,這樣在下一遍的掃描中就可以要進行掃描的事務(wù)集的個數(shù)。這個就是AprioriTid的基本思想。3。3Apriori算法的實現(xiàn)與應(yīng)用3。3.1Apriori算法的實現(xiàn)根據(jù)Apriori算法的思想,用VC++編輯器編寫代碼的相關(guān)步驟如下:(1)對函數(shù)進行聲明:#include〈iostream。h>#include〈stdlib.h〉#include<fstream。h〉(2)定義一個無類型有返回值的sum函數(shù);n,m,s為整型變量,分別表示事務(wù)數(shù)、項數(shù)和支持?jǐn)?shù);d是雙精度型;h表示有多少個項,K表示是第幾個頻繁項集,y表示前有多少項規(guī)則,qian存前件,hou存后件,credit存置信度。voidsum(intt[30][20]);intget(intt[30][20],inta[100][20],intb[100][20],intk0,intk,inth);intjield(intt[30][20],intl[100][20],intk,inth,intqian[50][10],inthou[50][10],inty,doublecredit[50]);intn,m;doubles,d;(3)定義一個不返回任何值得主函數(shù)voidmain()。在函數(shù)里,每個行數(shù)組中的第一個用來計數(shù),如:t[1][0]=3表示第二行有三個元素;ck[i]用于記錄一個集中有多少個頻繁項集;k1用于記錄L1中項數(shù);l[k][0]表示第一項存出現(xiàn)次數(shù),total為頻繁項集的總計數(shù)。(4)生成頻繁項集函數(shù):intget(intt[30][20],inta[100][20],intb[100][20],intk0,intk,inth){?//ko表示L中前K-2一共有多少項,表起點;K表示K—1上一次有多少項,H表示L中有幾位數(shù)有用?if(k==0)return(0);?intab[100][20];inti,j,p,q,m1,x,y,k1,z,z1;?y=0;//用于記數(shù)產(chǎn)生了多少條項集?z=0;//用于記錄有用的項集 intc[100];//計數(shù)intdch[100];?intbiao[100];?for(i=0;i<100;i++)?{?c[i]=0;?dch[i]=0;biao[i]=0;}?for(i=k0;i<k0+k;i++)? for(j=i+1;j〈k0+k;j++) ?{?for(k1=0;k1〈100;k1++){ c[k1]=0;}???m1=0;???for(p=1;p〈h;p++)? ?{? ??for(q=1;q<h;q++)?? ?{? ?? if(a[i][p]==a[j][q])? ???{??????m1++;c[q]=1;?? ? }????}???}???if(m1==h-2)???{//第一項存出現(xiàn)次數(shù)????for(x=1;x<h;x++)??? ab[y][x]=a[i][x];? ??for(x=1;x<h;x++)? ?if(c[x]==0)ab[y][h]=a[j][x];y++;???}??}? for(k1=0;k1<y;k1++)??{?? z1=0;?? for(i=0;i<n;i++) {????z=0;??? for(j=1;j〈=h;j++) ???{ ?? for(x=1;x<=t[i][0];x++)? ??{??? ??if(ab[k1][j]==t[i][x]) ? ??{z++;break;} ? ??}????}????if(z==h)z1++;???}???if(z1>=s){dch[k1]=1;}ab[k1][0]=z1;??}for(i=0;i<y;i++) {??for(j=i+1;j<y;j++) ?{? ?m1=0;???for(p=1;p<=h;p++)? ?{????for(q=1;q<=h;q++) ? ?{ ????if(ab[i][p]==ab[j][q])??? ?{??????m1++; ????}?? ?}???}if(m1==h)???{ ???biao[j]=1; ??}??}?}?x=k+k0;z=0; for(i=0;i<y;i++)?if(dch[i]==1&&biao[i]==0) {? for(j=0;j〈=h;j++) ?{b[x][j]=ab[i][j]; ?}??z++;x++; }returnz;}(5)對jield函數(shù)作出相應(yīng)的設(shè)置,統(tǒng)計n、m的值,推出關(guān)聯(lián)規(guī)則.(相應(yīng)的代碼省略)3.3。2Apriori算法在購物籃中的應(yīng)用通常,我們將客戶一次購買商品的總和稱為一個購物籃。在零售行業(yè)中,我們可以把關(guān)聯(lián)規(guī)則和Apriori算法應(yīng)用于研究顧客購物籃中,以期發(fā)現(xiàn)顧客購物規(guī)律。一個購物籃就是一張收款小票,購物小票就是購物籃分析的一個重要依據(jù)。一張購物小票包含3個層面的含義:購買商品的客戶、購物籃的商品和購物籃的金額.在數(shù)據(jù)分析行業(yè)中,將購物籃的商品相關(guān)性分析稱為“數(shù)據(jù)挖掘算法之王",可見購物籃商品相關(guān)分析算法的重要性。對購物籃分析即從購物籃的商品相關(guān)度分析入手,表3-1為購物數(shù)據(jù)內(nèi)容。表3—1購物內(nèi)容Class(商品名稱)Price(單價/元)Sum(購買總數(shù))面包3.50300果凍2.80600………花生醬8.80400牛奶4.00600………啤酒4。50500可樂3.00100由于本次挖掘只是針對購物籃的商品相關(guān)性進行分析,不進行多層的關(guān)聯(lián)規(guī)則挖掘,因此不必進行概念分層及數(shù)據(jù)離散化處理。隨機搜取4個購物籃,5個項數(shù)作為采點數(shù)據(jù),模擬實驗樣本數(shù)據(jù)如表3-2。表3—2模擬實驗樣本數(shù)據(jù)購物籃編號項目集支持度計數(shù)代號A1、3、43“1”表示面包,“2”表示果凍,“3”表示花生醬,“4”表示牛奶“5”表示啤酒B2、3、53C1、2、3、54D2、52為了了解商品間的關(guān)聯(lián)關(guān)系,顧客買了果凍是否就一定會買啤酒。要求挖掘出支持度大于等于60%、置信度大于等于80%的商品間的關(guān)聯(lián)。結(jié)果如圖3—1所示。圖3—1Apriori算法設(shè)計實現(xiàn)結(jié)果從圖3—1可以看出,在購物數(shù)據(jù)樣本模擬實驗中,發(fā)現(xiàn)了以下規(guī)則:顧客如果購買面包(花生醬、啤酒或果凍、花生醬),那么購買花生醬(果凍或啤酒)的可能性是100%;如果,顧客購買果凍,那么購買啤酒的可能性是100%;反之,如果顧客購買啤酒,那么購買果凍的可能性是100%。由此可以得出:該商城在商品排放策略上應(yīng)該將啤酒、果凍、花生醬的貨架相鄰擺設(shè)。4具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘方法傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法大都依賴于一個統(tǒng)一的支持度和置信度閾值設(shè)置,項目的最小支持度是限制關(guān)聯(lián)規(guī)則產(chǎn)生的數(shù)量的主要因素.可是事件在現(xiàn)實中發(fā)生和存在頻度上有很大的不一致性,始終保持單一的最小支持度顯然是不合理,就此問題,人們采用多個支持度的關(guān)聯(lián)規(guī)則方法來解決單一支持度的不可靠問題。然而馬占欣等人則提出加入項集之間的“相關(guān)度”來對關(guān)聯(lián)規(guī)則的挖掘進行約束。以下將語義信息引入關(guān)聯(lián)規(guī)則挖掘之中,提出了具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘。設(shè)I={,,...,}為數(shù)據(jù)中所有項的集合,(1≤j≤n)為數(shù)據(jù)集中的項目,每一個項目均為本體中的一個概念。給定數(shù)據(jù)集DB={,,。。。,},DB表示所有事務(wù)的集合,每個事務(wù)包含的項集都是I的子集。設(shè)項目集X是事務(wù)的子集,項目集X的支持度計算為:Ю(X)=||X?|∈T|。設(shè)X、Y?I,且X∩Y=Ф,則XY為關(guān)聯(lián)規(guī)則,該規(guī)則的支持度用S表示,可信度用C表示。S(XY)=|{t|t包含X和Y}|/|DB|C(XY)=|{t|t包含X和Y}|/|t|t包含X}|具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘是找到支持度大于語義最小支持度,可信度大于最小可信度的關(guān)聯(lián)規(guī)則。本體為元組Я=(C,H,Root,RT,R,I)。C表示概念集合;H表示概念層次集合,H?C×C,(,)∈H表示為的字概念,H為有向無環(huán)圖;Root為本體的根概念;RT為語義關(guān)系類集合,RT={SaneAs,DisjointWith,Equivalent};R表示概念之間的非層次關(guān)系集合,R?C×C;(,)∈R表示概念、之間存在關(guān)系,∈RT;其中,domain()=,range()=;I表示概念實例集合,概念c∈C的實例集合記為I(c),|I(c)|表示概念實例的數(shù)目。對于項目,∈I,p≠q,計算其在本體中的概念語義相關(guān)度CR(,),對于項集P=(,,…,),其語義相關(guān)度記為Sem(P):對于項目集={,,…,,},設(shè)項目集P的語義最小支持度為:=MIN+(MAX—MIN)×(1—Sem(P))。其中,MIN,MAX分別為支持度下限和上限.具有語義相關(guān)支持度的關(guān)聯(lián)規(guī)則挖掘算法采用和語義相關(guān)的支持度,對于候選集,首先計算候選集的語義相關(guān)度,而后根據(jù)語義相關(guān)度計算出每個候選集對應(yīng)的最小支持度.5小結(jié)信息到知識、知識到智能的轉(zhuǎn)換過程非常復(fù)雜.當(dāng)前,國內(nèi)外探究機器知行學(xué)理論還屬于起步階段,沒有通用性的算法和可操作性強的技術(shù)支撐,但是通過借鑒數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的相關(guān)技術(shù),可以將信息、知識、智能的轉(zhuǎn)換效益在商業(yè)中應(yīng)用。而Apriori作為經(jīng)典的頻繁項集生成算法,在數(shù)據(jù)挖掘中具有里程碑的作用,但多次掃描事務(wù)數(shù)據(jù)庫需要很大的I/0負(fù)載,可能產(chǎn)生龐大的候選集性能瓶頸。探索新的理論和算法來減少數(shù)據(jù)庫的掃描次數(shù)和候選集空間的占用,采用并行挖掘、增加關(guān)聯(lián)規(guī)則約束參數(shù)等方式提高挖掘效率等已成為關(guān)聯(lián)規(guī)則挖掘研究的熱點之一.參考文獻[1]毛國君,段立娟,王實,石云.?dāng)?shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007。12[2]何宏.關(guān)聯(lián)規(guī)則挖掘算法的研究與實現(xiàn)[D]。湖南:湘潭大學(xué),2006:47—50[3]紀(jì)希禹,韓秋明,李微,李華鋒。數(shù)據(jù)挖掘技術(shù)應(yīng)用實例[M].北京:機械工業(yè)出版社,2009[4]陳競。基于數(shù)據(jù)挖掘技術(shù)的零售業(yè)精確營銷應(yīng)用研究[J].中國市場,2010,14:16-18[5]張玲玲,李軍,石勇,周琳.基于數(shù)據(jù)挖掘的智能知識管理模型構(gòu)架研究[J].中國管理科學(xué),2009,17(10):620-624[6]宮鐵峰,髙劍平,韓慧君?;谌畔⒌闹悄軟Q策支持系統(tǒng)研究[J].上海海運學(xué)院學(xué)報,1996,17(2):84-89[7]張磊,夏士雄,周勇,牛強.具有語義最小支持度的關(guān)聯(lián)規(guī)則挖掘方法[J].微電子學(xué)與計算機,2008,25(9):14—17[8]謝康林,葉瑾,周瑞凌。在數(shù)據(jù)倉庫中進行基于在語義層次的關(guān)聯(lián)規(guī)則挖掘[J]。小型微型計算機系統(tǒng)2003,24(1):58-60[9]K.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《少兒理財活動案例》課件
- 單位管理制度集粹選集【人力資源管理】十篇
- 單位管理制度匯編大全【人事管理篇】
- 單位管理制度合并選集人員管理篇
- 《巫婆的暑假》課件
- 單位管理制度分享大合集【人員管理篇】十篇
- 單位管理制度范例匯編【人員管理】十篇
- 單位管理制度呈現(xiàn)大全【人員管理篇】
- 《行政職業(yè)能力測驗》2022年公務(wù)員考試民和回族土族自治縣預(yù)測試題含解析
- 《基層干部管理》課件
- 建筑垃圾外運施工方案
- 公安機關(guān)保密協(xié)議
- 2024年東方雨虹戰(zhàn)略合作協(xié)議書模板
- 2024年江蘇省南京旅游集團本部人員招聘2人歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 實驗室信息管理系統(tǒng)LIMS調(diào)研報告
- 體育賽事組織與執(zhí)行手冊
- 2024年中國社會科學(xué)院外國文學(xué)研究所專業(yè)技術(shù)人員招聘3人歷年高頻難、易錯點500題模擬試題附帶答案詳解
- 2024-2030年中國海關(guān)信息化行業(yè)市場深度分析與發(fā)展前景預(yù)測研究報告
- 2023-2024學(xué)年內(nèi)蒙古名校聯(lián)盟高二下學(xué)期教學(xué)質(zhì)量檢測語文試題(解析版)
- 水利水電工程單元工程施工質(zhì)量驗收評定表及填表說明
- 《ISO56001-2024創(chuàng)新管理體系 - 要求》之26:“9績效評價-9.3管理評審”解讀和應(yīng)用指導(dǎo)材料(雷澤佳編制-2024)
評論
0/150
提交評論