決策支持系統(tǒng)與商務(wù)智能學(xué)習(xí)報(bào)告材料——Apriori算法_第1頁(yè)
決策支持系統(tǒng)與商務(wù)智能學(xué)習(xí)報(bào)告材料——Apriori算法_第2頁(yè)
決策支持系統(tǒng)與商務(wù)智能學(xué)習(xí)報(bào)告材料——Apriori算法_第3頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄目錄1 .背景22 .目的32.1 Apriori算法32.2應(yīng)用領(lǐng)域43 .設(shè)計(jì)方案63.1數(shù)據(jù)庫(kù)設(shè)計(jì)63.2 系統(tǒng)設(shè)計(jì)(舉例說明) 63.3系統(tǒng)設(shè)計(jì)算法思路(關(guān)鍵問題解決方法) 84 .系統(tǒng)運(yùn)行效果展示 104.1 系統(tǒng)運(yùn)行主界面 104.2參數(shù)設(shè)置運(yùn)行界面 104.3路徑設(shè)置運(yùn)行界面 114.3.1 路徑設(shè)置主界面 1.1.瀏覽按鈕效果圖 1.1注意按鈕界面124.4數(shù)據(jù)庫(kù)導(dǎo)入運(yùn)行效果圖 .134.4.1 數(shù)據(jù)庫(kù)導(dǎo)入主界面 1.3編輯數(shù)據(jù)庫(kù)運(yùn)行效果 .1.3關(guān)閉數(shù)據(jù)庫(kù)記錄運(yùn)行效果 1.44.5顯示分析結(jié)果運(yùn)行效果 .15顯示分析結(jié)果主界面 15保存分析結(jié)果運(yùn)行效果 1.6分析結(jié)果完全

2、效果 1.7關(guān)閉分析結(jié)果運(yùn)行效果 1.74.6文件菜單效果展示 184.7設(shè)置菜單效果展示 184.8幫助菜單效果展示 194.9關(guān)于對(duì)話框運(yùn)行效果 195 .心的體會(huì)20A 善旦1 .冃景近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛的用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。數(shù)據(jù)挖掘,在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD), 也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)過程的一個(gè)基

3、本步驟。知識(shí)發(fā)現(xiàn) 過程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備,(2)數(shù)據(jù)挖掘,(3)結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。經(jīng)過長(zhǎng)時(shí) 間的發(fā)展,數(shù)據(jù)挖掘產(chǎn)生了一系列的算法,其中以十大經(jīng)典算法為最,分別是 C4.5、The K-means algorithm (即 K-Means 算 法)、Support vetor machines 、The Apriori algorithm 、最大 期望(EM )算法、PageRank、AdaBoost、kNN:K-mearest neighbor classification、Na?ve Bayes CART:分類與回歸樹。2 .目的2.1 Apri

4、ori 算法本軟件系統(tǒng)是對(duì)數(shù)據(jù)掘Apriori算法的功能實(shí)現(xiàn)。該算法的基本 思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù) 定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些 規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每 一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這 些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則 才被留下來。為了生成所有頻集,使用了遞推的方法。2.2應(yīng)用領(lǐng)域經(jīng)典的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法Apriori算法廣泛應(yīng)用于各種領(lǐng)域,通過對(duì)數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,挖掘出的這些信 息在

5、決策制定過程中具有重要的參考價(jià)值。Apriori算法廣泛應(yīng)用于商業(yè)中,應(yīng)用于消費(fèi)市場(chǎng)價(jià)格分析中,它能夠很快的求出各種產(chǎn)品之間的價(jià)格關(guān)系和它們之間的影響。 通過數(shù)據(jù)挖掘,市場(chǎng)商人可以瞄準(zhǔn)目標(biāo)客戶,采用個(gè)人股票行市、最新信息、特殊的市場(chǎng)推廣活動(dòng)或其他一些特殊的信息手段,從 而極大地減少?gòu)V告預(yù)算和增加收入。百貨商場(chǎng)、超市和一些老字 型大小的零售店也在進(jìn)行數(shù)據(jù)挖掘,以便猜測(cè)這些年來顧客的消 費(fèi)習(xí)慣。Apriori算法應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,比如時(shí)候入侵檢測(cè)技術(shù)中。早期中大型的電腦系統(tǒng)中都收集審計(jì)信息來建立跟蹤檔,這些審 計(jì)跟蹤的目的多是為了性能測(cè)試或計(jì)費(fèi),因此對(duì)攻擊檢測(cè)提 供的有用信息比較少。它通過模式的

6、學(xué)習(xí)和訓(xùn)練可以發(fā)現(xiàn)網(wǎng)絡(luò)用 戶的一場(chǎng)行為模式。采用作用度的Apriori算法削弱了 Apriori算法的挖掘結(jié)果規(guī)則,是網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)可以快速的發(fā)現(xiàn)用戶 的行為模式,能夠快速的鎖定攻擊者,提高了基于關(guān)聯(lián)規(guī)則的入 侵檢測(cè)系統(tǒng)的檢測(cè)性。Apriori算法應(yīng)用于高校管理中。隨著高校貧困生人數(shù)的不斷 增加,學(xué)校管理部門資助工作難度也越加增大。針對(duì)這一現(xiàn)象, 提出一種基于數(shù)據(jù)挖掘算法的解決方法。將關(guān)聯(lián)規(guī)則的Apriori算法應(yīng)用到貧困助學(xué)體系中,并且針對(duì)經(jīng)典Apriori挖掘算法存在的不足進(jìn)行改進(jìn),先將事務(wù)數(shù)據(jù)庫(kù)映射為一個(gè)布爾矩陣,用一 種逐層遞增的思想來動(dòng)態(tài)的分配內(nèi)存進(jìn)行存儲(chǔ),再利用向量求"

7、與"運(yùn)算,尋找頻繁項(xiàng)集。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Apriori算法在運(yùn)行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助 學(xué)校管理部門有針對(duì)性的開展貧困助學(xué)工作。Apriori算法被廣泛應(yīng)用于移動(dòng)通信領(lǐng)域。移動(dòng)增值業(yè)務(wù)逐 漸成為移動(dòng)通信市場(chǎng)上最有活力、最具潛力、最受矚目的業(yè)務(wù)。 隨著產(chǎn)業(yè)的復(fù)蘇,越來越多的增值業(yè)務(wù)表現(xiàn)出強(qiáng)勁的發(fā)展勢(shì)頭, 呈現(xiàn)出應(yīng)用多元化、營(yíng)銷品牌化、管理集中化、合作縱深化的特 點(diǎn)。針對(duì)這種趨勢(shì),在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中廣泛應(yīng)用的Apriori算法被很多公司應(yīng)用。依托某電信運(yùn)營(yíng)商正在建設(shè)的增值業(yè)務(wù) Web數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),對(duì)來自移動(dòng)增值業(yè)務(wù)方面的調(diào)查數(shù)據(jù)進(jìn)行了 相關(guān)的挖掘處理,

8、從而獲得了關(guān)于用戶行為特征和需求的間接反 映市場(chǎng)動(dòng)態(tài)的有用信息,這些信息在指導(dǎo)運(yùn)營(yíng)商的業(yè)務(wù)運(yùn)營(yíng)和輔 助業(yè)務(wù)提供商的決策制定等方面具有十分重要的參考價(jià)值。3 設(shè)計(jì)方案3.1數(shù)據(jù)庫(kù)設(shè)計(jì)為了設(shè)計(jì)的簡(jiǎn)單性和方便性,本系統(tǒng)使用Microsoft OfficeExcel 97-2003版本作為數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的設(shè)計(jì)格式如表3-1所示記錄號(hào)所購(gòu)物品清單1啤酒、尿布,嬰兒爽身粉,面包,雨傘2尿布,嬰兒爽身粉3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可樂飲料表3-13.2 系統(tǒng)設(shè)計(jì)(舉例說明)一個(gè)超級(jí)市場(chǎng)的銷售系統(tǒng)記錄了顧客購(gòu)物的情況。表3-2中記錄了 5個(gè)顧客的購(gòu)物單。記錄號(hào)所購(gòu)物品清單1啤酒、尿布,

9、嬰兒爽身粉,面包,雨傘2尿布,嬰兒爽身粉3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可樂飲料表3-2超市經(jīng)理想知道商品之間的關(guān)聯(lián), 要求列出那些同時(shí)購(gòu)買的、且支持度40% (即在5行中至少出現(xiàn)兩次)的商品名稱。 KDD系統(tǒng)通過特定算法(例如著名的 Apriori(驗(yàn)證)算法及或改進(jìn)算法)多次掃描數(shù)據(jù)庫(kù),依次得出如表3和表4。其中支持度2/5的項(xiàng),如單項(xiàng)的面包,雨傘和 雙項(xiàng)中的尿布,牛奶等等已經(jīng)略去,三項(xiàng)統(tǒng)計(jì)為空,其中只有啤酒,尿布,牛奶出現(xiàn)了一次(表3-2中3號(hào)記錄),支持 度小于40%,略去。單項(xiàng)統(tǒng)計(jì)支持度啤酒4/5尿布4/5嬰兒爽身粉2/5牛奶2/5雙項(xiàng)統(tǒng)計(jì)支持度啤酒,尿布3/5啤

10、酒,牛奶2/5尿布,嬰兒爽身粉2/5表3-3表3-4從單項(xiàng)統(tǒng)計(jì)中看出80%的顧客買了啤酒、80%的顧客買了尿布。從雙項(xiàng)統(tǒng)計(jì)中看出,60%的顧客同時(shí)買了啤酒和尿布,40%的顧客買 了啤酒和牛奶,40%的顧客買了尿布和爽身粉。還可觀察到買了啤酒 顧客中又買了尿布的占0.6啤酒,尿布/0.8啤酒=75% (稱為置信 度)。于是可得出下列六條規(guī)則,其中:s為支持度,c為置信度。R1 :啤酒-尿布,S=60% , C=0.6/0.8=75%R2 :尿布啤酒,S=60% , C=0.6/0.8=75%R3 :牛奶啤酒,S=40% , C=0.4/0.4=100%R4 :啤酒牛奶,S=40% , C=0.4

11、/0.8=50%R5 :尿布爽身粉。S=40% , C=0.4/0.8=50%R6:嬰兒爽身粉尿布。S=40% , C=0.4/0.4=100%KDD規(guī)則反映了物品之間的表面聯(lián)系,不一定是現(xiàn)實(shí)世界的因果關(guān)系。規(guī)則是死的,人是活的,運(yùn)用之妙成乎于人。例如,R6 “嬰兒爽身粉尿布”有很高的置信度,是合理可理解的,R3有很高的置信度將提示進(jìn)一步的調(diào)查分析,本例中是因?yàn)橛?xùn)練資料太少引起的 失真。3.3系統(tǒng)設(shè)計(jì)算法思路(關(guān)鍵問題解決方法)首先我們從數(shù)據(jù)庫(kù)中提取出所購(gòu)物品清單這一列的所有數(shù)據(jù),保存在一個(gè)字符串類型的數(shù)組strArray中,數(shù)組當(dāng)中的每一個(gè)元素就 是每一條記錄。因?yàn)槊恳粭l記錄當(dāng)中不可能只有一

12、種商品,根據(jù)沒兩種商品之間的分隔符,例如“,”、“,”、“、”等等,我們提取出每一 條記錄中的每一種商品,把這種商品作為每一個(gè)元素,我們存儲(chǔ)在新 定義的數(shù)組allCommodity 當(dāng)作,此時(shí),allCommodity 當(dāng)中每一個(gè) 元素也就是每一個(gè)候選項(xiàng)。那么如何能夠得到每一個(gè)候選項(xiàng)的支持度 呢?創(chuàng)建一個(gè)哈希表hashTable來解決如上問題,把候選項(xiàng)作為哈 希表的key值,然后value值為1添加到哈希表當(dāng)中,如此循環(huán), 每一種商品重復(fù)添加時(shí),也就是key值相同的時(shí)候,我們不添加,而 把value值加1,至U最后,成功的獲取到每一種出現(xiàn)的商品所購(gòu)買的 總次數(shù)。用這個(gè)總的次數(shù)除以數(shù)據(jù)庫(kù)中購(gòu)買的

13、總記錄條數(shù),也就是數(shù)組allCommodity 的長(zhǎng)度,這個(gè)值即為支持度。通過預(yù)先設(shè)定的最 小支持度值,篩選出符合要求的候選項(xiàng)集,如表3-3。以此類推,我們能夠得到滿足最小支持度的多個(gè)候選項(xiàng)集,如表3-4。然后利用置信度排除掉不滿足要求的項(xiàng)集,即可得出各種商品 之間的強(qiáng)關(guān)聯(lián)規(guī)則。如 R1、R2、R3所示。R1 :啤酒-尿布,S=60% , C=0.6/0.8=75%R2 :尿布啤酒,S=60% , C=0.6/0.8=75%R3 :牛奶啤酒,S=40% , C=0.4/0.4=100%4 系統(tǒng)運(yùn)行效果展示4.1系統(tǒng)運(yùn)行主界面4.2參數(shù)設(shè)置運(yùn)行界面交牛(F)謖疊舊目導(dǎo)X克擔(dān)丈*4.3路徑設(shè)置運(yùn)行

14、界面4.3.1路徑設(shè)置主界面瀏覽按鈕效果圖31曲罰迅審下或.bir ob.Properties修改曰期咼2011/11/26 4:15丈作2011/11/2-41S:28丈住來2Q11/117茨斗 24M 紀(jì)rs eft EaccI .«更勺計(jì)茸機(jī)京ib據(jù)(co a本他蠱(d:j 也婭離向) L衿曲惡護(hù))文性g(N»: datdhase.xkMicros oft Excel 支(時(shí)433注意按鈕界面測(cè)宜(E)警吉:務(wù)必注爭(zhēng)三置力涯庫(kù)右丈件悻巨欄式如下:記錄號(hào)闔買時(shí)1哥所購(gòu)皎呂清單共用尋弼(元)00120110101弼r面包2500220110152雞里r ffiSIS4.4

15、數(shù)據(jù)庫(kù)導(dǎo)入運(yùn)行效果圖 數(shù)據(jù)庫(kù)導(dǎo)入主界面編輯數(shù)據(jù)庫(kù)運(yùn)行效果G吃站衣審匚,曲汴更陽(yáng)*Z B * |卻黑-三三三三圭由”護(hù)-|JETF353C28T A歸殆-娶JL吏令崔AB1?33QLL1101耳芒,尿韋,丄20120111101環(huán)恬r 1胞疋,濟(jì)215mu ioi|»:Ti.牛擴(kuò),可樂煌22inmioi邂可.屈布.涉兒我可粉,0.甫2324£52320111101 am moi 20111101尿和StL頁(yè)島耳甘,尿韋'牛耳右.展布.姜兒更日卜,11包.fFSt20111101尿辰,聾兒頁(yè)有2?M111101耳!坦,斥舟,丄撫301111012?i: H 1咆Th厲冇

16、.靈兒黑叼対,而風(fēng),瓦30120111101用和環(huán)布瀘L取呵右,而且*可爲(wèi)22011110132330L11101瑋琶,尿祐,牛33I20111101電看,貳心.嬰兒頁(yè)冃上,工已,TL.w i事 NShsvilStisfl t.2Sire<3 ,如| '關(guān)閉數(shù)據(jù)庫(kù)記錄運(yùn)行效果4.5顯示分析結(jié)果運(yùn)行效果顯示分析結(jié)果主界面保存分析結(jié)果運(yùn)行效果K空面1ShF耳 FFBf1r71 V/j£尋M昴又柞c?B刪L1-叵才2畑jusi;姜兒mw粗 dC- 100HJ于.7Z巻樂入計(jì)國(guó).1=1=4 憶:rj5uHuargF-e .忙T?斗三Wje氐 d*?分析結(jié)果完全效果1L1LWif

17、c ff* E*!1 « *.iU4-a*fl. 3*- s.jtl* 5.a 丄魯土JI 23補(bǔ)IF" Tf h-M弓.RBS JE. JSL».S=i-二沁OMI'"fti if. jhi<»*呼皿FBI恤員iJi石.;乩!?杓可 1-B.M-5-藝三 弓丄筑耳門=:鼻號(hào),&:宅耳* TE:HJS二勺空長(zhǎng)空壬b 孑=;圮匸工三SE二*B*. Br.lUlk-_- 7耳呂坯k1M;f4:«L A»i<Jk.#. .!<>#->*1 6 Ji tt W t * « :-

18、 255_就 p.鼻口=豐 VM2:亠岸專< e = ti a; = i» -HM-N*rbHjp fr注冒.-=耳吐證聲*blJ*- «T fl-fte 3S-A-j|4W. ifn9弓._*«m3LL£耆 ?-*M4*Iff” fl.i JU!*iZJir* .L=i*. *SP_.母中«<s蠡立聖“WK#4. sf*. TFr«fc氓.Zr2 皿 > JSflV 可B F皿*二#* XjJLIV04«V. S*TP 4 F4孔Id*=二乩 fl 鼻” ?E- F*- *r.iUQr:=gr SL&am

19、p; K皿申2?>* JEjJLJ?3«'wW 還宜r iE- HIt - =Fi弐可.H=Br ia. B- .tg ?.Y2S »士S*Tr 4f=!縣曹鼻d. _t£,T 直土 呵童:S霍生曲.«£?.":<«*貫*沱程潺廈町凳笳汩 =sti»=:te d f 珥柄gx-=r v.亍晶店盒心爭(zhēng)二芝主nt *=v.i=*lr=T<iEf5=4彈寸七蘭豊止=串,E- HCJl *zs'Z- K.腎可亡建氐e.?S»- -z>.a 關(guān)閉分析結(jié)果運(yùn)行效果4.6文件菜單效果展示4.7設(shè)置菜單效果展示4.8幫助菜單效果展示4.9關(guān)于對(duì)話框運(yùn)行效果5 心

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論