




已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從貨籃分析談數(shù)據(jù)挖掘新聞傳播學(xué)院 張悅 09523467關(guān)鍵詞:貨籃 數(shù)據(jù) 摘要:貨籃分析關(guān)聯(lián)規(guī)則的基本概念數(shù)據(jù)挖掘數(shù)據(jù)挖掘定義的解釋數(shù)據(jù)淘金金蘋果文庫(kù)數(shù)據(jù)淘金之方法篇數(shù)據(jù)淘金之工業(yè)應(yīng)用篇數(shù)據(jù)淘金之社會(huì)篇數(shù)據(jù)淘金之科研篇1、 貨籃分析全球最大的零售商沃爾瑪(Walmart)通過對(duì)某地區(qū)顧客購(gòu)物的數(shù)據(jù)分析后發(fā)現(xiàn),很多周末購(gòu)買尿布的顧客也同時(shí)購(gòu)買啤酒。經(jīng)過深入研究后發(fā)現(xiàn),該地區(qū)家庭買尿布的大多是孩子爸爸。孩子爸爸們下班后要到超市買尿布,同時(shí)要“順手牽羊”帶走啤酒,好在周末看棒球賽的同時(shí)過把酒癮。后來(lái)沃爾瑪?shù)倪@個(gè)連鎖店就把尿布和啤酒擺放得很近,從而雙雙促進(jìn)了尿布和啤酒的銷量。這個(gè)故事被公認(rèn)是商業(yè)領(lǐng)域知識(shí)發(fā)現(xiàn)的典故。2、關(guān)聯(lián)規(guī)則的基本概念一個(gè)關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式,這里XI, YI,并且XY=F。規(guī)則XY在交易數(shù)據(jù)庫(kù)D中的支持度(support)是交易集中同時(shí)包含X和Y的交易數(shù)與所有交易數(shù)之比,記為support(XY),即 support(XY)=|T:XYT,TD|/|D|規(guī)則XY在交易集中的可信度(confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比,記為confidence(XY),即 confidence(XY)=|T: XYT,TD|/|T:XT,TD|關(guān)聯(lián)規(guī)則基本模型與概念設(shè)I=i1, i2, im為所有項(xiàng)目的集合,D為事務(wù)數(shù)據(jù)庫(kù),事務(wù)T 是一個(gè)項(xiàng)目子集(TI),每個(gè)事務(wù)具有惟一的標(biāo)識(shí)Tid(如交易號(hào)). 設(shè)A是一個(gè)I中項(xiàng)的集合,如果AT,那么稱交易T包含A。若A中包含k個(gè)項(xiàng)目,稱其為k項(xiàng)集.l 項(xiàng)集A在事務(wù)數(shù)據(jù)庫(kù)D中出現(xiàn)的次數(shù)占D中總事務(wù)的百分比叫做項(xiàng)集的支持度.l 如果項(xiàng)集的支持度超過用戶給定的最小支持度閾值,就稱該項(xiàng)集是頻繁項(xiàng)集(大項(xiàng)集) 規(guī)則實(shí)例For rule A C:support = support(A &C) = 50%confidence = support(A &C)/support(A) = 66.6%l 強(qiáng)規(guī)則l 如果不考慮關(guān)聯(lián)規(guī)則的支持度和可信度,那么在事務(wù)數(shù)據(jù)庫(kù)中存在無(wú)窮多的關(guān)聯(lián)規(guī)則。事實(shí)上,人們一般只對(duì)滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣。一般稱滿足一定要求的(如較大的支持度和可信度)的規(guī)則為強(qiáng)規(guī)則。因此,為了發(fā)現(xiàn)出有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:最小支持度和最小可信度。l 最小支持度表示了一組物品集在統(tǒng)計(jì)意義上的需滿足的最低程度;最小可信度反應(yīng)了關(guān)聯(lián)規(guī)則的最低可靠度。l Apriori算法l 是關(guān)聯(lián)規(guī)則模型中的經(jīng)典算法l 源于算法使用了頻繁項(xiàng)集性質(zhì)的先驗(yàn)(Prior)知識(shí).l 分兩步:1. 通過迭代,檢索出事務(wù)數(shù)據(jù)庫(kù)中所有頻繁項(xiàng)集.2. 利用頻繁項(xiàng)集構(gòu)造出滿足最小信任度閾值的規(guī)則.其中挖掘和識(shí)別出所有頻繁項(xiàng)集是該算法的核心,占整個(gè)計(jì)算量的大部分.l 由m個(gè)項(xiàng)目形成的不同項(xiàng)集達(dá)2m-1個(gè),是個(gè)NP 完全問題.l 潛在頻繁k項(xiàng)集集合Ck,頻繁k項(xiàng)集集合Lk, m個(gè)項(xiàng)目構(gòu)成的k項(xiàng)集集合Cmk,則Lk Ck Cmk The Apriori principle:Any subset of a frequent itemset must be frequent 非頻繁項(xiàng)集的超集一定是非頻繁的 數(shù)據(jù)挖掘 Data Mining數(shù)據(jù)挖掘 知識(shí)發(fā)現(xiàn) 是什么l 隨著計(jì)算機(jī)應(yīng)用及互聯(lián)網(wǎng)的日益普及,人們面對(duì)“被數(shù)據(jù)淹沒, 卻又饑餓于知識(shí)(豐富的數(shù)據(jù)與貧乏的知識(shí))”的挑戰(zhàn), 不同領(lǐng)域的人們都期待從海量數(shù)據(jù)中挖掘出知識(shí),將豐富的信息變?yōu)橹R(shí),這就產(chǎn)生了“數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)”學(xué)科。 l 運(yùn)用數(shù)據(jù)挖掘技術(shù)在海量數(shù)據(jù)中我們可以挖出“金子”來(lái)。 數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘DM(Data Mining)只是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in DataBase )的一個(gè)步驟,但又是最重要的一步。因此,往往可以不加區(qū)別地使用知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘。一般在研究(人工智能)領(lǐng)域被稱作數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn),在工程領(lǐng)域(統(tǒng)計(jì)界 )則稱之為數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)(數(shù)據(jù)挖掘)的定義The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data - Fayyad, Platetsky-Shapiro, Smyth (1996) 在1995年第一屆KDD大會(huì)上給出了KDD的定義:“非平凡地抽取數(shù)據(jù)中隱含的、先前未知的、潛在有用的知識(shí)”123。 1 G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991 2 U. M. Fayyad, G. Platetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. 3 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996 知識(shí)發(fā)現(xiàn)(數(shù)據(jù)挖掘)的定義l 目前公認(rèn)的定義是由Fayyad等人提出的。 所謂基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)(KDD) 是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過程。 定義解釋l 有效的:指發(fā)現(xiàn)的模式有一定的可信度,模式E的可信度c=C(E,F)l 新穎的:要求發(fā)現(xiàn)的模式應(yīng)該是新的, N(E,F)。 l 潛在有用的:指提取的模式將來(lái)有實(shí)際效用,u=U(E,F)l 可理解的:要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要是體現(xiàn)在簡(jiǎn)潔性上, s=S (E,F)。 l 非平凡:是要有一定程度的智能性、自動(dòng)性. l 過程:通常指多階段的一個(gè)過程,涉及數(shù)據(jù)準(zhǔn)備、預(yù)處理、模式提取、知識(shí)評(píng)價(jià),以及反復(fù)的修改求精,過程優(yōu)化;l 有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為感興趣度。l 通常采用權(quán)值綜合評(píng)判i=I(E,F,C,N,U,S) l KDD過程l 是一個(gè)反復(fù)迭代的人機(jī)交互處理過程。l 可粗略地理解為三部曲:數(shù)據(jù)準(zhǔn)備(data preparation)、數(shù)據(jù)挖掘( Data Mining ),以及結(jié)果的解釋評(píng)估(interpretation and evaluation)。 知識(shí)發(fā)現(xiàn)過程l KDD工作步驟數(shù)據(jù) 目標(biāo)數(shù)據(jù) 處理數(shù)據(jù) 變換后數(shù)據(jù) 模式 知識(shí) l KDD工作步驟數(shù)據(jù)準(zhǔn)備:了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。數(shù)據(jù)選?。焊鶕?jù)要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù)。數(shù)據(jù)預(yù)處理:主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。 數(shù)據(jù)挖掘:運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。知識(shí)評(píng)估:將發(fā)現(xiàn)的知識(shí)以用戶能理解的方式呈現(xiàn),根據(jù)需要對(duì)知識(shí)發(fā)現(xiàn)過程中的某些處理階段進(jìn)行優(yōu)化,直到滿足要求。l KDD過程中的階段l 數(shù)據(jù)準(zhǔn)備:熟悉背景知識(shí),搞清用戶需求 relevant prior knowledge and goals of applicationl 數(shù)據(jù)選取(data selection) :生成目標(biāo)數(shù)據(jù)集l 數(shù)據(jù)清洗和預(yù)處理 :檢查數(shù)據(jù)的完整性和一致性.消除噪聲,濾除冗余數(shù)據(jù),填充丟失數(shù)據(jù)(may take 60% of effort!)l 數(shù)據(jù)縮減和變換(根據(jù)KDD的任務(wù)) Find useful features, dimensionality/variable reduction, invariant representation.l 確定KDD目標(biāo):根據(jù)用戶要求,確定KDD要發(fā)現(xiàn)的知識(shí)類型,選擇數(shù)據(jù)挖掘功能. summarization, classification, regression, association, clustering.l 選擇挖掘算法(包括模式和參數(shù)):根據(jù)數(shù)據(jù)特點(diǎn)和用戶需求.l 數(shù)據(jù)挖掘:運(yùn)用所選擇的算法,從數(shù)據(jù)庫(kù)中提取用戶感興趣的知識(shí),并以一定的方式表示出來(lái). search for patterns of interestl 模式評(píng)估:剔除冗余或無(wú)關(guān)模式,往往反復(fù)提取 visualization, transformation, removing redundant patterns, etc.l 數(shù)據(jù)挖掘怎么做?l 根據(jù)數(shù)據(jù)挖掘的方法分,可粗分為:統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)、以及模糊集、粗糙集、支持向量機(jī)等。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。 l 數(shù)據(jù)淘金金蘋果文庫(kù)l 方法篇 用電腦從數(shù)據(jù)中挖掘有用信息來(lái)發(fā)財(cái)在傳統(tǒng)的統(tǒng)計(jì)數(shù)學(xué)方法失靈時(shí)另起爐灶數(shù)據(jù)挖掘的步驟 模式識(shí)別法:在多維空間中看圖像人工神經(jīng)網(wǎng)絡(luò)方法:利用軟件技術(shù)模擬人的神經(jīng)網(wǎng)絡(luò)遺傳算法:模仿生物進(jìn)化的尋優(yōu)算法模糊數(shù)學(xué)方法:先模糊,后清晰聚類分析方法:先分類,再研究支持向量機(jī)算法:數(shù)據(jù)樣本偏少時(shí)的“絕招”“十八般武藝一起上”l 數(shù)據(jù)淘金金蘋果文庫(kù)l 工業(yè)應(yīng)用篇石油化工生產(chǎn):應(yīng)用數(shù)據(jù)挖掘最廣泛最有效鋼鐵生產(chǎn):建設(shè)鋼鐵強(qiáng)國(guó)需要數(shù)據(jù)挖掘化工生產(chǎn):提高收率,降低成本,防治污染催化劑研制:總結(jié)試驗(yàn)數(shù)據(jù)中的規(guī)律新材料、新產(chǎn)品試制:建設(shè)“材料智能數(shù)據(jù)庫(kù)”新藥研制:藥物的分子設(shè)計(jì)機(jī)器檢修:建造機(jī)器故障診斷“專家系統(tǒng)”汽車制造:改善零部件質(zhì)量的捷徑機(jī)器人研制:
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 7 Outdoor fun Reading 課件 2024-2025學(xué)年譯林版英語(yǔ)七年級(jí)下冊(cè)
- 財(cái)務(wù)兼職人員勞動(dòng)爭(zhēng)議處理合同
- 大型制造企業(yè)廠房長(zhǎng)期租賃合同
- 教育培訓(xùn)機(jī)構(gòu)個(gè)人貸款合同模板
- 草牧場(chǎng)承包經(jīng)營(yíng)與可持續(xù)發(fā)展合同
- 工業(yè)園區(qū)拆遷安置補(bǔ)償合同
- 城市綠化帶草坪設(shè)計(jì)與施工合同
- 智能化車載泵租賃服務(wù)合作協(xié)議
- 【課件】不等式及其解集+++教學(xué)課件人教版七年級(jí)數(shù)學(xué)下冊(cè)+
- 主要幫扶活動(dòng)方案
- 2025-2030年烘焙專用果醬項(xiàng)目商業(yè)計(jì)劃書
- 高血壓、2型糖尿病、高脂血癥、肥胖癥膳食運(yùn)動(dòng)指導(dǎo)要點(diǎn)基層醫(yī)務(wù)人員應(yīng)用實(shí)操手冊(cè)
- 超市水產(chǎn)海鮮
- 2025年國(guó)務(wù)院國(guó)資委冶金機(jī)關(guān)服務(wù)中心(局)招考3人自考難、易點(diǎn)模擬試卷(共500題附帶答案詳解)
- 2025屆上海市浦東新區(qū)高三一模生物試題(解析版)
- 冠心病的健康宣教課件
- 2025年電石生產(chǎn)工(高級(jí))職業(yè)技能鑒定備考試題庫(kù)資料(含答案)
- 2024年IMO中國(guó)國(guó)家集訓(xùn)隊(duì)第一階段選拔試題及答案解析
- 《個(gè)人防護(hù)與職業(yè)健康》課件
- 骨科快速康復(fù)理念及應(yīng)用
- 電力行業(yè)安全生產(chǎn)月
評(píng)論
0/150
提交評(píng)論