數(shù)據(jù)挖掘在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊課件_第1頁
數(shù)據(jù)挖掘在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊課件_第2頁
數(shù)據(jù)挖掘在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊課件_第3頁
數(shù)據(jù)挖掘在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊課件_第4頁
數(shù)據(jù)挖掘在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊課件_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘-在數(shù)據(jù)礦山中挖掘蘊(yùn)藏的知識(shí)金塊主講:王名揚(yáng)信息與計(jì)算機(jī)工程學(xué)院2騰訊鮮為人知的重武器之-數(shù)據(jù)挖掘騰訊鮮為人知的重武器之-數(shù)據(jù)挖掘 中國有三家最重要、也是市值最高的“互聯(lián)網(wǎng)之水”騰訊、阿里巴巴、百度。 這三家公司分別依托IM(Instant Message)、搜索和電子商務(wù),又都同時(shí)在試圖以全業(yè)務(wù)的模式進(jìn)入對(duì)方領(lǐng)地,結(jié)果他們每家公司都有了自己的搜索、IM和電子商務(wù)。過去幾年,他們之間已經(jīng)有過多次小規(guī)模的短兵相接。不過在一番試探之后,三家公司均發(fā)現(xiàn)對(duì)方的實(shí)力不俗,強(qiáng)行進(jìn)入對(duì)方領(lǐng)地難度太大。 他們都有自己鮮為人知的“重武器”。騰訊鮮為人知的重武器之-數(shù)據(jù)挖掘“互聯(lián)網(wǎng)之水”:就像日常生活中人

2、們對(duì)水和電的依賴一樣,我們要做成互聯(lián)網(wǎng)上的水和電馬化騰自1999年2月QQ上線到現(xiàn)在,10年間,馬化騰把一個(gè)最輕、最不主流的IM做成了“水一樣的內(nèi)在”,什么是他的重武器? 騰訊從一個(gè)毫不起眼的“抄襲者”到一個(gè)兇猛王者,什么是它的真正原點(diǎn)?騰訊鮮為人知的重武器之-數(shù)據(jù)挖掘 數(shù)據(jù)挖掘:從大量數(shù)據(jù)中獲取有效的、新穎的、潛在可用的、最終可理解的信息,以輔佐公司戰(zhàn)略的數(shù)字神經(jīng)系統(tǒng)。 這是一個(gè)真正的重武器,即使整個(gè)中國互聯(lián)網(wǎng),真正擁有這一系統(tǒng)的公司也極少騰訊、百度、阿里巴巴、盛大。騰訊鮮為人知的重武器之-數(shù)據(jù)挖掘數(shù)據(jù)是每一家互聯(lián)網(wǎng)公司安身立命的基礎(chǔ)之一。 “數(shù)據(jù)挖掘”才是騰訊最具門檻性質(zhì)的技術(shù)。 “數(shù)據(jù)蘊(yùn)

3、含商機(jī),挖掘決勝千里”。7客戶關(guān)系管理(CRM)8什么是CRM? 數(shù)據(jù)挖掘在CRM中的作用?Problem?9求賢若渴勢(shì)頭猛之-數(shù)據(jù)挖掘求賢若渴之-數(shù)據(jù)挖掘 北京-知名上市互聯(lián)網(wǎng)公司聘-互聯(lián)網(wǎng)海量數(shù)據(jù)處理、挖掘工程師 易方優(yōu)IT獵頭-數(shù)據(jù)挖掘/分布式/搜索研發(fā)/PHP/IOS/互聯(lián)網(wǎng)產(chǎn)品經(jīng)理(北京,薪水范圍:25-40萬/年) 全球知名的搜索引擎公司急招數(shù)據(jù)挖掘/統(tǒng)計(jì)研發(fā)工程師 【北京】IT行業(yè)電話銷售數(shù)據(jù)挖掘崗位大規(guī)模招聘 。求賢若渴之-數(shù)據(jù)挖掘求賢若渴之-數(shù)據(jù)挖掘13什么激發(fā)了數(shù)據(jù)挖掘,為什么它是重要的-需要是發(fā)明之母(柏拉圖)時(shí)代背景 我們已經(jīng)生活在一個(gè)網(wǎng)絡(luò)化的時(shí)代,通信、計(jì)算機(jī)和網(wǎng)絡(luò)技

4、術(shù)正改變著整個(gè)人類和社會(huì)。 在美國,廣播達(dá)到5000萬用戶用了38年;電視用了13年;Internet撥號(hào)上網(wǎng)達(dá)到5000萬戶僅用了4年;國內(nèi),1999年初,上網(wǎng)用戶為210萬,現(xiàn)在已經(jīng)達(dá)到600多萬。早在20世紀(jì)80年代,全球信息量每隔20個(gè)月就增加一倍;而進(jìn)入21世紀(jì),全世界所存儲(chǔ)的數(shù)據(jù)庫及其所存儲(chǔ)的數(shù)據(jù)規(guī)模增長更快。 一個(gè)中等規(guī)模的企業(yè)每天要生產(chǎn)100MB以上來自各生產(chǎn)經(jīng)營等多方面的商業(yè)數(shù)據(jù); 在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)34TB之多,而為研究,這些數(shù)據(jù)至少要保持7年之久; 紐約時(shí)報(bào)由60年代的10-20版擴(kuò)張至現(xiàn)在的100-200版,最高曾達(dá)1572

5、版;北京青年報(bào)也已是16-40版,等。而在現(xiàn)實(shí)社會(huì)中,人均日閱讀時(shí)間通常為30-45分鐘,只能瀏覽一份24版的報(bào)紙。 據(jù)估計(jì),1993年全球數(shù)據(jù)存儲(chǔ)容量約為二千TB,到2000年增加到三百萬TB,面對(duì)極度膨脹的數(shù)據(jù)信息量,人們受到“數(shù)據(jù)過?!钡木薮髩毫?。“數(shù) 據(jù) 過 ?!?6數(shù)據(jù)爆炸. 知識(shí)貧乏 激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。 目前的數(shù)據(jù)庫系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏知識(shí)的手段,導(dǎo)致“數(shù)據(jù)爆炸. 知識(shí)貧乏”的尷尬現(xiàn)象。

6、17數(shù)據(jù).信息.知識(shí) 數(shù)據(jù)僅是人們用各種工具和手段觀察外部世界得到的原始材料; 信息雖給出數(shù)據(jù)中有一定意義的東西,但往往和任務(wù)無直接聯(lián)系,不能作為判斷、決策和行動(dòng)的依據(jù); 知識(shí)是人們作出正確的判斷、決策和采取正確行動(dòng)的依據(jù)。18數(shù)據(jù)的豐富帶來了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求!19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘解決方法:數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理技術(shù); 數(shù)據(jù)挖掘:在大量的數(shù)據(jù)中挖掘感興趣的知識(shí)(規(guī)則,規(guī)律,模式,約束)。(一)數(shù)據(jù)倉庫與OLAP1.1 為什么要建立數(shù)據(jù)倉庫?22從數(shù)據(jù)庫到數(shù)據(jù)倉庫管理信息的處理類型:(1)事務(wù)型處理:業(yè)務(wù)操作處理,用來協(xié)助企業(yè)對(duì)相應(yīng)事件或事務(wù)的日常商務(wù)活

7、動(dòng)進(jìn)行處理。是事件驅(qū)動(dòng)、面向應(yīng)用的,通常是對(duì)一個(gè)/組記錄的增、刪、改以及簡單查詢等,以滿足組織特定的日常管理需要(數(shù)據(jù)庫;細(xì)節(jié)信息);(2)分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維數(shù)據(jù)分析等。幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢分析(數(shù)據(jù)倉庫;宏觀信息)。23分離示意圖24轉(zhuǎn)換同時(shí)進(jìn)行的集成數(shù)據(jù)倉庫的關(guān)鍵特征關(guān)鍵特征: 面向主題; 集成的; 隨時(shí)間而變化的(時(shí)變的); 不容易丟失的(非易失)。26面向主題關(guān)注決策者的數(shù)據(jù)建模與分析,而不是集中于組織機(jī)構(gòu)的日常操作和事務(wù)處理。27集成性 一個(gè)數(shù)據(jù)倉庫是通過集成多個(gè)異種數(shù)據(jù)

8、源來構(gòu)造的;關(guān)系數(shù)據(jù)庫,一般文件,聯(lián)機(jī)事務(wù)處理記錄 數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到,需使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理:統(tǒng)一元數(shù)據(jù)中矛盾之處:確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。當(dāng)數(shù)據(jù)被移到數(shù)據(jù)倉庫時(shí),它們要經(jīng)過轉(zhuǎn)化:進(jìn)行數(shù)據(jù)綜合和計(jì)算。28隨時(shí)間而變化的 數(shù)據(jù)倉庫從歷史的角度來提供信息:時(shí)間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多操作數(shù)據(jù)庫系統(tǒng): 主要保存當(dāng)前數(shù)據(jù);數(shù)據(jù)倉庫:從歷史的角度提供信息(比如過去 5-10 年)。29數(shù)據(jù)不易丟失 盡管數(shù)據(jù)倉庫中的數(shù)據(jù)來自于操作數(shù)據(jù)庫,但他們卻是在物理上分離保存的操作數(shù)據(jù)庫的更新操作不會(huì)出現(xiàn)在數(shù)據(jù)倉庫環(huán)境下。 只進(jìn)行兩種數(shù)據(jù)訪

9、問: 數(shù)據(jù)的初始裝載; 查詢操作。1.2 數(shù)據(jù)倉庫模型?31回顧:數(shù)據(jù)庫模型E-R圖關(guān)系模型32數(shù)據(jù)倉庫的三級(jí)模型(1)概念模型:從客觀世界到主觀認(rèn)識(shí)的映射;(2)邏輯模型:邏輯模型描述了數(shù)據(jù)倉庫主題的邏輯實(shí)現(xiàn);(3)物理模型邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)策略、索引策略、存儲(chǔ)分配優(yōu)化等。概念-邏輯?33數(shù)據(jù)倉庫的概念模型-信息包圖信息包圖:信息包圖提供了分析人員思維模式的可視化表示。34信息包圖示例例試畫出銷售分析的信息包圖。解:首先根據(jù)銷售分析的實(shí)際需求,確定信息包的維度、類別、指標(biāo)與事實(shí):(1)維度:包括日期維、銷售地點(diǎn)維、銷售產(chǎn)品維、年齡組別維、性別維等。(2)類別:確

10、定各維的詳細(xì)類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括號(hào)中的數(shù)字分別指出各類別的數(shù)量;銷售地點(diǎn)維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號(hào)中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。(3)度量(指標(biāo)和事實(shí)):確定用于進(jìn)行分析的數(shù)值化信息,用戶最關(guān)心的信息,包括預(yù)測銷售量、實(shí)際銷售量和預(yù)測偏差等。 35銷售分析的信息包圖36數(shù)據(jù)倉庫的邏輯模型 數(shù)據(jù)倉庫的邏輯模型主要包括如下幾種類型:星型模型;雪花模型;事實(shí)星座模型。37幾個(gè)基本概念1)維和維表:維:關(guān)于一個(gè)組織想要記錄的視角

11、或觀點(diǎn)。如公司Allelectronics 創(chuàng)建數(shù)據(jù)庫sales,用以記錄商店的銷售,則可能涉及time , item , branch , location維。維表:每個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。如,item維表可以包含屬性item-name, brand, type。38幾個(gè)基本概念2)事實(shí)和事實(shí)表:事實(shí):指的是一些數(shù)字度量;如,sales銷售數(shù)據(jù)倉庫的事實(shí)包括dollars-sold(銷售的款項(xiàng)),units-sold(銷售量),amount-budgeted。事實(shí)表:包括事實(shí)的名稱或度量,以及每個(gè)相關(guān)維表的關(guān)鍵字。星型模型示例示例: Allelectronics公司sales銷

12、售數(shù)據(jù)倉庫的星型模式。Sales有四個(gè)維:time, item, branch, location。該模式包含一個(gè)中心事實(shí)表sales,該表包含四個(gè)維的關(guān)鍵字和三個(gè)度量dollars-sold, units-sold,avg-sales。40星型模型示例 time_keydayday_of_the_weekmonthquarteryearTime維表location_keystreetcitystate_or_provincecountryLocation維表Sales 事實(shí)表 time_key item_key branch_key location_key units_sold dolla

13、rs_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeItem維表branch_keybranch_namebranch_typeBranch維表41數(shù)據(jù)倉庫的多維數(shù)據(jù)模型 數(shù)據(jù)倉庫和OLAP工具是基于多維數(shù)據(jù)模型的。在多維數(shù)據(jù)模型中,數(shù)據(jù)以數(shù)據(jù)立方體(data cube)的形式存在。 如,某公司可能創(chuàng)建一個(gè)數(shù)據(jù)倉庫sales,記錄商店的銷售情況,且涉及time, item, location。則,典型的3-D數(shù)據(jù)立方體如圖:42數(shù)據(jù)倉庫的“概念分層”在數(shù)據(jù)倉庫中,一個(gè)概念分層(concept hierarchy)定義一

14、個(gè)映射序列,將低層概念映射到更一般的高層概念。 對(duì)于一個(gè)給定的屬性或維,根據(jù)不同的用戶視圖,可能有多個(gè)概念分層:如,表示location的概念:杭州浙江中國亞洲;概念分層允許我們?cè)诟鞣N抽象級(jí)審查和處理數(shù)據(jù),為不同級(jí)別上的數(shù)據(jù)匯總提供了一個(gè)良好的基礎(chǔ)。43Location維的一個(gè)概念分層allEuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM. WindL. Chan.TorontoFrankfurtcityallcontinentcountryProvince_or_state1.3 OLAP技術(shù)45為什么需要OLAP? 僅僅把數(shù)據(jù)存儲(chǔ)在

15、數(shù)據(jù)倉庫之中,利用一定的方法對(duì)其安全有效的管理,并不是用戶的最終目的。建立數(shù)據(jù)倉庫的目的,是要為決策提供必要的支持。 為此,必須使用適當(dāng)?shù)募夹g(shù)和工具,對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析,以實(shí)現(xiàn)最終的決策支持目標(biāo)。OLAP是一門比較成熟的分析技術(shù),在數(shù)據(jù)倉庫領(lǐng)域中應(yīng)用最廣。OLAP的分析方法OLAP:(1)切片與切塊(Slice & Dice);(2)鉆取 (Drill);(3)旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)47(1)切片與切塊切片:在多維視圖中,如果某個(gè)維度上的取值選定了一個(gè)固定值,原視圖就降低了一個(gè)維度,可能就把原來的三維視圖變成了二維,四維變成了三維,即進(jìn)行了切片操作。 如在一個(gè)(時(shí)間,

16、城市,產(chǎn)品,價(jià)格)的多維數(shù)據(jù)集中,其中,時(shí)間、城市、產(chǎn)品是三個(gè)維度,價(jià)格是度量變量。如要分別顯示在北京和上海各年各種產(chǎn)品的價(jià)格情況,只需要在城市維上取值“北京”、“上?!?,則分別形成兩個(gè)在城市維上的數(shù)據(jù)切片。48(1)切片與切塊切塊:如果某個(gè)/些維度上的取值范圍縮小到一個(gè)區(qū)間,原視圖的維度沒有降低,但內(nèi)容減少了,即進(jìn)行了切塊操作。 如,在一個(gè)(時(shí)間,城市,產(chǎn)品)的多維數(shù)據(jù)集中,要瀏覽2001-2003年(北京、上海、廣州)的產(chǎn)品(電視機(jī)、計(jì)算機(jī)、數(shù)碼相機(jī))的銷售情況,通過指定時(shí)間維的取值為2001-2003,指定城市維(北京、上海、廣州),指定產(chǎn)品維(電視機(jī)、計(jì)算機(jī)、數(shù)碼相機(jī)),則這樣得到的子

17、集稱為該多維數(shù)據(jù)集的數(shù)據(jù)切塊。49(1)切片與切塊50(2)鉆取 鉆取包括向下鉆?。―rill-down)和向上鉆?。―rill-up)/上卷(Roll-up)。鉆取的深度與維所劃分的層次相對(duì)應(yīng)。下鉆:從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。上鉆:在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù)。51(2)鉆取52(3)旋轉(zhuǎn)/轉(zhuǎn)軸 數(shù)據(jù)旋轉(zhuǎn)是改變維的位置關(guān)系,使用戶可以從不同角度來觀察多維數(shù)據(jù)。如,要形成橫向?yàn)榈乩?,縱向?yàn)闀r(shí)間的報(bào)表,可以把橫向的時(shí)間維與縱向的地理維進(jìn)行交換。53(3)旋轉(zhuǎn)/轉(zhuǎn)軸(二)數(shù)據(jù)挖掘2.1 為什么要進(jìn)行數(shù)據(jù)挖掘?實(shí)際需求的驅(qū)動(dòng) “數(shù)據(jù)爆炸.知識(shí)貧乏”:與日趨成熟

18、的數(shù)據(jù)管理技術(shù)與軟件工具相比,人們所依賴的數(shù)據(jù)分析工具(錄入、查詢、統(tǒng)計(jì)等),無法有效地為決策者提供決策支持所需要的相關(guān)知識(shí); 被收集并存儲(chǔ)在眾多數(shù)據(jù)庫中且正在快速增長的龐大數(shù)據(jù),已遠(yuǎn)遠(yuǎn)超過人類的處理和分析理解能力,而成為“數(shù)據(jù)墳?zāi)埂保?數(shù)據(jù)與信息知識(shí)之間的巨大差距迫切需要開發(fā)數(shù)據(jù)挖掘工具,幫助實(shí)現(xiàn)將“數(shù)據(jù)墳?zāi)埂敝械臄?shù)據(jù)轉(zhuǎn)化為知識(shí)財(cái)富。572.2 什么是數(shù)據(jù)挖掘?59KDD, Knowledge Discovery in Database數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí));從大量的數(shù)據(jù)中挖掘那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí) 。 數(shù)據(jù)挖掘的替換詞:數(shù)據(jù)庫

19、中的知識(shí)挖掘(KDD)知識(shí)提煉、數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等。2.3 常用的數(shù)據(jù)挖掘技術(shù)?常用的數(shù)據(jù)挖掘技術(shù)(1)分類63分類是人類很自然的一個(gè)過程,不知不覺間就已經(jīng)在進(jìn)行了分類的工作。一切生物都在進(jìn)行著分類,如對(duì)食物分為能吃的和不能吃的兩種。小孩看電視會(huì)分好人,壞人。分類反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。64分類過程示意圖65分類過程的第一步:學(xué)習(xí)建模66分類過程的第二步:分類測試(2)聚類分析67將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過程被稱為聚類。原則:同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度;而不同組中的數(shù)據(jù)對(duì)象是不相似的。 “物

20、以類聚,人以群分”。686970(3)關(guān)聯(lián)分析71 關(guān)聯(lián)分析用以挖掘事務(wù)之間存在的有意義的聯(lián)系和規(guī)則。在商業(yè)應(yīng)用中,這些規(guī)則通過發(fā)掘不同商品之間的聯(lián)系,以反映顧客的購買行為模式。 (3)關(guān)聯(lián)分析72典型例子:購物籃分析如,在同一次購物中,如果顧客購買牛奶,則他同時(shí)購買面包(和什么類型的面包)的可能性有多大? “啤酒與尿布”(3)關(guān)聯(lián)分析同時(shí)滿足用戶定義的最小置信度和最小支持度閾值的關(guān)聯(lián)規(guī)則,稱為強(qiáng)關(guān)聯(lián)規(guī)則74A(4)孤立點(diǎn)分析75 數(shù)據(jù)庫中可能包含一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的一般行為或模型不一致。這些數(shù)據(jù)對(duì)象被稱為孤立點(diǎn)(outlier)。 孤立點(diǎn)可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的。例如,一個(gè)人的年齡

21、為999 可能是程序?qū)ξ从涗浀哪挲g的缺省設(shè)置所產(chǎn)生的。 孤立點(diǎn)也可能是固有的數(shù)據(jù)變異性的結(jié)果。例如,一個(gè)公司的首席執(zhí)行官的工資自然遠(yuǎn)遠(yuǎn)高于公司其他雇員的工資,成為一個(gè)孤立點(diǎn)。孤立點(diǎn)常被視為噪聲或異常而被丟棄。(4)孤立點(diǎn)分析76 任何事物都要一分為二來看,正如一條一個(gè)人認(rèn)為是垃圾的信息對(duì)另一個(gè)人是如獲至寶。 在一些應(yīng)用中,罕見的事件可能比正常出現(xiàn)的事件更有趣,如,信用卡欺詐檢測等。2.3 數(shù)據(jù)挖掘的典型應(yīng)用?1)哪些商品放在一起會(huì)比較好賣 沃爾瑪:啤酒與尿布 購物籃分析2)庫存預(yù)測過去零售商依靠供應(yīng)鏈軟件、內(nèi)部分析軟件甚至直覺來預(yù)測庫存需求。隨著競爭壓力的一天天增大,很多零售商(從主要財(cái)務(wù)主管

22、到庫存管理員)都開始致力于找到一些更準(zhǔn)確的方法來預(yù)測其連鎖商店應(yīng)保有的庫存。SQL Server 2005 Analysis Services 獲得的數(shù)據(jù)挖掘模型可以預(yù)測在未來一周內(nèi)一本書是否將脫銷,準(zhǔn)確性為 98.52%。3)股票預(yù)測預(yù)測一支股票的走勢(shì)幾乎是不可能,但是通過相關(guān)分析,可以找出一支股票的走勢(shì)與另一只股票走勢(shì)的潛在規(guī)律,比如數(shù)據(jù)挖掘曾經(jīng)得到過這個(gè)結(jié)論:“如果微軟的股票下跌4%,那么IBM的股票將在兩周內(nèi)下跌5%”。4)NBA教練的布陣想象你是NBA的教練,你靠什么帶領(lǐng)你的球隊(duì)取得勝利呢?當(dāng)然,最容易想到的是全場緊逼、交叉扯動(dòng)和快速搶斷等具體的戰(zhàn)術(shù)和技術(shù)。但是今天,NBA的教練又有

23、了他們的新式武器:數(shù)據(jù)挖掘。大約20個(gè)NBA球隊(duì)使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因?yàn)檠芯苛四g(shù)隊(duì)隊(duì)員不同的布陣安排,在與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。4)NBA教練的布陣系統(tǒng)分析顯示魔術(shù)隊(duì)先發(fā)陣容中的兩個(gè)后衛(wèi)安佛尼.哈德衛(wèi)(Anfernee Hardaway)和伯蘭.紹(Brian Shaw)在前兩場中被評(píng)為17分,這意味著他倆在場上,本隊(duì)輸?shù)舻姆謹(jǐn)?shù)比得到的分?jǐn)?shù)多17分。然而,當(dāng)哈德衛(wèi)與替補(bǔ)后衛(wèi)達(dá)利爾.阿姆斯創(chuàng)(Darrell Armstrong)組合時(shí),魔術(shù)隊(duì)得分為正14分。在下一場中,魔術(shù)隊(duì)增加了阿姆斯創(chuàng)的上

24、場時(shí)間。此著果然見效:阿姆斯創(chuàng)得了21分,哈德衛(wèi)得了42分,魔術(shù)隊(duì)以88比79獲勝。魔術(shù)隊(duì)在第四場讓阿姆斯創(chuàng)進(jìn)入先發(fā)陣容,再一次打敗了熱隊(duì)。在第五場比賽中,這個(gè)靠數(shù)據(jù)挖掘支持的陣容沒能拖住熱隊(duì),但Advanced Scout畢竟幫助了魔術(shù)隊(duì)贏得了打滿5場,直到最后才決出勝負(fù)的機(jī)會(huì)。5)出了一個(gè)新成品,哪些老客戶最可能購買蒙特利爾銀行是加拿大歷史最為悠久的銀行,也是加拿大的第三大銀行。在 20 世紀(jì) 90 年代中期,行業(yè)競爭的加劇導(dǎo)致該銀行需要通過交叉銷售來鎖定 1800 萬客戶。 在應(yīng)用數(shù)據(jù)挖掘之前,銀行的銷售代表必須于晚上 6 點(diǎn)至 9 點(diǎn)在特定地區(qū)通過電話向客戶推銷產(chǎn)品。但是,正如每個(gè)處于

25、接受端的人所了解的那樣,大多數(shù)人在工作結(jié)束后對(duì)于兜售并不感興趣。因此,在晚餐時(shí)間進(jìn)行電話推銷的反饋率非常低。5)出了一個(gè)新成品,哪些老客戶最可能購買幾年前,該銀行開始采用 IBM DB2 Intelligent Miner Scoring,基于銀行賬戶余額、客戶已擁有的銀行產(chǎn)品以及所處地點(diǎn)和信貸風(fēng)險(xiǎn)等標(biāo)準(zhǔn)來評(píng)價(jià)記錄檔案。這些評(píng)價(jià)可用于確定客戶購買某一具體產(chǎn)品的可能性。 對(duì)客戶的財(cái)務(wù)行為習(xí)慣及其對(duì)銀行收益率的影響有了更深入的了解。當(dāng)進(jìn)行更具針對(duì)性的營銷活動(dòng)時(shí),銀行能夠區(qū)別對(duì)待不同的客戶群,以提升產(chǎn)品和服務(wù)質(zhì)量,同時(shí)還能制訂適當(dāng)?shù)膬r(jià)格和設(shè)計(jì)各種獎(jiǎng)勵(lì)方案,甚至確定利息費(fèi)用。6)登錄網(wǎng)站的當(dāng)前用戶現(xiàn)在最可能購買什么東西

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論