已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀
[碩士論文精品]數(shù)據(jù)挖掘技術(shù)在移動增值業(yè)務中的應用.pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中文摘要 摘要:數(shù)據(jù)挖掘技術(shù)是目前在全球范圍內(nèi)重點投資研究的一項重大新技術(shù), 也是在數(shù)據(jù)庫系統(tǒng)的研究和應用領(lǐng)域的一個熱點。面對當前移動通信領(lǐng)域市場競 爭的不斷加劇,國內(nèi)三大運營商已開始籌劃建立“以客戶為中心”的經(jīng)營管理模式。 因此,利用數(shù)據(jù)挖掘技術(shù)對企業(yè)的海量客戶數(shù)據(jù)進行挖掘分析,從中發(fā)現(xiàn)各種潛 在的、有價值的商業(yè)規(guī)律或者驗證已知的商業(yè)預測,是當前各大運營商提高自身 競爭力的重要手段之一,極具理論意義和應用價值。 本文以數(shù)據(jù)挖掘技術(shù)在移動增值業(yè)務中的應用為主題,針對某運營商擴大業(yè) 務用戶群、實現(xiàn)精確營銷的迫切需求,深入闡述了如何通過對客戶特征數(shù)據(jù)進行 分析,建立潛在客戶預測系統(tǒng),并將其應用于擴大業(yè)務用戶群的預測中。 首先,介紹了數(shù)據(jù)挖掘的理論及相關(guān)算法,其中對決策樹算法和回歸算法作 了較為細致的分析和探討。其次,從運營商的實際情況出發(fā),結(jié)合電信行業(yè)的經(jīng) 營狀況、經(jīng)營分析系統(tǒng)的建設現(xiàn)狀,分析探討了運用數(shù)據(jù)挖掘的重要性,以及數(shù) 據(jù)挖掘技術(shù)在該行業(yè)的應用現(xiàn)狀。同時針對本文的研究對象,即某移動運營商近 三年著力推廣的移動增值業(yè)務一飛信,結(jié)合其業(yè)務狀況、客戶情況等方面的研究, 著重分析了飛信業(yè)務的發(fā)展狀況、現(xiàn)階段存在的推廣難題及飛信業(yè)務的用戶特征。 然后,概要描述了某移動運營商的數(shù)據(jù)業(yè)務經(jīng)營分析系統(tǒng)擴建項目的背景和建設 需求,并根據(jù)其實際需求,給出本文所討論的潛在客戶預測系統(tǒng)的基本描述,對 預測系統(tǒng)的功能及應用范圍作了詳細闡述。最后,針對筆者所負責的飛信業(yè)務潛 在客戶預測系統(tǒng)的設計及實現(xiàn)工作,詳盡論述了其設計思路和實現(xiàn)方案。以特殊 到一般的推導分析方法作為基礎,以c r i s p d m ( c r o s s i n d u s t r vs t a n d a r dp r o c e s sf o r d a t am i n i n g ,跨行業(yè)數(shù)據(jù)挖掘過程) 為基本框架,按照商業(yè)理解( b u s i n e s s u n d e r s t a n d i n g ) 、數(shù)據(jù)準備及預處理( d a t ap r e p a r a t i o n ) 、模型建0 “ ( m o d e l i n g ) 、模型 評估( e v a l u a t i o n ) 、前端展現(xiàn)( d e p l o y m e n t ) 的步驟,借助數(shù)據(jù)挖掘工具c l e m e n t i n e , 最終建立了飛信業(yè)務潛在客戶預測系統(tǒng)。在建模過程中,充分利用了c 5 0 決策樹算 法、c a r t 算法及l(fā) o g i s t i c 回歸算法的優(yōu)勢,有效的提高了分類精度,并保證了模型 的穩(wěn)定性,實現(xiàn)了將預測系統(tǒng)應用于飛信業(yè)務潛在客戶識別的目標。 本文以實際的項目為依托,完成了將數(shù)據(jù)挖掘技術(shù)應用于移動通信領(lǐng)域商業(yè) 預測、并指導營銷決策的任務,體現(xiàn)了巨大的商業(yè)應用價值。應用結(jié)果表明,所 建立的預測模型是科學的、基本上符合實際情況的,能夠給決策人員提供必要的 智能化信息支持的,該預測模型對解決潛在客戶預測方面的問題具有重要意義。 關(guān)鍵詞:數(shù)據(jù)挖掘;潛在客戶預測系統(tǒng);決策樹算法;l o g i s t i c 回歸算法 a bs t r a c t a b s t r a c t :a sa i l “a p p l i c a t i o n o r i e n t e d ”t e c h n o l o g y ,d a t am i n i n g ( d m ) h a s b e e na l li n t e r n a t i o n a lh o tt o p i ct h a tc a u s e sw i d ec o n c e r ni nb o t ha c a d e m i ca n di n d u s t r i a l f i e l d f a c i n gf i e r c ec h a l l e n g e sf r o mb o t ha b o a r da n d a th o m e ,m o r ea n dm o r et e l e c o m e n t e r p r i s e sh a v ep l a n e dt o e s t a b l i s ht h e “c u s t o m e r - o r i e n t e d ”m a n a g e m e n tm o d e t a k i n gu s eo fd a t am i n i n gt e c h n o l o g yt o f i n dp o t e n t i a la n dv a l u a b l er u l e si sa n i m p o r t a n ta p p r o a c ht h a tc a ni m p r o v es e l f - c o m p e t e n c ef o rt e l e c o me n t e r p r i s e s t h e r e f o r e , i th a sh i g ht h e o r e t i c a ls i g n i f i c a n c ea n da p p l i c a t i o nv a l u e w i t hn e wt e l e c o mp r o d u c t sa n ds e r v i c e sc o m i n gu pc o n t i n u o u s l y , h o wt oi n c r e a s e t h en u m b e ro fu s e r sa n dr e a l i z ep r e c i s em a r k e t i n gh a sb e e na nu r g e n tr e q u i r e m e n tf o r t e l e c o me n t e r p r i s e s f o c u s i n go n t h ea p p l i c a t i o no fd a t am i n i n gi nt e l e c o m v a l u e a d d e ds e r v i c e s ,t h i sa r t i c l ep u t se m p h a s i so i lt h ep r o c e s so fb u i l d i n gt h e p r e d i c t i o ns y s t e mf o rn e wb u s i n e s st h r o u g hd a t aa n a l y s i sa n da p p l y i n gt h i ss y s t e mi n p o t e n t i a lc l i e n t sf o r e c a s t f i r s t ,t h ea r t i c l eg i v e sab r i e fd e s c r i p t i o no fd a t am i n i n gt h e o r ya n dr e l a t e d a l g o r i t h m s i tm a k e s ad e t a i l e dc o m p a r i s o na n da n a l y s i so fc l a s s i f i c a t i o na n d r e g r e s s i o na l g o r i t h m s e c o n d ,i td i s c u s s e st h ei m p o r t a n c eo fd a t am i n i n gt e c h n o l o g y f o rt e l e c o me n t e r p r i s e sa n dt h ec u r r e n ts i t u a t i o no ft h ea p p l i c a t i o no fd a t am i n i n gi n t e l e c o mi n d u s t r y m e a n w h i l e ,i tt a k e sf e t i o n , t h ei m p o r t a n tr e c o m m e n d e db u s i n e s so f s o m et e l e c o mo p e r a t o r , a st h eo b j e c tt os t u d yi t sd e v e l o p i n gs i t u a t i o n ,p r o m o t i o n p r o b l e ma sw e l la st h ef e a t u r e so f f e t i o nc l i e n t s 1 1 1 i r d ,t h eb a c k g r o u n da n dc o n s t r u c t i o n d e m a n do ft e l e c o mm a n a g e m e n ta n a l y s i ss y s t e ma r ed e s c r i b e da n dad e t a i l e d d i s c u s s i o no ff u n c t i o na n da p p l i c a t i o ns c o p ef o rt h ep o t e n t i a lc l i e n tp r e d i c t i o ns y s t e m i sm a d ei nt h i sp a p e r f i n a l l y , a i m i n ga tf o r e c a s t i n gt h ep o t e n t i a lc l i e n t so fn e wb u s i n e s s , t h i sp a p e rd e e p l yd e s c r i b e st h ed e s i g na n di m p l e m e n t a t i o no ft h ep o t e n t i a lc l i e n t p r e d i c t i o ns y s t e mf o rf e t i o n b a s e do ns p e c i a l t o g e n e r a la n a l y s i sm e t h o da n dw i t h t h eh e l po fc l e m e n t i n e ( t h ed mt o o ld e v e l o p e db ys p s s ) ,t h ep r e d i c t i o ns y s t e m c h o o s e sc r i s p d m ,i n c l u d i n gb u s i n e s su n d e r s t a n d i n g ,d a t au n d e r s t a n d i n g , d a t a p r e p a r a t i o n ,m o d e l i n g , e v a l u a t i o na n dd e v e l o p m e n t ,a st h em a i nf r a m e d u r i n gt h e m o d e l i n gp r o c e s s ,t h ea d v a n t a g e s o fc 5 0d e c i s i o nt r e e ,c a r ta n dl o g i s t i c r e g r e s s i o na l g o r i t h ma r ef u l l yu t i l i z e d ,t h ea c c u r a c yo fc l a s s i f i c a t i o n i se f f e c t i v e l y i m p r o v e d ,t h es t a b i l i t yo f t h ep r e d i c t i o nm o d e li sv e r i f i e d ,a n dt h eg o a lt h a ta p p l y i n gt h e 匕立交道太堂童些亟堂位論塞旦曼! ! p r e d i c t i o ns y s t e mt oi d e n t i f y i n gf e t i o nc l i e n t si sr e a l i z e d b a s e do na c t u a lp r o j e c t ,t h i sa r t i c l er e a l i z e st h et a s kt h a tu t i l i z i n gd a t am i n i n g t e c h n o l o g yi n b u s i n e s sp r e d i c t i o na n dg u i d i n gm a r k e t i n gd e c i s i o n - m a k i n g ,w h i c h s h o w sg r e a tc o m m e r c i a lv a l u e t h ea p p l i c a t i o nr e s u l ti n d i c a t e st h a tt h ep r e d i c t i o nm o d e l i ss c i e n t i f i ca n da c c o r d sw i t hr e a l i t yb a s i c a l l y b e s i d e s ,i tc a na f f o r dn e c e s s a r yf o r e c a s t i n f o r m a t i o nf o rm a r k e t i n ga n ds a l e sd e p a r t m e n t s oi ti ss i g n i f i c a n tf o ru s e r - p r e d i c t i o n i nb u s i n e s sp r o m o t i o no rt h eu r g e n tn e e do fu s e re x p a n s i o n k e y w o r d s :d a t am i n i n g ;p o t e n t i a lc l i e n tp r e d i c t i o ns y s t e m ;a n s w e rt r e e ;l o g i s t i c r e g r e s s i o n ;c r i s p - d m v 獨創(chuàng)性聲明 本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作和取得的研 究成果,除了文中特別加以標注和致謝之處外,論文中不包含其他人已經(jīng)發(fā)表或 撰寫過的研究成果,也不包含為獲得北京交通大學或其他教育機構(gòu)的學位或證書 而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作 了明確的說明并表示了謝意。 學位論文作者簽名:己d 勃 簽字日期- 泗夕年6 月移同 5 9 學位論文版權(quán)使用授權(quán)書 本學位論文作者完全了解北京交通大學有關(guān)保留、使用學位論文的規(guī)定。特 授權(quán)北京交通大學可以將學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索, 提供閱覽服務,并采用影印、縮印或掃描等復制手段保存、匯編以供查i n ;n 借閱。 同意學校向國家有關(guān)部門或機構(gòu)送交論文的復印件和磁盤。 ( 保密的學位論文在解密后適用本授權(quán)說明) 學位論文作者簽名:己嘞 釜i i - - w - i t i i :礦驢7 年bj 1 ) 1 f t 導師簽名:m導師簽名:餳肌 簽字同期:呻年舌月7 口日 致謝 本論文的工作是在我的導師王方石教授的悉心指導下完成的。王方石教授嚴 謹?shù)闹螌W態(tài)度和科學的工作方法給了我極大的幫助和影響,在學習上和生活上都 給予了我很大的關(guān)心和幫助。同時,王老師對于我的科研工作和論文都提出了許 多的寶貴意見,在此衷心感謝兩年來王老師對我的關(guān)心和指導。 在實習及撰寫論文期間,李涵適、擺卿卿等同學對我論文的研究工作給予了 熱情幫助,在此向他們表達我的感激之情。 模型的研究設計、論文的撰寫參考并引用了大量的參考資料,在此對這些作 者深表謝意。 還要感謝實習期間幫助、支持我的企業(yè)導師和同事們。 另外特別要感謝家人,他們的理解和支持使我能夠在學校專心完成我的學業(yè)。 1 緒論 1 1 選題的背景和意義 隨著電信業(yè)的快速發(fā)展,競爭的愈演愈烈,移動通信產(chǎn)業(yè)形態(tài)已逐漸完成了 由單純的產(chǎn)品經(jīng)濟業(yè)態(tài)向服務經(jīng)濟業(yè)態(tài)的進化【l 】。作為一個新興市場,移動增值業(yè) 務建立在移動基本業(yè)務基礎上,針對不同的用戶群和市場細分丌通可供用戶選擇 使用的各類業(yè)務【l 】。它充分挖掘了移動網(wǎng)絡的潛力,滿足了用戶的多種需求,現(xiàn)已 成為電信企業(yè)的價值鏈中最重要的組成部分,市場前景廣闊,需求極大【。據(jù)預測, 中國移動增值業(yè)務市場將以每年超過3 0 的速度增長【2 1 。3 g 時代的到來,移動增 值業(yè)務得以迅猛發(fā)展,并己成為運營商市場發(fā)展中新的業(yè)務增長點。但在這樣的 快速發(fā)展的背景下,移動運營商們也正面臨著一系列問題【3 】:如何針對不同客戶群 實施差異化營銷和服務? 現(xiàn)有增值業(yè)務使用用戶都有哪些特征? 當前哪些用戶是 增值業(yè)務的潛在用戶? 潛在用戶有哪些偏好需求? 如何以增量銷售和交叉銷售為 手段不斷挖掘客戶的消費潛力? 數(shù)據(jù)挖掘技術(shù)就提出了這樣的一種手段,針 對現(xiàn)在的業(yè)務客戶數(shù)據(jù)進行分析研究,發(fā)現(xiàn)其中的規(guī)律,由此預測出業(yè)務的潛在 客戶群,協(xié)助企業(yè)擴大用戶規(guī)模、實現(xiàn)精確化營銷的目的。 1 2 國內(nèi)外研究現(xiàn)狀 近些年,隨著移動增值業(yè)務的不斷發(fā)展,如何將數(shù)據(jù)挖掘技術(shù)及數(shù)據(jù)倉庫、 銷售自動化等其它信息技術(shù)與最佳的商業(yè)實踐緊密結(jié)合在一起,收集并提取出與 客戶相關(guān)的有用信息,利用模型及其他技術(shù)方法進行決策支持和營銷分析,是國 內(nèi)外在自動化商業(yè)問題解決方案領(lǐng)域十分重要的研究課題【4 】。數(shù)據(jù)挖掘技術(shù)在電信 領(lǐng)域應用最廣泛的是客戶流失預測,通過對客戶流失預測模型的分析,采取相應 的行動挽留客戶以降低客戶流失率【5 】 6 1 。國外對這方面的研究已有六、七年的時間, 而且己經(jīng)研究出較為成熟的模型,投入到市場應用之中【5 1 。而在移動增值業(yè)務潛在 客戶預測方面的研究,是在近兩三年才開始的,相關(guān)經(jīng)驗較少,但由于挖掘模式 和挖掘手段的類似,此研究借鑒了不少客戶流失預測模型以及醫(yī)學方面數(shù)據(jù)挖掘 案例的研究成果和經(jīng)驗。因此,現(xiàn)階段的主要目標是利用現(xiàn)有的算法找到最佳的 預測方案,并根據(jù)實際的挖掘任務對以往的經(jīng)驗進行創(chuàng)新。 現(xiàn)有的預測類模型多采用決策樹及其變形算法來進行。以決策樹算法為例, 從簡單的決策樹c a r t 、f a c t 等到近幾年不斷出現(xiàn)的新算法 5 】:如r a i n f o r e s t 、 c 5 0 、c h a i d 、c l p u d s 、p u b l i c 、q u e s t 等,這些分類算法在效率可伸縮性準確 性等多方面都有很大的發(fā)展。 現(xiàn)在己經(jīng)證明,如果有了準確的數(shù)據(jù)并且選擇了適當?shù)臄?shù)據(jù)挖掘方法,就有 可能準確預測哪些客戶為潛在客戶、對此預測的可信度如何【5 】。預測模型的精確度 和效率有賴于許多因素,但最重要的挖掘算法的選擇,本論文便是就其中的一些 方法進行分析、研究和應用,由此建立科學、穩(wěn)定的潛在客戶預測模型,并將該 模型應用于實際生產(chǎn)當中。 1 3 本文的主要研究內(nèi)容 本文的主要研究思路是將實踐經(jīng)驗轉(zhuǎn)化為技術(shù)理解,將商業(yè)問題轉(zhuǎn)化為數(shù)據(jù) 挖掘問題,在此基礎上建立潛在客戶預測模型,生成商業(yè)規(guī)律,并用實際的結(jié)果 來驗證模型的正確性和有效性,最終用模型的預測規(guī)則來指導商業(yè)實踐。主要的 探討方式是應用數(shù)據(jù)挖掘技術(shù)對大量的飛信業(yè)務客戶數(shù)據(jù)進行挖掘、分析,以 c l e m e n t i n e 數(shù)據(jù)挖掘工具作為后臺建模工具,選擇c 5 0 決策樹算法與邏輯回歸算法 的組合對訓練數(shù)據(jù)進行分析,建立多個預測模型;并用測試數(shù)據(jù)集對各個模型進 行驗證,針對不同模型的優(yōu)缺點,選擇最佳方案,最終找到使用飛信業(yè)務的關(guān)鍵 客戶特征,并將該規(guī)律用于實際的潛在客戶預測中。本論文的主要研究內(nèi)容如下: 1 通過對移動增值業(yè)務的發(fā)展現(xiàn)狀、存在的問題的研究,以及飛信業(yè)務的營 銷狀況和業(yè)務發(fā)展狀況的分析,將潛在客戶預測的商業(yè)問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題。 側(cè)重于實現(xiàn)基于數(shù)據(jù)挖掘的移動增值類新業(yè)務的預測模型分析與設計,以飛信客 戶特征為基礎,對客戶分類和統(tǒng)計回歸作了較為深入的理論和實踐探討。 2 針對具體的數(shù)據(jù)挖掘問題,在s p s s 公司的c l o m e n t i n e 數(shù)據(jù)挖掘工具的幫助 下,利用決策樹、邏輯回歸等挖掘算法,建立飛信業(yè)務潛在客戶預測模型,并在 此基礎上建立評估模型,利用測試數(shù)據(jù)對模型評估,通過對模型質(zhì)量的分析,選 擇最佳模型。并根據(jù)模型導出的“規(guī)律”整合入潛在客戶預測系統(tǒng),將預測結(jié)果予以 展示。 3 針對如何建立潛在客戶預測模型,本論文著重從以下幾方面進行了研究: ( 1 ) 客戶數(shù)據(jù)準備 涉及到“寬表”的生成和數(shù)據(jù)預處理,其中著重闡述如何實現(xiàn)數(shù)據(jù)質(zhì)量的提高。 由于運營商數(shù)據(jù)倉庫中數(shù)據(jù)繁多,因此,需要根據(jù)經(jīng)驗選取與挖掘問題相關(guān)而又 能全面描述飛信客戶特征的數(shù)據(jù),建立一張總視圖。同時,由于數(shù)據(jù)倉庫里含有 大量冗余和“臟”數(shù)據(jù),這樣會增加知識發(fā)現(xiàn)過程的性能降低的危險、影響生成模型 的質(zhì)量,甚至使整個挖掘過程陷入混亂。為此這一階段需要格式轉(zhuǎn)換、數(shù)據(jù)清洗、 屬性規(guī)約等預處理的工作。 ( 2 ) 建立潛在客戶預測模型 本論文研究了一種基于數(shù)據(jù)挖掘技術(shù)的潛在客戶預測模型:通過分析現(xiàn)有客 戶的消費信息和行為表現(xiàn)等特征數(shù)據(jù),運用決策樹算法對訓練集中的樣本建模, 識別出對判斷是否為飛信客戶的決策力強的屬性;然后根據(jù)生成的決策樹,提取 不同層次的屬性集,應用l o g i s t i c 回歸算法,估算出每一個屬性對于影響使用飛信 業(yè)務這一結(jié)果的影響力系數(shù);經(jīng)過反復的訓練驗證,得出穩(wěn)定的預測模型;最后 利用測試集數(shù)據(jù)對模型進行評估、測試,從模型的準確性、查全范圍、預測能力 等方面檢驗模型的質(zhì)量,找到最佳潛在客戶預測的解決方案。 ( 3 ) 模型的實際應用 本論文提出了一種移動增值業(yè)務潛在用戶預測的詳細解決方案,并對其穩(wěn)定 性、有效性和實際操作性進行了驗證,取得了良好的效果,對運營商企業(yè)戰(zhàn)略的 實施具有現(xiàn)實的指導意義。該預測系統(tǒng)將有助于解決企業(yè)的精確營銷難題,為新 業(yè)務營銷戰(zhàn)略的規(guī)劃提供技術(shù)性指導。 1 4 本文組織結(jié)構(gòu) 本文首先討論了數(shù)據(jù)挖掘技術(shù)的相關(guān)背景知識及其在電信行業(yè)中的應用,隨 后結(jié)合某移動運營商的潛在客戶預測系統(tǒng)的建立和實施,深入闡述了數(shù)據(jù)挖掘技 術(shù)在電信領(lǐng)域移動增值業(yè)務中的具體應用過程。 本文的正文部分總共包括七章內(nèi)容,其中: 第一章主要介紹了選題背景及意義、國內(nèi)外研究現(xiàn)狀,及本文主要研究內(nèi)容。 第二章主要闡釋了本論文所涉及的相關(guān)理論知識。 第三章主要介紹了與本文的研究對象相關(guān)的電信行業(yè)知識及數(shù)據(jù)挖掘技術(shù) 目前在該領(lǐng)域的應用現(xiàn)狀,其中針對飛信業(yè)務的特性以及客戶的特點進行了深入 的分析,完成商業(yè)理解、數(shù)據(jù)理解的工作,為后面挖掘模型的建立做好的準備。 第四章主要概述了筆者參與的某移動運營商經(jīng)營分析系統(tǒng)擴建工程的建沒, 以及潛在客戶預測模型的需求分析。 第五章主要分析了飛信業(yè)務潛在用戶預測的設計思路和設計過程。 第六章詳細描述了預測模型實現(xiàn)過程。具體分析建模過程每一個階段工作。 第七章主要介紹了本課題的研究成果,并對下一步的工作進行了展望。 2 數(shù)據(jù)挖掘相關(guān)知識概述 2 1 數(shù)據(jù)挖掘基本知識 2 1 1 數(shù)據(jù)挖掘定義 知識發(fā)現(xiàn)是從大量的不完全的、有噪聲的、模糊的或者隨機的數(shù)據(jù)中提取人 們事先不知道的但又是有用的信息和知識,人們利用這些知識改進工作,提高效 率和效益【7 】。而數(shù)據(jù)挖掘則是知識發(fā)現(xiàn)的核心部分,是利用知識積累數(shù)據(jù)的一個高 級階段 7 1 ?!皵?shù)據(jù)挖掘包含了一系列旨在從數(shù)據(jù)集中發(fā)現(xiàn)有用而尚未發(fā)現(xiàn)的模式 ( p a t t e h l ) 的技術(shù)【8 j ?!彼^數(shù)據(jù)挖掘,就是從海量的數(shù)據(jù)中,抽取出潛在的、有價值 的知識( 模型或規(guī)則) 的過程【8 】。確切地說,作為一門廣義的面向應用的交叉學科, 數(shù)據(jù)挖掘集成了許多學科中成熟的工具和技術(shù),包括數(shù)據(jù)倉庫技術(shù)、統(tǒng)計學、機 器學習、模型識別、人工智能、神經(jīng)網(wǎng)絡等等【8 】。它是一種知識發(fā)現(xiàn)的過程,它高 度自動化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的、有價值的知識、 模型或規(guī)則,并對未來情況進行預測,以輔助決策者評估風險、做出j 下確的決策【7 1 。 在商業(yè)應用里,數(shù)據(jù)挖掘表現(xiàn)為在大型數(shù)據(jù)庫里面搜索有價值的商業(yè)信息、 發(fā)現(xiàn)潛在的商業(yè)規(guī)律或驗證某些商業(yè)預測。對于企業(yè)而言,數(shù)據(jù)挖掘根據(jù)預定義 的商業(yè)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析、揭示其中隱含的商業(yè)規(guī)律、進 而將其模型化、最終指導并應用于實際的企業(yè)經(jīng)營中的先進有效的技術(shù)過程【5 】。通 過對商業(yè)數(shù)據(jù)的研究,進行深層次的數(shù)據(jù)分析,發(fā)掘隱含其中的商業(yè)運作規(guī)律, 對于優(yōu)化企業(yè)自身運作、實施客戶關(guān)系管理等諸多方面具有重大意義。因而,數(shù) 據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務發(fā)展的趨勢,揭示己知的事實,預測未知的結(jié)果,并幫助 企業(yè)分析出完成任務所需的關(guān)鍵因素,以達到增加收入、降低成本,使企業(yè)處于 更有利的競爭位置的目的【5 1 。 2 1 2 數(shù)據(jù)挖掘模式 數(shù)據(jù)挖掘為了從數(shù)據(jù)中發(fā)現(xiàn)模式。針對不同挖掘問題,所采用的數(shù)據(jù)挖掘模 式( 方法) 有所不同。一般說來,數(shù)據(jù)挖掘的分析模型分為兩大類:預測型和描 述型,這兩類有相應的模式與之對應【7 1 。 1 預測型 ( 1 ) 分類模式( c l a s s i f i c a t i o n ) 4 分類模式實際上就是一個分類函數(shù)( 分類器) ,它將數(shù)據(jù)集中的數(shù)據(jù)項影射到 幾個預定的類別中的一個【l0 1 。通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每一個類別做出 準確的描述、建立分析模型或挖掘分類規(guī)則,然后用這些規(guī)則對其他數(shù)據(jù)庫中的 記錄進行分類【7 】。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根丌始搜索, 沿著數(shù)據(jù)滿足的分支往上走,走到樹葉即可確定類別】【12 1 。 分類器的構(gòu)造方法有統(tǒng)計方法,機器學習方法,神經(jīng)網(wǎng)絡方法等等【1 3 】。常見 的統(tǒng)計方法有k n n 算法,基于事例的學習方法【1 3 】。機器學習方法包括決策樹法和 歸納法l l 引。比如當某人發(fā)表一篇文章,就可以自動的把這篇文章劃分到某一個文 章類別,一般的過程是根據(jù)樣本數(shù)據(jù)利用一定的分類算法得到分類規(guī)則,新的數(shù) 據(jù)過來就依據(jù)該規(guī)則進行類別的劃分【1 3 】。這類的受眾分析就可以使用決策樹方法 來實現(xiàn)【i 川。 ( 2 ) 回歸模式( r e g r e s s i o n ) 回歸分析( r e g r e s s i o na n a l y s i s ) ,一個統(tǒng)計預測模型,用以描述和評估應變量與一 個或多個自變量之間的關(guān)系【1 4 】【15 1 。它是處理多變量間相關(guān)關(guān)系的一種數(shù)學方法【1 4 1 。 相關(guān)關(guān)系不同于函數(shù)關(guān)系,后者反映變量問的嚴格依存性,而前者則表現(xiàn)出一定 程度的波動性或隨機性,對自變量的每一取值,因變量可以有多個數(shù)值與之相對 應【1 4 】?;貧w類算法是一種統(tǒng)計類算法,包括線形回歸、邏輯回歸、多重回歸等。 這種模式被廣泛地用于解釋市場占有率、銷售額、品牌偏好及市場營銷效果【1 4 】。 把兩個或兩個以上定距或定比例的數(shù)量關(guān)系用函數(shù)形勢表示出來,就是回歸分析 要解決的問題【l4 1 ?;貧w分析是一種非常有用且靈活的分析方法,其作用主要表現(xiàn) 在以下幾個方面【1 4 】【1 5 】: 1 ) 判別自變量是否能解釋因變量的顯著變化一關(guān)系是否存在; 2 ) 判別自變量能夠在多大程度上解釋因變量關(guān)系的強度; 3 ) 判別關(guān)系的結(jié)構(gòu)或形式反映因變量和自變量之間相關(guān)的數(shù)學表達式; 4 ) 預測自變量的值; 5 ) 當評價一個特殊變量或一組變量對因變量的貢獻時,對其自變量進行控制。 ( 3 ) 時間序列模式( t i m es e r i e s ) 時間序列是用變量過去的值來預測未來的值【刀。與回歸樣,它也是用已知的 值來預測未來的值,只不過這些值的區(qū)別是變量所處的時間不同【7 1 。時間序列采用 的方法一般是在連續(xù)的時間流中截取一段時間作為一個數(shù)據(jù)單元,然后讓這個單 元在時間流上滑動,以獲得建立模型所需要的訓練集【7 1 。 2 描述型 ( 1 ) 關(guān)聯(lián)分析模式( a s s o c i a t i o n ) 關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的聯(lián)系,那么其中一個事物 就能通過其他事物進行預測【1 6 】。它的目的是為了挖掘隱藏在數(shù)據(jù)問的相互關(guān)系【1 7 】, 即利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘,尋找數(shù)據(jù)庫中值的相關(guān)性。能夠支持發(fā)現(xiàn)同一事 件不同項目之間的關(guān)聯(lián)規(guī)則【7 】。關(guān)聯(lián)分析方法主要應用于電子商務或圖書出版等方 面。比如,在一次購買活動中所買不同商品的相關(guān)性【r 7 1 。在數(shù)據(jù)挖掘研究領(lǐng)域, 人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如a p r i o r i 、s t e m 、a i s 、d h p 7 1 。 ( 2 ) 聚類模式( c l u s t e r i n g ) 聚類一般分為分割和分層兩種【l 引。分割聚類算法通過優(yōu)化評價函數(shù)把數(shù)據(jù)集 分割為k 個部分,它需要k 作為輸人參數(shù)【l8 1 。典型的分割聚類算法有k m e a n s 算 法,k m e d o i d s 算法、c l a r a n s 算法【i8 1 。分層聚類由不同層次的分割聚類組成, 層次之間的分割具有嵌套的關(guān)系【l 引。它不需要輸入?yún)?shù),這是它優(yōu)于分割聚類算 法的一個明顯的優(yōu)點,其缺點是終止條件必須具體指定【1 8 】。典型的分層聚類算法 有b i r c h 算法、d b s c a n 算法和c u r e 算法等【1 8 】【1 9 】。 ( 3 ) 序列關(guān)聯(lián)模式( s e q u e n t i a la n a l y s i s ) 序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序 列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系【2 0 】【2 i 】。它能發(fā)現(xiàn)數(shù)據(jù)庫中形 如“在某一段時間內(nèi),顧客購買商品a ,接著購買商品b ,而后購買商品c ,即序 列a b c 出現(xiàn)的頻率較高”之類的知識【2 0 1 。序列模式分析描述的問題是:在給 定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函 數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列【2 0 】。 2 1 3 數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程是一個不斷反饋的利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和 數(shù)據(jù)間關(guān)系的過程,該過程大致可以分為:問題定義、數(shù)據(jù)收集數(shù)據(jù)預處理、數(shù) 據(jù)挖掘算法執(zhí)行、結(jié)果解釋和評估、知識發(fā)現(xiàn)【5 1 。如下圖2 1 【5 】所示: 圖2 1 數(shù)據(jù)挖掘過程 6 韭豆窯亟厶堂重些熊堂擅業(yè)奎夔揖控捌摑羞知趣援述 在數(shù)據(jù)挖掘過程中,應用工程化的方法對于最終實現(xiàn)挖掘任務至關(guān)重要。很 多軟件供應商和數(shù)據(jù)挖掘顧問公司都提供了一些數(shù)據(jù)挖掘過程模型。用以指導用 戶進行數(shù)據(jù)挖掘工作【”。比如,s a s 公司的s e m m a ( s a m p l e , e x p l o r e m o d i f y , m o d e l 。 a s s 髂, s ) ,s p s s 的5 a ( a 娜s ,a c c e s s 。a n a l y z e ,a c t ,a u t o m a t e ) i ”。這里介紹一個最常 見且目前應用最為廣泛的數(shù)據(jù)挖掘過程模型,即目前業(yè)界的權(quán)威標志: c r i s p - d m ( 跨行業(yè)數(shù)據(jù)挖掘過程標準,c r o s s - i n d u s t r ys t a n d a r d p r o c e s sf o rd a t a m i n i n g ) 。該標準由數(shù)據(jù)挖掘相關(guān)軟件供應商和用戶組織,包括n c rs 螂e b l 5 e n g i n e 缸l l gc e p e a h a g e - n ( 丹麥) 、d a i m i e p b e 蛇a g ( 德國) 、s p s s i n t t a n a f i o n a l s o l u t i o nl t d ( 英國) 、o h r av e m e k e r i n g e n b a n ko r e pb v ( 荷蘭) 【1 成立的行 業(yè)協(xié)會提出。如下圖2 - 2 口i 所示: 圖2 - 2 c r i s p - d m 數(shù)據(jù)挖掘過程模型 c r i s p - d m 的過程模型將一個數(shù)據(jù)挖掘項目的生命期分為6 個階段:商業(yè)理 解( b u s i n e s su n d e r s t a n d i n g ) 、數(shù)據(jù)理解( d a mu n d e r s t a n d i n g ) 、數(shù)據(jù)準備( d a t a p r e p a r a t i o n ) 、模型建立( m o 曲l i l g ) 、模型評估( e v a l u a t i o n ) 、模型發(fā)斫( d e p l o y m e n t ) 。 上圖2 - 2 即展示了這六個階段的順序關(guān)系,以下對這六個階段一一描述叫: l 商業(yè)理解 本階段專注于商業(yè)角度理解項目目標和需求,并轉(zhuǎn)化為一種數(shù)據(jù)挖掘問題定 義,同時設計出一個初始計劃。 2 數(shù)據(jù)理解 在數(shù)據(jù)理解階段,先收集初步的數(shù)據(jù),然后了解熟悉數(shù)據(jù),以識別數(shù)據(jù)質(zhì)量、 找到對數(shù)據(jù)的基本觀察或假設隱含的信息來檢測出感興趣的數(shù)據(jù)子集。 3 數(shù)據(jù)準備 數(shù)據(jù)準備階段包括了從數(shù)據(jù)構(gòu)造到最終數(shù)據(jù)集合( 將要輸入建模工具的數(shù)據(jù)) 的所有活動。數(shù)據(jù)準備任務可能要執(zhí)行很多次,并沒有任何規(guī)定的順序。任務有 表、記錄屬性的選擇以及為適合建模工具的要求對數(shù)據(jù)進行的轉(zhuǎn)換和凈化。 4 模型建立 建模階段可以選擇使用各種建模技術(shù),各類模型參數(shù)也可以調(diào)整優(yōu)化。對同 一個數(shù)據(jù)挖掘問題可以有若干可用技術(shù),某些技術(shù)對數(shù)據(jù)的形式有一定的要求, 因此常常要退回到數(shù)據(jù)準備階段。 5 模型評估 在最終擴展模型自i 要徹底的評價模型,對所建模型再次考察其執(zhí)行步驟并確 信其j 下確的達到了商業(yè)目標。這里,一個關(guān)鍵的目的是確定是否有某些重要的商 業(yè)問題還沒有充分的考慮。 6 模型發(fā)布 所獲得的挖掘結(jié)果和知識應該采用用戶可以使用的方式來組織和表示??梢?簡單到只有一份報告也可以實現(xiàn)一個可以重復的挖掘過程或系統(tǒng)。很多情況下, 這將由客戶而非分析員來實施。 2 2 數(shù)據(jù)挖掘算法介紹 不同的數(shù)據(jù)挖掘方法,有著不同的算法,比如在分類算法中,可以采用的決 策樹算法一般有:c 5 0 、c a r t 等,而在回歸算法中,可以有邏輯回歸、線性回歸 等。 2 2 1 決策樹( d e c i s i o nt r e e ) 1 決策樹算法原理 決策樹是實例( 表示為特征向量) 的分類器 2 4 】。結(jié)點為測試特征,邊則表示 特征的每個值,葉結(jié)點對應分類【2 4 】【2 5 1 。信息論是數(shù)據(jù)挖掘技術(shù)的重要指導理論之 一,是決策樹算法實現(xiàn)的理論依據(jù)【2 6 1 。決策樹算法是一種逼近離散值目標函數(shù)的 方法,實質(zhì)是在學習的基礎上,得到分類規(guī)則【2 6 】【2 7 】。決策樹可以被看城一棵樹【5 】: 樹的每個分支都是一個分類問題,樹葉是帶有分類的數(shù)據(jù)分割。決策樹構(gòu)造的輸 入是一組帶有類別標記的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹。二叉樹的內(nèi) 部節(jié)點( 非葉子節(jié)點) 一般表示為一個邏輯判斷,形式為( a i = v 1 ) 的邏輯判斷,其中a i 是屬性,v i 是該屬性的某個屬性值;樹的邊是邏輯判斷的分支結(jié)果:多叉樹的內(nèi)部 節(jié)點是屬性,邊是該屬性的所有取值,有幾個屬性值,就有幾條邊。樹的葉子節(jié) 點都是類別標記。決策樹與自然樹的對應關(guān)系以及在分類問題中的代表含義如下 表2 1 所示【2 8 】: 表2 1 決策樹的構(gòu)成及代表意義 自然樹對應決策樹中的意義分類問題中的表示意義 樹根根節(jié) 訓練實例整個數(shù)據(jù)集空間 樹權(quán) 內(nèi)部( 非葉) 節(jié)點、決策節(jié)點待分類對象的屬性( 集合) 樹枝 分支 屬性的一個可能取值 樹葉葉子節(jié)點、狀態(tài)節(jié)點 數(shù)據(jù)分割( 分類結(jié)果) 決策樹模型也稱為規(guī)則推理模型,它通過對訓練樣本的學習來建立分類規(guī)則, 并依此規(guī)則實現(xiàn)對新樣本的分類。決策樹更擅長處理非數(shù)值型數(shù)據(jù),因此可以免 去很多數(shù)據(jù)預處理的工作【2 6 】。 2 決策樹構(gòu)造方法 構(gòu)造決策樹的方法是采用自上而下的遞歸構(gòu)造【5 1 。以多叉樹為例,構(gòu)造思路為 【5 】:如果例子集合中的所有例子是同類的,則將之作為葉子節(jié)點,節(jié)點內(nèi)容即是該 類別標記;否則,根據(jù)某種策略選擇一個屬性,按照屬性的各個取值,把例子集 合劃分為若干子集合,使得每個子集上的所有例子在該屬性上具有同樣的屬性值, 然后再依次遞歸處理各個子集。這種思路實際上就是“分而治之”的道理【5 】?;镜?構(gòu)造過程如下【2 9 】: d t r e e ( e x a m p l e s ,a t t r i b u t e s ) i f 所有樣本屬于同一分類,返回標號為該分類的葉結(jié)點 e l s ei f 屬性值為空,返回標號為最普遍分類的葉結(jié)點 e l s e 選取一個屬性a 1 作為根結(jié)點 f o r a 的每一個可能的值v i 令e x a m p l e s i 為具有a = v i 的樣本子集 從根結(jié)點出發(fā)增加分支( a - - v i ) i f e x a m p l e s i 為空,創(chuàng)建標號為最普遍分類的葉結(jié)點 e l s e 遞歸創(chuàng)建子樹調(diào)用d t r e e ( e x a m p l e s i ,a t t r i b u t e s a ) ) 3 決策樹算法介紹 ( 1 ) i d 3 算法 決策樹算法中最為典型的決策樹學習算法是i d 3 算法,它采用自頂向下不回溯 策略,保證找到一個簡單的樹【2 8 1 。i d 3 算法是1 9 7 9 年由j r q u i n l a n 提出的一種基于 信息熵的決策樹算法,是數(shù)據(jù)挖掘算法史上最有影響力的決策樹方法之一【2 8 】。i d 3 9 算法的基本思想是采用信息論中的概念用信息增益作為決策屬性分類判斷能力的 度量,進行決策節(jié)點屬性的選擇【5 】 2 4 1 。在這種屬性選擇方法中,選擇具有最大信 息增益的決策屬性作為當前節(jié)點f 2 5 】。通過這種方式選擇的節(jié)點屬性可以保證決策 樹具有最小的分支數(shù)量,使得到的決策樹冗余最小【5 】【2 6 】。 首先選擇取得最大信息增益的屬性( 最有判別力的因素) 作為根節(jié)點,將數(shù) 據(jù)分成幾個子集,每個子集又選擇取得最大信息增益( m a x i m u mi n f o r m a t i o ng a i n ) 的屬性進行劃分,一直進行到所有子集僅包含同一類型的數(shù)據(jù)為止【2 5 】【2 7 】。 在這里,信息增益是指衡量哪些屬性將提供最為平衡的劃分的一種函數(shù)。具 體的原理如下【2 5 】【2 設s 是訓練樣本集,它包含n 個類別的樣本,這些類別分別用c 1 ,c 2 c n 表 示,類c i 的概率用p i 表示,s 的熵( e n t r o p y ) 或期望信息為:e n t r o p y ( s ) = z p i * 1 0 92 p i 。 可以看出,樣本的概率分御越均勻e n t r o p y ( s ) 越大,樣本集的混雜程度也越高。因 此,熵可以作為訓練集的不純度( i m p u r i t y ) 的- - 個度量。因此,決策樹分枝原則就 是要使劃分后的樣本的子集越純越好,即熵的值越小越好。 設屬性a 將s 劃分成m 份,s i 表示s 被屬性a 劃分的第i 個子集,i s l 、l s i l 分別為s 和s i 的樣本個數(shù),則根據(jù)a 劃分的子集的熵為: e n t r o p y ( s ,a ) = e ( i s i l i s i ) 幸e n t r o p y ( s ) 則屬性a 對s 進行劃分獲得的衡量熵的期望減少值信息增益為: g a i n ( s ,a ) = e n t r o p y ( s ) 一e n t r o p y ( s ,a ) ??梢?,g a i n ( s ,a ) 越大,說明選擇測試屬性a 對分類提供的信息就越多,熵的減少量越大,節(jié)點就趨向于越純。因此,一個屬 性的信息增益就是用這個屬性對樣本分類而導致熵值下降。i d 3 即是在每一個節(jié)點 選擇取得最大信息增益的屬性。 ( 2 ) c 4 5 算法 c 4 5 算法是q u i n l a n 本人針對i d 3 算法提出的一種改進算法,他在1 9 9 3 年出版的 專著機器學習規(guī)劃對c 4 5 算法進行詳細描述【2 8 】。c 4 5 對i d 3 算法最大的改進就 是修改了分類評價函數(shù),用信息增益率( i n f o r m a t i o ng a i nr a t i o ) 取代信息增益作為 新方法的分類評價函劃5 】【2 6 】【2 7 】。做出這一改進主要是解決i d 3 容易傾向于選擇取值 較多的屬性【26 1 。c 4 5 對i d 3 的另一大改進就是解決了訓練數(shù)據(jù)中連續(xù)屬性的處理問 題,i d 3 算法能處理的對象屬性只能是具有離散值的數(shù)據(jù)【5 1 。 c 4 5 算法使用了一個適合小數(shù)據(jù)量的方法【2 8 】:基于訓練例自身的性能估計。 為了克服訓練例進行估計很可能產(chǎn)生偏向于規(guī)則的結(jié)果,c 4 5 算法采用了保守估 計。它采用的具體方法剮2 8 】【2 9 】【3 0 】:計算規(guī)則對其使用的各個訓練例分類的精度a , 然后計算這個精度的二項分布的標準差s ,最后對給定信任度( 9 5 ) ,取下界( a - 1 9 6 ) 為該規(guī)則的性能度量p a ;在有大量數(shù)據(jù)的情況下,s 接近于0 ,pa 接近于a ;隨著數(shù)據(jù)量 l o 的減少,p a 與a m 差別將會增大。c 4 5 算法使用更復雜的方法是為屬性a 的各種取 值賦以概率,具有未知屬性a 值的實例按概率值分為大小不等的碎片,沿相應屬性 a 值的分支向樹的下方分布,實例的碎片將用于計算信息贏取。這個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年專用版文化藝術(shù)品版權(quán)保護與授權(quán)合同
- 專業(yè)產(chǎn)品開發(fā)服務協(xié)議2024年版
- 2025年度餐飲行業(yè)廚師創(chuàng)新研發(fā)勞動合同3篇
- 2024年版軟件購銷協(xié)議模板細則版B版
- 2024年采購供需協(xié)議
- 2025年度草原防火與應急管理服務合同3篇
- 2024年門窗安裝工程勞務派遣合同
- 2025年度智慧城市O2O綜合服務戰(zhàn)略合作協(xié)議書3篇
- 中醫(yī)基本知識培訓課件
- 白酒知識線上培訓課件
- 哈爾濱 研學課程設計
- 護士人文素養(yǎng)授課護理
- PowerPoint使用詳解課件
- 2024年保密知識教育考試試題試卷附答案(突破訓練)
- 發(fā)熱的診斷和治療(急診醫(yī)學課件)
- 貴州省遵義市2023-2024學年九年級上學期期末學業(yè)水平監(jiān)測英語試卷
- 系統(tǒng)遷移方案
- 房屋租賃管理條例2024年
- 《文獻檢索與論文寫作》教學大綱思政版
- 高中數(shù)學人教A版必修第一冊 全冊 思維導圖
- 【基于自由現(xiàn)金流貼現(xiàn)法的企業(yè)估值的案例探析3300字(論文)】
評論
0/150
提交評論