如何深入挖掘數(shù)據(jù)價值_第1頁
如何深入挖掘數(shù)據(jù)價值_第2頁
如何深入挖掘數(shù)據(jù)價值_第3頁
如何深入挖掘數(shù)據(jù)價值_第4頁
如何深入挖掘數(shù)據(jù)價值_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

主講教師:劉巧曼江蘇經(jīng)貿(mào)職業(yè)技術(shù)學院商務數(shù)據(jù)分析基礎如何深入挖掘數(shù)據(jù)價值數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘的主要應用場景數(shù)據(jù)挖掘涉及的主要數(shù)學知識基礎數(shù)據(jù)挖掘的主要算法模型01020304從數(shù)據(jù)挖掘到機器學習05數(shù)據(jù)挖掘(DataMining)是指通過大量數(shù)據(jù)集進行分類的自動化過程,以通過數(shù)據(jù)分析來識別趨勢和模式,建立關系來解決業(yè)務問題。換句話說,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程

數(shù)據(jù)挖掘定義我們想象一下上海申花和北京國安的比賽在賽前,評論員說在過去的若干場比賽中,上海贏了多少,北京贏了多少,誰誰進了幾個球,上海應該主攻右路,北京應該加強防守。這些都是分析報告那么評論員又說了,根據(jù)雙方交手記錄和最近10場的比賽表現(xiàn),雙方可能會是一個平局,這就是數(shù)據(jù)挖掘。數(shù)據(jù)分析VS挖掘的區(qū)別數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘的例子1.啤酒和尿布經(jīng)常在一起購買2.根據(jù)目前人口的增長情況,在XX市,未來的母嬰市場有250億的空間3.

在門店逗留了12分鐘,喜歡穿著夾克和待帽子的用戶,會購買這雙皮鞋4.根據(jù)過去1周特定IP的人們在百度搜索上的新冠病毒關鍵詞來打分,就能知道當?shù)匦鹿诘娘L險有多大數(shù)據(jù)挖掘的主要應用場景客戶旅程數(shù)據(jù)挖掘的主要應用場景發(fā)掘潛在客戶01客戶獲取02初始信用評分03客戶價值預測04MarketsEXISITNGNEWNEWEXISITNG發(fā)掘潛在客戶01是基于地區(qū)、性別和年齡段等粗粒度的指標,結(jié)合產(chǎn)品設計定位和目標客戶群體進行匹配初始信用評分03根據(jù)客戶的性別、年齡以及居住場所等基本信息對客戶的信用進行預判客戶獲取02運用數(shù)據(jù)挖掘技術(shù),對營銷人員得到的客戶基本信息進行一個初步篩選,找出購買傾向性較高的客戶進行深度跟蹤營銷客戶價值預測04根據(jù)客戶的基本信息進行其價值預測。其中價值既包括以消費水平為代表的直接價值,也包括客戶口碑宣傳的間接價值數(shù)據(jù)挖掘的主要應用場景050607客戶細分05根據(jù)客戶的基本信息,從人口學、工業(yè)統(tǒng)計信息、社會狀態(tài)、產(chǎn)品使用行為等方面對客戶進行細致的描述交叉銷售06分析產(chǎn)品之間的關聯(lián)關系,發(fā)現(xiàn)產(chǎn)品銷售中預期不到的模式產(chǎn)品精準營銷07通過分析現(xiàn)有客戶的屬性和產(chǎn)品消費行為,確定響應可能性最大的群體進行營銷數(shù)據(jù)挖掘的主要應用場景080910行為信用評分08分析的變量加入了客戶產(chǎn)品消費行為的信息,這使得對客戶信用的評估更為準確欺詐偵測09是對客戶(包括內(nèi)部員工)涉及洗錢、套現(xiàn)、盜用等異常行為進行的偵測,滿足風險監(jiān)管的需求客戶保留10及時發(fā)現(xiàn)客戶在購買產(chǎn)品方面的行為變化和滿意度情況,從而及時更換產(chǎn)品組合數(shù)據(jù)挖掘的主要應用場景111213客戶關系網(wǎng)11通過對客戶關系網(wǎng)絡結(jié)構(gòu)的分析,可以明確網(wǎng)絡中的重要節(jié)點,這對關鍵人營銷有重大意義流失客戶時間判斷12通過對已經(jīng)流失客戶的存續(xù)時間進行分析。一方面可以預判現(xiàn)有客戶流失的高危期,另一方面為提高不同類型客戶的存續(xù)時間提供技術(shù)支持流失客戶類型判斷13對流失客戶的細分可以對改進產(chǎn)品和服務起到重要的指導作用數(shù)據(jù)挖掘涉及的主要數(shù)學知識基礎線性代數(shù)和統(tǒng)計學微積分泛函分析測度理論拓撲學圖論數(shù)據(jù)挖掘涉及的主要數(shù)學知識基礎線性代數(shù)和統(tǒng)計學微積分線性代數(shù)和統(tǒng)計學代表了機器學習中最主流的兩大類方法的基礎。一種是以研究函數(shù)和變換為重點的代數(shù)方法,比如降維,特征值提取等,一種是以研究統(tǒng)計模型和樣本分布為重點的統(tǒng)計方法,比如圖模型、信息理論模型等。它們側(cè)重雖有不同,但是常常是共同使用的,對于代數(shù)方法,往往需要統(tǒng)計上的解釋,對于統(tǒng)計模型,其具體計算則需要代數(shù)的幫助。微積分只是數(shù)學分析體系的基礎。其基礎性作用不言而喻。機器學習研究的大部分問題是在連續(xù)的度量空間進行的,無論代數(shù)還是統(tǒng)計,在研究優(yōu)化問題的時候,對一個映射的微分或者梯度的分析總是不可避免。數(shù)據(jù)挖掘涉及的主要數(shù)學知識基礎泛函分析測度理論泛函分析體現(xiàn)了數(shù)學模型從特殊到一般的發(fā)展過程。函數(shù)在19世紀前期的定義還是數(shù)與數(shù)的對應關系,空間的概念也只有歐幾里德空間。十九世紀以來,數(shù)學的發(fā)展進入了一個新的階段,引出了非歐幾何這門新的學科;同時建立并發(fā)展了群論;對數(shù)學分析的研究又建立了集合論。這些新的理論都為用統(tǒng)一的觀點把古典分析的基本概念和方法一般化準備了條件。泛函分析作為數(shù)學分析的分支,將函數(shù)擴展到函數(shù)與函數(shù)之間的關系,乃至任意兩個集合之間的關系,空間則從有限維空間拓展到無限維空間測度理論對于機器學習的意義是根本的,現(xiàn)代統(tǒng)計學整個就是建立在測度理論的基礎之上。在一些統(tǒng)計方面的文章中它們會把統(tǒng)計的公式改用測度來表達,這樣做有兩個好處:所有的推導和結(jié)論不用分別給連續(xù)分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續(xù)分布的積分基于Lebesgue測度,離散分布的求和基于計數(shù)測度,而且還能推廣到那種既不連續(xù)又不離散的分布中去。數(shù)據(jù)挖掘涉及的主要數(shù)學知識基礎拓撲學圖論這是學術(shù)中很基礎的學科。它一般不直接提供方法,但是它的很多概念和定理是其它數(shù)學分支的基石。看很多別的數(shù)學的時候,會經(jīng)常接觸這樣一些概念:開集,閉集,連續(xù)函數(shù)度量空間,柯西序列,鄰接性,連續(xù)性。很多這些也許在大學一年級就學習過一些,當時是基于極限的概念獲得的。但是看過拓撲學之后,對這些概念的認識會有根本性的拓展圖,由于它在表述各種關系的強大能力以及優(yōu)雅的理論,高效的算法,越來越受到數(shù)據(jù)挖掘領域的歡迎。而從目前我所接觸的范圍內(nèi),圖論僅在數(shù)據(jù)結(jié)構(gòu)這門課中提到過。經(jīng)典圖論,在數(shù)據(jù)挖掘領域中的一個最重要應用就是圖模型了,它被成功運用于分析統(tǒng)計網(wǎng)絡的結(jié)構(gòu)和規(guī)劃統(tǒng)計推斷。例如,分析社交網(wǎng)絡的用戶關系,常用鄰接鏈表和鄰接矩陣綜合表示。在遍歷時也離不開深度優(yōu)先和廣度優(yōu)先算法數(shù)據(jù)挖掘的主要算法模型數(shù)據(jù)挖掘流程1.商業(yè)理解:確定商業(yè)目標和數(shù)據(jù)挖掘目標2.數(shù)據(jù)理解:收集,描述,研究和驗證數(shù)據(jù)的意義和質(zhì)量3.數(shù)據(jù)準備:選擇,清理,構(gòu)造,集成和格式化數(shù)據(jù)4.建立模型:選擇,構(gòu)建和驗證模型5.模型評估:結(jié)果是否合理,是否達到業(yè)務目標6.方法實施:將新知識加入到業(yè)務流程中數(shù)據(jù)挖掘的主要算法模型數(shù)據(jù)挖掘流程數(shù)據(jù)集被劃分為訓練數(shù)據(jù)和驗證數(shù)據(jù):訓練集用來訓練模型(函數(shù)關系),驗證集用來驗證模型是不是準確數(shù)據(jù)挖掘的評估數(shù)據(jù)挖掘的主要算法模型典型數(shù)據(jù)挖掘算法模型決策樹回歸聚類不同屬性或指標的樹形路由多個屬性或指標的空間距離和遠近判斷不同屬性或指標的線性趨勢和未知領域判斷從數(shù)據(jù)挖掘到機器學習典型數(shù)據(jù)挖掘算法模型在海量數(shù)據(jù)量的加持下,我們朝著人工智能的早日實現(xiàn)一步一步的前進。而數(shù)據(jù)挖掘,成熟于傳統(tǒng)數(shù)據(jù)時代,面向相對少的數(shù)據(jù)量。從人的角度來說,數(shù)據(jù)挖掘常常是數(shù)據(jù)分析師需要掌握的技能,而機器學習,在當前往往是算法工程師需要解決的問題數(shù)據(jù)挖掘未來會變?yōu)闄C器學習的一個子集從數(shù)據(jù)挖掘到機器學習機器學習的定義:就是在有了經(jīng)驗E的幫助后,機器完成任務T的衡量指標P會變得更好,比如:將郵件歸類為垃圾郵件和非垃圾郵件,(這個是ML的任務T);用戶標記為垃圾郵件、非垃圾郵件的歷史,(這個是ML的經(jīng)驗E);ML標記垃圾郵件、非垃圾郵件的正確率,(這個是ML的衡量指標P)數(shù)據(jù)挖掘機器學習數(shù)據(jù)分析師算法工程師小數(shù)據(jù)量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論