大數(shù)據(jù)數(shù)據(jù)挖掘案例_第1頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第2頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第3頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第4頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)數(shù)據(jù)挖掘案例【篇一:大數(shù)據(jù)數(shù)據(jù)挖掘案例】本文為系列文,該篇為第一篇。下面是正文:簡而言之,數(shù)據(jù)挖掘(datamining)是有組織有目的地收集數(shù)據(jù),通過分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識的技術。在本文中,我們從數(shù)據(jù)挖掘的實例出發(fā),并以數(shù)據(jù)挖掘中比較典型的分類算法入手,給讀者介紹我們?nèi)绾芜\用數(shù)據(jù)挖掘的技術解決現(xiàn)實中出現(xiàn)的問題。數(shù)據(jù)挖掘是如何解決問題的?本節(jié)通過幾個數(shù)據(jù)挖掘?qū)嶋H案例來詮釋如何通過數(shù)據(jù)挖掘解決商業(yè)中碰到的問題。下面有關“啤酒和尿不濕”的故事是數(shù)據(jù)挖掘中最典型的案例。而target公司通過“懷孕預測指數(shù)”來預測女顧客與否懷孕的案例也是近來為數(shù)據(jù)挖掘?qū)W者最津津樂道的一種話題。尿不濕和啤酒諸多人會問,終究數(shù)據(jù)挖掘能夠為公司做些什么?下面我們通過一種在數(shù)據(jù)挖掘中最典型的案例來解釋這個問題——一種有關尿不濕與啤酒的故事。超級商業(yè)零售連鎖巨無霸沃爾瑪公司(walmart)擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了能夠精確理解顧客在其門店的購置習慣,沃爾瑪對其顧客的購物行為進行了購物籃關聯(lián)規(guī)則分析,從而懂得顧客經(jīng)常一起購置的商品有哪些。在沃爾瑪龐大的數(shù)據(jù)倉庫里集合了其全部門店的具體原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎上,沃爾瑪運用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進行分析和挖掘。一種令人驚奇和意外的成果出現(xiàn)了:“跟尿不濕一起購置最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術對歷史數(shù)據(jù)進行分析的成果,反映的是數(shù)據(jù)的內(nèi)在規(guī)律。那么這個成果符合現(xiàn)狀嗎?與否是一種有用的知識?與否有運用價值?為了驗證這一成果,沃爾瑪派出市場調(diào)查人員和分析師對這一成果進行調(diào)查分析。通過大量實際調(diào)查和分析,他們揭示了一種隱藏在“尿不濕與啤酒”背后的美國消費者的一種行為模式:在美國,到超市去買嬰兒尿不濕是某些年輕的父親下班后的日常工作,而他們中有30%~40%的人同時也會為自己買某些啤酒。產(chǎn)生這一現(xiàn)象的因素是:美國的太太們常囑咐她們的丈夫不要忘了下班后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡的啤酒。另一種狀況是丈夫們在買啤酒時忽然記起他們的責任,又去買了尿不濕。既然尿不濕與啤酒一起被購置的機會諸多,那么沃爾瑪就在他們?nèi)康拈T店里將尿不濕與啤酒并排擺放在一起,成果是得到了尿不濕與啤酒的銷售量雙雙增加。按常規(guī)思維,尿不濕與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)這一有價值的規(guī)律的。target和懷孕預測指數(shù)有關數(shù)據(jù)挖掘的應用,近來尚有這樣一種真實案例在數(shù)據(jù)挖掘和營銷挖掘領域廣為流傳。美國一名男子闖進他家附近的一家美國零售連鎖超市target店鋪(美國第三大零售商塔吉特)進行抗議:“你們居然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券?!钡赇伣?jīng)理立刻向來者承認錯誤,但是其實該經(jīng)理并不懂得這一行為是總公司運行數(shù)據(jù)挖掘的成果。如圖所示。一種月后,這位父親來道歉,由于這時他才懂得他的女兒確實懷孕了。target比這位父親懂得他女兒懷孕的時間足足早了一種月。target懷孕預測指數(shù)target能夠通過分析女性客戶購置統(tǒng)計,“猜出”哪些是孕婦。他們從target的數(shù)據(jù)倉庫中挖掘出25項與懷孕高度有關的商品,制作“懷孕預測”指數(shù)。例如他們發(fā)現(xiàn)女性會在懷孕四個月左右,大量購置無香味乳液。以此為根據(jù)推算出預產(chǎn)期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購置。如果不是在擁有海量的顧客交易數(shù)據(jù)基礎上實施數(shù)據(jù)挖掘,target不可能做到如此精確的營銷。電子商務網(wǎng)站流量分析網(wǎng)站流量分析,是指在獲得網(wǎng)站訪問量基本數(shù)據(jù)的狀況下對有關數(shù)據(jù)進行的統(tǒng)計和分析,其慣用手段就是web挖掘。web挖掘能夠通過對流量的分析,協(xié)助我們理解web上的顧客訪問模式。那么理解顧客訪問模式有哪些好處呢?在技術架構上,我們能夠合理修改網(wǎng)站構造及適度分派資源,構建后臺服務器群組,例如輔助改善網(wǎng)絡的拓撲設計,提高性能,在有高度有關性的節(jié)點之間安排快速有效的訪問途徑等。協(xié)助公司更加好地設計網(wǎng)站主頁和安排網(wǎng)頁內(nèi)容。協(xié)助公司改善市場營銷決策,如把廣告放在適宜的web頁面上。協(xié)助公司更加好地根據(jù)客戶的愛好來安排內(nèi)容。協(xié)助公司對客戶群進行細分,針對不同客戶制訂個性化的促銷方略等。人們在訪問某網(wǎng)站的同時,便提供了個人對網(wǎng)站內(nèi)容的反饋信息:點擊了哪一種鏈接,在哪個網(wǎng)頁停留時間最多,采用了哪個搜索項、總體瀏覽時間等。而全部這些信息都被保存在網(wǎng)站日志中。從保存的信息來看,網(wǎng)站即使擁有了大量的網(wǎng)站訪客及其訪問內(nèi)容的信息,但擁有了這些信息卻不等于能夠充足運用這些信息。那么如果將這些數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉庫中呢?這些帶有大量信息的數(shù)據(jù)借助數(shù)據(jù)倉庫報告系統(tǒng)(普通稱作在線分析解決系統(tǒng)),即使能給出可直接觀察到的和相對簡樸直接的信息,卻也不能告訴網(wǎng)站其信息模式及如何對其進行解決,并且它普通不能分析復雜信息。因此對于這些相對復雜的信息或是不那么直觀的問題,我們就只能通過數(shù)據(jù)挖掘技術來解決,即通過機器學習算法,找到數(shù)據(jù)庫中的隱含模式,報告成果或按照成果執(zhí)行。為了讓電子商務網(wǎng)站能夠充足應用數(shù)據(jù)挖掘技術,我們需要采集更加全方面的數(shù)據(jù),采集的數(shù)據(jù)越全方面,分析就能越精確。在實際操作中,有下列幾個方面的數(shù)據(jù)能夠被采集:訪客的系統(tǒng)屬性特性。例如所采用的操作系統(tǒng)、瀏覽器、域名和訪問速度等。訪問特性。涉及停留時間、點擊的url等。條款特性。涉及網(wǎng)絡內(nèi)容信息類型、內(nèi)容分類和來訪url等。產(chǎn)品特性。涉及所訪問的產(chǎn)品編號、產(chǎn)品目錄、產(chǎn)品顏色、產(chǎn)品價格、產(chǎn)品利潤、產(chǎn)品數(shù)量和特價等級等。當訪客訪問該網(wǎng)站時,以上有關此訪客的數(shù)據(jù)信息便會逐步被積累起來,那么我們就能夠通過這些積累而成的數(shù)據(jù)信息整頓出與這個訪客有關的信息以供網(wǎng)站使用。能夠整頓成型的信息大致能夠分為下列幾個方面:訪客的購置歷史以及廣告點擊歷史。訪客點擊的超鏈接的歷史信息。訪客的總鏈接機會(提供應訪客的超級鏈接)。訪客總的訪問時間。訪客所瀏覽的全部網(wǎng)頁。訪客每次會話的產(chǎn)出利潤。訪客每月的訪問次數(shù)及上一次的訪問時間等。訪客對于商標總體正面或負面的評價。分類:從人臉識別系統(tǒng)說起美國電視劇《反恐24小時》中有一集,當一種恐怖分子用手機撥打了一種電話,從ctu(反恐部隊)的計算機系統(tǒng)中便立刻發(fā)出恐怖分子出現(xiàn)的預警。諸多好萊塢的大片中這類智能系統(tǒng)的應用也比比皆是,它能從茫茫人群中實時找出正在苦苦追蹤的恐怖分子或間諜。而在北京奧運會上,最引人注意的it熱點莫過于“實時人臉識別技術”在奧運會安檢系統(tǒng)中的應用,這種技術通過對人臉核心部位的數(shù)據(jù)采集,讓系統(tǒng)能夠精確地識別出全部進出奧運場館的觀眾身份?,F(xiàn)在人臉識別技術正廣泛的應用于多個安檢系統(tǒng)中,警方只需將犯罪分子的臉部數(shù)據(jù)采集到安檢數(shù)據(jù)庫,那么只要犯罪分子一出現(xiàn),系統(tǒng)就能精確地將其識別出來?,F(xiàn)如今人臉識別技術已經(jīng)相對成熟,谷歌在picasa照片分享軟件的工具中就已經(jīng)加入了人臉識別功效。固然,人臉識別技術牽涉到隱私,是把雙刃劍,谷歌在谷歌街景地圖中故意將人臉含糊化,變得無法識別就是這個因素。如圖所示為人臉識別示意圖。人臉識別示意圖即使需要借力于其它技術,但是人臉識別中的重要技術還是來自于數(shù)據(jù)挖掘中的分類算法(classification)。讓我們從一種最簡樸的事實來解釋分類的思想。構想一下,一天中午,你第一次到三里屯,站在幾家以前從未去過的餐廳門前,現(xiàn)在的問題是該選擇哪家餐廳用餐。應當如何選擇呢?假設您沒有帶手機,無法上網(wǎng)查詢,那么可能會出現(xiàn)以下兩種狀況:一種,你記起某位朋友去過其中一家,并且仿佛他對這家的評價還不錯,這時,你很有可能就直接去這家了。第二種,沒有類似朋友推薦這類先驗知識,你就只能從自己以往的用餐經(jīng)歷中來選擇了,例如你可能會比較餐廳的品牌和用餐環(huán)境,由于似乎以前的經(jīng)歷告訴自己,品牌響、用餐環(huán)境好的餐廳可能味道也會好。不管與否意識得到,在最后決定去哪家吃的時候,我們已經(jīng)根據(jù)自己的判斷原則把候選的這幾家餐廳分類了,可能分成好、中、差三類或者值得去、不值得去兩類。而最后去了自己選擇的那家餐廳,吃完過后我們自然也會根據(jù)自己的真實體驗來鑒定我們的判斷準則與否對的,同時根據(jù)這次的體驗來修正或改善自己的判斷準則,決定下次與否還會來這家餐廳或者與否把它推薦給朋友。選擇餐廳的過程其實就是一種分類的過程,這類分類例子是屢見不鮮的。在古時,司天監(jiān)會依賴長時間積累的信息,通過觀察天象對與否會有天災做出分類預測。古人則通過對四季氣候雨水的常年觀察,總結(jié)出農(nóng)作物最佳播種時間。在伯樂的《相馬經(jīng)》中,就通過簡樸分類分辨出羸馬的三條原則:“大頭小頸,弱脊大腹,小頸大蹄”。其實在數(shù)據(jù)挖掘領域,有大量基于海量數(shù)據(jù)的分類問題。普通,我們先把數(shù)據(jù)分成訓練集(trainingset)和測試集(testingset),通過對歷史訓練集的訓練,生成一種或多個分類器(classifier),將這些分類器應用到測試集中,就能夠?qū)Ψ诸惼鞯男阅芎途_性做出評判。如果效果不佳,那么我們或者重新選擇訓練集,或者調(diào)節(jié)訓練模式,直到分類器的性能和精確性達成規(guī)定為止。最后將選出的分類器應用到未經(jīng)分類的新數(shù)據(jù)中,就能夠?qū)π聰?shù)據(jù)的類別做出預測了。節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。未完待續(xù)……end.標簽:除非特別注明,本站全部文章均不代表本站觀點。報道中出現(xiàn)的商標屬于其正當持有人。請恪守理性,寬容,換位思考的原則。猜你喜歡-02-17-02-11-02-06-01-21-01-19-12-23-12-15-11-25-11-02-10-26【篇二:大數(shù)據(jù)數(shù)據(jù)挖掘案例】馬云說:互聯(lián)網(wǎng)還沒搞清晰的時候,移動互聯(lián)就來了,移動互聯(lián)還沒搞清晰的時候,大數(shù)據(jù)就來了。近兩年,“大數(shù)據(jù)”這個詞越來越為大眾所熟悉,“大數(shù)據(jù)”始終是以高冷的形象出現(xiàn)在大眾面前,面對大數(shù)據(jù),相信許多人都一頭霧水。下面我們通過十個典型案例,讓大家實打?qū)嵱|摸一把“大數(shù)據(jù)”。你會發(fā)現(xiàn)它其實就在身邊并且也是很有趣的。啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客在購置嬰兒尿片時,經(jīng)常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術應用的典型案例,被人津津樂道。數(shù)據(jù)新聞讓英國撤軍10月23日《衛(wèi)報》運用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中全部的人員傷亡狀況均標注于地圖之上。地圖上一種紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有具體的闡明:傷亡人數(shù)、時間,造成傷亡的具體因素。密布的紅點多達39萬,顯得格外觸目驚心。一經(jīng)刊出立刻引發(fā)朝野震動,推動英國最后做出撤出駐伊拉克軍隊的決定。意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購置最多的文胸尺碼為b罩杯。b罩杯占比達41.45%,其中又以75b的銷量最佳。另首先是a罩杯,購置占比達25.26%,c罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。qq圈子把前女友推薦給未婚妻3月騰訊推出qq圈子,按共同好友的連鎖反映攤開顧客的人際關系網(wǎng),把顧客的前女友推薦給未婚妻,把同窗同事朋友圈子分門別類,運用大數(shù)據(jù)解決能力給人帶來“震撼”?!澳хR”預知石油市場走向如果你對“魔鏡”還停留在“魔鏡魔鏡,告訴我誰是世界上最美的女人”,那你就真的out了。“魔鏡”不僅僅是童話中王后的寶貝,并且是真實世界中的一款神器。其實,“魔鏡”是蘇州國云數(shù)據(jù)科技公司的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,并且是國內(nèi)首款喔。在現(xiàn)在,“魔鏡”能夠通過數(shù)據(jù)的整合分析可視化不僅能夠得出誰是世界上最美的女人,還能通過價量關系得出市場的走向。在很快前,“魔鏡”協(xié)助中石等公司分析數(shù)據(jù),將數(shù)據(jù)可視化,使公司科學的判斷、決策,節(jié)省成本,合理配備資源,提高了收益。谷歌成功預測冬季流感,谷歌通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在到間季節(jié)性流感傳輸時期的數(shù)據(jù)進行比較,并建立一種特定的數(shù)學模型。最后谷歌成功預測了冬季流感的傳輸甚至能夠具體到特定的地區(qū)和州。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一種對本身全部dna和腫瘤dna進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是涉及整個基因的數(shù)據(jù)文檔。醫(yī)生按照全部基因按需下藥,最后這種方式協(xié)助喬布斯延長了好幾年的生命。奧巴馬大選連任成功11月奧巴馬大選連任成功的勝利果實也被歸功于大數(shù)據(jù),由于他的競選團體進行了大規(guī)模與進一步的數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗進行決策的優(yōu)勢急劇下降,在政治領域,大數(shù)據(jù)的時代已經(jīng)到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數(shù)據(jù)時代的來臨興奮不已,無數(shù)公司和創(chuàng)業(yè)者都紛紛跳進了這個狂歡隊伍。微軟大數(shù)據(jù)成功預測奧斯卡21項大獎,微軟紐約研究院的經(jīng)濟學家大衛(wèi)??羅斯柴爾德(davidrothschild)運用大數(shù)據(jù)成功預測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示當代科技的神奇魔力。超市預知高中生顧客懷孕明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一種高中生。但沒多久他卻來電道歉,由于女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析顧客全部的購物數(shù)據(jù),然后通過有關關系分析得出事情的真實狀況。精選自:速途網(wǎng),原文地址:/content/523734.shtml本文tags:數(shù)據(jù)挖掘數(shù)據(jù)分析那些事數(shù)據(jù)分析【篇三:大數(shù)據(jù)數(shù)據(jù)挖掘案例】摘要:下列內(nèi)容整頓自6月4日由數(shù)據(jù)分析網(wǎng)舉辦的《大嘴巴漫談數(shù)據(jù)挖掘典型案例賞析》分享活動中,易向軍老師的講話內(nèi)容。數(shù)據(jù)分析網(wǎng)的朋友們,大家晚上好,首先很感謝數(shù)據(jù)分析網(wǎng)的支持,提供這樣一種平臺,能夠和大家一起分享、交流。作為《大嘴巴漫談數(shù)據(jù)挖掘(第2季)》的新書公布會,今天重要給大家?guī)?個數(shù)據(jù)挖掘的典型案例。一、產(chǎn)品精細化運行之道運行的核心在于持續(xù)性改善,運行分析需要確保數(shù)據(jù)的精確與一致性;能夠容忍一定程度上精確性的偏差。那么,精確和精確有什么區(qū)別呢?精確是指現(xiàn)象或者測量值相對事實之間的離散程度小,也就是我們口語的靠近事實、符合事實等;精確是指在條件不變的狀況下,現(xiàn)象或者測量值能夠低離散程度的重復再現(xiàn),也就是我們口語說的次次如此、回回同樣等。下面的crisp-dm代表了數(shù)據(jù)挖掘的原則過程。在這個原則過程中最重要的是哪一種環(huán)節(jié)呢?(討論ing)@mountain全部的業(yè)務都是圍繞需求來的@數(shù)據(jù)哥需求分析,想清晰怎么干,否則南轅北轍@fs只有懂得客戶需求,才干滿足客戶的需要因此最重要的是商業(yè)理解。購物籃模型,用一句話來說,就是在適宜的時間、適宜的地點,通過適宜的方式,向適宜的人群推薦適宜的產(chǎn)品。那么當我們擬定了購物籃分析模型的第一目的后,即我們的第一步商業(yè)理解結(jié)束之后,第二步便是數(shù)據(jù)理解。這一步需要將我們的業(yè)務模型映射到數(shù)據(jù)模型,或者換句話說,我們需要什么樣的數(shù)據(jù)來支撐我們的分析目的?我們需要什么樣的數(shù)據(jù)一定要基于我們的分析目的,那么我們來分析下我們的目的。第一種目的是研究我們的商品,找到商品與商品之間的某種聯(lián)系。研究商品需要什么樣的數(shù)據(jù)呢?消費購物單,就是我們需要超市機構反饋給我們的票單據(jù)(小單子),這是我們商品的購置數(shù)據(jù)。除了商品的購置數(shù)據(jù),還需要什么數(shù)據(jù)?我們除了要研究商品,還要研究消費者。研究消費者需要消費者個人屬性數(shù)據(jù)。(在實際的工作中,根據(jù)實際需要,不限于這里列出的數(shù)據(jù)。)接下來是第三步是數(shù)據(jù)準備。在這個過程中需要理解數(shù)據(jù),會用到清理、集成、變換、歸約的辦法,由于原始數(shù)據(jù)來自于我們的多個業(yè)務平臺。清理:補充缺失值、平滑噪聲數(shù)據(jù)、識別或刪除離群點并解決數(shù)據(jù)不一致性集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合起來并同意存儲變換:將數(shù)據(jù)轉(zhuǎn)換為合用于挖掘的形式,例如屬性規(guī)范化歸約:通過壓縮、聚集、離散化等辦法減少數(shù)據(jù)存儲空間,并保持模型成果與歸約前幾乎相似數(shù)據(jù)準備之后,是數(shù)據(jù)建模,也就是通過數(shù)學的辦法來解決業(yè)務問題。那么如何把業(yè)務問題轉(zhuǎn)化成數(shù)據(jù)辦法呢?我們的分析目的是找到商品之間的某種聯(lián)系,這里要用到什么數(shù)學辦法(業(yè)務語言),這句話轉(zhuǎn)化為數(shù)學角度來理解,就是找到商品之間某種聯(lián)系的一種可能性(數(shù)據(jù)語言)。可能性問題就是概率,概率就是用來量化可能性的問題。例如:在購置a商品的條件下購置b商品的概率是條件概率,a、b兩個商品一起購置的概率是聯(lián)合概率。我們最后發(fā)現(xiàn)商品之間存在某種聯(lián)系,就是幾個可能性,而這幾個可能性就是概率。一種是聯(lián)合概率,有購置a商品和購置b商品的概率,這個聯(lián)合概率我們給它定義一種關聯(lián)規(guī)則算法,叫做支持度。一種是條件概率,在購置a商品的條件下,又購置了b商品的概率,這個條件概率,我們稱之為置信度。支持度越高,置信度越高,那么a、b商品之前的有關性就越強。在咱們這個概率中或者在數(shù)學中,研究有關性尚有那些指標?大家要把置信度理解為一種條件概率,嚴格來說跟置信區(qū)間沒什么太大關系。研究有關性尚有一種有關系數(shù),有關系數(shù)的范疇是-1到1,絕對值越靠近于1,闡明有關性越強;絕對值越靠近于0,闡明有關性越弱。(0,1)之間為正有關,(-1,0)之間為負有關。正有關和負有關是數(shù)學名詞,負有關在業(yè)務上怎么理解呢?負有關闡明a、b這兩個商品是互相排斥的,買了a就不會再買b,能夠替代。假設a、b這兩個商品是互相排斥的,給出兩個概率,一種概率是在購置了a商品的前提下購置b商品的概率,一種是沒有任何前提條件下直接購置b商品的概率。這兩個概率誰大誰小?直接購置的概率大,由于a、b排斥,購置了a會影響購置b,極端狀況下,購置了a就不再購置b。支持度和置信度,只能衡量兩個商品的正有關,無法衡量負有關。為此我們引入第三個指標,提高度。如果提高度不大于1,闡明這個兩個商品是互相排斥的;如果提高度不不大于1,闡明這個兩個商品是互相增進的。提高度等于1,闡明a、b互相獨立,不存在任何關系。通過以上的分析,最后通過關聯(lián)規(guī)則算法,我們但愿支持度和置信度大某些,這里普通會定義一種最小值,這個最小值需要通過業(yè)務經(jīng)驗來擬定。通過關聯(lián)規(guī)則找到了2類強關聯(lián)的商品組合之后,接下來需要做什么?看我們的分析目的,我們第一種分析目的就是研究商品,找到商品之間的關聯(lián)組合。第二個分析目的,研究消費者。什么樣的消費者會購置這類商品組合,這是我們接下來要完畢的任務。研究消費者,我們用決策樹模型。樹重要有3部分構成:根,分支,葉子。其中根是最重要的。什么是決策呢?簡樸來說,就是做決定,是一種選擇,從若干個方案中找到最優(yōu)的方案。決策首先會有一種決策目的,或者叫決策結(jié)論。決策結(jié)論不是拍腦袋的,一定要有一種決策根據(jù),通過決策根據(jù)做判斷。決策由決策根據(jù)和決策結(jié)論構成。決策結(jié)論就是樹的葉子,決策根據(jù)是樹的根,這樣決策就和樹建立聯(lián)系了。哪些消費者會購置強關聯(lián)的商品組合?對老板來說,這就是一種決策問題。在這個決策問題中,決策根據(jù)就是人的特性。老板要根據(jù)顧客的基本屬性來判斷。決策是一種判斷題:買還是不買。決策流程涉及決策根據(jù)和決策結(jié)論。從根到葉子的途徑都是一種決策流程。一種決策樹上有若干個決策途徑,我們就是要從若干個決策途徑中找到最優(yōu)的途徑。我們根據(jù)什么來判斷這個途徑的好壞?概率大小,看哪一種途徑在樣本中出現(xiàn)的次數(shù)最多,就認為是最優(yōu)的。出現(xiàn)次數(shù)最多是一種概率問題,頻率和概率有什么關系?頻率是概率的實驗值,概率是頻率的理論值。有同窗說頭大了,其實,我們學習數(shù)據(jù)挖掘,最后研究的業(yè)務問題以及模型構建,就是數(shù)學上的統(tǒng)計問題,因此統(tǒng)計學一定要學好,否則學習模型會比較吃力。也就是說數(shù)據(jù)挖掘也是有一定門檻的,對數(shù)學是有規(guī)定的。我們通過決策樹模型最后得到兩類人群。能夠清晰地定位哪些消費者會購置我們的商品組合,而不是漫無目的的推薦。以上內(nèi)容是第一種案例。可能今天不能把3個案例都講完,但是我想的是不用圖快,把某些知識點給大家講清晰,講透徹。下面我們來看顧客體驗中的數(shù)據(jù)挖掘案例。二、顧客體驗中的數(shù)據(jù)挖掘顧客體驗如何跟數(shù)據(jù)挖掘結(jié)合起來呢?什么是顧客體驗?顧客是使用產(chǎn)品的人,體驗是感受,是主觀的,而我們進行數(shù)據(jù)分析或者數(shù)據(jù)挖掘是基于客觀的對象。第一步就需要量化,把主觀的體驗量化成客觀的數(shù)據(jù)。如何量化顧客體驗呢?例如形容一種食品特別好吃,食品的體驗特別好。能夠用色香味俱全來形容,這就是量化的東西。色,指顏色,好看,通過視覺來測量。香,通過嗅覺來測量。味,通過味覺,嘗一嘗來測量。形容一種食品特別好吃,是很主觀的,但是能夠通過色香味這3個能夠測量的方面來形容。我們再舉一種具體的產(chǎn)品,例如一種網(wǎng)站,就是一種產(chǎn)品,我們怎么來形容和描述某一種網(wǎng)站的顧客體驗好。登錄或者打開一種網(wǎng)站,最直接的體驗就是界面好看。例如,我們拿數(shù)據(jù)分析網(wǎng)來說,打開數(shù)據(jù)分析網(wǎng)覺得界面很美觀,視覺效果好。除了界面,我們還要看內(nèi)容,更新與否及時,與否有價值;尚有打開速度。對于一種購物網(wǎng)站,最重要的體驗是什么?安全性??偨Y(jié)下,界面、內(nèi)容、性能、效率、安全等是衡量一種網(wǎng)站發(fā)展的體驗方面。通過食品和網(wǎng)站這兩個例子,如果讓你來量化某一種產(chǎn)品的顧客體驗,你首先應當怎么辦?顧客體驗是一種主觀的東西,主觀的東西不能被直接測量,因此需要定指標。定指標,分解到指標。為什么強調(diào)分解這個詞呢。由于顧客體驗本身是個很主觀的東西,不能被直接測量,就需要把它分解成若干個可直接測量的指標,這是很核心的第一步。通過這些間接的指標組合,衡量整個產(chǎn)品的顧客體驗。我

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論