大數(shù)據(jù)數(shù)據(jù)挖掘案例_第1頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第2頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第3頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第4頁
大數(shù)據(jù)數(shù)據(jù)挖掘案例_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)數(shù)據(jù)挖掘案例【篇一:大數(shù)據(jù)數(shù)據(jù)挖掘案例】本文為系列文,該篇為第一篇。下面是正文:簡而言之,數(shù)據(jù)挖掘(datamining)是有組織有目的地收集數(shù)據(jù),通過分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識的技術(shù)。在本文中,我們從數(shù)據(jù)挖掘的實(shí)例出發(fā),并以數(shù)據(jù)挖掘中比較經(jīng)典的分類算法入手,給讀者介紹我們怎樣利用數(shù)據(jù)挖掘的技術(shù)解決現(xiàn)實(shí)中出現(xiàn)的問題。數(shù)據(jù)挖掘是如何解決問題的?本節(jié)通過幾個數(shù)據(jù)挖掘?qū)嶋H案例來詮釋如何通過數(shù)據(jù)挖掘解決商業(yè)中遇到的問題。下面關(guān)于“啤酒和尿不濕”的故事是數(shù)據(jù)挖掘中最經(jīng)典的案例。而target公司通過“懷孕預(yù)測指數(shù)”來預(yù)測女顧客是否懷孕的案例也是近來為數(shù)據(jù)挖掘?qū)W者最津津樂道的一個話題。尿不濕和啤酒很多人會問,究竟數(shù)據(jù)挖掘能夠?yàn)槠髽I(yè)做些什么?下面我們通過一個在數(shù)據(jù)挖掘中最經(jīng)典的案例來解釋這個問題——一個關(guān)于尿不濕與啤酒的故事。超級商業(yè)零售連鎖巨無霸沃爾瑪公司(walmart)擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行了購物籃關(guān)聯(lián)規(guī)則分析,從而知道顧客經(jīng)常一起購買的商品有哪些。在沃爾瑪龐大的數(shù)據(jù)倉庫里集合了其所有門店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個令人驚奇和意外的結(jié)果出現(xiàn)了:“跟尿不濕一起購買最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術(shù)對歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映的是數(shù)據(jù)的內(nèi)在規(guī)律。那么這個結(jié)果符合現(xiàn)實(shí)情況嗎?是否是一個有用的知識?是否有利用價值?為了驗(yàn)證這一結(jié)果,沃爾瑪派出市場調(diào)查人員和分析師對這一結(jié)果進(jìn)行調(diào)查分析。經(jīng)過大量實(shí)際調(diào)查和分析,他們揭示了一個隱藏在“尿不濕與啤酒”背后的美國消費(fèi)者的一種行為模式:在美國,到超市去買嬰兒尿不濕是一些年輕的父親下班后的日常工作,而他們中有30%~40%的人同時也會為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫不要忘了下班后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡的啤酒。另一種情況是丈夫們在買啤酒時突然記起他們的責(zé)任,又去買了尿不濕。既然尿不濕與啤酒一起被購買的機(jī)會很多,那么沃爾瑪就在他們所有的門店里將尿不濕與啤酒并排擺放在一起,結(jié)果是得到了尿不濕與啤酒的銷售量雙雙增長。按常規(guī)思維,尿不濕與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)這一有價值的規(guī)律的。target和懷孕預(yù)測指數(shù)關(guān)于數(shù)據(jù)挖掘的應(yīng)用,最近還有這樣一個真實(shí)案例在數(shù)據(jù)挖掘和營銷挖掘領(lǐng)域廣為流傳。美國一名男子闖入他家附近的一家美國零售連鎖超市target店鋪(美國第三大零售商塔吉特)進(jìn)行抗議:“你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券。”店鋪經(jīng)理立刻向來者承認(rèn)錯誤,但是其實(shí)該經(jīng)理并不知道這一行為是總公司運(yùn)行數(shù)據(jù)挖掘的結(jié)果。如圖所示。一個月后,這位父親來道歉,因?yàn)檫@時他才知道他的女兒的確懷孕了。target比這位父親知道他女兒懷孕的時間足足早了一個月。target懷孕預(yù)測指數(shù)target能夠通過分析女性客戶購買記錄,“猜出”哪些是孕婦。他們從target的數(shù)據(jù)倉庫中挖掘出25項與懷孕高度相關(guān)的商品,制作“懷孕預(yù)測”指數(shù)。比如他們發(fā)現(xiàn)女性會在懷孕四個月左右,大量購買無香味乳液。以此為依據(jù)推算出預(yù)產(chǎn)期后,就搶先一步將孕婦裝、嬰兒床等折扣券寄給客戶來吸引客戶購買。如果不是在擁有海量的用戶交易數(shù)據(jù)基礎(chǔ)上實(shí)施數(shù)據(jù)挖掘,target不可能做到如此精準(zhǔn)的營銷。電子商務(wù)網(wǎng)站流量分析網(wǎng)站流量分析,是指在獲得網(wǎng)站訪問量基本數(shù)據(jù)的情況下對有關(guān)數(shù)據(jù)進(jìn)行的統(tǒng)計和分析,其常用手段就是web挖掘。web挖掘可以通過對流量的分析,幫助我們了解web上的用戶訪問模式。那么了解用戶訪問模式有哪些好處呢?在技術(shù)架構(gòu)上,我們可以合理修改網(wǎng)站結(jié)構(gòu)及適度分配資源,構(gòu)建后臺服務(wù)器群組,比如輔助改進(jìn)網(wǎng)絡(luò)的拓?fù)湓O(shè)計,提高性能,在有高度相關(guān)性的節(jié)點(diǎn)之間安排快速有效的訪問路徑等。幫助企業(yè)更好地設(shè)計網(wǎng)站主頁和安排網(wǎng)頁內(nèi)容。幫助企業(yè)改善市場營銷決策,如把廣告放在適當(dāng)?shù)膚eb頁面上。幫助企業(yè)更好地根據(jù)客戶的興趣來安排內(nèi)容。幫助企業(yè)對客戶群進(jìn)行細(xì)分,針對不同客戶制定個性化的促銷策略等。人們在訪問某網(wǎng)站的同時,便提供了個人對網(wǎng)站內(nèi)容的反饋信息:點(diǎn)擊了哪一個鏈接,在哪個網(wǎng)頁停留時間最多,采用了哪個搜索項、總體瀏覽時間等。而所有這些信息都被保存在網(wǎng)站日志中。從保存的信息來看,網(wǎng)站雖然擁有了大量的網(wǎng)站訪客及其訪問內(nèi)容的信息,但擁有了這些信息卻不等于能夠充分利用這些信息。那么如果將這些數(shù)據(jù)轉(zhuǎn)換到數(shù)據(jù)倉庫中呢?這些帶有大量信息的數(shù)據(jù)借助數(shù)據(jù)倉庫報告系統(tǒng)(一般稱作在線分析處理系統(tǒng)),雖然能給出可直接觀察到的和相對簡單直接的信息,卻也不能告訴網(wǎng)站其信息模式及怎樣對其進(jìn)行處理,而且它一般不能分析復(fù)雜信息。所以對于這些相對復(fù)雜的信息或是不那么直觀的問題,我們就只能通過數(shù)據(jù)挖掘技術(shù)來解決,即通過機(jī)器學(xué)習(xí)算法,找到數(shù)據(jù)庫中的隱含模式,報告結(jié)果或按照結(jié)果執(zhí)行。為了讓電子商務(wù)網(wǎng)站能夠充分應(yīng)用數(shù)據(jù)挖掘技術(shù),我們需要采集更加全面的數(shù)據(jù),采集的數(shù)據(jù)越全面,分析就能越精準(zhǔn)。在實(shí)際操作中,有以下幾個方面的數(shù)據(jù)可以被采集:訪客的系統(tǒng)屬性特征。比如所采用的操作系統(tǒng)、瀏覽器、域名和訪問速度等。訪問特征。包括停留時間、點(diǎn)擊的url等。條款特征。包括網(wǎng)絡(luò)內(nèi)容信息類型、內(nèi)容分類和來訪url等。產(chǎn)品特征。包括所訪問的產(chǎn)品編號、產(chǎn)品目錄、產(chǎn)品顏色、產(chǎn)品價格、產(chǎn)品利潤、產(chǎn)品數(shù)量和特價等級等。當(dāng)訪客訪問該網(wǎng)站時,以上有關(guān)此訪客的數(shù)據(jù)信息便會逐漸被積累起來,那么我們就可以通過這些積累而成的數(shù)據(jù)信息整理出與這個訪客有關(guān)的信息以供網(wǎng)站使用??梢哉沓尚偷男畔⒋笾驴梢苑譃橐韵聨讉€方面:訪客的購買歷史以及廣告點(diǎn)擊歷史。訪客點(diǎn)擊的超鏈接的歷史信息。訪客的總鏈接機(jī)會(提供給訪客的超級鏈接)。訪客總的訪問時間。訪客所瀏覽的全部網(wǎng)頁。訪客每次會話的產(chǎn)出利潤。訪客每個月的訪問次數(shù)及上一次的訪問時間等。訪客對于商標(biāo)總體正面或負(fù)面的評價。分類:從人臉識別系統(tǒng)說起美國電視劇《反恐24小時》中有一集,當(dāng)一個恐怖分子用手機(jī)撥打了一個電話,從ctu(反恐部隊)的計算機(jī)系統(tǒng)中便立刻發(fā)出恐怖分子出現(xiàn)的預(yù)警。很多好萊塢的大片中此類智能系統(tǒng)的應(yīng)用也比比皆是,它能從茫茫人群中實(shí)時找出正在苦苦追蹤的恐怖分子或間諜。而在2008年北京奧運(yùn)會上,最引人注意的it熱點(diǎn)莫過于“實(shí)時人臉識別技術(shù)”在奧運(yùn)會安檢系統(tǒng)中的應(yīng)用,這種技術(shù)通過對人臉關(guān)鍵部位的數(shù)據(jù)采集,讓系統(tǒng)能夠精確地識別出所有進(jìn)出奧運(yùn)場館的觀眾身份。目前人臉識別技術(shù)正廣泛的應(yīng)用于各種安檢系統(tǒng)中,警方只需將犯罪分子的臉部數(shù)據(jù)采集到安檢數(shù)據(jù)庫,那么只要犯罪分子一出現(xiàn),系統(tǒng)就能精確地將其識別出來?,F(xiàn)如今人臉識別技術(shù)已經(jīng)相對成熟,谷歌在picasa照片分享軟件的工具中就已經(jīng)加入了人臉識別功能。當(dāng)然,人臉識別技術(shù)牽涉到隱私,是把雙刃劍,谷歌在谷歌街景地圖中故意將人臉模糊化,變得無法識別就是這個原因。如圖所示為人臉識別示意圖。人臉識別示意圖雖然需要借力于其他技術(shù),但是人臉識別中的主要技術(shù)還是來自于數(shù)據(jù)挖掘中的分類算法(classification)。讓我們從一個最簡單的事實(shí)來解釋分類的思想。設(shè)想一下,一天中午,你第一次到三里屯,站在幾家以前從未去過的餐廳門前,現(xiàn)在的問題是該選擇哪家餐廳用餐。應(yīng)該怎樣選擇呢?假設(shè)您沒有帶手機(jī),無法上網(wǎng)查詢,那么可能會出現(xiàn)如下兩種情況:一種,你記起某位朋友去過其中一家,并且好像他對這家的評價還不錯,這時,你很有可能就直接去這家了。第二種,沒有類似朋友推薦這類先驗(yàn)知識,你就只能從自己以往的用餐經(jīng)歷中來選擇了,例如你可能會比較餐廳的品牌和用餐環(huán)境,因?yàn)樗坪跻郧暗慕?jīng)歷告訴自己,品牌響、用餐環(huán)境好的餐廳可能味道也會好。不管是否意識得到,在最終決定去哪家吃的時候,我們已經(jīng)根據(jù)自己的判斷標(biāo)準(zhǔn)把候選的這幾家餐廳分類了,可能分成好、中、差三類或者值得去、不值得去兩類。而最終去了自己選擇的那家餐廳,吃完過后我們自然也會根據(jù)自己的真實(shí)體驗(yàn)來判定我們的判斷準(zhǔn)則是否正確,同時根據(jù)這次的體驗(yàn)來修正或改進(jìn)自己的判斷準(zhǔn)則,決定下次是否還會來這家餐廳或者是否把它推薦給朋友。選擇餐廳的過程其實(shí)就是一個分類的過程,此類分類例子是屢見不鮮的。在古時,司天監(jiān)會依賴長時間積累的信息,通過觀察天象對是否會有天災(zāi)做出分類預(yù)測。古人則通過對四季氣候雨水的常年觀察,總結(jié)出農(nóng)作物最佳播種時間。在伯樂的《相馬經(jīng)》中,就通過簡單分類區(qū)分出羸馬的三條標(biāo)準(zhǔn):“大頭小頸,弱脊大腹,小頸大蹄”。其實(shí)在數(shù)據(jù)挖掘領(lǐng)域,有大量基于海量數(shù)據(jù)的分類問題。通常,我們先把數(shù)據(jù)分成訓(xùn)練集(trainingset)和測試集(testingset),通過對歷史訓(xùn)練集的訓(xùn)練,生成一個或多個分類器(classifier),將這些分類器應(yīng)用到測試集中,就可以對分類器的性能和準(zhǔn)確性做出評判。如果效果不佳,那么我們或者重新選擇訓(xùn)練集,或者調(diào)整訓(xùn)練模式,直到分類器的性能和準(zhǔn)確性達(dá)到要求為止。最后將選出的分類器應(yīng)用到未經(jīng)分類的新數(shù)據(jù)中,就可以對新數(shù)據(jù)的類別做出預(yù)測了。節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。未完待續(xù)……end.標(biāo)簽:除非特別注明,本站所有文章均不代表本站觀點(diǎn)。報道中出現(xiàn)的商標(biāo)屬于其合法持有人。請遵守理性,寬容,換位思考的原則。猜你喜歡2017-02-172017-02-112017-02-062017-01-212017-01-192016-12-232016-12-152016-11-252016-11-022016-10-26【篇二:大數(shù)據(jù)數(shù)據(jù)挖掘案例】馬云說:互聯(lián)網(wǎng)還沒搞清楚的時候,移動互聯(lián)就來了,移動互聯(lián)還沒搞清楚的時候,大數(shù)據(jù)就來了。近兩年,“大數(shù)據(jù)”這個詞越來越為大眾所熟悉,“大數(shù)據(jù)”一直是以高冷的形象出現(xiàn)在大眾面前,面對大數(shù)據(jù),相信許多人都一頭霧水。下面我們通過十個經(jīng)典案例,讓大家實(shí)打?qū)嵱|摸一把“大數(shù)據(jù)”。你會發(fā)現(xiàn)它其實(shí)就在身邊而且也是很有趣的。啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費(fèi)者購物行為分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人津津樂道。數(shù)據(jù)新聞讓英國撤軍2010年10月23日《衛(wèi)報》利用維基解密的數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標(biāo)注于地圖之上。地圖上一個紅點(diǎn)便代表一次死傷事件,鼠標(biāo)點(diǎn)擊紅點(diǎn)后彈出的窗口則有詳細(xì)的說明:傷亡人數(shù)、時間,造成傷亡的具體原因。密布的紅點(diǎn)多達(dá)39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購買最多的文胸尺碼為b罩杯。b罩杯占比達(dá)41.45%,其中又以75b的銷量最好。其次是a罩杯,購買占比達(dá)25.26%,c罩杯只有8.96%。在文胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。qq圈子把前女友推薦給未婚妻2012年3月騰訊推出qq圈子,按共同好友的連鎖反應(yīng)攤開用戶的人際關(guān)系網(wǎng),把用戶的前女友推薦給未婚妻,把同學(xué)同事朋友圈子分門別類,利用大數(shù)據(jù)處理能力給人帶來“震撼”?!澳хR”預(yù)知石油市場走向如果你對“魔鏡”還停留在“魔鏡魔鏡,告訴我誰是世界上最美的女人”,那你就真的out了。“魔鏡”不僅僅是童話中王后的寶貝,而且是真實(shí)世界中的一款神器。其實(shí),“魔鏡”是蘇州國云數(shù)據(jù)科技公司的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國內(nèi)首款喔。在現(xiàn)在,“魔鏡”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是世界上最美的女人,還能通過價量關(guān)系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學(xué)的判斷、決策,節(jié)約成本,合理配置資源,提高了收益。google成功預(yù)測冬季流感2009年,google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進(jìn)行比較,并建立一個特定的數(shù)學(xué)模型。最終google成功預(yù)測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個對自身所有dna和腫瘤dna進(jìn)行排序的人。為此,他支付了高達(dá)幾十萬美元的費(fèi)用。他得到的不是樣本,而是包括整個基因的數(shù)據(jù)文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。奧巴馬大選連任成功2012年11月奧巴馬大選連任成功的勝利果實(shí)也被歸功于大數(shù)據(jù),因?yàn)樗母傔x團(tuán)隊進(jìn)行了大規(guī)模與深入的數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗(yàn)進(jìn)行決策的優(yōu)勢急劇下降,在政治領(lǐng)域,大數(shù)據(jù)的時代已經(jīng)到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數(shù)據(jù)時代的來臨興奮不已,無數(shù)公司和創(chuàng)業(yè)者都紛紛跳進(jìn)了這個狂歡隊伍。微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項大獎2013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家大衛(wèi)??羅斯柴爾德(davidrothschild)利用大數(shù)據(jù)成功預(yù)測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預(yù)測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。超市預(yù)知高中生顧客懷孕明尼蘇達(dá)州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因?yàn)榕畠航?jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實(shí)狀況。精選自:速途網(wǎng),原文地址:/content/523734.shtml本文tags:數(shù)據(jù)挖掘數(shù)據(jù)分析那些事數(shù)據(jù)分析【篇三:大數(shù)據(jù)數(shù)據(jù)挖掘案例】摘要:以下內(nèi)容整理自6月4日由數(shù)據(jù)分析網(wǎng)舉辦的《大嘴巴漫談數(shù)據(jù)挖掘經(jīng)典案例賞析》分享活動中,易向軍老師的發(fā)言內(nèi)容。數(shù)據(jù)分析網(wǎng)的朋友們,大家晚上好,首先很感謝數(shù)據(jù)分析網(wǎng)的支持,提供這樣一個平臺,能夠和大家一起分享、交流。作為《大嘴巴漫談數(shù)據(jù)挖掘(第2季)》的新書發(fā)布會,今天主要給大家?guī)?個數(shù)據(jù)挖掘的經(jīng)典案例。一、產(chǎn)品精細(xì)化運(yùn)營之道運(yùn)營的核心在于持續(xù)性改進(jìn),運(yùn)營分析需要保證數(shù)據(jù)的精確與一致性;可以容忍一定程度上準(zhǔn)確性的偏差。那么,準(zhǔn)確和精確有什么區(qū)別呢?準(zhǔn)確是指現(xiàn)象或者測量值相對事實(shí)之間的離散程度小,也就是我們口語的接近事實(shí)、符合事實(shí)等;精確是指在條件不變的情況下,現(xiàn)象或者測量值能夠低離散程度的反復(fù)再現(xiàn),也就是我們口語說的次次如此、回回一樣等。下面的crisp-dm代表了數(shù)據(jù)挖掘的標(biāo)準(zhǔn)過程。在這個標(biāo)準(zhǔn)過程中最重要的是哪一個環(huán)節(jié)呢?(討論ing)@mountain所有的業(yè)務(wù)都是圍繞需求來的@數(shù)據(jù)哥需求分析,想清楚怎么干,否則南轅北轍@fs只有知道客戶需求,才能滿足客戶的需要所以最重要的是商業(yè)理解。購物籃模型,用一句話來說,就是在合適的時間、合適的地點(diǎn),通過合適的方式,向合適的人群推薦合適的產(chǎn)品。那么當(dāng)我們確定了購物籃分析模型的第一目標(biāo)后,即我們的第一步商業(yè)理解結(jié)束之后,第二步便是數(shù)據(jù)理解。這一步需要將我們的業(yè)務(wù)模型映射到數(shù)據(jù)模型,或者換句話說,我們需要什么樣的數(shù)據(jù)來支撐我們的分析目標(biāo)?我們需要什么樣的數(shù)據(jù)一定要基于我們的分析目標(biāo),那么我們來分析下我們的目標(biāo)。第一個目標(biāo)是研究我們的商品,找到商品與商品之間的某種聯(lián)系。研究商品需要什么樣的數(shù)據(jù)呢?消費(fèi)購物單,就是我們需要超市機(jī)構(gòu)反饋給我們的票單據(jù)(小單子),這是我們商品的購買數(shù)據(jù)。除了商品的購買數(shù)據(jù),還需要什么數(shù)據(jù)?我們除了要研究商品,還要研究消費(fèi)者。研究消費(fèi)者需要消費(fèi)者個人屬性數(shù)據(jù)。(在實(shí)際的工作中,根據(jù)實(shí)際需要,不限于這里列出的數(shù)據(jù)。)接下來是第三步是數(shù)據(jù)準(zhǔn)備。在這個過程中需要理解數(shù)據(jù),會用到清理、集成、變換、歸約的方法,因?yàn)樵紨?shù)據(jù)來自于我們的各種業(yè)務(wù)平臺。清理:補(bǔ)充缺失值、平滑噪聲數(shù)據(jù)、識別或刪除離群點(diǎn)并解決數(shù)據(jù)不一致性集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合起來并同意存儲變換:將數(shù)據(jù)轉(zhuǎn)換為適用于挖掘的形式,例如屬性規(guī)范化歸約:通過壓縮、聚集、離散化等方法減少數(shù)據(jù)存儲空間,并保持模型結(jié)果與歸約前幾乎相同數(shù)據(jù)準(zhǔn)備之后,是數(shù)據(jù)建模,也就是通過數(shù)學(xué)的方法來解決業(yè)務(wù)問題。那么如何把業(yè)務(wù)問題轉(zhuǎn)化成數(shù)據(jù)方法呢?我們的分析目標(biāo)是找到商品之間的某種聯(lián)系,這里要用到什么數(shù)學(xué)方法(業(yè)務(wù)語言),這句話轉(zhuǎn)化為數(shù)學(xué)角度來理解,就是找到商品之間某種聯(lián)系的一種可能性(數(shù)據(jù)語言)??赡苄詥栴}就是概率,概率就是用來量化可能性的問題。比如:在購買a商品的條件下購買b商品的概率是條件概率,a、b兩個商品一起購買的概率是聯(lián)合概率。我們最終發(fā)現(xiàn)商品之間存在某種聯(lián)系,就是幾個可能性,而這幾個可能性就是概率。一個是聯(lián)合概率,有購買a商品和購買b商品的概率,這個聯(lián)合概率我們給它定義一個關(guān)聯(lián)規(guī)則算法,叫做支持度。一個是條件概率,在購買a商品的條件下,又購買了b商品的概率,這個條件概率,我們稱之為置信度。支持度越高,置信度越高,那么a、b商品之前的相關(guān)性就越強(qiáng)。在咱們這個概率中或者在數(shù)學(xué)中,研究相關(guān)性還有那些指標(biāo)?大家要把置信度理解為一個條件概率,嚴(yán)格來說跟置信區(qū)間沒什么太大關(guān)系。研究相關(guān)性還有一個相關(guān)系數(shù),相關(guān)系數(shù)的范圍是-1到1,絕對值越接近于1,說明相關(guān)性越強(qiáng);絕對值越接近于0,說明相關(guān)性越弱。(0,1)之間為正相關(guān),(-1,0)之間為負(fù)相關(guān)。正相關(guān)和負(fù)相關(guān)是數(shù)學(xué)名詞,負(fù)相關(guān)在業(yè)務(wù)上怎么理解呢?負(fù)相關(guān)說明a、b這兩個商品是互相排斥的,買了a就不會再買b,可以替代。假設(shè)a、b這兩個商品是互相排斥的,給出兩個概率,一個概率是在購買了a商品的前提下購買b商品的概率,一個是沒有任何前提條件下直接購買b商品的概率。這兩個概率誰大誰小?直接購買的概率大,因?yàn)閍、b排斥,購買了a會影響購買b,極端情況下,購買了a就不再購買b。支持度和置信度,只能衡量兩個商品的正相關(guān),無法衡量負(fù)相關(guān)。為此我們引入第三個指標(biāo),提升度。如果提升度小于1,說明這個兩個商品是互相排斥的;如果提升度大于1,說明這個兩個商品是互相促進(jìn)的。提升度等于1,說明a、b相互獨(dú)立,不存在任何關(guān)系。通過以上的分析,最終通過關(guān)聯(lián)規(guī)則算法,我們希望支持度和置信度大一些,這里一般會定義一個最小值,這個最小值需要通過業(yè)務(wù)經(jīng)驗(yàn)來確定。通過關(guān)聯(lián)規(guī)則找到了2類強(qiáng)關(guān)聯(lián)的商品組合之后,接下來需要做什么?看我們的分析目標(biāo),我們第一個分析目標(biāo)就是研究商品,找到商品之間的關(guān)聯(lián)組合。第二個分析目標(biāo),研究消費(fèi)者。什么樣的消費(fèi)者會購買這類商品組合,這是我們接下來要完成的任務(wù)。研究消費(fèi)者,我們用決策樹模型。樹主要有3部分組成:根,分支,葉子。其中根是最重要的。什么是決策呢?簡單來說,就是做決定,是一種選擇,從若干個方案中找到最優(yōu)的方案。決策首先會有一個決策目標(biāo),或者叫決策結(jié)論。決策結(jié)論不是拍腦袋的,一定要有一個決策依據(jù),通過決策依據(jù)做判斷。決策由決策依據(jù)和決策結(jié)論組成。決策結(jié)論就是樹的葉子,決策依據(jù)是樹的根,這樣決策就和樹建立聯(lián)系了。哪些消費(fèi)者會購買強(qiáng)關(guān)聯(lián)的商品組合?對老板來說,這就是一個決策問題。在這個決策問題中,決策依據(jù)就是人的特征。老板要根據(jù)顧客的基本屬性來判斷。決策是一個判斷題:買還是不買。決策流程包括決策依據(jù)和決策結(jié)論。從根到葉子的路徑都是一個決策流程。一個決策樹上有若干個決策路徑,我們就是要從若干個決策路徑中找到最優(yōu)的路徑。我們依據(jù)什么來判斷這個路徑的好壞?概率大小,看哪一個路徑在樣本中出現(xiàn)的次數(shù)最多,就認(rèn)為是最優(yōu)的。出現(xiàn)次數(shù)最多是一個概率問題,頻率和概率有什么關(guān)系?頻率是概率的實(shí)驗(yàn)值,概率是頻率的理論值。有同學(xué)說頭大了,其實(shí),我們學(xué)習(xí)數(shù)據(jù)挖掘,最終研究的業(yè)務(wù)問題以及模型構(gòu)建,就是數(shù)學(xué)上的統(tǒng)計問題,所以統(tǒng)計學(xué)一定要學(xué)好,不然學(xué)習(xí)模型會比較吃力。也就是說數(shù)據(jù)挖掘也是有一定門檻的,對數(shù)學(xué)是有要求的。我們通過決策樹模型最后得到兩類人群。可以清晰地定位哪些消費(fèi)者會購買我們的商品組合,而不是漫無目的的推薦。以上內(nèi)容是第一個案例。可能今天不能把3個案例都講完,但是我想的是不用圖快,把一些知識點(diǎn)給大家講清楚,講透徹。下面我們來看用戶體驗(yàn)中的數(shù)據(jù)挖掘案例。二、用戶體驗(yàn)中的數(shù)據(jù)挖掘用戶體驗(yàn)如何跟數(shù)據(jù)挖掘結(jié)合起來呢?什么是用戶體驗(yàn)?用戶是使用產(chǎn)品的人,體驗(yàn)是感受,是主觀的,而我們進(jìn)行數(shù)據(jù)分析或者數(shù)據(jù)挖掘是基于客觀的對象。第一步就需要量化,把主觀的體驗(yàn)量化成客觀的數(shù)據(jù)。如何量化用戶體驗(yàn)?zāi)?比如形容一種食品特別好吃,食品的體驗(yàn)特別好??梢杂蒙阄毒闳珌硇稳?,這就是量化的東西。色,指顏色,好看,通過視覺來測量。香,通過嗅覺來測量。味,通過味覺,嘗一嘗來測量。形容一種食品特別好吃,是很主觀的,但是可以通過色香味這3個可以測量的方面來形容。我們再舉一個具體的產(chǎn)品,比如一個網(wǎng)站,就是一個產(chǎn)品,我們怎么來形容和描述某一個網(wǎng)站的用戶體驗(yàn)好。登錄或者打開一個網(wǎng)站,最直接的體驗(yàn)就是界面好看。比如,我們拿數(shù)據(jù)分析網(wǎng)來說,打開數(shù)據(jù)分析網(wǎng)覺得界面很美觀,視覺效果好。除了界面,我們還要看內(nèi)容,更新是否及時,是否有價值;還有打開速度。對于一個購物網(wǎng)站,最重要的體驗(yàn)是什么?安全性??偨Y(jié)下,界面、內(nèi)容、性能、效率、安全等是衡量一個網(wǎng)站發(fā)展的體驗(yàn)方面。通過食品和網(wǎng)站這兩個例子,如果讓你來量化某一個產(chǎn)品的用戶體驗(yàn),你首先應(yīng)該怎么辦?用戶體驗(yàn)是一個主觀的東西,主觀的東西不能被直接測量,所以需要定指標(biāo)。定指標(biāo),分解到指標(biāo)。為什么強(qiáng)調(diào)分解這個詞呢。因?yàn)橛脩趔w驗(yàn)本身是個很主觀的東西,不能被直接測量,就需要把它分解成若干個可直接測量的指標(biāo),這是很關(guān)鍵的第一步。通過這些間接的指標(biāo)組合,衡量整個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論