大數(shù)據(jù)應(yīng)用案例分析教學(xué)課件(共22張)_第1頁(yè)
大數(shù)據(jù)應(yīng)用案例分析教學(xué)課件(共22張)_第2頁(yè)
大數(shù)據(jù)應(yīng)用案例分析教學(xué)課件(共22張)_第3頁(yè)
大數(shù)據(jù)應(yīng)用案例分析教學(xué)課件(共22張)_第4頁(yè)
大數(shù)據(jù)應(yīng)用案例分析教學(xué)課件(共22張)_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)應(yīng)用案例分析第1頁(yè),共23頁(yè)。目錄大數(shù)據(jù)概念1大數(shù)據(jù)處理辦法2大數(shù)據(jù)應(yīng)用案例3第2頁(yè),共23頁(yè)。1大數(shù)據(jù)概念第3頁(yè),共23頁(yè)。大 數(shù) 據(jù) 時(shí) 代 到 來(lái)隨著智能手機(jī)的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機(jī)應(yīng)用的程度越來(lái)越深,用戶的行為、 位置、甚至身體生理等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng)。地球上至今總共的數(shù)據(jù)量:在2006 年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代, 全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機(jī)構(gòu)預(yù)測(cè):到2020 年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44 倍,達(dá)到35.2ZB(1ZB=10 億TB)!1PB = 250字節(jié)1EB = 260字節(jié)1ZB

2、= 270字節(jié)GB在2011 年,這個(gè)數(shù)字達(dá)到了1.8ZB。TBPBEBZB01第4頁(yè),共23頁(yè)。大 數(shù) 據(jù) 的 構(gòu) 成大數(shù)據(jù) =海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對(duì)海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù): 企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī) 分析數(shù)據(jù),是結(jié)構(gòu)化的、通過(guò)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理和訪 問(wèn)的靜態(tài)、歷史數(shù)據(jù)。通過(guò)這些數(shù)據(jù),我們能了解過(guò)去 發(fā)生了什么。海量交互數(shù)據(jù): 源于Facebook、Twitter、微博、及其他來(lái)源的社交媒 體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感 器信息、GPS和地理定位映射數(shù)據(jù)、通過(guò)管理文件傳輸 Manage File Transfer協(xié)議傳送的

3、海量圖像文件、Web 文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿?訴我們未來(lái)會(huì)發(fā)生什么。海量數(shù)據(jù)處理: 大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的 架構(gòu)。例如具有開(kāi)放源碼、在商品硬件群中運(yùn)行的 Apache Hadoop。注:大數(shù)據(jù) 不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜想駕馭這龐大的數(shù)據(jù),我們必 須了解大數(shù)據(jù)的特征。02第5頁(yè),共23頁(yè)。大 數(shù) 據(jù) 4V 特 征03結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化 數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、 音頻、視頻、圖片、地理位置信息等,對(duì)數(shù)據(jù)的處理 能力提出了更高要求實(shí)時(shí)獲取需要的信息比如:在客戶每次瀏覽頁(yè)面,每次下訂

4、單過(guò)程中都會(huì) 對(duì)用戶進(jìn)行實(shí)時(shí)的推薦,決策已經(jīng)變得實(shí)時(shí)數(shù)據(jù)量巨大全球在2010 年正式進(jìn)入ZB 時(shí)代,IDC預(yù)計(jì)到 2020 年,全球?qū)⒖偣矒碛?5ZB 的數(shù)據(jù)量沙里淘金,價(jià)值密度低雖然數(shù)據(jù)量很大,但是價(jià)值密度較低,如何通過(guò)強(qiáng)大 的機(jī)器算法更迅速地完成數(shù)據(jù)價(jià)值“提純”,是目前 大數(shù)據(jù)亟待解決的難題大數(shù)據(jù)產(chǎn)品市場(chǎng)價(jià)值解決方案轉(zhuǎn)化1. 海量(Volume)3.速度( Velocity)4. 價(jià)值(value)2. 多樣(Variety)第6頁(yè),共23頁(yè)。2大數(shù)據(jù)處理辦法第7頁(yè),共23頁(yè)。用 戶 畫(huà) 像 體 系01每個(gè)企業(yè)都不可以避免的要對(duì)用戶進(jìn)行畫(huà)像,用戶畫(huà)像的提出,根本上是源于企業(yè)對(duì)用戶認(rèn)知的需求

5、。 產(chǎn)品經(jīng)理,需要了解用戶的特征,對(duì)產(chǎn)品進(jìn)行功能的完善。內(nèi)容運(yùn)營(yíng)人員,需要篩選目標(biāo)用戶,對(duì)內(nèi)容進(jìn) 行精準(zhǔn)投放?;钴S程度如何?年齡分布、區(qū)域分布是什么樣的?消費(fèi)習(xí)慣和特征是什么?公司在哪?對(duì)什么感興趣?常去的商圈是哪兒?贏利點(diǎn)在哪?職業(yè)是什么?常住地在哪兒?購(gòu)買能力如何?基本特征?第8頁(yè),共23頁(yè)。用 戶 畫(huà) 像 體 系02駕駛行為數(shù)據(jù)將構(gòu)建精準(zhǔn)的車險(xiǎn)用戶畫(huà)像性別年齡國(guó)籍地理位置開(kāi)車地點(diǎn)職業(yè)駕照類別開(kāi)車頻率開(kāi)車原因健庩?duì)顩r醫(yī)療條件感知力學(xué)習(xí)周期消費(fèi)習(xí)慣民族特征教育水平婚姻狀態(tài)共用車輛情況生活方式使用藥物情況酒駕經(jīng)歷疲勞駕駛收入情況碰撞事故車輛維修犯罪記錄違章駕駛記錄 駕駛時(shí)間通過(guò)對(duì)用戶不同維度的

6、大數(shù)據(jù)分析,最終得出可執(zhí)行的業(yè)務(wù)決策?;緦傩孕袨榱?xí)慣購(gòu)買 能力心理 特征社交 網(wǎng)絡(luò)興趌 愛(ài)好第9頁(yè),共23頁(yè)?;跈C(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘及分類基本識(shí)別流程03訓(xùn)練樣本 數(shù)據(jù)源分詞特征選擇特征權(quán)重計(jì)算模型訓(xùn)練是模型評(píng)估是否通過(guò)待預(yù)測(cè) 類別文 本庫(kù)文本打 上類別 標(biāo)簽否訓(xùn) 練 及 測(cè) 試 過(guò) 程預(yù) 測(cè) 過(guò) 程訓(xùn)練生成 的模型訓(xùn)練生成 的模型待預(yù)測(cè)類 別文本原 始庫(kù)數(shù)據(jù)預(yù)處理訓(xùn)練樣本庫(kù)數(shù)據(jù)預(yù)處理a.去除營(yíng)銷博文干擾 b.去除提及人的干擾() c.去除如門戶的作者的干擾第10頁(yè),共23頁(yè)。大 數(shù) 據(jù) 的 處 理04數(shù)據(jù) 去重空值 處理數(shù)據(jù) 去噪格式 統(tǒng)一對(duì)齊融合融合信息 數(shù)據(jù)庫(kù)融合信息 數(shù)據(jù)庫(kù)里程數(shù)據(jù)工

7、況數(shù)據(jù)充電數(shù)據(jù)行駛軌跡車輛信息將空值更改為 對(duì)應(yīng)的默認(rèn)值使用UGC算法去除無(wú)用數(shù)據(jù) 使用基于密度的聚類去除異常數(shù)據(jù)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換 為統(tǒng)一數(shù)據(jù)表達(dá)形式去除異常的數(shù)據(jù)項(xiàng)匯聚多源異構(gòu)數(shù)據(jù) 中的一致部分?jǐn)?shù)據(jù)挖掘分類的過(guò)程第11頁(yè),共23頁(yè)。3大數(shù)據(jù)應(yīng)用案例第12頁(yè),共23頁(yè)。大數(shù)據(jù)是做好音樂(lè)平臺(tái)的一把利器01爽歪的麻雀,在電線桿上裸睡削個(gè)椰子皮,你卻TM給個(gè)梨撒米拉帶帶,哇嘎哇嘎哎喲想聽(tīng)的歌記不起名字?呀馬大叔與小舅舅四斤大豆,三根皮帶艾薇,莎啦啦,艾瑞噢喔噢喔,手剎多情咱切抱劉繼芬鋼鐵鍋,含眼淚喊修瓢鍋啊瑞寧瑞寧瑞寧瑞寧瑞寧第13頁(yè),共23頁(yè)。產(chǎn) 品 競(jìng) 爭(zhēng)04*聽(tīng)歌進(jìn)入社交化時(shí)代,聽(tīng)歌單、聽(tīng)歌

8、看評(píng)論成為流行聽(tīng)歌行為;*個(gè)性化推薦已覆蓋多數(shù)聽(tīng)歌用戶,越來(lái)越多用戶通過(guò)個(gè)性化推薦發(fā)現(xiàn)好音樂(lè);*聽(tīng)歌進(jìn)入多元化時(shí)代,民謠、電音、二次元音樂(lè)崛起;*獨(dú)立音樂(lè)人迅速崛起,社交互動(dòng)助推音樂(lè)人漲粉;*90后已成為音樂(lè)消費(fèi)主力人群;*用戶付費(fèi)意識(shí)明顯提高,付費(fèi)會(huì)員數(shù)和數(shù)字專輯售賣增長(zhǎng)迅猛;*綜藝影視對(duì)音樂(lè)的影響依舊強(qiáng)大,熱門歌曲中7成來(lái)源于綜藝或影視;*偶像流行樂(lè)保持高熱度,歐美歌曲受眾提升;*音樂(lè)市場(chǎng)正在構(gòu)建一種新的評(píng)價(jià)體系,評(píng)論數(shù)成為歌曲熱度重要評(píng)價(jià)指標(biāo);*男歌手受喜愛(ài)度高于女歌手,女性歌迷消費(fèi)群體經(jīng)濟(jì)崛起;截至2016年7月呈現(xiàn)2億音樂(lè)用戶聽(tīng)歌行為以及2萬(wàn)音樂(lè)人活躍行為第14頁(yè),共23頁(yè)。用戶分析

9、05目標(biāo)用戶細(xì)分群體用戶特征需求音樂(lè)消費(fèi)者學(xué)生年輕,時(shí)間寬裕,喜歡新鮮,愛(ài)評(píng)論愛(ài)分享愛(ài)展示,有個(gè)性1、個(gè)性化推薦音樂(lè)2、對(duì)音樂(lè)有評(píng)論等互動(dòng)行為3、分享展示喜歡的音樂(lè)白領(lǐng)時(shí)間碎片化,有一定壓力,會(huì)關(guān)注娛樂(lè)界動(dòng)態(tài)4、迅速找到喜歡的音樂(lè)5、推薦潮流音樂(lè)6、有明星動(dòng)態(tài)IT從業(yè)者壓力大,需要更多消遣和心理慰藉時(shí)尚人士熱愛(ài)音樂(lè)和潮流,有個(gè)性7、分享自己的口味主要需求(音樂(lè)消費(fèi)者)1、播放音樂(lè)2、發(fā)現(xiàn)音樂(lè)(喜歡的、特別的、潮流的)3、展示自我,有基于音樂(lè)的互動(dòng)。目標(biāo)用戶:熱愛(ài)音樂(lè),對(duì)音樂(lè)有較高需求的高素質(zhì)年輕人群。第15頁(yè),共23頁(yè)。用戶分析05目標(biāo)用戶:熱愛(ài)音樂(lè),對(duì)音樂(lè)有較高需求的高素質(zhì)年輕人群。通過(guò)數(shù)據(jù)

10、可以發(fā)現(xiàn)網(wǎng)易云音樂(lè)用戶群中19-30歲年齡段用戶最多,占比達(dá)到48%,整體用戶群偏年輕化。職業(yè)分布:學(xué)生和IT從業(yè)者占據(jù)絕大用戶群,企業(yè)中高層管理人員所占比例最少,另外的專業(yè)工作人員所占比例區(qū)別不大,用戶群體整體受教育程度普遍較高。第16頁(yè),共23頁(yè)。05目標(biāo)用戶細(xì)分群體用戶特征需求音樂(lè)內(nèi)容產(chǎn)生者音樂(lè)人/DJ作品找不到渠道,希望建立個(gè)人品牌,更好的運(yùn)營(yíng)個(gè)人品牌1、傳播自己的音樂(lè),讓更多的人知道2、與粉絲有互動(dòng)歌手有一定知名度,有粉絲基礎(chǔ)3、進(jìn)一步提高知名度,吸引更多粉絲唱片公司商業(yè)機(jī)構(gòu),營(yíng)利是最重要的目的。4、提高收入音樂(lè)愛(ài)好者喜歡分享音樂(lè),評(píng)論音樂(lè)5、希望得到更多展示(專欄)主要需求(音樂(lè)內(nèi)

11、容產(chǎn)生者)1、宣傳音樂(lè)(新歌、特別的口味)2、宣傳個(gè)人品牌(演播廳、采訪直播、互動(dòng)等)3、盈利(版權(quán)收費(fèi)、會(huì)員收費(fèi)等)用戶分析目標(biāo)用戶:(內(nèi)容產(chǎn)生者是活躍音樂(lè)社區(qū)的關(guān)鍵)第17頁(yè),共23頁(yè)。用戶分析05第18頁(yè),共23頁(yè)。用戶分析05第19頁(yè),共23頁(yè)。02推薦歌單3種推薦維度和2種推薦算法通過(guò)微信微博等社區(qū)軟件進(jìn)行傳播分享網(wǎng)易音樂(lè)編輯人員人工推薦的歌單和電臺(tái)。朋友推薦人工推薦通過(guò)大數(shù)據(jù)分析計(jì)算后的智能推薦歌單智能推薦以人為本算法以歌為本算法“喜歡這首歌的人,也喜歡XX”喜歡:點(diǎn)擊“喜歡”、評(píng)論、下載、收藏到歌單的人所聽(tīng)歌曲的標(biāo)簽在其它歌曲也包含則推薦該歌曲第20頁(yè),共23頁(yè)。02計(jì) 算 公

12、式潛在因子(Latent Factor)算法:這種算法是在NetFlix(沒(méi)錯(cuò),就是用大數(shù)據(jù)捧火紙牌屋的那家公司)的推薦算法競(jìng)賽中獲獎(jiǎng)的算法,最早被應(yīng)用于電影推薦中。這種算法在實(shí)際應(yīng)用中比現(xiàn)在排名第一的 邰原朗 所介紹的算法誤差(RMSE)會(huì)小不少,效率更高。我下面僅利用基礎(chǔ)的矩陣知識(shí)來(lái)介紹下這種算法。這種算法的思想是這樣:每個(gè)用戶(user)都有自己的偏好,比如A喜歡帶有小清新的、吉他伴奏的、王菲等元素(latent factor),如果一首歌(item)帶有這些元素,那么就將這首歌推薦給該用戶,也就是用元素去連接用戶和音樂(lè)。每個(gè)人對(duì)不同的元素偏好不同,而每首歌包含的元素也不一樣。矩陣計(jì)算得

13、分的方式第21頁(yè),共23頁(yè)。TNANK YOU!第22頁(yè),共23頁(yè)。激勵(lì)學(xué)生學(xué)習(xí)的名言格言220、每一個(gè)成功者都有一個(gè)開(kāi)始。勇于開(kāi)始,才能找到成功的路。221、世界會(huì)向那些有目標(biāo)和遠(yuǎn)見(jiàn)的人讓路(馮兩努香港著名推銷商)222、絆腳石乃是進(jìn)身之階。223、銷售世界上第一號(hào)的產(chǎn)品不是汽車,而是自己。在你成功地把自己推銷給別人之前,你必須百分之百的把自己推銷給自己。224、即使爬到最高的山上,一次也只能腳踏實(shí)地地邁一步。225、積極思考造成積極人生,消極思考造成消極人生。226、人之所以有一張嘴,而有兩只耳朵,原因是聽(tīng)的要比說(shuō)的多一倍。227、別想一下造出大海,必須先由小河川開(kāi)始。228、有事者,事竟

14、成;破釜沉舟,百二秦關(guān)終歸楚;苦心人,天不負(fù);臥薪嘗膽,三千越甲可吞吳。229、以誠(chéng)感人者,人亦誠(chéng)而應(yīng)。230、積極的人在每一次憂患中都看到一個(gè)機(jī)會(huì),而消極的人則在每個(gè)機(jī)會(huì)都看到某種憂患。231、出門走好路,出口說(shuō)好話,出手做好事。232、旁觀者的姓名永遠(yuǎn)爬不到比賽的計(jì)分板上。233、怠惰是貧窮的制造廠。234、莫找借口失敗,只找理由成功。(不為失敗找理由,要為成功找方法)235、如果我們想要更多的玫瑰花,就必須種植更多的玫瑰樹(shù)。236、偉人之所以偉大,是因?yàn)樗c別人共處逆境時(shí),別人失去了信心,他卻下決心實(shí)現(xiàn)自己的目標(biāo)。237、世上沒(méi)有絕望的處境,只有對(duì)處境絕望的人。238、回避現(xiàn)實(shí)的人,未來(lái)將更不理想。239、當(dāng)你感到悲哀痛苦時(shí),最好是去學(xué)些什么東西。學(xué)習(xí)會(huì)使你永遠(yuǎn)立于不敗之地。240、偉人所達(dá)到并保持著的高處,并不是一飛就到的,而是他們?cè)谕閭兌妓臅r(shí)候,一步步艱辛地向上爬241、世界上那些最容易的事情中,拖延時(shí)間最不費(fèi)力。242、堅(jiān)韌是成功的一

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論