《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用

上傳人：q*** IP屬地：山東上傳時(shí)間：2023-12-12 格式：PPTX 頁(yè)數(shù)：436 大?。?2.56MB 積分：60 舉報(bào) 版權(quán)申訴

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用_第2頁(yè)

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用_第3頁(yè)

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用_第4頁(yè)

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用_第5頁(yè)

已閱讀5頁(yè)，還剩431頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)運(yùn)營(yíng)概述本章知識(shí)點(diǎn)（1）理解大數(shù)據(jù)的概念（2）了解數(shù)據(jù)化運(yùn)營(yíng)的概念（3）掌握數(shù)據(jù)化運(yùn)營(yíng)的主要內(nèi)容（4）掌握大數(shù)據(jù)運(yùn)營(yíng)的應(yīng)用場(chǎng)景以及在企業(yè)中的運(yùn)用案例01大數(shù)據(jù)及其特點(diǎn)02大數(shù)據(jù)的應(yīng)用03數(shù)據(jù)化運(yùn)營(yíng)04數(shù)據(jù)化運(yùn)營(yíng)的意義PART01大數(shù)據(jù)及其特點(diǎn)大數(shù)據(jù)的概念數(shù)據(jù)數(shù)據(jù)是指對(duì)客觀事件進(jìn)行記錄并可以鑒別的符號(hào)，是對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號(hào)或這些物理符號(hào)的組合。它是可識(shí)別的、抽象的符號(hào)。信息主要采用數(shù)據(jù)形式來表示信息與數(shù)據(jù)既有聯(lián)系，又有區(qū)別。數(shù)據(jù)是信息的載體，可以是符號(hào)、文字、數(shù)字、語音、圖像、視頻等。而信息是數(shù)據(jù)的內(nèi)涵，信息是加載于數(shù)據(jù)之上，對(duì)數(shù)據(jù)做具有含義的解釋。數(shù)據(jù)和信息是不可分離的，信息依賴數(shù)據(jù)來表達(dá)，數(shù)據(jù)則生動(dòng)具體地表達(dá)出信息。數(shù)據(jù)是符號(hào)，是物理性的，信息是對(duì)數(shù)據(jù)進(jìn)行加工處理之后所得到的并對(duì)決策產(chǎn)生影影響的數(shù)據(jù)，是邏輯性和觀念性的;數(shù)據(jù)是信息的表現(xiàn)形式，信息是數(shù)據(jù)有意義的表示。數(shù)據(jù)本身沒有意義，只有對(duì)實(shí)體行為產(chǎn)生影響時(shí)數(shù)據(jù)才成為信息。大數(shù)據(jù)的概念大數(shù)據(jù)大數(shù)據(jù)是指在獲取、存儲(chǔ)、管理、分析等方面大大超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,并具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低等四大特征，在數(shù)據(jù)行業(yè),要實(shí)現(xiàn)數(shù)字產(chǎn)業(yè)化,產(chǎn)業(yè)數(shù)字化,前提是要有海量數(shù)據(jù)。大數(shù)據(jù)作為當(dāng)今社會(huì)最先進(jìn)的技術(shù)之一,已經(jīng)深刻地影響和改變著當(dāng)今人類社會(huì)。數(shù)據(jù)在我們的生活中無處不在，如清晨起床我們用手機(jī)打開新聞資訊，此時(shí)就產(chǎn)生了數(shù)據(jù);早高峰乘坐地鐵,刷二維碼進(jìn)站又產(chǎn)生了數(shù)據(jù);打開購(gòu)物網(wǎng)站，下單購(gòu)買商品,還是會(huì)產(chǎn)生數(shù)據(jù)生活在當(dāng)今這個(gè)高度信息化的社會(huì):一切行為幾乎都可以用數(shù)據(jù)來描述，這種情況幾乎發(fā)生在每個(gè)人的身上(見圖)。每時(shí)每刻都有上億條數(shù)據(jù)產(chǎn)生，這些海量數(shù)據(jù)流入那些提供互聯(lián)網(wǎng)服務(wù)的公司,存儲(chǔ)在他們的系統(tǒng)中。如果不對(duì)其加以利用，這些數(shù)據(jù)只會(huì)給系統(tǒng)造成沉重的負(fù)擔(dān),但如果善于挖掘,這些數(shù)據(jù)就可以產(chǎn)生巨大的商業(yè)價(jià)值。大數(shù)據(jù)的特征大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)TE(100萬個(gè)T)或Z(10億個(gè)T)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),當(dāng)前，典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí)，而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。根據(jù)國(guó)際數(shù)據(jù)資訊(IDC)公司監(jiān)測(cè)全球數(shù)據(jù)量大約每?jī)赡昃头环A(yù)計(jì)到2025年，全球數(shù)據(jù)使用量將達(dá)到163EB并且85%以上的數(shù)據(jù)是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在的。

數(shù)據(jù)體量巨大Volume數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等，這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。數(shù)據(jù)類型繁多Variety數(shù)據(jù)價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。在大數(shù)據(jù)時(shí)代，越來越多的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)站訪問日志,里面大量的內(nèi)容都是沒有價(jià)值的,真正有價(jià)值的數(shù)據(jù)比較少,雖然數(shù)據(jù)量比以前大了N倍，但價(jià)值密度確實(shí)低了很多。所以如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下待解決的難題。數(shù)據(jù)價(jià)值密度低Value隨著互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的發(fā)展，數(shù)據(jù)生成、存儲(chǔ)、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象，這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。隨著新數(shù)據(jù)的不斷出現(xiàn)，人們對(duì)數(shù)據(jù)處理的速度提出了越來越高的要求，所以處理數(shù)據(jù)的效率就是企業(yè)的生命線。數(shù)據(jù)處理速度快Velocity業(yè)界通常用體量(volume)、種類(variety)、價(jià)值(value)、速度(velocity),即4v特征來概括大數(shù)據(jù)的特征大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)是通過觀察、實(shí)驗(yàn)或計(jì)算得出的結(jié)果。數(shù)據(jù)和信息是兩個(gè)不同的概念。信息是較為宏觀的概念，它由數(shù)據(jù)的有序排列組合而成，傳達(dá)給讀者某個(gè)概念方法等;而數(shù)據(jù)則是構(gòu)成信息的基本單位，離散的數(shù)據(jù)沒有任何實(shí)用價(jià)值。隨著人類社會(huì)信息化進(jìn)程的加快，我們?cè)谌粘Ｉa(chǎn)和生活中每天都會(huì)產(chǎn)生大量的數(shù)據(jù)，比如商業(yè)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動(dòng)化生產(chǎn)系統(tǒng)等。數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域，成為重要的生產(chǎn)因素，從新到所有決策，數(shù)據(jù)推動(dòng)著企業(yè)的發(fā)展,并使得各級(jí)組織的運(yùn)營(yíng)更為高效,可以這樣說，數(shù)據(jù)已成為每個(gè)企業(yè)獲取核心競(jìng)爭(zhēng)力的關(guān)鍵要素。數(shù)據(jù)資源已經(jīng)和物質(zhì)資源、人力資源一樣成為國(guó)家的重要戰(zhàn)略資源,影響著國(guó)家和社會(huì)的安全、穩(wěn)定與發(fā)展，因此，數(shù)據(jù)也可稱為“未來的石油”。數(shù)據(jù)產(chǎn)生方式的變革是促成大數(shù)據(jù)時(shí)代來臨的重要因素。大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)產(chǎn)生方式的變革，是促成大數(shù)據(jù)時(shí)代來臨的重要因素?？傮w而言，人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段：運(yùn)營(yíng)式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。運(yùn)營(yíng)式系統(tǒng)階段人類社會(huì)最早大規(guī)模管理和使用數(shù)據(jù)，是從數(shù)據(jù)庫(kù)的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運(yùn)營(yíng)式系統(tǒng)，都是建立在數(shù)據(jù)庫(kù)基礎(chǔ)之上的，數(shù)據(jù)庫(kù)中保存了大量結(jié)構(gòu)化的企業(yè)關(guān)鍵信息，用來滿足企業(yè)各種業(yè)務(wù)需求。在這個(gè)階段，數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的，只有當(dāng)實(shí)際的企業(yè)業(yè)務(wù)發(fā)生時(shí)，才會(huì)產(chǎn)生新的記錄并存入數(shù)據(jù)庫(kù)。比如，對(duì)于股市交易系統(tǒng)而言，只有當(dāng)發(fā)生一筆股票交易時(shí)，才會(huì)有相關(guān)記錄生成。用戶原創(chuàng)內(nèi)容階段互聯(lián)網(wǎng)的出現(xiàn)，使得數(shù)據(jù)傳播更加快捷，不需要借助于磁盤、磁帶等物理存儲(chǔ)介質(zhì)傳播數(shù)據(jù)，網(wǎng)頁(yè)的出現(xiàn)進(jìn)一步加速了大量網(wǎng)絡(luò)內(nèi)容的產(chǎn)生，從而使得人類社會(huì)數(shù)據(jù)量開始呈現(xiàn)“井噴式”增長(zhǎng)。但是，互聯(lián)網(wǎng)真正的數(shù)據(jù)爆發(fā)產(chǎn)生于以“用戶原創(chuàng)內(nèi)容”為特征的Web2.0時(shí)代。Web1.0時(shí)代主要以門戶網(wǎng)站為代表，強(qiáng)調(diào)內(nèi)容的組織與提供，大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web2.0技術(shù)以Wiki、博客、微博、微信等自服務(wù)模式為主，強(qiáng)調(diào)自服務(wù)，大量上網(wǎng)用戶本身就是內(nèi)容的生成者，尤其是隨著移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)終端的普及，人們更是可以隨時(shí)隨地使用手機(jī)發(fā)微博、傳照片，數(shù)據(jù)量開始急劇增加。感知式系統(tǒng)階段物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會(huì)數(shù)據(jù)量的第三次躍升。物聯(lián)網(wǎng)中包含大量傳感器，如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等，此外，視頻監(jiān)控?cái)z像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設(shè)備，每時(shí)每刻都在自動(dòng)產(chǎn)生大量數(shù)據(jù)，與Web2.0時(shí)代的人工數(shù)據(jù)產(chǎn)生方式相比，物聯(lián)網(wǎng)中的自動(dòng)數(shù)據(jù)產(chǎn)生方式，將在短時(shí)間內(nèi)生成更密集、更大量的數(shù)據(jù)，使得人類社會(huì)迅速步入“大數(shù)據(jù)時(shí)代”。大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為3個(gè)重要階段：萌芽期、成熟期和大規(guī)模應(yīng)用期20世紀(jì)90年代至21世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟，一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用，如數(shù)據(jù)倉(cāng)庫(kù)、專家系統(tǒng)、知識(shí)管理系統(tǒng)等第一階段：萌芽期21世紀(jì)前10年Web2.0應(yīng)用迅猛發(fā)展，非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生，傳統(tǒng)處理方法難以應(yīng)對(duì)，帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破，大數(shù)據(jù)解決方案逐漸走向成熟形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù)，谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧，Hadoop平臺(tái)開始大行其道第二階段：成熟期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè)，數(shù)據(jù)驅(qū)動(dòng)決策，信息社會(huì)智能化程度大幅第三階段：大規(guī)模應(yīng)用期大數(shù)據(jù)的發(fā)展歷程時(shí)間事件1980年著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中，將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。1997年10月邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國(guó)電氣和電子工程師協(xié)會(huì)（IEEE）關(guān)于可視化的會(huì)議論文集中，發(fā)表了《為外存模型可視化而應(yīng)用控制程序請(qǐng)求頁(yè)面調(diào)度》的文章，這是在美國(guó)計(jì)算機(jī)學(xué)會(huì)的數(shù)字圖書館中第一篇使用“大數(shù)據(jù)”這一術(shù)語的文章。1999年10月在美國(guó)電氣和電子工程師協(xié)會(huì)（IEEE）關(guān)于可視化的年會(huì)上，設(shè)置了名為“自動(dòng)化或者交互：什么更適合大數(shù)據(jù)？”的專題討論小組，探討大數(shù)據(jù)問題。2001年2月梅塔集團(tuán)分析師道格·萊尼發(fā)布題為《3D數(shù)據(jù)管理：控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報(bào)告。10年后，“3V”（Volume、Variety和Velocity）作為定義大數(shù)據(jù)的三個(gè)維度而被廣泛接受。2005年9月蒂姆·奧萊利發(fā)表了《什么是Web2.0》一文，并在文中指出“數(shù)據(jù)將是下一項(xiàng)技術(shù)核心”。2008年《自然》雜志推出大數(shù)據(jù)專刊；計(jì)算社區(qū)聯(lián)盟（ComputingCommunityConsortium）發(fā)表了報(bào)告《大數(shù)據(jù)計(jì)算：在商業(yè)、科學(xué)和社會(huì)領(lǐng)域的革命性突破》，闡述了大數(shù)據(jù)技術(shù)及其面臨的一些挑戰(zhàn)。2010年2月肯尼斯·庫(kù)克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表了一份關(guān)于管理信息的特別報(bào)告《數(shù)據(jù)，無所不在的數(shù)據(jù)》。大數(shù)據(jù)的發(fā)展歷程時(shí)間事件2011年2月《科學(xué)》雜志推出?？短幚頂?shù)據(jù)》，討論了科學(xué)研究中的大數(shù)據(jù)問題。2011年維克托·邁爾·舍恩伯格出版著作《大數(shù)據(jù)時(shí)代：生活、工作與思維的大變革》，引起轟動(dòng)。2011年5月麥肯錫全球研究院發(fā)布《大數(shù)據(jù)：下一個(gè)具有創(chuàng)新力、競(jìng)爭(zhēng)力與生產(chǎn)力的前沿領(lǐng)域》，提出“大數(shù)據(jù)”時(shí)代到來。2012年3月美國(guó)奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》，正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”，大數(shù)據(jù)上升為美國(guó)國(guó)家發(fā)展戰(zhàn)略，被視為美國(guó)政府繼信息高速公路計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。2013年12月中國(guó)計(jì)算機(jī)學(xué)會(huì)發(fā)布《中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》，系統(tǒng)總結(jié)了大數(shù)據(jù)的核心科學(xué)與技術(shù)問題，推動(dòng)了我國(guó)大數(shù)據(jù)學(xué)科的建設(shè)與發(fā)展，并為政府部門提供了戰(zhàn)略性的意見與建議。2014年5月美國(guó)政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù)：抓住機(jī)遇、守護(hù)價(jià)值》，報(bào)告鼓勵(lì)使用數(shù)據(jù)來推動(dòng)社會(huì)進(jìn)步。2015年8月國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》，全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用，加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。大數(shù)據(jù)的發(fā)展歷程時(shí)間事件2016年5月在“2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)”上工信部透露，我國(guó)將制定出臺(tái)大數(shù)據(jù)產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃，有力推進(jìn)我國(guó)大數(shù)據(jù)技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。2017年9月公安部第三研究所授予貴陽(yáng)大數(shù)據(jù)交易所"eID網(wǎng)絡(luò)身份服務(wù)機(jī)構(gòu)"資質(zhì)證書成立國(guó)內(nèi)首個(gè)數(shù)據(jù)交易合規(guī)化研究實(shí)驗(yàn)項(xiàng)目。2018年2月，中國(guó)人民銀行正式下發(fā)銀征信許準(zhǔn)予字2018第1號(hào)許可文件，設(shè)立首張經(jīng)營(yíng)個(gè)人征信業(yè)務(wù)的機(jī)構(gòu)許可信息表。3月，我國(guó)數(shù)據(jù)管理領(lǐng)域首個(gè)國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評(píng)估模型》正式發(fā)布。2019年10月在第六屆世界互聯(lián)網(wǎng)大會(huì)期間組織召開了“國(guó)家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)啟動(dòng)會(huì)”,并發(fā)布了《國(guó)家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)實(shí)施方案》,正式啟動(dòng)河北省(雄安新區(qū))、浙江省、福建省、廣東省、重慶市、四川省等6個(gè)國(guó)家數(shù)字經(jīng)濟(jì)新發(fā)展試驗(yàn)區(qū)建設(shè)工作。2020年突如其來的新冠肺炎疫情,為各行各業(yè)帶來了前所未有的挑戰(zhàn)。然而，在危機(jī)中,以大數(shù)據(jù)等為代表的新一代信息技術(shù)在疫情監(jiān)測(cè)分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面提供了強(qiáng)大支撐,各種新業(yè)態(tài)、新模式不斷涌現(xiàn)。數(shù)字化驅(qū)動(dòng)的技術(shù)和產(chǎn)業(yè)變革加速發(fā)展,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用逆勢(shì)而上，數(shù)據(jù)的作用在各行各業(yè)中大放異彩，“數(shù)據(jù)驅(qū)動(dòng)”的價(jià)值深入人心。2021年3月，北京市經(jīng)濟(jì)和信息化局會(huì)同北京市金融局、北京市商務(wù)局、北京市委網(wǎng)信辦等部門，組織北京金控集團(tuán)牽頭發(fā)起成立北京國(guó)際大數(shù)據(jù)交易有限公司,這是國(guó)內(nèi)首家基于“數(shù)據(jù)可用不可見，用途可控可計(jì)量”新型交易范式的數(shù)據(jù)交易所。2021年11月，工信部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,在響應(yīng)國(guó)家“十四五”規(guī)劃的基礎(chǔ)上，圍繞“價(jià)值引領(lǐng)、基礎(chǔ)先行、系統(tǒng)推進(jìn)、融合創(chuàng)新、安全發(fā)展、開放合作”六大基本原則，針對(duì)“十四五”期間大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展制定了5個(gè)發(fā)展目標(biāo)，大主要任務(wù)，6項(xiàng)具體行動(dòng)以及6個(gè)方面的保障措施，同時(shí)指出在當(dāng)前我國(guó)邁入數(shù)字經(jīng)濟(jì)的關(guān)鍵時(shí)期，大數(shù)據(jù)產(chǎn)業(yè)將步入“集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化”的高質(zhì)量發(fā)展新階段。PART02大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用隨著互聯(lián)網(wǎng)和智能設(shè)備的應(yīng)用和普及,大量數(shù)據(jù)正在不斷產(chǎn)生，并呈爆發(fā)式增長(zhǎng)趨勢(shì)。大數(shù)據(jù)對(duì)物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、農(nóng)業(yè)、金融、通信等行業(yè)已造成深刻影響，據(jù)調(diào)查，企業(yè)內(nèi)部的運(yùn)營(yíng)交易信息、互聯(lián)網(wǎng)技術(shù)中的產(chǎn)品貨運(yùn)物流信息、人和人之間互動(dòng)信息、位置信息等數(shù)據(jù)，每2~3年時(shí)間便會(huì)成倍增加。信息是當(dāng)代企業(yè)的關(guān)鍵資源，是企業(yè)應(yīng)用創(chuàng)新管理、決策分析的基本。這種數(shù)據(jù)有著極大的經(jīng)濟(jì)收益，可是企業(yè)所關(guān)心的數(shù)據(jù)一般只占總數(shù)據(jù)量的2%~4%，使企業(yè)無法最大化地運(yùn)用已有的數(shù)據(jù)資源，以至于消耗了大量的時(shí)間和資產(chǎn),也喪失制訂重要商業(yè)服務(wù)管理決策的最好時(shí)機(jī),針對(duì)一般的企業(yè)來講，大數(shù)據(jù)的功效具體表現(xiàn)在兩個(gè)層面。協(xié)助企業(yè)搜集信息大數(shù)據(jù)可以根據(jù)相關(guān)分析,將顧客和商品、服務(wù)項(xiàng)目進(jìn)行串聯(lián),對(duì)用戶的喜好開展精準(zhǔn)定位，進(jìn)而提供更精確、更有主導(dǎo)性的商品和服務(wù)項(xiàng)目，從而提高銷售額。典型性的案例如電子商務(wù)。像阿里巴巴淘寶網(wǎng)那樣的電商服務(wù)平臺(tái)，累積了很多的用戶選購(gòu)數(shù)據(jù)。在初期，這些數(shù)據(jù)基本上是負(fù)累和壓力，因?yàn)榇鎯?chǔ)數(shù)據(jù)必須支付很高的硬件配置成本費(fèi)。但是，如今這些數(shù)據(jù)全是阿里巴巴最珍貴的財(cái)富。大數(shù)據(jù)還可以對(duì)業(yè)績(jī)產(chǎn)生直接影響,它的高效率轉(zhuǎn)化和精確性,遠(yuǎn)遠(yuǎn)地超出傳統(tǒng)式的用戶調(diào)查。除了電子商務(wù)，還包含能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運(yùn)輸、公共事業(yè)等行業(yè)都是大數(shù)據(jù)的用武之地。協(xié)助企業(yè)分析決策除幫助企業(yè)掌握用戶數(shù)據(jù)以外,大數(shù)據(jù)還能讓企業(yè)更加精準(zhǔn)地認(rèn)識(shí)自己。企業(yè)運(yùn)營(yíng)需要很多的資源,大數(shù)據(jù)能夠剖析和鎖住資源的詳細(xì)情況，比如儲(chǔ)藏量遍布和要求的發(fā)展趨勢(shì)。這種資源的數(shù)據(jù)可視化能夠協(xié)助企業(yè)管理人員更形象化地掌握企業(yè)的運(yùn)行情況，迅速地發(fā)現(xiàn)問題，并立即調(diào)整運(yùn)營(yíng)策略,減少財(cái)務(wù)風(fēng)險(xiǎn)?？偟膩碚f，“知彼知己,百戰(zhàn)不殆”,大數(shù)據(jù)是為管理者提供決策服務(wù)最有力的依據(jù)。對(duì)于企業(yè)來說,大數(shù)據(jù)服務(wù)的目標(biāo)可以歸結(jié)為“降本增效”四個(gè)字。企業(yè)可以借助大數(shù)據(jù)服務(wù)做精準(zhǔn)化營(yíng)銷，將企業(yè)的產(chǎn)品有效地傳遞給有此需求的用戶,在為客戶創(chuàng)造價(jià)值的同時(shí)增加企業(yè)收入。企業(yè)還可以借助大數(shù)據(jù)了解客戶的偏好,從而更好地為客戶提供服務(wù)，提升客戶感知水平。雖然提升客戶服務(wù)體驗(yàn)并沒有直接為企業(yè)帶來收入，但是通過這種方式提升了企業(yè)在客戶心中的形象,使得客戶獲取企業(yè)服務(wù)更加便捷、高效,客戶也因此更喜歡購(gòu)買企業(yè)的產(chǎn)品，從而增加了企業(yè)的收入。企業(yè)可以借助大數(shù)據(jù)服務(wù)降低成本。從費(fèi)用支出的類型角度看，成本消耗主要分為屬于投資建設(shè)的CAPAX資本性支出投資和業(yè)務(wù)運(yùn)營(yíng)的。PEX(運(yùn)營(yíng)資出)投資兩部分，因此企業(yè)可以借助大數(shù)據(jù)服務(wù)降低這兩部分投資，比如在降低CAPAX投資方面，可以以用戶價(jià)值為中心進(jìn)行資源的建設(shè)，避免因?yàn)榭俊凹僭O(shè)”“猜想”而造成投資浪費(fèi)。在降低OPEX投資方面，企業(yè)可以借助大數(shù)據(jù)服務(wù)來發(fā)現(xiàn)企業(yè)流程中存在的問題，通過流程優(yōu)化來提高運(yùn)營(yíng)效率,從而降低企業(yè)的整體運(yùn)營(yíng)成本。大數(shù)據(jù)的應(yīng)用(1)大數(shù)據(jù)助力政府部門完成市場(chǎng)經(jīng)濟(jì)體制管控、公共衛(wèi)生服務(wù)安全防護(hù)、災(zāi)禍預(yù)警信息、社會(huì)發(fā)展輿論導(dǎo)向;協(xié)助城市犯罪預(yù)防,實(shí)現(xiàn)智慧交通，提高應(yīng)急能力;電力企業(yè)會(huì)根據(jù)大數(shù)據(jù)實(shí)時(shí)做數(shù)據(jù)的檢測(cè)和預(yù)測(cè)分析,使我們更強(qiáng)、更便捷地做這類電力工程的生產(chǎn)調(diào)度。(2)大數(shù)據(jù)在醫(yī)療中也有比較廣泛的應(yīng)用。例如，基因工程技術(shù)及其病癥的預(yù)測(cè)分析剖析、手術(shù)治療計(jì)劃方案等都會(huì)用到大數(shù)據(jù)。大數(shù)據(jù)協(xié)助定點(diǎn)醫(yī)療機(jī)構(gòu)創(chuàng)建患者的病癥風(fēng)險(xiǎn)性追蹤體制,協(xié)助醫(yī)藥企業(yè)提高藥物臨床醫(yī)學(xué)的實(shí)際效果,協(xié)助科學(xué)研究組織為病人提供定制化的藥品。(3)大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù)旅行網(wǎng)站為游客提供心愛的旅游線路，二手市場(chǎng)的買賣方尋找最好的買賣總體目標(biāo)，用戶可以更快尋找到最好的產(chǎn)品選購(gòu)階段、店家及最優(yōu)惠價(jià)。(4)大數(shù)據(jù)助力企業(yè)提高營(yíng)銷推廣的針對(duì)性，減少物流和庫(kù)存量的成本，降低項(xiàng)目投資的風(fēng)險(xiǎn)性,及其協(xié)助企業(yè)提高廣告營(yíng)銷精確度。例如，云鯨大數(shù)據(jù)助力各行業(yè)直接獲得相關(guān)App/網(wǎng)站用戶的訪客信息，這在很大程度上減少了企業(yè)推廣或引流的成本，就可以直達(dá)意向用戶。PART03數(shù)據(jù)化運(yùn)營(yíng)數(shù)據(jù)化運(yùn)營(yíng)概況數(shù)據(jù)化運(yùn)營(yíng)是指通過數(shù)據(jù)化的工具、技術(shù)和方法，對(duì)運(yùn)營(yíng)過程中的各個(gè)環(huán)節(jié)進(jìn)行科學(xué)的分析，為數(shù)據(jù)使用者提供專業(yè)、準(zhǔn)確的行業(yè)數(shù)據(jù)解決方案，從而達(dá)到優(yōu)化運(yùn)營(yíng)效果和效率、降低運(yùn)營(yíng)成本、提高效益的目的。數(shù)據(jù)化運(yùn)營(yíng)的本質(zhì)還是運(yùn)營(yíng)，“數(shù)據(jù)化”僅僅是方法和手段，“運(yùn)營(yíng)”才是核心和目的，用數(shù)據(jù)指導(dǎo)業(yè)務(wù)運(yùn)營(yíng)的決策，提升業(yè)務(wù)運(yùn)營(yíng)的效率，實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)的目標(biāo)。數(shù)據(jù)化運(yùn)營(yíng)不等于數(shù)據(jù)分析，數(shù)據(jù)分析僅僅是數(shù)據(jù)化運(yùn)營(yíng)的一個(gè)關(guān)鍵環(huán)節(jié)和重要手段。數(shù)據(jù)化運(yùn)營(yíng)是基于數(shù)據(jù)去發(fā)現(xiàn)問題，分析問題，然后通過運(yùn)營(yíng)的手段找到問題的解決辦法并付諸實(shí)踐的閉環(huán)工作。企業(yè)中的數(shù)據(jù)從產(chǎn)生到應(yīng)用，需要經(jīng)過數(shù)據(jù)源層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)建模層、數(shù)據(jù)應(yīng)用層，經(jīng)過層層的加工，將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)建模、再到數(shù)據(jù)挖掘，最終在應(yīng)用層產(chǎn)生價(jià)值，實(shí)現(xiàn)面向用戶的智能營(yíng)銷和個(gè)性化內(nèi)容的推薦，從而實(shí)現(xiàn)降本增效的運(yùn)營(yíng)目的。數(shù)據(jù)化運(yùn)營(yíng)基本概念數(shù)據(jù)化運(yùn)營(yíng)概況隨著信息化時(shí)代的來臨及全球數(shù)字化浪潮的推進(jìn)，企業(yè)在運(yùn)營(yíng)中都產(chǎn)生海量的數(shù)據(jù)，這些數(shù)據(jù)是實(shí)現(xiàn)商業(yè)智能的基礎(chǔ)。例如，沃爾瑪“啤酒與尿布”的經(jīng)典案例就是數(shù)據(jù)實(shí)現(xiàn)商業(yè)智能的一個(gè)體現(xiàn)。1987年，沃爾瑪完成了公司內(nèi)部的衛(wèi)星系統(tǒng)的安裝，該系統(tǒng)使得總部，分銷中心和各個(gè)商場(chǎng)之間可以實(shí)現(xiàn)實(shí)時(shí)、雙向的數(shù)據(jù)和聲音傳輸，從運(yùn)營(yíng)數(shù)據(jù)中發(fā)現(xiàn)了“啤酒與尿布”關(guān)聯(lián)。如今，沃爾瑪?shù)臄?shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)著沃爾瑪數(shù)千家連鎖店在65周內(nèi)每一筆銷售的詳細(xì)記錄，通過這些數(shù)據(jù)，業(yè)務(wù)員可以分析顧客的購(gòu)買行為，從而供應(yīng)最佳的銷售服務(wù)。數(shù)據(jù)化運(yùn)營(yíng)基本概念數(shù)據(jù)化運(yùn)營(yíng)概況企業(yè)大數(shù)據(jù)發(fā)展的階段性根據(jù)企業(yè)的數(shù)據(jù)量、數(shù)據(jù)更新速度、數(shù)據(jù)應(yīng)用程度、數(shù)據(jù)平臺(tái)建設(shè)及應(yīng)用能力進(jìn)行如下劃分：1)無平臺(tái)階段在該階段，企業(yè)的數(shù)據(jù)量較少，且數(shù)據(jù)腳本零散地存儲(chǔ)在不同的地方。信息處理主要靠人工進(jìn)行,管理者和運(yùn)營(yíng)人員不會(huì)過多關(guān)注數(shù)據(jù),有時(shí)階段性地觀察一下宏觀的數(shù)據(jù)而且企業(yè)也沒有數(shù)據(jù)平臺(tái)2)小型數(shù)據(jù)平臺(tái)階段處于小型數(shù)據(jù)平臺(tái)階段的企業(yè),擁有一些數(shù)據(jù)儲(chǔ)備，且各部門定期有數(shù)據(jù)需求，需要搭建小型數(shù)據(jù)平臺(tái)，用以獲取核心數(shù)據(jù)指標(biāo)。小型數(shù)據(jù)平臺(tái)的開發(fā)周期較短，工作量也較少3)中型數(shù)據(jù)平臺(tái)階段處于中型數(shù)據(jù)平臺(tái)階段的企業(yè),數(shù)據(jù)量大且數(shù)據(jù)更新速度較快，管理者做出決策需要依靠數(shù)據(jù)，這個(gè)階段就需要一個(gè)中型數(shù)據(jù)平臺(tái)來支撐各部門的數(shù)據(jù)需求，同時(shí)建立起相應(yīng)的信息處理系統(tǒng)，且需要專業(yè)的團(tuán)隊(duì)對(duì)系統(tǒng)進(jìn)行維護(hù)。4)大型數(shù)據(jù)平臺(tái)階段隨著企業(yè)規(guī)模逐步增大，數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)、秒級(jí)更新、應(yīng)用需求高的特點(diǎn)。處于這個(gè)階段的企業(yè)，需要搭建大型數(shù)據(jù)平臺(tái),投入足夠的人力、物力及資源去保障平臺(tái)的運(yùn)作,數(shù)據(jù)倉(cāng)庫(kù)也需要不定期地做升級(jí)和變遷。企業(yè)在這個(gè)階段需要有非常豐富的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的發(fā)展和運(yùn)營(yíng)數(shù)據(jù)化運(yùn)營(yíng)流程明確目標(biāo)指標(biāo)體系數(shù)據(jù)獲取數(shù)據(jù)分析策略建議評(píng)估優(yōu)化數(shù)據(jù)化運(yùn)營(yíng)第一步要搞清楚業(yè)務(wù)的核心目標(biāo)是什么，用戶運(yùn)營(yíng)和產(chǎn)品運(yùn)營(yíng)有著不同的場(chǎng)景和目標(biāo)，可以通過圍繞業(yè)務(wù)的關(guān)鍵績(jī)效指標(biāo)(keyperformanceindicator，KPI)展開在業(yè)務(wù)目標(biāo)確定后，基于目標(biāo)進(jìn)行數(shù)據(jù)指標(biāo)的拆解,構(gòu)建相應(yīng)的用戶運(yùn)營(yíng)、產(chǎn)品運(yùn)營(yíng)業(yè)務(wù)的監(jiān)控和結(jié)果評(píng)價(jià)的指標(biāo)體系。根據(jù)指標(biāo)體系確定數(shù)據(jù)的采集點(diǎn)。對(duì)于流量、行為類的數(shù)據(jù)必須要先進(jìn)行埋點(diǎn),埋點(diǎn)是指在應(yīng)用的特定流程中,收集用戶行為信息、還原用戶場(chǎng)景來指導(dǎo)產(chǎn)品功能改進(jìn),驗(yàn)證客戶服務(wù)質(zhì)量。在數(shù)據(jù)團(tuán)隊(duì)經(jīng)常遇到業(yè)務(wù)產(chǎn)品找項(xiàng)目管理(projectmanager，PM)要數(shù)據(jù)，最后卻發(fā)現(xiàn)都沒有埋點(diǎn)。利用相應(yīng)的數(shù)學(xué)模型對(duì)收集的數(shù)據(jù)進(jìn)行分析，并根據(jù)運(yùn)營(yíng)要求采用數(shù)據(jù)可視化方法對(duì)采集到的數(shù)據(jù)進(jìn)行處理,形成分析報(bào)告。基于數(shù)據(jù)分析報(bào)告，通過數(shù)理思維來推導(dǎo)、發(fā)現(xiàn)運(yùn)營(yíng)業(yè)務(wù)存在的問題或?qū)ふ覞撛谠鲩L(zhǎng)點(diǎn)，企業(yè)以此支撐業(yè)務(wù)決策，驅(qū)動(dòng)產(chǎn)品流程改進(jìn)優(yōu)化。分析結(jié)論或策略建議在產(chǎn)品或運(yùn)營(yíng)端實(shí)施之后，可通過AB測(cè)試對(duì)比、效果分析、持續(xù)優(yōu)化迭代等方法進(jìn)行評(píng)估優(yōu)化。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)起初從事數(shù)據(jù)運(yùn)營(yíng)的人是企業(yè)的IT部門兼任，隨著數(shù)據(jù)在業(yè)務(wù)運(yùn)營(yíng)上占據(jù)越來越重要的地位，從事數(shù)據(jù)運(yùn)營(yíng)的專職崗位也應(yīng)運(yùn)而生。目前市面上數(shù)據(jù)人才是比較稀缺的，因?yàn)閿?shù)據(jù)人才需要橫跨三個(gè)專業(yè)：數(shù)學(xué)、商科、計(jì)算機(jī)，且該崗位培養(yǎng)周期長(zhǎng)，需要在既懂業(yè)務(wù)，又能掌握計(jì)算機(jī)相關(guān)技能及工具實(shí)現(xiàn)數(shù)據(jù)分析與可視化。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)目前,中國(guó)高校正在開設(shè)數(shù)據(jù)科學(xué)與技術(shù)、數(shù)字經(jīng)濟(jì)等新興專業(yè),培養(yǎng)社會(huì)上急需的大數(shù)據(jù)運(yùn)營(yíng)的人才。但高校人才培養(yǎng)往往受到培養(yǎng)周期長(zhǎng)、產(chǎn)教融合脫節(jié)等諸多原因，而滯后于產(chǎn)業(yè)的人才需求,目前企業(yè)的數(shù)據(jù)技術(shù)人才依然處于稀缺狀態(tài),專家認(rèn)為數(shù)字技術(shù)人才具有要求高供給少、需求大的特點(diǎn)，且未來10~20年都將處于稀缺狀態(tài)。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)大型企業(yè)將數(shù)據(jù)運(yùn)營(yíng)部門設(shè)置為一級(jí)部門，設(shè)置數(shù)據(jù)運(yùn)營(yíng)部門負(fù)責(zé)人（總經(jīng)理級(jí)）、數(shù)據(jù)運(yùn)營(yíng)高級(jí)總監(jiān)、數(shù)據(jù)運(yùn)營(yíng)總監(jiān)、數(shù)據(jù)運(yùn)營(yíng)高級(jí)經(jīng)理、數(shù)據(jù)運(yùn)營(yíng)經(jīng)理、數(shù)據(jù)運(yùn)營(yíng)主管及數(shù)據(jù)運(yùn)營(yíng)專員等七個(gè)職級(jí)。數(shù)據(jù)運(yùn)營(yíng)部門的整體職責(zé)如下：搭建全鏈路數(shù)據(jù)架構(gòu)：梳理及重構(gòu)供應(yīng)鏈，基于供應(yīng)鏈和業(yè)務(wù)需求節(jié)點(diǎn)進(jìn)行數(shù)據(jù)需求架構(gòu)；沉淀業(yè)務(wù)方法論，通過協(xié)同模式快速?gòu)?fù)制，對(duì)外賦能，提升行業(yè)效率。建立品類標(biāo)準(zhǔn)與商業(yè)規(guī)則：調(diào)研商品，并完成非標(biāo)品的標(biāo)準(zhǔn)化工作，同時(shí)承擔(dān)新商品開發(fā)研究工作；制定自動(dòng)化運(yùn)營(yíng)商業(yè)規(guī)則，承擔(dān)制定平臺(tái)商業(yè)制度的職責(zé)；統(tǒng)籌行業(yè)、品類、商品研究，建立標(biāo)準(zhǔn)化商品數(shù)據(jù)庫(kù)，進(jìn)行商品管理和商品策略研究。通過數(shù)據(jù)運(yùn)營(yíng)提升內(nèi)外部效率:打通銷售效率、物流效率、渠道商績(jī)效，需求預(yù)測(cè)數(shù)據(jù)等指標(biāo)，建立關(guān)聯(lián)，量化各個(gè)環(huán)節(jié)的效率提升點(diǎn)，并制定提升方案；研究、提供并推進(jìn)B端和C端體驗(yàn)和品質(zhì)提升方案。行業(yè)研究與市場(chǎng)洞察：通過市場(chǎng)調(diào)查、情報(bào)收集及時(shí)掌握市場(chǎng)和行業(yè)動(dòng)態(tài)。數(shù)據(jù)贖能BP：承擔(dān)各個(gè)BU、城市數(shù)據(jù)賦能BP的職責(zé)；清晰傳遞集閉戰(zhàn)略和執(zhí)行信息、建立各級(jí)數(shù)據(jù)看板，推動(dòng)自動(dòng)化決策分析，及時(shí)收集各城市的問題并向總部反饋。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)部門負(fù)責(zé)人崗位職責(zé)全面負(fù)責(zé)公司的數(shù)據(jù)運(yùn)營(yíng)管理，完成業(yè)務(wù)規(guī)劃、平臺(tái)優(yōu)化、資源整合，確定核心產(chǎn)品和服務(wù)及對(duì)應(yīng)的商業(yè)模式和盈利模式。研究運(yùn)營(yíng)數(shù)據(jù)和用戶反饋，挖掘用戶需求，發(fā)現(xiàn)運(yùn)營(yíng)中的問題并給出解決方案。構(gòu)建全面、準(zhǔn)確、能反映業(yè)務(wù)特征的監(jiān)控指標(biāo)體系，并基于業(yè)務(wù)指標(biāo)體系，及時(shí)發(fā)現(xiàn)和定位問題。通過專業(yè)分析，對(duì)業(yè)務(wù)問題進(jìn)行深入分析，為公司的運(yùn)營(yíng)決策、產(chǎn)品方向、商業(yè)策略提供數(shù)據(jù)支持。對(duì)產(chǎn)品、運(yùn)營(yíng)、市場(chǎng)及客戶關(guān)系管理等領(lǐng)域提供業(yè)務(wù)支持。與內(nèi)外部相關(guān)團(tuán)隊(duì)協(xié)作，推動(dòng)業(yè)務(wù)部門的數(shù)據(jù)化運(yùn)背，技術(shù)產(chǎn)品開發(fā)、工具培訓(xùn)等。產(chǎn)品發(fā)展方向進(jìn)行預(yù)測(cè)，及時(shí)調(diào)整業(yè)務(wù)和產(chǎn)品策略，合理制定業(yè)務(wù)和產(chǎn)負(fù)責(zé)收集并研究行業(yè)及競(jìng)爭(zhēng)對(duì)手信息，了解和分析客戶需求，對(duì)市場(chǎng)及品規(guī)劃。制定業(yè)務(wù)規(guī)則并對(duì)其進(jìn)行管理，承擔(dān)制定平臺(tái)商業(yè)制度的職責(zé)，提升平臺(tái)業(yè)務(wù)品質(zhì)。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)部門負(fù)責(zé)人任職要求數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)、統(tǒng)計(jì)、數(shù)學(xué)等相關(guān)領(lǐng)域本科或以上學(xué)歷,至少擁有8年以上豐富的互聯(lián)網(wǎng)行業(yè)背景，3年以上運(yùn)營(yíng)經(jīng)理/總監(jiān)崗位的經(jīng)驗(yàn)。能熟練地獨(dú)立建立商業(yè)數(shù)據(jù)分析框架，具有數(shù)據(jù)敏感度，能從海量數(shù)據(jù)中分析挖掘問題，并具備敏銳的商業(yè)洞察力。熟練運(yùn)用數(shù)據(jù)分析工具(SQl、Exce、Access)，以及數(shù)據(jù)可視化工具(Tableau、Microstrategy、Think-cell、PPT)對(duì)外演講能力優(yōu)秀。優(yōu)秀的分析問題和解決問題的能力，能夠把合理的思路成功應(yīng)用于實(shí)踐中。有客戶關(guān)系管理分析或運(yùn)營(yíng)經(jīng)驗(yàn)、數(shù)據(jù)化運(yùn)營(yíng)經(jīng)驗(yàn)、數(shù)據(jù)型產(chǎn)品規(guī)劃經(jīng)驗(yàn)，有互聯(lián)網(wǎng)新零售相關(guān)領(lǐng)域經(jīng)驗(yàn)的優(yōu)先.PART04數(shù)據(jù)化運(yùn)營(yíng)的意義數(shù)據(jù)化運(yùn)營(yíng)的意義在數(shù)字經(jīng)濟(jì)時(shí)代，人們生產(chǎn)、生活、工作、消費(fèi)、娛樂方式都發(fā)生巨大變化，企業(yè)更需采用數(shù)字化技術(shù)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型，在產(chǎn)品升級(jí)、價(jià)值重塑、業(yè)務(wù)變革、商業(yè)模式創(chuàng)新、市場(chǎng)策略調(diào)整等方面，都提供了新的增長(zhǎng)空間和發(fā)展機(jī)遇。數(shù)據(jù)化運(yùn)營(yíng)可以從四個(gè)維度具體幫助企業(yè)進(jìn)行優(yōu)化和發(fā)展，如圖所示。數(shù)據(jù)化運(yùn)營(yíng)的意義業(yè)務(wù)指導(dǎo)通過對(duì)數(shù)據(jù)的收集、統(tǒng)計(jì)、追蹤和監(jiān)控搭建業(yè)務(wù)的管理模型來指導(dǎo)業(yè)務(wù)。例如，銷售業(yè)務(wù)中日銷售額、月銷售額、年銷售額的完成情況；電商營(yíng)銷業(yè)務(wù)過程中的流量，新增用戶數(shù)，每日的成交量。運(yùn)營(yíng)分析運(yùn)營(yíng)分析更多注重對(duì)收集來的數(shù)據(jù)進(jìn)行分析和管理，可歸納為人、貨、場(chǎng)、才的分析管理。例如客戶關(guān)系管理（CRM），財(cái)務(wù)分析管理，供應(yīng)鏈分析管理等等。經(jīng)營(yíng)策略經(jīng)營(yíng)策略管理?yè)碛幸皇值墓芾頉Q斷，對(duì)各經(jīng)營(yíng)環(huán)節(jié)進(jìn)行對(duì)應(yīng)的數(shù)據(jù)分析來修改和制定策略，比如消費(fèi)者購(gòu)買行為的分析，會(huì)員顧客策略，是采用積分制還是打折制。戰(zhàn)略規(guī)劃戰(zhàn)略規(guī)劃需要通過企業(yè)內(nèi)部和外部的市場(chǎng)外部數(shù)據(jù)制定長(zhǎng)遠(yuǎn)的規(guī)劃過程，如企業(yè)競(jìng)爭(zhēng)力分析，行業(yè)環(huán)境分析，戰(zhàn)略目標(biāo)規(guī)劃等。習(xí)題1.請(qǐng)描述數(shù)據(jù)化運(yùn)營(yíng)的概念，并舉列說明企業(yè)數(shù)據(jù)化運(yùn)營(yíng)的應(yīng)用。2.數(shù)據(jù)化運(yùn)營(yíng)的關(guān)鍵步驟有哪些？3.什么是大數(shù)據(jù)？請(qǐng)描述云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能之間的關(guān)系？THANKYOU大數(shù)據(jù)運(yùn)營(yíng)技術(shù)體系本章知識(shí)點(diǎn)(1)掌握Hadoop、Spark、Flink3種主流技術(shù)的基本原理。(2)掌握數(shù)據(jù)處理的基本流程。(3)了解數(shù)據(jù)挖掘概論與數(shù)據(jù)挖掘的常用方法。(4)掌握數(shù)據(jù)可視化庫(kù)及可視化軟件的概念。01大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)處理與數(shù)據(jù)挖掘概述03數(shù)據(jù)可視化概述PART01大數(shù)據(jù)技術(shù)概述Hadoo核心技術(shù)Hadoo核心技術(shù)Hadoop是Apache軟件基金會(huì)下用Java語言開發(fā)的一個(gè)開源分布式計(jì)算平臺(tái)，在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。它是一個(gè)適合大數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算平臺(tái)。Hadoop最早起源于Nutch搜索引擎,Nutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁(yè)抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁(yè)數(shù)量的增加，遇到了嚴(yán)重的可擴(kuò)展性問題，即如何解決數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問題。在Nutch的開發(fā)人員正一籌莫展之際谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案：分布式文件系統(tǒng)distributedfilesystem，DFS)可用于處理海量網(wǎng)頁(yè)的存儲(chǔ)；分布式計(jì)算框架MapReduce可用于處理海量網(wǎng)頁(yè)的索引計(jì)算問題。Hadoo核心技術(shù)Hadoop之父道格·卡廷(Dougcutting)帶領(lǐng)Nutch的開發(fā)人員基于Google的兩篇論文完成了相應(yīng)的開源實(shí)現(xiàn)Hadoo分布式文件系統(tǒng)HadoopdistributedfilesystemHDFS)和MapReduce，并從Nutch中剝離成為獨(dú)立項(xiàng)目Hadoop，到2008年1月，Hadoop成為Apache頂級(jí)項(xiàng)目，迎來了它的快速發(fā)展期Hadoop的大象Logo靈感來源于道格·卡廷女兒的玩具大象。狹義上來說，Hadoop就是單獨(dú)指代hadoop這個(gè)計(jì)算框架。廣義上來說，Hadoop指代大數(shù)據(jù)的一個(gè)軟件生態(tài)圈，包括很多其他的軟件，如圖所示。MapReduc編程模型1)MapReduce的概念MapReduce是一種大規(guī)模數(shù)據(jù)處理編程模型，用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算，是Hadoop核心組件之一。MaReduce的核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認(rèn)組件整合成一個(gè)完整的分布式運(yùn)算程序，并運(yùn)行在Hadoop集群上。2)MapReduce的編程思想MapReduce的思想核心是“分而治之”適用于大量復(fù)雜的任務(wù)處理場(chǎng)景(大規(guī)模數(shù)據(jù)處理場(chǎng)景)。Map(映射)負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個(gè)“簡(jiǎn)單的任務(wù)”來并行處理。可以進(jìn)行拆分的前提是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒有依賴關(guān)系Reduce(化簡(jiǎn))負(fù)責(zé)“合”,即對(duì)Map階段的結(jié)果進(jìn)行全局匯總。這兩個(gè)階段合起來正是MapReduce思想的體現(xiàn)。舉例如下比如我們要統(tǒng)計(jì)圖書館所有類型的書,如果一個(gè)人統(tǒng)計(jì)的話,不知道要統(tǒng)計(jì)多久,如果人多點(diǎn),你統(tǒng)計(jì)1號(hào)書架,我統(tǒng)計(jì)2號(hào)書架,他統(tǒng)計(jì)3號(hào)書架····.·人越多,統(tǒng)計(jì)的速度就越快。這就是Map階段,可以并行地做一件事,彼此之間并沒有依賴關(guān)系。數(shù)完之后，聚到一起，把所有人的統(tǒng)計(jì)數(shù)加在一起，就得出的圖書館書籍的總數(shù)。這就是Reduce階段。MapReduc編程模型3)MapReduce的框架結(jié)構(gòu)一個(gè)完整的MapReduce程序在分布式運(yùn)行時(shí)有三類實(shí)例進(jìn)程:MRAppMaster：負(fù)責(zé)整個(gè)程序的過程調(diào)度及狀態(tài)協(xié)調(diào)。MapTask:負(fù)責(zé)Map階段整個(gè)數(shù)據(jù)處理流程。ReduceTask:負(fù)責(zé)reduce階段的整個(gè)數(shù)據(jù)處理流程。4)MapReduce的編程規(guī)范（1）用戶編寫的程序分成三個(gè)部分：Mapper，Reducer，Driver(提交運(yùn)行mr程序的客戶端)。（2）Mapper的輸入數(shù)據(jù)是鍵值對(duì)的形式（鍵與值的類型可自定義）。（3）Mapper的輸出數(shù)據(jù)是鍵值對(duì)的形式（鍵與值的類型可自定義）。（4）Mapper中的業(yè)務(wù)邏輯寫在map()方法中。（5）map()方法（maptask進(jìn)程）對(duì)每一個(gè)調(diào)用一次。（6）Reducer的輸入數(shù)據(jù)類型對(duì)應(yīng)Mapper的輸出數(shù)據(jù)類型，也是鍵值對(duì)。（7）Reducer的業(yè)務(wù)邏輯寫在reduce()方法中。（8）Reducetask進(jìn)程對(duì)每一組相同鍵的組調(diào)用一次reduce()方法。（9）用戶自定義的Mapper和Reducer都要繼承各自的父類。（10）整個(gè)程序需要一個(gè)Drvier來進(jìn)行提交，提交的是一個(gè)描述了各種必要信息的job對(duì)象。Hadoop分布式文件系統(tǒng)HDFS1)HDFS的概念HDFS是一個(gè)可以運(yùn)行在通用硬件上的分布式文件系統(tǒng)（DistributedFileSystem）。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí)，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。2)HDFS的原理多臺(tái)計(jì)算機(jī)(集群)聯(lián)網(wǎng)協(xié)同工作就像單臺(tái)系統(tǒng)一樣解決某種問題，這樣的系統(tǒng)我們稱之為分布式系統(tǒng)。分布式文件系統(tǒng)是分布式系統(tǒng)的一個(gè)子集，它們解決的問題就是數(shù)據(jù)存儲(chǔ)。換句話說，它們是橫跨在多臺(tái)計(jì)算機(jī)上的存儲(chǔ)系統(tǒng)。存儲(chǔ)在分布式文件系統(tǒng)上的數(shù)據(jù)自動(dòng)分布在不同的節(jié)點(diǎn)上。分布式文件系統(tǒng)在大數(shù)據(jù)時(shí)代有著廣泛的應(yīng)用前景，它們?yōu)榇鎯?chǔ)和處理來自網(wǎng)絡(luò)和其它地方的超大規(guī)模數(shù)據(jù)提供所需的擴(kuò)展能力，為各類分布式運(yùn)算框架（如：mapreduce，spark，……）提供數(shù)據(jù)存儲(chǔ)服務(wù)。Hadoop分布式文件系統(tǒng)HDFS3)HDFS設(shè)計(jì)思想分而治之：將大文件、大批量文件，分布式存放在同一集群中的不同服務(wù)器上，以便于采取分而治之的方式對(duì)海量數(shù)據(jù)進(jìn)行運(yùn)算分析。4)HDFS架構(gòu)HDFS是一個(gè)塊結(jié)構(gòu)的文件系統(tǒng)，其中每個(gè)文件被分成預(yù)定大小的塊（Hadoop1.x版本塊大小為64M，2.x版本塊大小為128M），這些塊存儲(chǔ)在一臺(tái)或多臺(tái)機(jī)器的集群中。HDFS遵循主/從架構(gòu)，其中集群包含單個(gè)NameNode（主節(jié)點(diǎn)），所有其他節(jié)點(diǎn)都是DataNode（從節(jié)點(diǎn)）。HDFS可以部署在支持Java的各種機(jī)器上。雖然可以在一臺(tái)機(jī)器上運(yùn)行多個(gè)DataNode，但在實(shí)際應(yīng)用中，這些DataNode分布在不同的機(jī)器上。Hadoop分布式文件系統(tǒng)HDFSNameNode在原生的Hadoop集群中，HDFS分為三個(gè)角色：NameNode、DataNode、SecondaryNameNode。DataNodeHDFS中的從屬節(jié)點(diǎn)。不具備高質(zhì)量或高可用性，主要負(fù)責(zé)將數(shù)據(jù)落實(shí)到本地存儲(chǔ)，所以DataNode所在機(jī)器通常配置有大量的硬盤空間。DataNode會(huì)定期向NameNode發(fā)送心跳，如果NameNode長(zhǎng)時(shí)間沒有接受到DataNode發(fā)送的心跳，NameNode就會(huì)認(rèn)為該DataNode失效。SecondaryNameNode是NameNode的一個(gè)助手節(jié)點(diǎn)，來幫助NameNode更好的工作。它存在的目的就是為HDFS中提供一個(gè)檢查點(diǎn)，它會(huì)定時(shí)到NameNode去獲取editlogs，并更新到fsimage上，一旦它有了新的fsimage文件，它將其拷貝回NameNode中，當(dāng)NameNode在下次重啟時(shí)會(huì)使用這個(gè)新的fsimage文件，從而減少重啟的時(shí)間。ApacheHadoopHDFS架構(gòu)中的主節(jié)點(diǎn)，主要是用來保存HDFS的元數(shù)據(jù)信息，比如命名空間信息，塊信息等。當(dāng)它運(yùn)行的時(shí)候，這些信息是存在內(nèi)存中的。但是這些信息也可以持久化到磁盤上。Hadoop分布式文件系統(tǒng)HDFS5)HDFS的優(yōu)缺點(diǎn)事物都具有兩面性，HDFS再?gòu)?qiáng)大也會(huì)存在一些缺點(diǎn)，下面讓我們了解一下HDFS的優(yōu)缺點(diǎn)，從而可以在不同的應(yīng)用場(chǎng)景中更好的發(fā)揮HDFS的一些特性。優(yōu)點(diǎn)概述高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本(默認(rèn)為3份，可通過修改配置文件來修改副本數(shù))，副本丟失后，自動(dòng)恢復(fù)。適合批處理HDFS會(huì)將數(shù)據(jù)位置暴露給計(jì)算框架，通過移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)的方式來減少文件I/O，從而提高計(jì)算效率。適合大規(guī)模數(shù)據(jù)處理適合GB，TB，甚至PB級(jí)數(shù)據(jù)的計(jì)算，百萬規(guī)模以上的文件處理?？蓸?gòu)建在廉價(jià)機(jī)器上HDFS通過多副本提高可靠性，提供了容錯(cuò)和恢復(fù)機(jī)制。HDFS的存儲(chǔ)節(jié)點(diǎn)只需要提供磁盤存儲(chǔ)空間即可，對(duì)操作系統(tǒng)與其他硬件資源沒有要求。缺點(diǎn)概述不支持低延遲數(shù)據(jù)訪問毫秒級(jí)的數(shù)據(jù)訪問，HDFS是不支持的。所以說HDFS不能作為實(shí)時(shí)任務(wù)的數(shù)據(jù)源。小文件存儲(chǔ)HDFS上的每一個(gè)文件的元數(shù)據(jù)都由NameNode進(jìn)行管理，如果有大量的小文件，將會(huì)占用NameNode大量?jī)?nèi)存，并且文件尋道時(shí)間超過讀取時(shí)間，所以HDFS建議將小文件進(jìn)行合并或者說使用HDFS提供的archive檔案機(jī)制。文件只支持追加HDFS上的文件只支持追加操作，不支持修改。而且一個(gè)文件同一時(shí)間只能有一個(gè)用戶進(jìn)行寫入操作。分布式資源調(diào)度管理系統(tǒng)分布式資源調(diào)度管理系統(tǒng),即另一種資源協(xié)調(diào)者(yetanotherresourcenegotiator，YARN)是Hadoop的資源管理器,它是一個(gè)分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內(nèi)存、輸入輸出、網(wǎng)絡(luò)、磁盤等,其產(chǎn)生的原因是為了解決原MapReduce框架的不足。1)YARN的概念我們先來了解一下在Yarn誕生之前，Hadoop是如何進(jìn)行資源調(diào)度的。在Hadoop1.X版本，一個(gè)Hadoop集群可分解為兩個(gè)抽象實(shí)體：Mapreduce計(jì)算引擎和分布式文件系統(tǒng)。當(dāng)一個(gè)客戶端向一個(gè)Hadoop集群發(fā)出一個(gè)請(qǐng)求時(shí)，此請(qǐng)求由Jobtracker管理。Jobtracker與Namenode聯(lián)合將任務(wù)分發(fā)到離它所處理的數(shù)據(jù)盡可能近的位置。然后Jobtracker將Map和Reduce任務(wù)安排到一個(gè)或多個(gè)Tasktracker上的可用插槽中。Tasktracker與Datanode一起對(duì)來自Datanode的數(shù)據(jù)執(zhí)行Map和Reduce任務(wù)。當(dāng)Map和Reduce任務(wù)完成時(shí)，Tasktracker會(huì)告知Jobtracker，后者確定所有任務(wù)何時(shí)完成并最終告知客戶作業(yè)已完成。分布式資源調(diào)度管理系統(tǒng)在使用Jobtracker進(jìn)行資源調(diào)度的時(shí)候，會(huì)存在如下問題：Jobtracker是集群事務(wù)的集中處理點(diǎn)，存在單點(diǎn)故障。Jobtracker需要完成的任務(wù)太多，既要維護(hù)Job的狀態(tài)又要維護(hù)Job的Task的狀態(tài)，造成過多的資源消耗。在Tasktracker端，用Map/ReduceTask作為資源的表示過于簡(jiǎn)單，沒有考慮到Cpu、內(nèi)存等資源情況，當(dāng)把兩個(gè)需要消耗大內(nèi)存的Task調(diào)度到一起，很容易出現(xiàn)OOM（內(nèi)存溢出）。把資源強(qiáng)制劃分為Map/ReduceSlot，當(dāng)只有MapTask時(shí)，ReduceSlot不能用；當(dāng)只有ReduceTask時(shí)，MapSlot不能用，容易造成資源利用不足。到了Hadoop2.X版本，Yarn作為Hadoop第三大核心組件橫空出世，為了解決了Hadoop1.X版本資源調(diào)度的問題，YARN將資源管理和作業(yè)監(jiān)控/調(diào)度這兩個(gè)功能拆分開來，交由不同的守護(hù)進(jìn)程完成。具體來說就是有一個(gè)全局的資源管理者（Resourcemanager）和負(fù)責(zé)每一個(gè)應(yīng)用的應(yīng)用管理者（Applicationmaster）。分布式資源調(diào)度管理系統(tǒng)ResourceManager2)YARN的基本架構(gòu)YARN是一個(gè)資源管理、任務(wù)調(diào)度的框架，主要包含三大模塊：ResourceManager（簡(jiǎn)稱RM）、NodeManager（簡(jiǎn)稱NM）、ApplicationMaster（簡(jiǎn)稱AM）。NodeManager是每個(gè)節(jié)點(diǎn)上的資源和任務(wù)管理器，它是管理這臺(tái)機(jī)器的代理，負(fù)責(zé)該節(jié)點(diǎn)程序的運(yùn)行，以及該節(jié)點(diǎn)資源的管理和監(jiān)控，YARN集群每個(gè)節(jié)點(diǎn)都會(huì)運(yùn)行一個(gè)NodeManager。NodeManager會(huì)定時(shí)向ResourceManager匯報(bào)本節(jié)點(diǎn)資源（CPU、內(nèi)存）的使用情況和Container的運(yùn)行狀態(tài)。當(dāng)ResourceManager宕機(jī)時(shí)NodeManager自動(dòng)連接RM備用節(jié)點(diǎn)。ApplicationMaster用戶提交的每個(gè)應(yīng)用程序均包含一個(gè)ApplicationMaster。ResourceManager會(huì)為應(yīng)用分配一個(gè)Container（分配的資源）來運(yùn)行ApplicationMaster，ApplicationMaster會(huì)將得到的任務(wù)進(jìn)一步分配給內(nèi)部的任務(wù)(資源的二次分配)，還有就是負(fù)責(zé)監(jiān)控所有任務(wù)運(yùn)行狀態(tài)，并在任務(wù)運(yùn)行失敗時(shí)重新為任務(wù)申請(qǐng)資源以重啟任務(wù)。負(fù)責(zé)整個(gè)集群的資源管理和分配，是一個(gè)全局的資源管理系統(tǒng)。NodeManager以心跳的方式向ResourceManager匯報(bào)資源使用情況（目前主要是CPU和內(nèi)存的使用情況）。RM只接受NM的資源回報(bào)信息，對(duì)于具體的資源處理則交給NM自己處理。YARNScheduler根據(jù)application的請(qǐng)求為其分配資源，不負(fù)責(zé)applicationjob的監(jiān)控、追蹤、運(yùn)行狀態(tài)反饋、啟動(dòng)等工作。分布式資源調(diào)度管理系統(tǒng)3)YARN調(diào)度工作的流程(1)客戶端向RM提交應(yīng)用程序,其中包括啟動(dòng)該應(yīng)用的AM所必需信息。例如AM程序、啟動(dòng)AM的命令、用戶程序等。(2)RM啟動(dòng)一個(gè)容器用于運(yùn)行AM(3)啟動(dòng)中的AM向RM注冊(cè)自己?jiǎn)?dòng)成后與RM保持心跳(4)AM向RM發(fā)送請(qǐng)求，申請(qǐng)相應(yīng)數(shù)目的容器(5)RM返回AM申請(qǐng)的容器信息。申請(qǐng)成功的容器,由AM進(jìn)行初始化。容器的啟動(dòng)信息初始化后,AM與對(duì)應(yīng)的NM通信,要求NM啟動(dòng)容器。AM與NM保持心跳,從而對(duì)NM上運(yùn)行的任務(wù)進(jìn)行監(jiān)控和管理(6)容器運(yùn)行期間，AM對(duì)容器進(jìn)行監(jiān)控。容器通過RPC協(xié)議向?qū)?yīng)的AM匯報(bào)自己的進(jìn)度和狀態(tài)等信息.(7)應(yīng)用運(yùn)行期間，客戶端直接與AM通信獲取應(yīng)用的狀態(tài)、進(jìn)度更新等信息。(8)應(yīng)用運(yùn)行結(jié)束后，AM向RM注銷自己，并允許屬于它的容器被收回。分布式資源調(diào)度管理系統(tǒng)4)YARN的調(diào)度策略在YARN中，負(fù)責(zé)給應(yīng)用分配資源的就是調(diào)度器，調(diào)度本身就是一個(gè)難題，很難找到一個(gè)完美的策略可以解決所有的應(yīng)用場(chǎng)景。為此YARN提供了3種調(diào)度器，也可以叫作調(diào)度策略如表所示。調(diào)度器分類策略特點(diǎn)先進(jìn)先出調(diào)度器FIFOSchedulerFIFOScheduler把應(yīng)用按提交的順序排成一個(gè)隊(duì)列，這是一個(gè)先進(jìn)先出隊(duì)列，在進(jìn)行資源分配的時(shí)候，先給隊(duì)列中最頭上的應(yīng)用進(jìn)行分配資源，待最頭上的應(yīng)用需求滿足后再給下一個(gè)分配，以此類推。FIFOScheduler是最簡(jiǎn)單也是最容易理解的調(diào)度器，也不需要任何配置，但它并不適用于共享集群。大的應(yīng)用可能會(huì)占用所有集群資源，這就導(dǎo)致其它應(yīng)用被阻塞公平調(diào)度器FairScheduler在Fair調(diào)度器中，我們不需要預(yù)先占用一定的系統(tǒng)資源，F(xiàn)air調(diào)度器會(huì)為所有運(yùn)行的job動(dòng)態(tài)的調(diào)整系統(tǒng)資源當(dāng)?shù)谝粋€(gè)占用資源較大的job提交時(shí)，如果只有這一個(gè)job在運(yùn)行，那么它會(huì)獲得所有的集群資源；此時(shí)，當(dāng)?shù)诙€(gè)小任務(wù)提交后，F(xiàn)air調(diào)度器就會(huì)分配一半資源給這個(gè)小任務(wù)，讓這兩個(gè)任務(wù)公平的共享集群資源。容器調(diào)度器CapacitySchedulerCapacity調(diào)度器允許多個(gè)組織共享整個(gè)集群，每個(gè)組織可以獲得集群的一部分計(jì)算能力。通過為每個(gè)組織分配專門的隊(duì)列，然后再為每個(gè)隊(duì)列分配一定的集群資源，這樣整個(gè)集群就可以通過設(shè)置多個(gè)隊(duì)列的方式給多個(gè)組織提供服務(wù)了。除此之外，隊(duì)列內(nèi)部又可以垂直劃分，這樣一個(gè)組織內(nèi)部的多個(gè)成員就可以共享這個(gè)隊(duì)列資源了，在一個(gè)隊(duì)列內(nèi)部，資源的調(diào)度是采用的是先進(jìn)先出(FIFO)策略。高性能分布式協(xié)調(diào)服務(wù)高性能分布式協(xié)調(diào)服務(wù)(ZooKeeper)致力于為分布式應(yīng)用提供一個(gè)高性能、高可用且具有嚴(yán)格順序訪問控制能力的分布式協(xié)調(diào)服務(wù)。ZooKeeper由雅虎研究院開發(fā)，是GoogleChubby的開源實(shí)現(xiàn),后來托管到Apache,于2010年11月正式成為Apache的頂級(jí)項(xiàng)目。ZooKeeper的應(yīng)用場(chǎng)景有很多，比如說HadoopHA(高可用)集群、KafkaHBase都強(qiáng)依賴于ZooKeeper,讓我們一起來看下ZooKeeper有哪些特性。1)zookeeper的五大特性特性概述順序一致性從同一個(gè)客戶端發(fā)起的事務(wù)請(qǐng)求，最終將會(huì)嚴(yán)格地按照其發(fā)起的順序被應(yīng)用到Zookeeper去。原子性所有請(qǐng)求的響應(yīng)結(jié)果在整個(gè)分布式集群環(huán)境中具備原子性，即要么整個(gè)集群中所有機(jī)器都成功的處理了某個(gè)請(qǐng)求，要么就都沒有處理，絕對(duì)不會(huì)出現(xiàn)集群中一部分機(jī)器處理了某一個(gè)請(qǐng)求，而另一部分機(jī)器卻沒有處理的情況。單一性無論客戶端連接到ZooKeeper集群中哪個(gè)服務(wù)器，每個(gè)客戶端所看到的服務(wù)端模型都是一致的，不可能出現(xiàn)兩種不同的數(shù)據(jù)狀態(tài)，因?yàn)閆ooKeeper集群中每臺(tái)服務(wù)器之間會(huì)進(jìn)行數(shù)據(jù)同步?？煽啃砸坏┓?wù)端數(shù)據(jù)的狀態(tài)發(fā)送了變化，就會(huì)立即存儲(chǔ)起來，除非此時(shí)有另一個(gè)請(qǐng)求對(duì)其進(jìn)行了變更，否則數(shù)據(jù)一定是可靠的。實(shí)時(shí)性當(dāng)某個(gè)請(qǐng)求被成功處理后，ZooKeeper僅僅保證在一定的時(shí)間段內(nèi)，客戶端最終一定能從服務(wù)端上讀取到最新的數(shù)據(jù)狀態(tài)，即ZooKeeper保證數(shù)據(jù)的最終一致性。Zookeeper具有嚴(yán)格的寫操作順序性，客戶端能夠基于zookeeper實(shí)現(xiàn)一些復(fù)雜的同步原語。對(duì)于來自客戶端的每個(gè)更新請(qǐng)求，都會(huì)分配一個(gè)全局唯一的遞增編號(hào)，這個(gè)編號(hào)反應(yīng)了所有事物操作的先后順序。高性能分布式協(xié)調(diào)服務(wù)2)ZooKeeper的角色領(lǐng)導(dǎo)者(Leader)Leader是ZooKeeper集群工作的核心。主要負(fù)責(zé)調(diào)度工作，是事務(wù)請(qǐng)求的調(diào)度處理者和集群內(nèi)部各服務(wù)器的調(diào)度。跟隨者(Follower)Follower是ZooKeeper集群的跟隨者。主要負(fù)責(zé)處理客戶端非事務(wù)性請(qǐng)求(讀取數(shù)據(jù))并轉(zhuǎn)發(fā)事務(wù)請(qǐng)求給Leader服務(wù)器和參與Leader選舉投票。觀察者(Observer)Observer充當(dāng)觀察者角色，觀察ZooKeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對(duì)于非事務(wù)請(qǐng)求可以進(jìn)行獨(dú)立處理,對(duì)于事務(wù)請(qǐng)求,則會(huì)轉(zhuǎn)發(fā)給Leader服務(wù)器進(jìn)行處理。Observer不會(huì)參與任何形式的投票,包括事務(wù)請(qǐng)求Proposal的投票和Leader選舉投票。HBase數(shù)據(jù)庫(kù)HBase是建立在HDFS之上，提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。它是ApacheHadoop生態(tài)系統(tǒng)中的重要一員，主要用于海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)，Hbase的Logo是一只鯨魚，如圖所示。HBase是GoogleBigtable的開源實(shí)現(xiàn)，與GoogleBigtable利用GFS作為其文件存儲(chǔ)系統(tǒng)類似，HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng)；Google運(yùn)行MapReduce來處理Bigtable中的海量數(shù)據(jù)，HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù)；GoogleBigtable利用Chubby作為協(xié)同服務(wù)，HBase利用Zookeeper作為對(duì)應(yīng)。HBase數(shù)據(jù)庫(kù)1)Hbase特性特點(diǎn)概述大一個(gè)表可以有上億行，上百萬列。面向列面向列表（簇）的存儲(chǔ)和權(quán)限控制，列（簇）獨(dú)立檢索。稀疏每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本，默認(rèn)情況下，版本號(hào)自動(dòng)分配，版本號(hào)就是單元格插入時(shí)的時(shí)間戳。數(shù)據(jù)多版本每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本，默認(rèn)情況下，版本號(hào)自動(dòng)分配，版本號(hào)就是單元格插入時(shí)的時(shí)間戳。數(shù)據(jù)類型單一HBase中的數(shù)據(jù)都是字符串，沒有類型。HBase數(shù)據(jù)庫(kù)2)Hbase與傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)比對(duì)比傳統(tǒng)數(shù)據(jù)庫(kù)可能遇到的問題（1）數(shù)據(jù)量很大的時(shí)候無法存儲(chǔ)。（2）沒有很好的備份機(jī)制。（3）數(shù)據(jù)達(dá)到一定數(shù)量開始緩慢，很大的話基本無法支撐。Hbase的優(yōu)勢(shì)（1）線性擴(kuò)展，隨著數(shù)據(jù)量增多可以通過節(jié)點(diǎn)擴(kuò)展進(jìn)行支撐。（2）數(shù)據(jù)存儲(chǔ)在hdfs上，備份機(jī)制健全。（3）通過zookeeper協(xié)調(diào)查找數(shù)據(jù)，訪問速度快。HBase數(shù)據(jù)庫(kù)3)zookeeper在HBase中的作用①可以保證在HBase集群中有且只有一個(gè)活躍的Master；②存儲(chǔ)所有Region的尋址入口；③實(shí)時(shí)監(jiān)控Regionserver的上線和下線信息，并實(shí)時(shí)通知給Master；④存儲(chǔ)HBase的schema和Table元數(shù)據(jù)。Region是HBase分布式存儲(chǔ)的最基本單元。它將一個(gè)數(shù)據(jù)表按Key值范圍橫向劃分為一個(gè)個(gè)的子表，實(shí)現(xiàn)分布式存儲(chǔ)。這個(gè)子表，在HBase中被稱作“Region”。每一個(gè)Region都關(guān)聯(lián)一個(gè)Key值范圍，即一個(gè)使用StartKey和EndKey描述的區(qū)間。HBase數(shù)據(jù)庫(kù)4)HBase的集群角色HBase的集群角色有兩種分別是HMaster和Regionserver。其中HMaster是主進(jìn)程，負(fù)責(zé)管理所有的Regionserver；Regionserver是數(shù)據(jù)服務(wù)進(jìn)程，負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請(qǐng)求。HMaster與Regionserver之間有著密切的關(guān)系，而Regionserver又與Region它是HBase中存儲(chǔ)數(shù)據(jù)的最小單元)密不可分，所以我們分別講解Region、Regionserver和HMaster的特點(diǎn)。(1)RegionRegionServer是HBase的數(shù)據(jù)服務(wù)進(jìn)程。它負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請(qǐng)求，所有的Region都被交由RegionServer管理，包括執(zhí)行Flush、Compaction、Open、Close、Load等操作。實(shí)際上，所有用戶數(shù)據(jù)的讀寫請(qǐng)求，都是和RegionServer管理的Region進(jìn)行交互。當(dāng)某個(gè)RegionServer發(fā)生故障的時(shí)候，此RegionServer所管理Region就會(huì)轉(zhuǎn)移到其它RegionServer下。RegionServer需要定期向HMaster匯報(bào)自身的情況，包括內(nèi)存使用狀態(tài)、在線狀態(tài)的Region等信息。RegionServer除此之外，還可以管理WAL，以及執(zhí)行數(shù)據(jù)插入、更新和刪除操作，并通過Metrics對(duì)外提供了衡量HBase內(nèi)部服務(wù)狀況的參數(shù)。另外，RegionServer還內(nèi)置了HttpServer，所以我們可以通過圖形界面的方式訪問Hbase。(2)RegionserverHMaster進(jìn)程負(fù)責(zé)管理所有的RegionServer。包括新RegionServer的注冊(cè)；RegionServerFailover處理；負(fù)責(zé)建表/修改表/刪除表以及一些集群操作；新表創(chuàng)建時(shí)的Region分配；運(yùn)行期間的負(fù)載均衡保障；負(fù)責(zé)所有Region的轉(zhuǎn)移操作，包括RegionServerFailover后的Region接管。(3)HMasterHBase數(shù)據(jù)庫(kù)4)HBase的集群角色HMaster進(jìn)程有主備角色。集群可以配置多個(gè)HMaster角色，在集群?jiǎn)?dòng)時(shí)，這些HMaster角色通過競(jìng)爭(zhēng)獲得主HMaster角色。主HMaster只能有一個(gè)，所有的備HMaster進(jìn)程在集群運(yùn)行期間處于休眠狀態(tài)，不干涉任何集群事務(wù)。為了方便理解HMaster、RegionServer和Region三者之間的關(guān)系，舉一個(gè)很形象的例子,你可以把HMaster理解為部門總經(jīng)理，它管理了若干個(gè)項(xiàng)目經(jīng)理(RegionServer),而每個(gè)項(xiàng)目經(jīng)理都帶了若干個(gè)項(xiàng)目組成員(Region)。HBase有自己獨(dú)特的一套文件存儲(chǔ)架構(gòu)和數(shù)據(jù)尋址機(jī)制,來保證在海量數(shù)據(jù)中快速檢索到需要的數(shù)據(jù),有興趣的同學(xué)可以前往HBase官網(wǎng)(/)進(jìn)行學(xué)習(xí)。Hive系統(tǒng)Hive是基于Hadoop構(gòu)建的一套數(shù)據(jù)倉(cāng)庫(kù)分析系統(tǒng)，它提供了豐富的SQL查詢方式來分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)（HDFS）中的數(shù)據(jù)：可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表，并提供完整的SQL查詢功能；可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行，通過自己的SQL查詢分析需要的內(nèi)容，這套SQL簡(jiǎn)稱HiveSQL，使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)。而mapreduce開發(fā)人員可以把自己寫的mapper和reducer作為插件來支持hive做更復(fù)雜的數(shù)據(jù)分析。它與關(guān)系型數(shù)據(jù)庫(kù)的SQL略有不同，但支持了絕大多數(shù)的語句如DDL、DML以及常見的聚合函數(shù)、連接查詢、條件查詢。它還提供了一系列的工具進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載，用來存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)集，并支持UDF（User-DefinedFunction）、UDAF(User-DefnesAggregateFunction)和UDTF（User-DefinedTable-GeneratingFunction），也可以實(shí)現(xiàn)對(duì)map和reduce函數(shù)的定制，為數(shù)據(jù)操作提供了良好的伸縮性和可擴(kuò)展性。Hive系統(tǒng)1)什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)，英文名稱為DataWarehouse，可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境，為企業(yè)提供決策支持（DecisionSupport）。它出于分析性報(bào)告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù)，同時(shí)自身也不需要“消費(fèi)”任何的數(shù)據(jù)，數(shù)據(jù)來源于外部，并且開放給外部應(yīng)用，這也是為什么叫“倉(cāng)庫(kù)”，而不叫“工廠”的原因。數(shù)據(jù)倉(cāng)庫(kù)有四個(gè)特性：分別是主體性、集成性、非易失性（不可更新性）和時(shí)變性。Hive系統(tǒng)2)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別實(shí)際講的是OLTP與OLAP的區(qū)別，見表所示。處理方式概述OLTP聯(lián)機(jī)事務(wù)處理，也可以稱面向交易的處理系統(tǒng)，它是針對(duì)具體業(yè)務(wù)在數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作，通常對(duì)少數(shù)記錄進(jìn)行查詢、修改。用戶較為關(guān)心操作的響應(yīng)時(shí)間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)管理的主要手段，主要用于操作型處理。OLAP聯(lián)機(jī)分析處理，一般針對(duì)某些主題的歷史數(shù)據(jù)進(jìn)行分析，支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn)，并不是要取代數(shù)據(jù)庫(kù)，兩者之間的區(qū)別如下表所示。差異數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)面向方向面向事務(wù)面向主題數(shù)據(jù)存儲(chǔ)存儲(chǔ)業(yè)務(wù)數(shù)據(jù)存儲(chǔ)歷史數(shù)據(jù)表設(shè)計(jì)盡量避免冗余有意引入冗余，依照分析需求，分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)作用方向?yàn)椴东@數(shù)據(jù)而設(shè)計(jì)為分析數(shù)據(jù)而設(shè)計(jì)Hive系統(tǒng)以銀行業(yè)務(wù)為例。數(shù)據(jù)庫(kù)是事務(wù)系統(tǒng)的數(shù)據(jù)平臺(tái)，客戶在銀行做的每筆交易都會(huì)寫入數(shù)據(jù)庫(kù)，被記錄下來，這里，可以簡(jiǎn)單地理解為用數(shù)據(jù)庫(kù)記賬。數(shù)據(jù)倉(cāng)庫(kù)是分析系統(tǒng)的數(shù)據(jù)平臺(tái)，它從事務(wù)系統(tǒng)獲取數(shù)據(jù)，并做匯總、加工，為決策者提供決策的依據(jù)。比如，某銀行某分行一個(gè)月發(fā)生多少交易，該分行當(dāng)前存款余額是多少。如果存款又多，消費(fèi)交易又多，那么該地區(qū)就有必要設(shè)立ATM了。顯然，銀行的交易量是巨大的，通常以百萬甚至千萬次來計(jì)算。事務(wù)系統(tǒng)是實(shí)時(shí)的，這就要求時(shí)效性，客戶存一筆錢需要幾十秒是無法忍受的，這就要求數(shù)據(jù)庫(kù)只能存儲(chǔ)很短一段時(shí)間的數(shù)據(jù)。而分析系統(tǒng)是事后的，它要提供關(guān)注時(shí)間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的，匯總計(jì)算起來也要慢一些，但是，只要能夠提供有效的分析數(shù)據(jù)就達(dá)到目的了。數(shù)據(jù)倉(cāng)庫(kù)，是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下，為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的，它決不是所謂的“大型數(shù)據(jù)庫(kù)”。Hive系統(tǒng)3)Hive的作用MapReduce使用起來學(xué)習(xí)難度大，成本高，坡度陡，并且MapReduce實(shí)現(xiàn)復(fù)雜查詢邏輯開發(fā)難度較大。而Hive可以把SQL語句轉(zhuǎn)化成Mapreduce代碼，操作接口內(nèi)SQL語法，提升開發(fā)的效率；避免了去寫MapReduce，降低開發(fā)人員的學(xué)習(xí)成本；較強(qiáng)的擴(kuò)展性，Hive支持用戶自定義函數(shù)，用戶可以根據(jù)自己的需求來實(shí)現(xiàn)自己的函數(shù)；良好的容錯(cuò)性，節(jié)點(diǎn)出現(xiàn)問題SQL仍可完成執(zhí)行。關(guān)于Hive的使用方式與數(shù)據(jù)類型，會(huì)在第4章中詳細(xì)講解。Flume軟件Flume是Cloudera提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)能浖lume的核心是把數(shù)據(jù)從數(shù)據(jù)源(source)收集過來，再將收集到的數(shù)據(jù)送到指定的目的地(sink)。為了保證輸送的過程一定成功，在送到目的地(sink)之前，會(huì)先緩存數(shù)據(jù)(channel)，待數(shù)據(jù)真正到達(dá)目的地(sink)后，F(xiàn)lume在刪除自己緩存的數(shù)據(jù)。Flume支持定制各類數(shù)據(jù)發(fā)送方，用于收集各類型數(shù)據(jù)；同時(shí)，F(xiàn)lume支持定制各種數(shù)據(jù)接受方，用于最終存儲(chǔ)數(shù)據(jù)。一般的采集需求，通過對(duì)Flume的簡(jiǎn)單配置即可實(shí)現(xiàn)。針對(duì)特殊場(chǎng)景也具備良好的自定義擴(kuò)展能力。因此，F(xiàn)lume可以適用于大部分的日常數(shù)據(jù)采集場(chǎng)景。Flume軟件Flume系統(tǒng)中核心的角色是Agent，Agent本身是一個(gè)Java進(jìn)程，一般運(yùn)行在日志收集節(jié)點(diǎn)，執(zhí)行流程如圖所示。每一個(gè)Agent相當(dāng)于一個(gè)數(shù)據(jù)傳遞員，內(nèi)部有三個(gè)組件：Source：采集源，用于跟數(shù)據(jù)源對(duì)接，以獲取數(shù)據(jù)。Sink：下沉地，采集數(shù)據(jù)的傳送目的地，用于往下一級(jí)Agent傳遞數(shù)據(jù)或者往最終存儲(chǔ)系統(tǒng)傳遞數(shù)據(jù)。Channel：Agent內(nèi)部的數(shù)據(jù)傳輸通道，用于從source將數(shù)據(jù)傳遞到sink；在整個(gè)數(shù)據(jù)的傳輸?shù)倪^程中，流動(dòng)的是Event，它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)淖罨締卧?。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝。如果是文本文件，通常是一行記錄，Event也是事務(wù)的基本單位。Event從Source，流向Channel，再到Sink，本身為一個(gè)字節(jié)數(shù)組，并可攜帶headers(頭信息)信息。Event代表著一個(gè)數(shù)據(jù)的最小完整單元，從外部數(shù)據(jù)源來，向外部的目的地去。一個(gè)完整的Event包括：Eventheaders、Eventbody、Event信息，其中Event信息就是Flume收集到的日記記錄。kafka系統(tǒng)1)kafka的概念A(yù)pacheKafka是一個(gè)開源消息系統(tǒng)，由Scala語言編寫，以可水平擴(kuò)展和高吞吐率而被廣泛使用。Kafka最初是由Linkedin公司開發(fā)，是一個(gè)分布式、分區(qū)的、多副本的、多訂閱者，基于Zookeeper協(xié)調(diào)的分布式消息系統(tǒng)，Linkedin于2010年貢獻(xiàn)給了Apache基金會(huì)并成為頂級(jí)開源項(xiàng)目，KafkaLogo如圖所示。Kafka官網(wǎng)地址為：/kafka系統(tǒng)2)

Kafka的特性特性概述高吞吐量、低延遲kafka每秒可以處理幾十萬條消息，它的延遲最低只有幾毫秒，每個(gè)topic可以分多個(gè)partition，consumergroup對(duì)partition進(jìn)行consume操作?？蓴U(kuò)展性Kafka集群支持熱擴(kuò)展。持久性、可靠性消息被持久化到本地磁盤，并且支持?jǐn)?shù)據(jù)備份防止數(shù)據(jù)丟失。容錯(cuò)性允許集群中節(jié)點(diǎn)失?。ㄈ舾北緮?shù)量為n，則允許n-1個(gè)節(jié)點(diǎn)失?。?。高并發(fā)支持?jǐn)?shù)千個(gè)客戶端同時(shí)讀寫。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(1)服務(wù)器節(jié)點(diǎn)(Broker)0102(2)主題(Topic)Kafka集群包含一個(gè)或多個(gè)服務(wù)器，服務(wù)器節(jié)點(diǎn)稱為Broker。Broker存儲(chǔ)Topic的數(shù)據(jù)。如果某Topic有N個(gè)Partition，集群有N個(gè)Broker，那么每個(gè)Broker存儲(chǔ)該Topic的一個(gè)Partition。如果某Topic有N個(gè)Partition，集群有(N+M)個(gè)Broker，那么其中有N個(gè)Broker存儲(chǔ)該Topic的一個(gè)Partition，剩下的M個(gè)Broker不存儲(chǔ)該Topic的Partition數(shù)據(jù)。如果某Topic有N個(gè)Partition，集群中Broker數(shù)目少于N個(gè)，那么一個(gè)Broker存儲(chǔ)該Topic的一個(gè)或多個(gè)Partition。在實(shí)際生產(chǎn)環(huán)境中，盡量避免這種情況的發(fā)生，這種情況容易導(dǎo)致Kafka集群數(shù)據(jù)不均衡。每條發(fā)布到Kafka集群的消息都有一個(gè)類別，這個(gè)類別被稱為Topic。（物理上不同Topic的消息分開存儲(chǔ)，邏輯上一個(gè)Topic的消息雖然保存于一個(gè)或多個(gè)broker上但用戶只需指定消息的Topic即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處）類似于數(shù)據(jù)庫(kù)的表名。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(3)分區(qū)(Partition)0304(4)生產(chǎn)者(Producer)Topic中的數(shù)據(jù)分割為一個(gè)或多個(gè)Partition。每個(gè)Topic至少有一個(gè)Partition。每個(gè)Partition中的數(shù)據(jù)使用多個(gè)Segment文件存儲(chǔ)。Partition中的數(shù)據(jù)是有序的，不同Partition間的數(shù)據(jù)丟失了數(shù)據(jù)的順序。如果Topic有多個(gè)Partition，消費(fèi)數(shù)據(jù)時(shí)就不能保證數(shù)據(jù)的順序。在需要嚴(yán)格保證消息的消費(fèi)順序的場(chǎng)景下，需要將Partition數(shù)目設(shè)為1。生產(chǎn)者即數(shù)據(jù)的發(fā)布者，該角色將消息發(fā)布到Kafka的Topic中。Broker接收到生產(chǎn)者發(fā)送的消息后，Broker將該消息追加到當(dāng)前用于追加數(shù)據(jù)的Segment文件中。生產(chǎn)者發(fā)送的消息，存儲(chǔ)到一個(gè)Partition中，生產(chǎn)者也可以指定數(shù)據(jù)存儲(chǔ)的Partition。kafka系統(tǒng)2)

Kafka的特性kafka中的相關(guān)組件如下(5)消費(fèi)者(Consumer)0304(6)消費(fèi)者群ConsumerGroup)消費(fèi)者可以從Broker中讀取數(shù)據(jù)。消費(fèi)者可以消費(fèi)多個(gè)Topic中的數(shù)據(jù)。每個(gè)Consumer屬于一個(gè)特定的ConsumerGroup（可為每個(gè)Consumer指定GroupName，若不指定GroupName則屬于默認(rèn)的Group）。kafka系統(tǒng)3)Kafka與RabbitMQ的區(qū)別區(qū)別Kafka傳統(tǒng)消息隊(duì)列架構(gòu)模型Kafka遵從一般的MQ結(jié)構(gòu)，Producer，Broker，Consumer，以Consumer為中心，消息的消費(fèi)信息保存的客戶端Consumer上，Consumer根據(jù)消費(fèi)的點(diǎn)，從Broker上批量Pull數(shù)據(jù)；無消息確認(rèn)機(jī)制。Rabbitmq遵循AMQP協(xié)議，Rabbitmq的Brokerexchange，Binding，Queue組成，其中Exchange和Binding組成了消息的路由鍵；客戶端Producer通過連接Channel和Server進(jìn)行通信，Consumer從Queue獲取消息進(jìn)行消費(fèi)（長(zhǎng)連接，Queue有消息會(huì)推送到Consumer端，Consumer循環(huán)從輸入流讀取數(shù)據(jù)）。Rabbitmq以Broker為中心；有消息的確認(rèn)機(jī)制。吞吐量方面Kafka具有高的吞吐量，內(nèi)部采用消息的批量處理，zero-copy機(jī)制，數(shù)據(jù)的存儲(chǔ)和獲取是本地磁盤順序批量操作，具有O(1)的復(fù)雜度，消息處理的效率很高。RabbitMQ在吞吐量方面稍遜于kafka，他們的出發(fā)點(diǎn)不一樣，rabbitMQ支持對(duì)消息的可靠的傳遞，支持事務(wù)，不支持批量的操作；基于存儲(chǔ)的可靠性的要求存儲(chǔ)可以采用內(nèi)存或者硬盤?？捎眯苑矫鍷afka的broker支持主備模式。Rabbitmq支持Miror的Queue，主Queue失效，MirorQueue接管。集群負(fù)載均衡Kafka采用Zookeeper對(duì)集群中的Broker、Consumer進(jìn)行管理，可以注冊(cè)Topic到Zookeeper上；通過Zookeeper的協(xié)調(diào)機(jī)制，Producer保存對(duì)應(yīng)Topic的Broker信息，可以隨機(jī)或者輪詢發(fā)送到Broker上；并且Producer可以基于語義指定分片，消息發(fā)送到Broker的某分片上。Rabbitmq支持集群模式，但不支持負(fù)載均衡。SqoopSqoop(SQL-to-Hadoop)項(xiàng)目旨在協(xié)助RDBMS與Hadoop之間進(jìn)行高效的大數(shù)據(jù)交流，是一款基于MapReduce的數(shù)據(jù)遷移工具，同時(shí)也是一款開源的工具。它主要用在Hadoop(Hive)與非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL、HBase等)間進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL，Oracle，PostgreSQL等)中的數(shù)據(jù)導(dǎo)人Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)人關(guān)系型數(shù)據(jù)庫(kù)中。隨著聯(lián)網(wǎng)的普及，企業(yè)積累的數(shù)據(jù)量越來越大，傳統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)無法滿足存儲(chǔ)需求，所以更多的用戶選擇使用Hadoop的HDFS來存儲(chǔ)數(shù)據(jù)。那么就需要將數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)庫(kù)與HDFS之間進(jìn)行轉(zhuǎn)移能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾pacheSqoop就是這樣一款開源工具，可以在Hadoop和關(guān)系型數(shù)據(jù)庫(kù)之間轉(zhuǎn)移大量數(shù)據(jù)。Sqoop項(xiàng)目開始于2009年，最早是作為Hadop的一個(gè)第三方模塊存在，后來為了讓使用者能夠快速部署，也為了讓開發(fā)人員能夠更快速地送代開發(fā),Sqoop獨(dú)立成為一個(gè)Apache項(xiàng)目。Sqoop本質(zhì)其實(shí)是將導(dǎo)入或?qū)С雒罘g成MapReduce程序并執(zhí)行。在翻譯成MapReduce程序中主要是對(duì)InputFormat和OutputFormat進(jìn)行定制。隨著Sqoop的使用者越來越多，舊版本的Sqoop已經(jīng)漸漸暴露出一些缺點(diǎn)，開發(fā)人員優(yōu)化之后推出了一個(gè)新的系列版本Sqoop2。Sqoop1與Sqoop2是兩個(gè)完全不同的版本，它們并不兼容。Sqoopl通常是指1.4.x版本，Sqoop2是指1.99.x以后的版本。1)Sqoop的概念Sqoop(1)引入sqoopserver，集中化管理connector等。(2)多種訪問方式：CLI，WebUI，RESTAPI。(3)引入基于角色的安全機(jī)制。Sqoop2和Sqoop1的功能性對(duì)比，如下表所示：2）Sqoop2比sqoop1的改進(jìn)：功能Sqoop1Sqoop2用于所有主要RDBMS的連接器支持不支持解決辦法：使用已在以下數(shù)據(jù)庫(kù)上執(zhí)行測(cè)試的通用JDBC連接器：Micros

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《大數(shù)據(jù)運(yùn)營(yíng)》 課件全套 第1-6章 大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《大數(shù)據(jù)運(yùn)營(yíng)》課件全套第1-6章大數(shù)據(jù)運(yùn)營(yíng)概述- 大數(shù)據(jù)運(yùn)營(yíng)綜合應(yīng)用