版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)運(yùn)營(yíng)概述本章知識(shí)點(diǎn)(1)理解大數(shù)據(jù)的概念(2)了解數(shù)據(jù)化運(yùn)營(yíng)的概念(3)掌握數(shù)據(jù)化運(yùn)營(yíng)的主要內(nèi)容(4)掌握大數(shù)據(jù)運(yùn)營(yíng)的應(yīng)用場(chǎng)景以及在企業(yè)中的運(yùn)用案例01大數(shù)據(jù)及其特點(diǎn)02大數(shù)據(jù)的應(yīng)用03數(shù)據(jù)化運(yùn)營(yíng)04數(shù)據(jù)化運(yùn)營(yíng)的意義PART01大數(shù)據(jù)及其特點(diǎn)大數(shù)據(jù)的概念數(shù)據(jù)數(shù)據(jù)是指對(duì)客觀事件進(jìn)行記錄并可以鑒別的符號(hào),是對(duì)客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號(hào)或這些物理符號(hào)的組合。它是可識(shí)別的、抽象的符號(hào)。信息主要采用數(shù)據(jù)形式來表示信息與數(shù)據(jù)既有聯(lián)系,又有區(qū)別。數(shù)據(jù)是信息的載體,可以是符號(hào)、文字、數(shù)字、語音、圖像、視頻等。而信息是數(shù)據(jù)的內(nèi)涵,信息是加載于數(shù)據(jù)之上,對(duì)數(shù)據(jù)做具有含義的解釋。數(shù)據(jù)和信息是不可分離的,信息依賴數(shù)據(jù)來表達(dá),數(shù)據(jù)則生動(dòng)具體地表達(dá)出信息。數(shù)據(jù)是符號(hào),是物理性的,信息是對(duì)數(shù)據(jù)進(jìn)行加工處理之后所得到的并對(duì)決策產(chǎn)生影影響的數(shù)據(jù),是邏輯性和觀念性的;數(shù)據(jù)是信息的表現(xiàn)形式,信息是數(shù)據(jù)有意義的表示。數(shù)據(jù)本身沒有意義,只有對(duì)實(shí)體行為產(chǎn)生影響時(shí)數(shù)據(jù)才成為信息。大數(shù)據(jù)的概念大數(shù)據(jù)大數(shù)據(jù)是指在獲取、存儲(chǔ)、管理、分析等方面大大超出傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,并具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低等四大特征,在數(shù)據(jù)行業(yè),要實(shí)現(xiàn)數(shù)字產(chǎn)業(yè)化,產(chǎn)業(yè)數(shù)字化,前提是要有海量數(shù)據(jù)。大數(shù)據(jù)作為當(dāng)今社會(huì)最先進(jìn)的技術(shù)之一,已經(jīng)深刻地影響和改變著當(dāng)今人類社會(huì)。數(shù)據(jù)在我們的生活中無處不在,如清晨起床我們用手機(jī)打開新聞資訊,此時(shí)就產(chǎn)生了數(shù)據(jù);早高峰乘坐地鐵,刷二維碼進(jìn)站又產(chǎn)生了數(shù)據(jù);打開購(gòu)物網(wǎng)站,下單購(gòu)買商品,還是會(huì)產(chǎn)生數(shù)據(jù)生活在當(dāng)今這個(gè)高度信息化的社會(huì):一切行為幾乎都可以用數(shù)據(jù)來描述,這種情況幾乎發(fā)生在每個(gè)人的身上(見圖)。每時(shí)每刻都有上億條數(shù)據(jù)產(chǎn)生,這些海量數(shù)據(jù)流入那些提供互聯(lián)網(wǎng)服務(wù)的公司,存儲(chǔ)在他們的系統(tǒng)中。如果不對(duì)其加以利用,這些數(shù)據(jù)只會(huì)給系統(tǒng)造成沉重的負(fù)擔(dān),但如果善于挖掘,這些數(shù)據(jù)就可以產(chǎn)生巨大的商業(yè)價(jià)值。大數(shù)據(jù)的特征大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)TE(100萬個(gè)T)或Z(10億個(gè)T)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。根據(jù)國(guó)際數(shù)據(jù)資訊(IDC)公司監(jiān)測(cè)全球數(shù)據(jù)量大約每?jī)赡昃头环A(yù)計(jì)到2025年,全球數(shù)據(jù)使用量將達(dá)到163EB并且85%以上的數(shù)據(jù)是以非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在的。
數(shù)據(jù)體量巨大Volume數(shù)據(jù)類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。數(shù)據(jù)類型繁多Variety數(shù)據(jù)價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。在大數(shù)據(jù)時(shí)代,越來越多的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)站訪問日志,里面大量的內(nèi)容都是沒有價(jià)值的,真正有價(jià)值的數(shù)據(jù)比較少,雖然數(shù)據(jù)量比以前大了N倍,但價(jià)值密度確實(shí)低了很多。所以如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下待解決的難題。數(shù)據(jù)價(jià)值密度低Value隨著互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)生成、存儲(chǔ)、分析、處理的速度遠(yuǎn)遠(yuǎn)超出人們的想象,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。隨著新數(shù)據(jù)的不斷出現(xiàn),人們對(duì)數(shù)據(jù)處理的速度提出了越來越高的要求,所以處理數(shù)據(jù)的效率就是企業(yè)的生命線。數(shù)據(jù)處理速度快Velocity業(yè)界通常用體量(volume)、種類(variety)、價(jià)值(value)、速度(velocity),即4v特征來概括大數(shù)據(jù)的特征大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)是通過觀察、實(shí)驗(yàn)或計(jì)算得出的結(jié)果。數(shù)據(jù)和信息是兩個(gè)不同的概念。信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達(dá)給讀者某個(gè)概念方法等;而數(shù)據(jù)則是構(gòu)成信息的基本單位,離散的數(shù)據(jù)沒有任何實(shí)用價(jià)值。隨著人類社會(huì)信息化進(jìn)程的加快,我們?cè)谌粘Ia(chǎn)和生活中每天都會(huì)產(chǎn)生大量的數(shù)據(jù),比如商業(yè)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動(dòng)化生產(chǎn)系統(tǒng)等。數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,從新到所有決策,數(shù)據(jù)推動(dòng)著企業(yè)的發(fā)展,并使得各級(jí)組織的運(yùn)營(yíng)更為高效,可以這樣說,數(shù)據(jù)已成為每個(gè)企業(yè)獲取核心競(jìng)爭(zhēng)力的關(guān)鍵要素。數(shù)據(jù)資源已經(jīng)和物質(zhì)資源、人力資源一樣成為國(guó)家的重要戰(zhàn)略資源,影響著國(guó)家和社會(huì)的安全、穩(wěn)定與發(fā)展,因此,數(shù)據(jù)也可稱為“未來的石油”。數(shù)據(jù)產(chǎn)生方式的變革是促成大數(shù)據(jù)時(shí)代來臨的重要因素。大數(shù)據(jù)的發(fā)展歷程數(shù)據(jù)產(chǎn)生方式的變革,是促成大數(shù)據(jù)時(shí)代來臨的重要因素??傮w而言,人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段:運(yùn)營(yíng)式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段。運(yùn)營(yíng)式系統(tǒng)階段人類社會(huì)最早大規(guī)模管理和使用數(shù)據(jù),是從數(shù)據(jù)庫(kù)的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運(yùn)營(yíng)式系統(tǒng),都是建立在數(shù)據(jù)庫(kù)基礎(chǔ)之上的,數(shù)據(jù)庫(kù)中保存了大量結(jié)構(gòu)化的企業(yè)關(guān)鍵信息,用來滿足企業(yè)各種業(yè)務(wù)需求。在這個(gè)階段,數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的,只有當(dāng)實(shí)際的企業(yè)業(yè)務(wù)發(fā)生時(shí),才會(huì)產(chǎn)生新的記錄并存入數(shù)據(jù)庫(kù)。比如,對(duì)于股市交易系統(tǒng)而言,只有當(dāng)發(fā)生一筆股票交易時(shí),才會(huì)有相關(guān)記錄生成。用戶原創(chuàng)內(nèi)容階段互聯(lián)網(wǎng)的出現(xiàn),使得數(shù)據(jù)傳播更加快捷,不需要借助于磁盤、磁帶等物理存儲(chǔ)介質(zhì)傳播數(shù)據(jù),網(wǎng)頁(yè)的出現(xiàn)進(jìn)一步加速了大量網(wǎng)絡(luò)內(nèi)容的產(chǎn)生,從而使得人類社會(huì)數(shù)據(jù)量開始呈現(xiàn)“井噴式”增長(zhǎng)。但是,互聯(lián)網(wǎng)真正的數(shù)據(jù)爆發(fā)產(chǎn)生于以“用戶原創(chuàng)內(nèi)容”為特征的Web2.0時(shí)代。Web1.0時(shí)代主要以門戶網(wǎng)站為代表,強(qiáng)調(diào)內(nèi)容的組織與提供,大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web2.0技術(shù)以Wiki、博客、微博、微信等自服務(wù)模式為主,強(qiáng)調(diào)自服務(wù),大量上網(wǎng)用戶本身就是內(nèi)容的生成者,尤其是隨著移動(dòng)互聯(lián)網(wǎng)和智能手機(jī)終端的普及,人們更是可以隨時(shí)隨地使用手機(jī)發(fā)微博、傳照片,數(shù)據(jù)量開始急劇增加。感知式系統(tǒng)階段物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會(huì)數(shù)據(jù)量的第三次躍升。物聯(lián)網(wǎng)中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,此外,視頻監(jiān)控?cái)z像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設(shè)備,每時(shí)每刻都在自動(dòng)產(chǎn)生大量數(shù)據(jù),與Web2.0時(shí)代的人工數(shù)據(jù)產(chǎn)生方式相比,物聯(lián)網(wǎng)中的自動(dòng)數(shù)據(jù)產(chǎn)生方式,將在短時(shí)間內(nèi)生成更密集、更大量的數(shù)據(jù),使得人類社會(huì)迅速步入“大數(shù)據(jù)時(shí)代”。大數(shù)據(jù)的發(fā)展歷程大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為3個(gè)重要階段:萌芽期、成熟期和大規(guī)模應(yīng)用期20世紀(jì)90年代至21世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫(kù)技術(shù)的逐步成熟,一批商業(yè)智能工具和知識(shí)管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉(cāng)庫(kù)、專家系統(tǒng)、知識(shí)管理系統(tǒng)等第一階段:萌芽期21世紀(jì)前10年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對(duì),帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺(tái)開始大行其道第二階段:成熟期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅第三階段:大規(guī)模應(yīng)用期大數(shù)據(jù)的發(fā)展歷程時(shí)間事件1980年著名未來學(xué)家阿爾文·托夫勒在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。1997年10月邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國(guó)電氣和電子工程師協(xié)會(huì)(IEEE)關(guān)于可視化的會(huì)議論文集中,發(fā)表了《為外存模型可視化而應(yīng)用控制程序請(qǐng)求頁(yè)面調(diào)度》的文章,這是在美國(guó)計(jì)算機(jī)學(xué)會(huì)的數(shù)字圖書館中第一篇使用“大數(shù)據(jù)”這一術(shù)語的文章。1999年10月在美國(guó)電氣和電子工程師協(xié)會(huì)(IEEE)關(guān)于可視化的年會(huì)上,設(shè)置了名為“自動(dòng)化或者交互:什么更適合大數(shù)據(jù)?”的專題討論小組,探討大數(shù)據(jù)問題。2001年2月梅塔集團(tuán)分析師道格·萊尼發(fā)布題為《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報(bào)告。10年后,“3V”(Volume、Variety和Velocity)作為定義大數(shù)據(jù)的三個(gè)維度而被廣泛接受。2005年9月蒂姆·奧萊利發(fā)表了《什么是Web2.0》一文,并在文中指出“數(shù)據(jù)將是下一項(xiàng)技術(shù)核心”。2008年《自然》雜志推出大數(shù)據(jù)專刊;計(jì)算社區(qū)聯(lián)盟(ComputingCommunityConsortium)發(fā)表了報(bào)告《大數(shù)據(jù)計(jì)算:在商業(yè)、科學(xué)和社會(huì)領(lǐng)域的革命性突破》,闡述了大數(shù)據(jù)技術(shù)及其面臨的一些挑戰(zhàn)。2010年2月肯尼斯·庫(kù)克爾在《經(jīng)濟(jì)學(xué)人》上發(fā)表了一份關(guān)于管理信息的特別報(bào)告《數(shù)據(jù),無所不在的數(shù)據(jù)》。大數(shù)據(jù)的發(fā)展歷程時(shí)間事件2011年2月《科學(xué)》雜志推出??短幚頂?shù)據(jù)》,討論了科學(xué)研究中的大數(shù)據(jù)問題。2011年維克托·邁爾·舍恩伯格出版著作《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,引起轟動(dòng)。2011年5月麥肯錫全球研究院發(fā)布《大數(shù)據(jù):下一個(gè)具有創(chuàng)新力、競(jìng)爭(zhēng)力與生產(chǎn)力的前沿領(lǐng)域》,提出“大數(shù)據(jù)”時(shí)代到來。2012年3月美國(guó)奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”,大數(shù)據(jù)上升為美國(guó)國(guó)家發(fā)展戰(zhàn)略,被視為美國(guó)政府繼信息高速公路計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措。2013年12月中國(guó)計(jì)算機(jī)學(xué)會(huì)發(fā)布《中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》,系統(tǒng)總結(jié)了大數(shù)據(jù)的核心科學(xué)與技術(shù)問題,推動(dòng)了我國(guó)大數(shù)據(jù)學(xué)科的建設(shè)與發(fā)展,并為政府部門提供了戰(zhàn)略性的意見與建議。2014年5月美國(guó)政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù):抓住機(jī)遇、守護(hù)價(jià)值》,報(bào)告鼓勵(lì)使用數(shù)據(jù)來推動(dòng)社會(huì)進(jìn)步。2015年8月國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,全面推進(jìn)我國(guó)大數(shù)據(jù)發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。大數(shù)據(jù)的發(fā)展歷程時(shí)間事件2016年5月在“2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)”上工信部透露,我國(guó)將制定出臺(tái)大數(shù)據(jù)產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃,有力推進(jìn)我國(guó)大數(shù)據(jù)技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。2017年9月公安部第三研究所授予貴陽(yáng)大數(shù)據(jù)交易所"eID網(wǎng)絡(luò)身份服務(wù)機(jī)構(gòu)"資質(zhì)證書成立國(guó)內(nèi)首個(gè)數(shù)據(jù)交易合規(guī)化研究實(shí)驗(yàn)項(xiàng)目。2018年2月,中國(guó)人民銀行正式下發(fā)銀征信許準(zhǔn)予字2018第1號(hào)許可文件,設(shè)立首張經(jīng)營(yíng)個(gè)人征信業(yè)務(wù)的機(jī)構(gòu)許可信息表。3月,我國(guó)數(shù)據(jù)管理領(lǐng)域首個(gè)國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)管理能力成熟度評(píng)估模型》正式發(fā)布。2019年10月在第六屆世界互聯(lián)網(wǎng)大會(huì)期間組織召開了“國(guó)家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)啟動(dòng)會(huì)”,并發(fā)布了《國(guó)家數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展試驗(yàn)區(qū)實(shí)施方案》,正式啟動(dòng)河北省(雄安新區(qū))、浙江省、福建省、廣東省、重慶市、四川省等6個(gè)國(guó)家數(shù)字經(jīng)濟(jì)新發(fā)展試驗(yàn)區(qū)建設(shè)工作。2020年突如其來的新冠肺炎疫情,為各行各業(yè)帶來了前所未有的挑戰(zhàn)。然而,在危機(jī)中,以大數(shù)據(jù)等為代表的新一代信息技術(shù)在疫情監(jiān)測(cè)分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面提供了強(qiáng)大支撐,各種新業(yè)態(tài)、新模式不斷涌現(xiàn)。數(shù)字化驅(qū)動(dòng)的技術(shù)和產(chǎn)業(yè)變革加速發(fā)展,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用逆勢(shì)而上,數(shù)據(jù)的作用在各行各業(yè)中大放異彩,“數(shù)據(jù)驅(qū)動(dòng)”的價(jià)值深入人心。2021年3月,北京市經(jīng)濟(jì)和信息化局會(huì)同北京市金融局、北京市商務(wù)局、北京市委網(wǎng)信辦等部門,組織北京金控集團(tuán)牽頭發(fā)起成立北京國(guó)際大數(shù)據(jù)交易有限公司,這是國(guó)內(nèi)首家基于“數(shù)據(jù)可用不可見,用途可控可計(jì)量”新型交易范式的數(shù)據(jù)交易所。2021年11月,工信部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,在響應(yīng)國(guó)家“十四五”規(guī)劃的基礎(chǔ)上,圍繞“價(jià)值引領(lǐng)、基礎(chǔ)先行、系統(tǒng)推進(jìn)、融合創(chuàng)新、安全發(fā)展、開放合作”六大基本原則,針對(duì)“十四五”期間大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展制定了5個(gè)發(fā)展目標(biāo),大主要任務(wù),6項(xiàng)具體行動(dòng)以及6個(gè)方面的保障措施,同時(shí)指出在當(dāng)前我國(guó)邁入數(shù)字經(jīng)濟(jì)的關(guān)鍵時(shí)期,大數(shù)據(jù)產(chǎn)業(yè)將步入“集成創(chuàng)新、快速發(fā)展、深度應(yīng)用、結(jié)構(gòu)優(yōu)化”的高質(zhì)量發(fā)展新階段。PART02大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用隨著互聯(lián)網(wǎng)和智能設(shè)備的應(yīng)用和普及,大量數(shù)據(jù)正在不斷產(chǎn)生,并呈爆發(fā)式增長(zhǎng)趨勢(shì)。大數(shù)據(jù)對(duì)物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、農(nóng)業(yè)、金融、通信等行業(yè)已造成深刻影響,據(jù)調(diào)查,企業(yè)內(nèi)部的運(yùn)營(yíng)交易信息、互聯(lián)網(wǎng)技術(shù)中的產(chǎn)品貨運(yùn)物流信息、人和人之間互動(dòng)信息、位置信息等數(shù)據(jù),每2~3年時(shí)間便會(huì)成倍增加。信息是當(dāng)代企業(yè)的關(guān)鍵資源,是企業(yè)應(yīng)用創(chuàng)新管理、決策分析的基本。這種數(shù)據(jù)有著極大的經(jīng)濟(jì)收益,可是企業(yè)所關(guān)心的數(shù)據(jù)一般只占總數(shù)據(jù)量的2%~4%,使企業(yè)無法最大化地運(yùn)用已有的數(shù)據(jù)資源,以至于消耗了大量的時(shí)間和資產(chǎn),也喪失制訂重要商業(yè)服務(wù)管理決策的最好時(shí)機(jī),針對(duì)一般的企業(yè)來講,大數(shù)據(jù)的功效具體表現(xiàn)在兩個(gè)層面。協(xié)助企業(yè)搜集信息大數(shù)據(jù)可以根據(jù)相關(guān)分析,將顧客和商品、服務(wù)項(xiàng)目進(jìn)行串聯(lián),對(duì)用戶的喜好開展精準(zhǔn)定位,進(jìn)而提供更精確、更有主導(dǎo)性的商品和服務(wù)項(xiàng)目,從而提高銷售額。典型性的案例如電子商務(wù)。像阿里巴巴淘寶網(wǎng)那樣的電商服務(wù)平臺(tái),累積了很多的用戶選購(gòu)數(shù)據(jù)。在初期,這些數(shù)據(jù)基本上是負(fù)累和壓力,因?yàn)榇鎯?chǔ)數(shù)據(jù)必須支付很高的硬件配置成本費(fèi)。但是,如今這些數(shù)據(jù)全是阿里巴巴最珍貴的財(cái)富。大數(shù)據(jù)還可以對(duì)業(yè)績(jī)產(chǎn)生直接影響,它的高效率轉(zhuǎn)化和精確性,遠(yuǎn)遠(yuǎn)地超出傳統(tǒng)式的用戶調(diào)查。除了電子商務(wù),還包含能源、影視、證券、金融、農(nóng)業(yè)、工業(yè)、交通運(yùn)輸、公共事業(yè)等行業(yè)都是大數(shù)據(jù)的用武之地。協(xié)助企業(yè)分析決策除幫助企業(yè)掌握用戶數(shù)據(jù)以外,大數(shù)據(jù)還能讓企業(yè)更加精準(zhǔn)地認(rèn)識(shí)自己。企業(yè)運(yùn)營(yíng)需要很多的資源,大數(shù)據(jù)能夠剖析和鎖住資源的詳細(xì)情況,比如儲(chǔ)藏量遍布和要求的發(fā)展趨勢(shì)。這種資源的數(shù)據(jù)可視化能夠協(xié)助企業(yè)管理人員更形象化地掌握企業(yè)的運(yùn)行情況,迅速地發(fā)現(xiàn)問題,并立即調(diào)整運(yùn)營(yíng)策略,減少財(cái)務(wù)風(fēng)險(xiǎn)??偟膩碚f,“知彼知己,百戰(zhàn)不殆”,大數(shù)據(jù)是為管理者提供決策服務(wù)最有力的依據(jù)。對(duì)于企業(yè)來說,大數(shù)據(jù)服務(wù)的目標(biāo)可以歸結(jié)為“降本增效”四個(gè)字。企業(yè)可以借助大數(shù)據(jù)服務(wù)做精準(zhǔn)化營(yíng)銷,將企業(yè)的產(chǎn)品有效地傳遞給有此需求的用戶,在為客戶創(chuàng)造價(jià)值的同時(shí)增加企業(yè)收入。企業(yè)還可以借助大數(shù)據(jù)了解客戶的偏好,從而更好地為客戶提供服務(wù),提升客戶感知水平。雖然提升客戶服務(wù)體驗(yàn)并沒有直接為企業(yè)帶來收入,但是通過這種方式提升了企業(yè)在客戶心中的形象,使得客戶獲取企業(yè)服務(wù)更加便捷、高效,客戶也因此更喜歡購(gòu)買企業(yè)的產(chǎn)品,從而增加了企業(yè)的收入。企業(yè)可以借助大數(shù)據(jù)服務(wù)降低成本。從費(fèi)用支出的類型角度看,成本消耗主要分為屬于投資建設(shè)的CAPAX資本性支出投資和業(yè)務(wù)運(yùn)營(yíng)的。PEX(運(yùn)營(yíng)資出)投資兩部分,因此企業(yè)可以借助大數(shù)據(jù)服務(wù)降低這兩部分投資,比如在降低CAPAX投資方面,可以以用戶價(jià)值為中心進(jìn)行資源的建設(shè),避免因?yàn)榭俊凹僭O(shè)”“猜想”而造成投資浪費(fèi)。在降低OPEX投資方面,企業(yè)可以借助大數(shù)據(jù)服務(wù)來發(fā)現(xiàn)企業(yè)流程中存在的問題,通過流程優(yōu)化來提高運(yùn)營(yíng)效率,從而降低企業(yè)的整體運(yùn)營(yíng)成本。大數(shù)據(jù)的應(yīng)用(1)大數(shù)據(jù)助力政府部門完成市場(chǎng)經(jīng)濟(jì)體制管控、公共衛(wèi)生服務(wù)安全防護(hù)、災(zāi)禍預(yù)警信息、社會(huì)發(fā)展輿論導(dǎo)向;協(xié)助城市犯罪預(yù)防,實(shí)現(xiàn)智慧交通,提高應(yīng)急能力;電力企業(yè)會(huì)根據(jù)大數(shù)據(jù)實(shí)時(shí)做數(shù)據(jù)的檢測(cè)和預(yù)測(cè)分析,使我們更強(qiáng)、更便捷地做這類電力工程的生產(chǎn)調(diào)度。(2)大數(shù)據(jù)在醫(yī)療中也有比較廣泛的應(yīng)用。例如,基因工程技術(shù)及其病癥的預(yù)測(cè)分析剖析、手術(shù)治療計(jì)劃方案等都會(huì)用到大數(shù)據(jù)。大數(shù)據(jù)協(xié)助定點(diǎn)醫(yī)療機(jī)構(gòu)創(chuàng)建患者的病癥風(fēng)險(xiǎn)性追蹤體制,協(xié)助醫(yī)藥企業(yè)提高藥物臨床醫(yī)學(xué)的實(shí)際效果,協(xié)助科學(xué)研究組織為病人提供定制化的藥品。(3)大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù)旅行網(wǎng)站為游客提供心愛的旅游線路,二手市場(chǎng)的買賣方尋找最好的買賣總體目標(biāo),用戶可以更快尋找到最好的產(chǎn)品選購(gòu)階段、店家及最優(yōu)惠價(jià)。(4)大數(shù)據(jù)助力企業(yè)提高營(yíng)銷推廣的針對(duì)性,減少物流和庫(kù)存量的成本,降低項(xiàng)目投資的風(fēng)險(xiǎn)性,及其協(xié)助企業(yè)提高廣告營(yíng)銷精確度。例如,云鯨大數(shù)據(jù)助力各行業(yè)直接獲得相關(guān)App/網(wǎng)站用戶的訪客信息,這在很大程度上減少了企業(yè)推廣或引流的成本,就可以直達(dá)意向用戶。PART03數(shù)據(jù)化運(yùn)營(yíng)數(shù)據(jù)化運(yùn)營(yíng)概況數(shù)據(jù)化運(yùn)營(yíng)是指通過數(shù)據(jù)化的工具、技術(shù)和方法,對(duì)運(yùn)營(yíng)過程中的各個(gè)環(huán)節(jié)進(jìn)行科學(xué)的分析,為數(shù)據(jù)使用者提供專業(yè)、準(zhǔn)確的行業(yè)數(shù)據(jù)解決方案,從而達(dá)到優(yōu)化運(yùn)營(yíng)效果和效率、降低運(yùn)營(yíng)成本、提高效益的目的。數(shù)據(jù)化運(yùn)營(yíng)的本質(zhì)還是運(yùn)營(yíng),“數(shù)據(jù)化”僅僅是方法和手段,“運(yùn)營(yíng)”才是核心和目的,用數(shù)據(jù)指導(dǎo)業(yè)務(wù)運(yùn)營(yíng)的決策,提升業(yè)務(wù)運(yùn)營(yíng)的效率,實(shí)現(xiàn)業(yè)務(wù)增長(zhǎng)的目標(biāo)。數(shù)據(jù)化運(yùn)營(yíng)不等于數(shù)據(jù)分析,數(shù)據(jù)分析僅僅是數(shù)據(jù)化運(yùn)營(yíng)的一個(gè)關(guān)鍵環(huán)節(jié)和重要手段。數(shù)據(jù)化運(yùn)營(yíng)是基于數(shù)據(jù)去發(fā)現(xiàn)問題,分析問題,然后通過運(yùn)營(yíng)的手段找到問題的解決辦法并付諸實(shí)踐的閉環(huán)工作。企業(yè)中的數(shù)據(jù)從產(chǎn)生到應(yīng)用,需要經(jīng)過數(shù)據(jù)源層、數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)建模層、數(shù)據(jù)應(yīng)用層,經(jīng)過層層的加工,將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)建模、再到數(shù)據(jù)挖掘,最終在應(yīng)用層產(chǎn)生價(jià)值,實(shí)現(xiàn)面向用戶的智能營(yíng)銷和個(gè)性化內(nèi)容的推薦,從而實(shí)現(xiàn)降本增效的運(yùn)營(yíng)目的。數(shù)據(jù)化運(yùn)營(yíng)基本概念數(shù)據(jù)化運(yùn)營(yíng)概況隨著信息化時(shí)代的來臨及全球數(shù)字化浪潮的推進(jìn),企業(yè)在運(yùn)營(yíng)中都產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)是實(shí)現(xiàn)商業(yè)智能的基礎(chǔ)。例如,沃爾瑪“啤酒與尿布”的經(jīng)典案例就是數(shù)據(jù)實(shí)現(xiàn)商業(yè)智能的一個(gè)體現(xiàn)。1987年,沃爾瑪完成了公司內(nèi)部的衛(wèi)星系統(tǒng)的安裝,該系統(tǒng)使得總部,分銷中心和各個(gè)商場(chǎng)之間可以實(shí)現(xiàn)實(shí)時(shí)、雙向的數(shù)據(jù)和聲音傳輸,從運(yùn)營(yíng)數(shù)據(jù)中發(fā)現(xiàn)了“啤酒與尿布”關(guān)聯(lián)。如今,沃爾瑪?shù)臄?shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)著沃爾瑪數(shù)千家連鎖店在65周內(nèi)每一筆銷售的詳細(xì)記錄,通過這些數(shù)據(jù),業(yè)務(wù)員可以分析顧客的購(gòu)買行為,從而供應(yīng)最佳的銷售服務(wù)。數(shù)據(jù)化運(yùn)營(yíng)基本概念數(shù)據(jù)化運(yùn)營(yíng)概況企業(yè)大數(shù)據(jù)發(fā)展的階段性根據(jù)企業(yè)的數(shù)據(jù)量、數(shù)據(jù)更新速度、數(shù)據(jù)應(yīng)用程度、數(shù)據(jù)平臺(tái)建設(shè)及應(yīng)用能力進(jìn)行如下劃分:1)無平臺(tái)階段在該階段,企業(yè)的數(shù)據(jù)量較少,且數(shù)據(jù)腳本零散地存儲(chǔ)在不同的地方。信息處理主要靠人工進(jìn)行,管理者和運(yùn)營(yíng)人員不會(huì)過多關(guān)注數(shù)據(jù),有時(shí)階段性地觀察一下宏觀的數(shù)據(jù)而且企業(yè)也沒有數(shù)據(jù)平臺(tái)2)小型數(shù)據(jù)平臺(tái)階段處于小型數(shù)據(jù)平臺(tái)階段的企業(yè),擁有一些數(shù)據(jù)儲(chǔ)備,且各部門定期有數(shù)據(jù)需求,需要搭建小型數(shù)據(jù)平臺(tái),用以獲取核心數(shù)據(jù)指標(biāo)。小型數(shù)據(jù)平臺(tái)的開發(fā)周期較短,工作量也較少3)中型數(shù)據(jù)平臺(tái)階段處于中型數(shù)據(jù)平臺(tái)階段的企業(yè),數(shù)據(jù)量大且數(shù)據(jù)更新速度較快,管理者做出決策需要依靠數(shù)據(jù),這個(gè)階段就需要一個(gè)中型數(shù)據(jù)平臺(tái)來支撐各部門的數(shù)據(jù)需求,同時(shí)建立起相應(yīng)的信息處理系統(tǒng),且需要專業(yè)的團(tuán)隊(duì)對(duì)系統(tǒng)進(jìn)行維護(hù)。4)大型數(shù)據(jù)平臺(tái)階段隨著企業(yè)規(guī)模逐步增大,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)、秒級(jí)更新、應(yīng)用需求高的特點(diǎn)。處于這個(gè)階段的企業(yè),需要搭建大型數(shù)據(jù)平臺(tái),投入足夠的人力、物力及資源去保障平臺(tái)的運(yùn)作,數(shù)據(jù)倉(cāng)庫(kù)也需要不定期地做升級(jí)和變遷。企業(yè)在這個(gè)階段需要有非常豐富的數(shù)據(jù)產(chǎn)品來支持業(yè)務(wù)的發(fā)展和運(yùn)營(yíng)數(shù)據(jù)化運(yùn)營(yíng)流程明確目標(biāo)指標(biāo)體系數(shù)據(jù)獲取數(shù)據(jù)分析策略建議評(píng)估優(yōu)化數(shù)據(jù)化運(yùn)營(yíng)第一步要搞清楚業(yè)務(wù)的核心目標(biāo)是什么,用戶運(yùn)營(yíng)和產(chǎn)品運(yùn)營(yíng)有著不同的場(chǎng)景和目標(biāo),可以通過圍繞業(yè)務(wù)的關(guān)鍵績(jī)效指標(biāo)(keyperformanceindicator,KPI)展開在業(yè)務(wù)目標(biāo)確定后,基于目標(biāo)進(jìn)行數(shù)據(jù)指標(biāo)的拆解,構(gòu)建相應(yīng)的用戶運(yùn)營(yíng)、產(chǎn)品運(yùn)營(yíng)業(yè)務(wù)的監(jiān)控和結(jié)果評(píng)價(jià)的指標(biāo)體系。根據(jù)指標(biāo)體系確定數(shù)據(jù)的采集點(diǎn)。對(duì)于流量、行為類的數(shù)據(jù)必須要先進(jìn)行埋點(diǎn),埋點(diǎn)是指在應(yīng)用的特定流程中,收集用戶行為信息、還原用戶場(chǎng)景來指導(dǎo)產(chǎn)品功能改進(jìn),驗(yàn)證客戶服務(wù)質(zhì)量。在數(shù)據(jù)團(tuán)隊(duì)經(jīng)常遇到業(yè)務(wù)產(chǎn)品找項(xiàng)目管理(projectmanager,PM)要數(shù)據(jù),最后卻發(fā)現(xiàn)都沒有埋點(diǎn)。利用相應(yīng)的數(shù)學(xué)模型對(duì)收集的數(shù)據(jù)進(jìn)行分析,并根據(jù)運(yùn)營(yíng)要求采用數(shù)據(jù)可視化方法對(duì)采集到的數(shù)據(jù)進(jìn)行處理,形成分析報(bào)告。基于數(shù)據(jù)分析報(bào)告,通過數(shù)理思維來推導(dǎo)、發(fā)現(xiàn)運(yùn)營(yíng)業(yè)務(wù)存在的問題或?qū)ふ覞撛谠鲩L(zhǎng)點(diǎn),企業(yè)以此支撐業(yè)務(wù)決策,驅(qū)動(dòng)產(chǎn)品流程改進(jìn)優(yōu)化。分析結(jié)論或策略建議在產(chǎn)品或運(yùn)營(yíng)端實(shí)施之后,可通過AB測(cè)試對(duì)比、效果分析、持續(xù)優(yōu)化迭代等方法進(jìn)行評(píng)估優(yōu)化。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)起初從事數(shù)據(jù)運(yùn)營(yíng)的人是企業(yè)的IT部門兼任,隨著數(shù)據(jù)在業(yè)務(wù)運(yùn)營(yíng)上占據(jù)越來越重要的地位,從事數(shù)據(jù)運(yùn)營(yíng)的專職崗位也應(yīng)運(yùn)而生。目前市面上數(shù)據(jù)人才是比較稀缺的,因?yàn)閿?shù)據(jù)人才需要橫跨三個(gè)專業(yè):數(shù)學(xué)、商科、計(jì)算機(jī),且該崗位培養(yǎng)周期長(zhǎng),需要在既懂業(yè)務(wù),又能掌握計(jì)算機(jī)相關(guān)技能及工具實(shí)現(xiàn)數(shù)據(jù)分析與可視化。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)目前,中國(guó)高校正在開設(shè)數(shù)據(jù)科學(xué)與技術(shù)、數(shù)字經(jīng)濟(jì)等新興專業(yè),培養(yǎng)社會(huì)上急需的大數(shù)據(jù)運(yùn)營(yíng)的人才。但高校人才培養(yǎng)往往受到培養(yǎng)周期長(zhǎng)、產(chǎn)教融合脫節(jié)等諸多原因,而滯后于產(chǎn)業(yè)的人才需求,目前企業(yè)的數(shù)據(jù)技術(shù)人才依然處于稀缺狀態(tài),專家認(rèn)為數(shù)字技術(shù)人才具有要求高供給少、需求大的特點(diǎn),且未來10~20年都將處于稀缺狀態(tài)。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)大型企業(yè)將數(shù)據(jù)運(yùn)營(yíng)部門設(shè)置為一級(jí)部門,設(shè)置數(shù)據(jù)運(yùn)營(yíng)部門負(fù)責(zé)人(總經(jīng)理級(jí))、數(shù)據(jù)運(yùn)營(yíng)高級(jí)總監(jiān)、數(shù)據(jù)運(yùn)營(yíng)總監(jiān)、數(shù)據(jù)運(yùn)營(yíng)高級(jí)經(jīng)理、數(shù)據(jù)運(yùn)營(yíng)經(jīng)理、數(shù)據(jù)運(yùn)營(yíng)主管及數(shù)據(jù)運(yùn)營(yíng)專員等七個(gè)職級(jí)。數(shù)據(jù)運(yùn)營(yíng)部門的整體職責(zé)如下:搭建全鏈路數(shù)據(jù)架構(gòu):梳理及重構(gòu)供應(yīng)鏈,基于供應(yīng)鏈和業(yè)務(wù)需求節(jié)點(diǎn)進(jìn)行數(shù)據(jù)需求架構(gòu);沉淀業(yè)務(wù)方法論,通過協(xié)同模式快速?gòu)?fù)制,對(duì)外賦能,提升行業(yè)效率。建立品類標(biāo)準(zhǔn)與商業(yè)規(guī)則:調(diào)研商品,并完成非標(biāo)品的標(biāo)準(zhǔn)化工作,同時(shí)承擔(dān)新商品開發(fā)研究工作;制定自動(dòng)化運(yùn)營(yíng)商業(yè)規(guī)則,承擔(dān)制定平臺(tái)商業(yè)制度的職責(zé);統(tǒng)籌行業(yè)、品類、商品研究,建立標(biāo)準(zhǔn)化商品數(shù)據(jù)庫(kù),進(jìn)行商品管理和商品策略研究。通過數(shù)據(jù)運(yùn)營(yíng)提升內(nèi)外部效率:打通銷售效率、物流效率、渠道商績(jī)效,需求預(yù)測(cè)數(shù)據(jù)等指標(biāo),建立關(guān)聯(lián),量化各個(gè)環(huán)節(jié)的效率提升點(diǎn),并制定提升方案;研究、提供并推進(jìn)B端和C端體驗(yàn)和品質(zhì)提升方案。行業(yè)研究與市場(chǎng)洞察:通過市場(chǎng)調(diào)查、情報(bào)收集及時(shí)掌握市場(chǎng)和行業(yè)動(dòng)態(tài)。數(shù)據(jù)贖能BP:承擔(dān)各個(gè)BU、城市數(shù)據(jù)賦能BP的職責(zé);清晰傳遞集閉戰(zhàn)略和執(zhí)行信息、建立各級(jí)數(shù)據(jù)看板,推動(dòng)自動(dòng)化決策分析,及時(shí)收集各城市的問題并向總部反饋。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)部門負(fù)責(zé)人崗位職責(zé)全面負(fù)責(zé)公司的數(shù)據(jù)運(yùn)營(yíng)管理,完成業(yè)務(wù)規(guī)劃、平臺(tái)優(yōu)化、資源整合,確定核心產(chǎn)品和服務(wù)及對(duì)應(yīng)的商業(yè)模式和盈利模式。研究運(yùn)營(yíng)數(shù)據(jù)和用戶反饋,挖掘用戶需求,發(fā)現(xiàn)運(yùn)營(yíng)中的問題并給出解決方案。構(gòu)建全面、準(zhǔn)確、能反映業(yè)務(wù)特征的監(jiān)控指標(biāo)體系,并基于業(yè)務(wù)指標(biāo)體系,及時(shí)發(fā)現(xiàn)和定位問題。通過專業(yè)分析,對(duì)業(yè)務(wù)問題進(jìn)行深入分析,為公司的運(yùn)營(yíng)決策、產(chǎn)品方向、商業(yè)策略提供數(shù)據(jù)支持。對(duì)產(chǎn)品、運(yùn)營(yíng)、市場(chǎng)及客戶關(guān)系管理等領(lǐng)域提供業(yè)務(wù)支持。與內(nèi)外部相關(guān)團(tuán)隊(duì)協(xié)作,推動(dòng)業(yè)務(wù)部門的數(shù)據(jù)化運(yùn)背,技術(shù)產(chǎn)品開發(fā)、工具培訓(xùn)等。產(chǎn)品發(fā)展方向進(jìn)行預(yù)測(cè),及時(shí)調(diào)整業(yè)務(wù)和產(chǎn)品策略,合理制定業(yè)務(wù)和產(chǎn)負(fù)責(zé)收集并研究行業(yè)及競(jìng)爭(zhēng)對(duì)手信息,了解和分析客戶需求,對(duì)市場(chǎng)及品規(guī)劃。制定業(yè)務(wù)規(guī)則并對(duì)其進(jìn)行管理,承擔(dān)制定平臺(tái)商業(yè)制度的職責(zé),提升平臺(tái)業(yè)務(wù)品質(zhì)。數(shù)據(jù)化運(yùn)營(yíng)的職業(yè)發(fā)展趨勢(shì)數(shù)據(jù)化運(yùn)營(yíng)的崗位及崗位職責(zé)部門負(fù)責(zé)人任職要求數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)、統(tǒng)計(jì)、數(shù)學(xué)等相關(guān)領(lǐng)域本科或以上學(xué)歷,至少擁有8年以上豐富的互聯(lián)網(wǎng)行業(yè)背景,3年以上運(yùn)營(yíng)經(jīng)理/總監(jiān)崗位的經(jīng)驗(yàn)。能熟練地獨(dú)立建立商業(yè)數(shù)據(jù)分析框架,具有數(shù)據(jù)敏感度,能從海量數(shù)據(jù)中分析挖掘問題,并具備敏銳的商業(yè)洞察力。熟練運(yùn)用數(shù)據(jù)分析工具(SQl、Exce、Access),以及數(shù)據(jù)可視化工具(Tableau、Microstrategy、Think-cell、PPT)對(duì)外演講能力優(yōu)秀。優(yōu)秀的分析問題和解決問題的能力,能夠把合理的思路成功應(yīng)用于實(shí)踐中。有客戶關(guān)系管理分析或運(yùn)營(yíng)經(jīng)驗(yàn)、數(shù)據(jù)化運(yùn)營(yíng)經(jīng)驗(yàn)、數(shù)據(jù)型產(chǎn)品規(guī)劃經(jīng)驗(yàn),有互聯(lián)網(wǎng)新零售相關(guān)領(lǐng)域經(jīng)驗(yàn)的優(yōu)先.PART04數(shù)據(jù)化運(yùn)營(yíng)的意義數(shù)據(jù)化運(yùn)營(yíng)的意義在數(shù)字經(jīng)濟(jì)時(shí)代,人們生產(chǎn)、生活、工作、消費(fèi)、娛樂方式都發(fā)生巨大變化,企業(yè)更需采用數(shù)字化技術(shù)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,在產(chǎn)品升級(jí)、價(jià)值重塑、業(yè)務(wù)變革、商業(yè)模式創(chuàng)新、市場(chǎng)策略調(diào)整等方面,都提供了新的增長(zhǎng)空間和發(fā)展機(jī)遇。數(shù)據(jù)化運(yùn)營(yíng)可以從四個(gè)維度具體幫助企業(yè)進(jìn)行優(yōu)化和發(fā)展,如圖所示。數(shù)據(jù)化運(yùn)營(yíng)的意義業(yè)務(wù)指導(dǎo)通過對(duì)數(shù)據(jù)的收集、統(tǒng)計(jì)、追蹤和監(jiān)控搭建業(yè)務(wù)的管理模型來指導(dǎo)業(yè)務(wù)。例如,銷售業(yè)務(wù)中日銷售額、月銷售額、年銷售額的完成情況;電商營(yíng)銷業(yè)務(wù)過程中的流量,新增用戶數(shù),每日的成交量。運(yùn)營(yíng)分析運(yùn)營(yíng)分析更多注重對(duì)收集來的數(shù)據(jù)進(jìn)行分析和管理,可歸納為人、貨、場(chǎng)、才的分析管理。例如客戶關(guān)系管理(CRM),財(cái)務(wù)分析管理,供應(yīng)鏈分析管理等等。經(jīng)營(yíng)策略經(jīng)營(yíng)策略管理?yè)碛幸皇值墓芾頉Q斷,對(duì)各經(jīng)營(yíng)環(huán)節(jié)進(jìn)行對(duì)應(yīng)的數(shù)據(jù)分析來修改和制定策略,比如消費(fèi)者購(gòu)買行為的分析,會(huì)員顧客策略,是采用積分制還是打折制。戰(zhàn)略規(guī)劃戰(zhàn)略規(guī)劃需要通過企業(yè)內(nèi)部和外部的市場(chǎng)外部數(shù)據(jù)制定長(zhǎng)遠(yuǎn)的規(guī)劃過程,如企業(yè)競(jìng)爭(zhēng)力分析,行業(yè)環(huán)境分析,戰(zhàn)略目標(biāo)規(guī)劃等。習(xí)題1.請(qǐng)描述數(shù)據(jù)化運(yùn)營(yíng)的概念,并舉列說明企業(yè)數(shù)據(jù)化運(yùn)營(yíng)的應(yīng)用。2.數(shù)據(jù)化運(yùn)營(yíng)的關(guān)鍵步驟有哪些?3.什么是大數(shù)據(jù)?請(qǐng)描述云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能之間的關(guān)系?THANKYOU大數(shù)據(jù)運(yùn)營(yíng)技術(shù)體系本章知識(shí)點(diǎn)(1)掌握Hadoop、Spark、Flink3種主流技術(shù)的基本原理。(2)掌握數(shù)據(jù)處理的基本流程。(3)了解數(shù)據(jù)挖掘概論與數(shù)據(jù)挖掘的常用方法。(4)掌握數(shù)據(jù)可視化庫(kù)及可視化軟件的概念。01大數(shù)據(jù)技術(shù)概述02數(shù)據(jù)處理與數(shù)據(jù)挖掘概述03數(shù)據(jù)可視化概述PART01大數(shù)據(jù)技術(shù)概述Hadoo核心技術(shù)Hadoo核心技術(shù)Hadoop是Apache軟件基金會(huì)下用Java語言開發(fā)的一個(gè)開源分布式計(jì)算平臺(tái),在大量計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行分布式計(jì)算。它是一個(gè)適合大數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算平臺(tái)。Hadoop最早起源于Nutch搜索引擎,Nutch是一個(gè)開源Java實(shí)現(xiàn)的搜索引擎Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁(yè)抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁(yè)數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問題,即如何解決數(shù)十億網(wǎng)頁(yè)的存儲(chǔ)和索引問題。在Nutch的開發(fā)人員正一籌莫展之際谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案:分布式文件系統(tǒng)distributedfilesystem,DFS)可用于處理海量網(wǎng)頁(yè)的存儲(chǔ);分布式計(jì)算框架MapReduce可用于處理海量網(wǎng)頁(yè)的索引計(jì)算問題。Hadoo核心技術(shù)Hadoop之父道格·卡廷(Dougcutting)帶領(lǐng)Nutch的開發(fā)人員基于Google的兩篇論文完成了相應(yīng)的開源實(shí)現(xiàn)Hadoo分布式文件系統(tǒng)HadoopdistributedfilesystemHDFS)和MapReduce,并從Nutch中剝離成為獨(dú)立項(xiàng)目Hadoop,到2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目,迎來了它的快速發(fā)展期Hadoop的大象Logo靈感來源于道格·卡廷女兒的玩具大象。狹義上來說,Hadoop就是單獨(dú)指代hadoop這個(gè)計(jì)算框架。廣義上來說,Hadoop指代大數(shù)據(jù)的一個(gè)軟件生態(tài)圈,包括很多其他的軟件,如圖所示。MapReduc編程模型1)MapReduce的概念MapReduce是一種大規(guī)模數(shù)據(jù)處理編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算,是Hadoop核心組件之一。MaReduce的核心功能是將用戶編寫的業(yè)務(wù)邏輯代碼和自帶默認(rèn)組件整合成一個(gè)完整的分布式運(yùn)算程序,并運(yùn)行在Hadoop集群上。2)MapReduce的編程思想MapReduce的思想核心是“分而治之”適用于大量復(fù)雜的任務(wù)處理場(chǎng)景(大規(guī)模數(shù)據(jù)處理場(chǎng)景)。Map(映射)負(fù)責(zé)“分”,即把復(fù)雜的任務(wù)分解為若干個(gè)“簡(jiǎn)單的任務(wù)”來并行處理。可以進(jìn)行拆分的前提是這些小任務(wù)可以并行計(jì)算,彼此間幾乎沒有依賴關(guān)系Reduce(化簡(jiǎn))負(fù)責(zé)“合”,即對(duì)Map階段的結(jié)果進(jìn)行全局匯總。這兩個(gè)階段合起來正是MapReduce思想的體現(xiàn)。舉例如下比如我們要統(tǒng)計(jì)圖書館所有類型的書,如果一個(gè)人統(tǒng)計(jì)的話,不知道要統(tǒng)計(jì)多久,如果人多點(diǎn),你統(tǒng)計(jì)1號(hào)書架,我統(tǒng)計(jì)2號(hào)書架,他統(tǒng)計(jì)3號(hào)書架····.·人越多,統(tǒng)計(jì)的速度就越快。這就是Map階段,可以并行地做一件事,彼此之間并沒有依賴關(guān)系。數(shù)完之后,聚到一起,把所有人的統(tǒng)計(jì)數(shù)加在一起,就得出的圖書館書籍的總數(shù)。這就是Reduce階段。MapReduc編程模型3)MapReduce的框架結(jié)構(gòu)一個(gè)完整的MapReduce程序在分布式運(yùn)行時(shí)有三類實(shí)例進(jìn)程:MRAppMaster:負(fù)責(zé)整個(gè)程序的過程調(diào)度及狀態(tài)協(xié)調(diào)。MapTask:負(fù)責(zé)Map階段整個(gè)數(shù)據(jù)處理流程。ReduceTask:負(fù)責(zé)reduce階段的整個(gè)數(shù)據(jù)處理流程。4)MapReduce的編程規(guī)范(1)用戶編寫的程序分成三個(gè)部分:Mapper,Reducer,Driver(提交運(yùn)行mr程序的客戶端)。(2)Mapper的輸入數(shù)據(jù)是鍵值對(duì)的形式(鍵與值的類型可自定義)。(3)Mapper的輸出數(shù)據(jù)是鍵值對(duì)的形式(鍵與值的類型可自定義)。(4)Mapper中的業(yè)務(wù)邏輯寫在map()方法中。(5)map()方法(maptask進(jìn)程)對(duì)每一個(gè)調(diào)用一次。(6)Reducer的輸入數(shù)據(jù)類型對(duì)應(yīng)Mapper的輸出數(shù)據(jù)類型,也是鍵值對(duì)。(7)Reducer的業(yè)務(wù)邏輯寫在reduce()方法中。(8)Reducetask進(jìn)程對(duì)每一組相同鍵的組調(diào)用一次reduce()方法。(9)用戶自定義的Mapper和Reducer都要繼承各自的父類。(10)整個(gè)程序需要一個(gè)Drvier來進(jìn)行提交,提交的是一個(gè)描述了各種必要信息的job對(duì)象。Hadoop分布式文件系統(tǒng)HDFS1)HDFS的概念HDFS是一個(gè)可以運(yùn)行在通用硬件上的分布式文件系統(tǒng)(DistributedFileSystem)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。2)HDFS的原理多臺(tái)計(jì)算機(jī)(集群)聯(lián)網(wǎng)協(xié)同工作就像單臺(tái)系統(tǒng)一樣解決某種問題,這樣的系統(tǒng)我們稱之為分布式系統(tǒng)。分布式文件系統(tǒng)是分布式系統(tǒng)的一個(gè)子集,它們解決的問題就是數(shù)據(jù)存儲(chǔ)。換句話說,它們是橫跨在多臺(tái)計(jì)算機(jī)上的存儲(chǔ)系統(tǒng)。存儲(chǔ)在分布式文件系統(tǒng)上的數(shù)據(jù)自動(dòng)分布在不同的節(jié)點(diǎn)上。分布式文件系統(tǒng)在大數(shù)據(jù)時(shí)代有著廣泛的應(yīng)用前景,它們?yōu)榇鎯?chǔ)和處理來自網(wǎng)絡(luò)和其它地方的超大規(guī)模數(shù)據(jù)提供所需的擴(kuò)展能力,為各類分布式運(yùn)算框架(如:mapreduce,spark,……)提供數(shù)據(jù)存儲(chǔ)服務(wù)。Hadoop分布式文件系統(tǒng)HDFS3)HDFS設(shè)計(jì)思想分而治之:將大文件、大批量文件,分布式存放在同一集群中的不同服務(wù)器上,以便于采取分而治之的方式對(duì)海量數(shù)據(jù)進(jìn)行運(yùn)算分析。4)HDFS架構(gòu)HDFS是一個(gè)塊結(jié)構(gòu)的文件系統(tǒng),其中每個(gè)文件被分成預(yù)定大小的塊(Hadoop1.x版本塊大小為64M,2.x版本塊大小為128M),這些塊存儲(chǔ)在一臺(tái)或多臺(tái)機(jī)器的集群中。HDFS遵循主/從架構(gòu),其中集群包含單個(gè)NameNode(主節(jié)點(diǎn)),所有其他節(jié)點(diǎn)都是DataNode(從節(jié)點(diǎn))。HDFS可以部署在支持Java的各種機(jī)器上。雖然可以在一臺(tái)機(jī)器上運(yùn)行多個(gè)DataNode,但在實(shí)際應(yīng)用中,這些DataNode分布在不同的機(jī)器上。Hadoop分布式文件系統(tǒng)HDFSNameNode在原生的Hadoop集群中,HDFS分為三個(gè)角色:NameNode、DataNode、SecondaryNameNode。DataNodeHDFS中的從屬節(jié)點(diǎn)。不具備高質(zhì)量或高可用性,主要負(fù)責(zé)將數(shù)據(jù)落實(shí)到本地存儲(chǔ),所以DataNode所在機(jī)器通常配置有大量的硬盤空間。DataNode會(huì)定期向NameNode發(fā)送心跳,如果NameNode長(zhǎng)時(shí)間沒有接受到DataNode發(fā)送的心跳,NameNode就會(huì)認(rèn)為該DataNode失效。SecondaryNameNode是NameNode的一個(gè)助手節(jié)點(diǎn),來幫助NameNode更好的工作。它存在的目的就是為HDFS中提供一個(gè)檢查點(diǎn),它會(huì)定時(shí)到NameNode去獲取editlogs,并更新到fsimage上,一旦它有了新的fsimage文件,它將其拷貝回NameNode中,當(dāng)NameNode在下次重啟時(shí)會(huì)使用這個(gè)新的fsimage文件,從而減少重啟的時(shí)間。ApacheHadoopHDFS架構(gòu)中的主節(jié)點(diǎn),主要是用來保存HDFS的元數(shù)據(jù)信息,比如命名空間信息,塊信息等。當(dāng)它運(yùn)行的時(shí)候,這些信息是存在內(nèi)存中的。但是這些信息也可以持久化到磁盤上。Hadoop分布式文件系統(tǒng)HDFS5)HDFS的優(yōu)缺點(diǎn)事物都具有兩面性,HDFS再?gòu)?qiáng)大也會(huì)存在一些缺點(diǎn),下面讓我們了解一下HDFS的優(yōu)缺點(diǎn),從而可以在不同的應(yīng)用場(chǎng)景中更好的發(fā)揮HDFS的一些特性。優(yōu)點(diǎn)概述高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本(默認(rèn)為3份,可通過修改配置文件來修改副本數(shù)),副本丟失后,自動(dòng)恢復(fù)。適合批處理HDFS會(huì)將數(shù)據(jù)位置暴露給計(jì)算框架,通過移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)的方式來減少文件I/O,從而提高計(jì)算效率。適合大規(guī)模數(shù)據(jù)處理適合GB,TB,甚至PB級(jí)數(shù)據(jù)的計(jì)算,百萬規(guī)模以上的文件處理??蓸?gòu)建在廉價(jià)機(jī)器上HDFS通過多副本提高可靠性,提供了容錯(cuò)和恢復(fù)機(jī)制。HDFS的存儲(chǔ)節(jié)點(diǎn)只需要提供磁盤存儲(chǔ)空間即可,對(duì)操作系統(tǒng)與其他硬件資源沒有要求。缺點(diǎn)概述不支持低延遲數(shù)據(jù)訪問毫秒級(jí)的數(shù)據(jù)訪問,HDFS是不支持的。所以說HDFS不能作為實(shí)時(shí)任務(wù)的數(shù)據(jù)源。小文件存儲(chǔ)HDFS上的每一個(gè)文件的元數(shù)據(jù)都由NameNode進(jìn)行管理,如果有大量的小文件,將會(huì)占用NameNode大量?jī)?nèi)存,并且文件尋道時(shí)間超過讀取時(shí)間,所以HDFS建議將小文件進(jìn)行合并或者說使用HDFS提供的archive檔案機(jī)制。文件只支持追加HDFS上的文件只支持追加操作,不支持修改。而且一個(gè)文件同一時(shí)間只能有一個(gè)用戶進(jìn)行寫入操作。分布式資源調(diào)度管理系統(tǒng)分布式資源調(diào)度管理系統(tǒng),即另一種資源協(xié)調(diào)者(yetanotherresourcenegotiator,YARN)是Hadoop的資源管理器,它是一個(gè)分布式的資源管理系統(tǒng),用以提高分布式集群環(huán)境下的資源利用率,這些資源包括內(nèi)存、輸入輸出、網(wǎng)絡(luò)、磁盤等,其產(chǎn)生的原因是為了解決原MapReduce框架的不足。1)YARN的概念我們先來了解一下在Yarn誕生之前,Hadoop是如何進(jìn)行資源調(diào)度的。在Hadoop1.X版本,一個(gè)Hadoop集群可分解為兩個(gè)抽象實(shí)體:Mapreduce計(jì)算引擎和分布式文件系統(tǒng)。當(dāng)一個(gè)客戶端向一個(gè)Hadoop集群發(fā)出一個(gè)請(qǐng)求時(shí),此請(qǐng)求由Jobtracker管理。Jobtracker與Namenode聯(lián)合將任務(wù)分發(fā)到離它所處理的數(shù)據(jù)盡可能近的位置。然后Jobtracker將Map和Reduce任務(wù)安排到一個(gè)或多個(gè)Tasktracker上的可用插槽中。Tasktracker與Datanode一起對(duì)來自Datanode的數(shù)據(jù)執(zhí)行Map和Reduce任務(wù)。當(dāng)Map和Reduce任務(wù)完成時(shí),Tasktracker會(huì)告知Jobtracker,后者確定所有任務(wù)何時(shí)完成并最終告知客戶作業(yè)已完成。分布式資源調(diào)度管理系統(tǒng)在使用Jobtracker進(jìn)行資源調(diào)度的時(shí)候,會(huì)存在如下問題:Jobtracker是集群事務(wù)的集中處理點(diǎn),存在單點(diǎn)故障。Jobtracker需要完成的任務(wù)太多,既要維護(hù)Job的狀態(tài)又要維護(hù)Job的Task的狀態(tài),造成過多的資源消耗。在Tasktracker端,用Map/ReduceTask作為資源的表示過于簡(jiǎn)單,沒有考慮到Cpu、內(nèi)存等資源情況,當(dāng)把兩個(gè)需要消耗大內(nèi)存的Task調(diào)度到一起,很容易出現(xiàn)OOM(內(nèi)存溢出)。把資源強(qiáng)制劃分為Map/ReduceSlot,當(dāng)只有MapTask時(shí),ReduceSlot不能用;當(dāng)只有ReduceTask時(shí),MapSlot不能用,容易造成資源利用不足。到了Hadoop2.X版本,Yarn作為Hadoop第三大核心組件橫空出世,為了解決了Hadoop1.X版本資源調(diào)度的問題,YARN將資源管理和作業(yè)監(jiān)控/調(diào)度這兩個(gè)功能拆分開來,交由不同的守護(hù)進(jìn)程完成。具體來說就是有一個(gè)全局的資源管理者(Resourcemanager)和負(fù)責(zé)每一個(gè)應(yīng)用的應(yīng)用管理者(Applicationmaster)。分布式資源調(diào)度管理系統(tǒng)ResourceManager2)YARN的基本架構(gòu)YARN是一個(gè)資源管理、任務(wù)調(diào)度的框架,主要包含三大模塊:ResourceManager(簡(jiǎn)稱RM)、NodeManager(簡(jiǎn)稱NM)、ApplicationMaster(簡(jiǎn)稱AM)。NodeManager是每個(gè)節(jié)點(diǎn)上的資源和任務(wù)管理器,它是管理這臺(tái)機(jī)器的代理,負(fù)責(zé)該節(jié)點(diǎn)程序的運(yùn)行,以及該節(jié)點(diǎn)資源的管理和監(jiān)控,YARN集群每個(gè)節(jié)點(diǎn)都會(huì)運(yùn)行一個(gè)NodeManager。NodeManager會(huì)定時(shí)向ResourceManager匯報(bào)本節(jié)點(diǎn)資源(CPU、內(nèi)存)的使用情況和Container的運(yùn)行狀態(tài)。當(dāng)ResourceManager宕機(jī)時(shí)NodeManager自動(dòng)連接RM備用節(jié)點(diǎn)。ApplicationMaster用戶提交的每個(gè)應(yīng)用程序均包含一個(gè)ApplicationMaster。ResourceManager會(huì)為應(yīng)用分配一個(gè)Container(分配的資源)來運(yùn)行ApplicationMaster,ApplicationMaster會(huì)將得到的任務(wù)進(jìn)一步分配給內(nèi)部的任務(wù)(資源的二次分配),還有就是負(fù)責(zé)監(jiān)控所有任務(wù)運(yùn)行狀態(tài),并在任務(wù)運(yùn)行失敗時(shí)重新為任務(wù)申請(qǐng)資源以重啟任務(wù)。負(fù)責(zé)整個(gè)集群的資源管理和分配,是一個(gè)全局的資源管理系統(tǒng)。NodeManager以心跳的方式向ResourceManager匯報(bào)資源使用情況(目前主要是CPU和內(nèi)存的使用情況)。RM只接受NM的資源回報(bào)信息,對(duì)于具體的資源處理則交給NM自己處理。YARNScheduler根據(jù)application的請(qǐng)求為其分配資源,不負(fù)責(zé)applicationjob的監(jiān)控、追蹤、運(yùn)行狀態(tài)反饋、啟動(dòng)等工作。分布式資源調(diào)度管理系統(tǒng)3)YARN調(diào)度工作的流程(1)客戶端向RM提交應(yīng)用程序,其中包括啟動(dòng)該應(yīng)用的AM所必需信息。例如AM程序、啟動(dòng)AM的命令、用戶程序等。(2)RM啟動(dòng)一個(gè)容器用于運(yùn)行AM(3)啟動(dòng)中的AM向RM注冊(cè)自己?jiǎn)?dòng)成后與RM保持心跳(4)AM向RM發(fā)送請(qǐng)求,申請(qǐng)相應(yīng)數(shù)目的容器(5)RM返回AM申請(qǐng)的容器信息。申請(qǐng)成功的容器,由AM進(jìn)行初始化。容器的啟動(dòng)信息初始化后,AM與對(duì)應(yīng)的NM通信,要求NM啟動(dòng)容器。AM與NM保持心跳,從而對(duì)NM上運(yùn)行的任務(wù)進(jìn)行監(jiān)控和管理(6)容器運(yùn)行期間,AM對(duì)容器進(jìn)行監(jiān)控。容器通過RPC協(xié)議向?qū)?yīng)的AM匯報(bào)自己的進(jìn)度和狀態(tài)等信息.(7)應(yīng)用運(yùn)行期間,客戶端直接與AM通信獲取應(yīng)用的狀態(tài)、進(jìn)度更新等信息。(8)應(yīng)用運(yùn)行結(jié)束后,AM向RM注銷自己,并允許屬于它的容器被收回。分布式資源調(diào)度管理系統(tǒng)4)YARN的調(diào)度策略在YARN中,負(fù)責(zé)給應(yīng)用分配資源的就是調(diào)度器,調(diào)度本身就是一個(gè)難題,很難找到一個(gè)完美的策略可以解決所有的應(yīng)用場(chǎng)景。為此YARN提供了3種調(diào)度器,也可以叫作調(diào)度策略如表所示。調(diào)度器分類策略特點(diǎn)先進(jìn)先出調(diào)度器FIFOSchedulerFIFOScheduler把應(yīng)用按提交的順序排成一個(gè)隊(duì)列,這是一個(gè)先進(jìn)先出隊(duì)列,在進(jìn)行資源分配的時(shí)候,先給隊(duì)列中最頭上的應(yīng)用進(jìn)行分配資源,待最頭上的應(yīng)用需求滿足后再給下一個(gè)分配,以此類推。FIFOScheduler是最簡(jiǎn)單也是最容易理解的調(diào)度器,也不需要任何配置,但它并不適用于共享集群。大的應(yīng)用可能會(huì)占用所有集群資源,這就導(dǎo)致其它應(yīng)用被阻塞公平調(diào)度器FairScheduler在Fair調(diào)度器中,我們不需要預(yù)先占用一定的系統(tǒng)資源,F(xiàn)air調(diào)度器會(huì)為所有運(yùn)行的job動(dòng)態(tài)的調(diào)整系統(tǒng)資源當(dāng)?shù)谝粋€(gè)占用資源較大的job提交時(shí),如果只有這一個(gè)job在運(yùn)行,那么它會(huì)獲得所有的集群資源;此時(shí),當(dāng)?shù)诙€(gè)小任務(wù)提交后,F(xiàn)air調(diào)度器就會(huì)分配一半資源給這個(gè)小任務(wù),讓這兩個(gè)任務(wù)公平的共享集群資源。容器調(diào)度器CapacitySchedulerCapacity調(diào)度器允許多個(gè)組織共享整個(gè)集群,每個(gè)組織可以獲得集群的一部分計(jì)算能力。通過為每個(gè)組織分配專門的隊(duì)列,然后再為每個(gè)隊(duì)列分配一定的集群資源,這樣整個(gè)集群就可以通過設(shè)置多個(gè)隊(duì)列的方式給多個(gè)組織提供服務(wù)了。除此之外,隊(duì)列內(nèi)部又可以垂直劃分,這樣一個(gè)組織內(nèi)部的多個(gè)成員就可以共享這個(gè)隊(duì)列資源了,在一個(gè)隊(duì)列內(nèi)部,資源的調(diào)度是采用的是先進(jìn)先出(FIFO)策略。高性能分布式協(xié)調(diào)服務(wù)高性能分布式協(xié)調(diào)服務(wù)(ZooKeeper)致力于為分布式應(yīng)用提供一個(gè)高性能、高可用且具有嚴(yán)格順序訪問控制能力的分布式協(xié)調(diào)服務(wù)。ZooKeeper由雅虎研究院開發(fā),是GoogleChubby的開源實(shí)現(xiàn),后來托管到Apache,于2010年11月正式成為Apache的頂級(jí)項(xiàng)目。ZooKeeper的應(yīng)用場(chǎng)景有很多,比如說HadoopHA(高可用)集群、KafkaHBase都強(qiáng)依賴于ZooKeeper,讓我們一起來看下ZooKeeper有哪些特性。1)zookeeper的五大特性特性概述順序一致性從同一個(gè)客戶端發(fā)起的事務(wù)請(qǐng)求,最終將會(huì)嚴(yán)格地按照其發(fā)起的順序被應(yīng)用到Zookeeper去。原子性所有請(qǐng)求的響應(yīng)結(jié)果在整個(gè)分布式集群環(huán)境中具備原子性,即要么整個(gè)集群中所有機(jī)器都成功的處理了某個(gè)請(qǐng)求,要么就都沒有處理,絕對(duì)不會(huì)出現(xiàn)集群中一部分機(jī)器處理了某一個(gè)請(qǐng)求,而另一部分機(jī)器卻沒有處理的情況。單一性無論客戶端連接到ZooKeeper集群中哪個(gè)服務(wù)器,每個(gè)客戶端所看到的服務(wù)端模型都是一致的,不可能出現(xiàn)兩種不同的數(shù)據(jù)狀態(tài),因?yàn)閆ooKeeper集群中每臺(tái)服務(wù)器之間會(huì)進(jìn)行數(shù)據(jù)同步??煽啃砸坏┓?wù)端數(shù)據(jù)的狀態(tài)發(fā)送了變化,就會(huì)立即存儲(chǔ)起來,除非此時(shí)有另一個(gè)請(qǐng)求對(duì)其進(jìn)行了變更,否則數(shù)據(jù)一定是可靠的。實(shí)時(shí)性當(dāng)某個(gè)請(qǐng)求被成功處理后,ZooKeeper僅僅保證在一定的時(shí)間段內(nèi),客戶端最終一定能從服務(wù)端上讀取到最新的數(shù)據(jù)狀態(tài),即ZooKeeper保證數(shù)據(jù)的最終一致性。Zookeeper具有嚴(yán)格的寫操作順序性,客戶端能夠基于zookeeper實(shí)現(xiàn)一些復(fù)雜的同步原語。對(duì)于來自客戶端的每個(gè)更新請(qǐng)求,都會(huì)分配一個(gè)全局唯一的遞增編號(hào),這個(gè)編號(hào)反應(yīng)了所有事物操作的先后順序。高性能分布式協(xié)調(diào)服務(wù)2)ZooKeeper的角色領(lǐng)導(dǎo)者(Leader)Leader是ZooKeeper集群工作的核心。主要負(fù)責(zé)調(diào)度工作,是事務(wù)請(qǐng)求的調(diào)度處理者和集群內(nèi)部各服務(wù)器的調(diào)度。跟隨者(Follower)Follower是ZooKeeper集群的跟隨者。主要負(fù)責(zé)處理客戶端非事務(wù)性請(qǐng)求(讀取數(shù)據(jù))并轉(zhuǎn)發(fā)事務(wù)請(qǐng)求給Leader服務(wù)器和參與Leader選舉投票。觀察者(Observer)Observer充當(dāng)觀察者角色,觀察ZooKeeper集群的最新狀態(tài)變化并將這些狀態(tài)同步過來,其對(duì)于非事務(wù)請(qǐng)求可以進(jìn)行獨(dú)立處理,對(duì)于事務(wù)請(qǐng)求,則會(huì)轉(zhuǎn)發(fā)給Leader服務(wù)器進(jìn)行處理。Observer不會(huì)參與任何形式的投票,包括事務(wù)請(qǐng)求Proposal的投票和Leader選舉投票。HBase數(shù)據(jù)庫(kù)HBase是建立在HDFS之上,提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的數(shù)據(jù)庫(kù)系統(tǒng)。它是ApacheHadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),Hbase的Logo是一只鯨魚,如圖所示。HBase是GoogleBigtable的開源實(shí)現(xiàn),與GoogleBigtable利用GFS作為其文件存儲(chǔ)系統(tǒng)類似,HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng);Google運(yùn)行MapReduce來處理Bigtable中的海量數(shù)據(jù),HBase同樣利用HadoopMapReduce來處理HBase中的海量數(shù)據(jù);GoogleBigtable利用Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對(duì)應(yīng)。HBase數(shù)據(jù)庫(kù)1)Hbase特性特點(diǎn)概述大一個(gè)表可以有上億行,上百萬列。面向列面向列表(簇)的存儲(chǔ)和權(quán)限控制,列(簇)獨(dú)立檢索。稀疏每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下,版本號(hào)自動(dòng)分配,版本號(hào)就是單元格插入時(shí)的時(shí)間戳。數(shù)據(jù)多版本每個(gè)單元中的數(shù)據(jù)可以有多個(gè)版本,默認(rèn)情況下,版本號(hào)自動(dòng)分配,版本號(hào)就是單元格插入時(shí)的時(shí)間戳。數(shù)據(jù)類型單一HBase中的數(shù)據(jù)都是字符串,沒有類型。HBase數(shù)據(jù)庫(kù)2)Hbase與傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)比對(duì)比傳統(tǒng)數(shù)據(jù)庫(kù)可能遇到的問題(1)數(shù)據(jù)量很大的時(shí)候無法存儲(chǔ)。(2)沒有很好的備份機(jī)制。(3)數(shù)據(jù)達(dá)到一定數(shù)量開始緩慢,很大的話基本無法支撐。Hbase的優(yōu)勢(shì)(1)線性擴(kuò)展,隨著數(shù)據(jù)量增多可以通過節(jié)點(diǎn)擴(kuò)展進(jìn)行支撐。(2)數(shù)據(jù)存儲(chǔ)在hdfs上,備份機(jī)制健全。(3)通過zookeeper協(xié)調(diào)查找數(shù)據(jù),訪問速度快。HBase數(shù)據(jù)庫(kù)3)zookeeper在HBase中的作用①可以保證在HBase集群中有且只有一個(gè)活躍的Master;②存儲(chǔ)所有Region的尋址入口;③實(shí)時(shí)監(jiān)控Regionserver的上線和下線信息,并實(shí)時(shí)通知給Master;④存儲(chǔ)HBase的schema和Table元數(shù)據(jù)。Region是HBase分布式存儲(chǔ)的最基本單元。它將一個(gè)數(shù)據(jù)表按Key值范圍橫向劃分為一個(gè)個(gè)的子表,實(shí)現(xiàn)分布式存儲(chǔ)。這個(gè)子表,在HBase中被稱作“Region”。每一個(gè)Region都關(guān)聯(lián)一個(gè)Key值范圍,即一個(gè)使用StartKey和EndKey描述的區(qū)間。HBase數(shù)據(jù)庫(kù)4)HBase的集群角色HBase的集群角色有兩種分別是HMaster和Regionserver。其中HMaster是主進(jìn)程,負(fù)責(zé)管理所有的Regionserver;Regionserver是數(shù)據(jù)服務(wù)進(jìn)程,負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請(qǐng)求。HMaster與Regionserver之間有著密切的關(guān)系,而Regionserver又與Region它是HBase中存儲(chǔ)數(shù)據(jù)的最小單元)密不可分,所以我們分別講解Region、Regionserver和HMaster的特點(diǎn)。(1)RegionRegionServer是HBase的數(shù)據(jù)服務(wù)進(jìn)程。它負(fù)責(zé)處理用戶數(shù)據(jù)的讀寫請(qǐng)求,所有的Region都被交由RegionServer管理,包括執(zhí)行Flush、Compaction、Open、Close、Load等操作。實(shí)際上,所有用戶數(shù)據(jù)的讀寫請(qǐng)求,都是和RegionServer管理的Region進(jìn)行交互。當(dāng)某個(gè)RegionServer發(fā)生故障的時(shí)候,此RegionServer所管理Region就會(huì)轉(zhuǎn)移到其它RegionServer下。RegionServer需要定期向HMaster匯報(bào)自身的情況,包括內(nèi)存使用狀態(tài)、在線狀態(tài)的Region等信息。RegionServer除此之外,還可以管理WAL,以及執(zhí)行數(shù)據(jù)插入、更新和刪除操作,并通過Metrics對(duì)外提供了衡量HBase內(nèi)部服務(wù)狀況的參數(shù)。另外,RegionServer還內(nèi)置了HttpServer,所以我們可以通過圖形界面的方式訪問Hbase。(2)RegionserverHMaster進(jìn)程負(fù)責(zé)管理所有的RegionServer。包括新RegionServer的注冊(cè);RegionServerFailover處理;負(fù)責(zé)建表/修改表/刪除表以及一些集群操作;新表創(chuàng)建時(shí)的Region分配;運(yùn)行期間的負(fù)載均衡保障;負(fù)責(zé)所有Region的轉(zhuǎn)移操作,包括RegionServerFailover后的Region接管。(3)HMasterHBase數(shù)據(jù)庫(kù)4)HBase的集群角色HMaster進(jìn)程有主備角色。集群可以配置多個(gè)HMaster角色,在集群?jiǎn)?dòng)時(shí),這些HMaster角色通過競(jìng)爭(zhēng)獲得主HMaster角色。主HMaster只能有一個(gè),所有的備HMaster進(jìn)程在集群運(yùn)行期間處于休眠狀態(tài),不干涉任何集群事務(wù)。為了方便理解HMaster、RegionServer和Region三者之間的關(guān)系,舉一個(gè)很形象的例子,你可以把HMaster理解為部門總經(jīng)理,它管理了若干個(gè)項(xiàng)目經(jīng)理(RegionServer),而每個(gè)項(xiàng)目經(jīng)理都帶了若干個(gè)項(xiàng)目組成員(Region)。HBase有自己獨(dú)特的一套文件存儲(chǔ)架構(gòu)和數(shù)據(jù)尋址機(jī)制,來保證在海量數(shù)據(jù)中快速檢索到需要的數(shù)據(jù),有興趣的同學(xué)可以前往HBase官網(wǎng)(/)進(jìn)行學(xué)習(xí)。Hive系統(tǒng)Hive是基于Hadoop構(gòu)建的一套數(shù)據(jù)倉(cāng)庫(kù)分析系統(tǒng),它提供了豐富的SQL查詢方式來分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)(HDFS)中的數(shù)據(jù):可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的SQL查詢功能;可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運(yùn)行,通過自己的SQL查詢分析需要的內(nèi)容,這套SQL簡(jiǎn)稱HiveSQL,使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數(shù)據(jù)。而mapreduce開發(fā)人員可以把自己寫的mapper和reducer作為插件來支持hive做更復(fù)雜的數(shù)據(jù)分析。它與關(guān)系型數(shù)據(jù)庫(kù)的SQL略有不同,但支持了絕大多數(shù)的語句如DDL、DML以及常見的聚合函數(shù)、連接查詢、條件查詢。它還提供了一系列的工具進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載,用來存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)集,并支持UDF(User-DefinedFunction)、UDAF(User-DefnesAggregateFunction)和UDTF(User-DefinedTable-GeneratingFunction),也可以實(shí)現(xiàn)對(duì)map和reduce函數(shù)的定制,為數(shù)據(jù)操作提供了良好的伸縮性和可擴(kuò)展性。Hive系統(tǒng)1)什么是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù),英文名稱為DataWarehouse,可簡(jiǎn)寫為DW或DWH。數(shù)據(jù)倉(cāng)庫(kù)的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持(DecisionSupport)。它出于分析性報(bào)告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù),同時(shí)自身也不需要“消費(fèi)”任何的數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用,這也是為什么叫“倉(cāng)庫(kù)”,而不叫“工廠”的原因。數(shù)據(jù)倉(cāng)庫(kù)有四個(gè)特性:分別是主體性、集成性、非易失性(不可更新性)和時(shí)變性。Hive系統(tǒng)2)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別實(shí)際講的是OLTP與OLAP的區(qū)別,見表所示。處理方式概述OLTP聯(lián)機(jī)事務(wù)處理,也可以稱面向交易的處理系統(tǒng),它是針對(duì)具體業(yè)務(wù)在數(shù)據(jù)庫(kù)聯(lián)機(jī)的日常操作,通常對(duì)少數(shù)記錄進(jìn)行查詢、修改。用戶較為關(guān)心操作的響應(yīng)時(shí)間、數(shù)據(jù)的安全性、完整性和并發(fā)支持的用戶數(shù)等問題。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)作為數(shù)據(jù)管理的主要手段,主要用于操作型處理。OLAP聯(lián)機(jī)分析處理,一般針對(duì)某些主題的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),并不是要取代數(shù)據(jù)庫(kù),兩者之間的區(qū)別如下表所示。差異數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)面向方向面向事務(wù)面向主題數(shù)據(jù)存儲(chǔ)存儲(chǔ)業(yè)務(wù)數(shù)據(jù)存儲(chǔ)歷史數(shù)據(jù)表設(shè)計(jì)盡量避免冗余有意引入冗余,依照分析需求,分析維度、分析指標(biāo)進(jìn)行設(shè)計(jì)作用方向?yàn)椴东@數(shù)據(jù)而設(shè)計(jì)為分析數(shù)據(jù)而設(shè)計(jì)Hive系統(tǒng)以銀行業(yè)務(wù)為例。數(shù)據(jù)庫(kù)是事務(wù)系統(tǒng)的數(shù)據(jù)平臺(tái),客戶在銀行做的每筆交易都會(huì)寫入數(shù)據(jù)庫(kù),被記錄下來,這里,可以簡(jiǎn)單地理解為用數(shù)據(jù)庫(kù)記賬。數(shù)據(jù)倉(cāng)庫(kù)是分析系統(tǒng)的數(shù)據(jù)平臺(tái),它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策的依據(jù)。比如,某銀行某分行一個(gè)月發(fā)生多少交易,該分行當(dāng)前存款余額是多少。如果存款又多,消費(fèi)交易又多,那么該地區(qū)就有必要設(shè)立ATM了。顯然,銀行的交易量是巨大的,通常以百萬甚至千萬次來計(jì)算。事務(wù)系統(tǒng)是實(shí)時(shí)的,這就要求時(shí)效性,客戶存一筆錢需要幾十秒是無法忍受的,這就要求數(shù)據(jù)庫(kù)只能存儲(chǔ)很短一段時(shí)間的數(shù)據(jù)。而分析系統(tǒng)是事后的,它要提供關(guān)注時(shí)間段內(nèi)所有的有效數(shù)據(jù)。這些數(shù)據(jù)是海量的,匯總計(jì)算起來也要慢一些,但是,只要能夠提供有效的分析數(shù)據(jù)就達(dá)到目的了。數(shù)據(jù)倉(cāng)庫(kù),是在數(shù)據(jù)庫(kù)已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它決不是所謂的“大型數(shù)據(jù)庫(kù)”。Hive系統(tǒng)3)Hive的作用MapReduce使用起來學(xué)習(xí)難度大,成本高,坡度陡,并且MapReduce實(shí)現(xiàn)復(fù)雜查詢邏輯開發(fā)難度較大。而Hive可以把SQL語句轉(zhuǎn)化成Mapreduce代碼,操作接口內(nèi)SQL語法,提升開發(fā)的效率;避免了去寫MapReduce,降低開發(fā)人員的學(xué)習(xí)成本;較強(qiáng)的擴(kuò)展性,Hive支持用戶自定義函數(shù),用戶可以根據(jù)自己的需求來實(shí)現(xiàn)自己的函數(shù);良好的容錯(cuò)性,節(jié)點(diǎn)出現(xiàn)問題SQL仍可完成執(zhí)行。關(guān)于Hive的使用方式與數(shù)據(jù)類型,會(huì)在第4章中詳細(xì)講解。Flume軟件Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)能浖lume的核心是把數(shù)據(jù)從數(shù)據(jù)源(source)收集過來,再將收集到的數(shù)據(jù)送到指定的目的地(sink)。為了保證輸送的過程一定成功,在送到目的地(sink)之前,會(huì)先緩存數(shù)據(jù)(channel),待數(shù)據(jù)真正到達(dá)目的地(sink)后,F(xiàn)lume在刪除自己緩存的數(shù)據(jù)。Flume支持定制各類數(shù)據(jù)發(fā)送方,用于收集各類型數(shù)據(jù);同時(shí),F(xiàn)lume支持定制各種數(shù)據(jù)接受方,用于最終存儲(chǔ)數(shù)據(jù)。一般的采集需求,通過對(duì)Flume的簡(jiǎn)單配置即可實(shí)現(xiàn)。針對(duì)特殊場(chǎng)景也具備良好的自定義擴(kuò)展能力。因此,F(xiàn)lume可以適用于大部分的日常數(shù)據(jù)采集場(chǎng)景。Flume軟件Flume系統(tǒng)中核心的角色是Agent,Agent本身是一個(gè)Java進(jìn)程,一般運(yùn)行在日志收集節(jié)點(diǎn),執(zhí)行流程如圖所示。每一個(gè)Agent相當(dāng)于一個(gè)數(shù)據(jù)傳遞員,內(nèi)部有三個(gè)組件:Source:采集源,用于跟數(shù)據(jù)源對(duì)接,以獲取數(shù)據(jù)。Sink:下沉地,采集數(shù)據(jù)的傳送目的地,用于往下一級(jí)Agent傳遞數(shù)據(jù)或者往最終存儲(chǔ)系統(tǒng)傳遞數(shù)據(jù)。Channel:Agent內(nèi)部的數(shù)據(jù)傳輸通道,用于從source將數(shù)據(jù)傳遞到sink;在整個(gè)數(shù)據(jù)的傳輸?shù)倪^程中,流動(dòng)的是Event,它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)淖罨締卧?。Event將傳輸?shù)臄?shù)據(jù)進(jìn)行封裝。如果是文本文件,通常是一行記錄,Event也是事務(wù)的基本單位。Event從Source,流向Channel,再到Sink,本身為一個(gè)字節(jié)數(shù)組,并可攜帶headers(頭信息)信息。Event代表著一個(gè)數(shù)據(jù)的最小完整單元,從外部數(shù)據(jù)源來,向外部的目的地去。一個(gè)完整的Event包括:Eventheaders、Eventbody、Event信息,其中Event信息就是Flume收集到的日記記錄。kafka系統(tǒng)1)kafka的概念A(yù)pacheKafka是一個(gè)開源消息系統(tǒng),由Scala語言編寫,以可水平擴(kuò)展和高吞吐率而被廣泛使用。Kafka最初是由Linkedin公司開發(fā),是一個(gè)分布式、分區(qū)的、多副本的、多訂閱者,基于Zookeeper協(xié)調(diào)的分布式消息系統(tǒng),Linkedin于2010年貢獻(xiàn)給了Apache基金會(huì)并成為頂級(jí)開源項(xiàng)目,KafkaLogo如圖所示。Kafka官網(wǎng)地址為:/kafka系統(tǒng)2)
Kafka的特性特性概述高吞吐量、低延遲kafka每秒可以處理幾十萬條消息,它的延遲最低只有幾毫秒,每個(gè)topic可以分多個(gè)partition,consumergroup對(duì)partition進(jìn)行consume操作??蓴U(kuò)展性Kafka集群支持熱擴(kuò)展。持久性、可靠性消息被持久化到本地磁盤,并且支持?jǐn)?shù)據(jù)備份防止數(shù)據(jù)丟失。容錯(cuò)性允許集群中節(jié)點(diǎn)失?。ㄈ舾北緮?shù)量為n,則允許n-1個(gè)節(jié)點(diǎn)失?。?。高并發(fā)支持?jǐn)?shù)千個(gè)客戶端同時(shí)讀寫。kafka系統(tǒng)2)
Kafka的特性kafka中的相關(guān)組件如下(1)服務(wù)器節(jié)點(diǎn)(Broker)0102(2)主題(Topic)Kafka集群包含一個(gè)或多個(gè)服務(wù)器,服務(wù)器節(jié)點(diǎn)稱為Broker。Broker存儲(chǔ)Topic的數(shù)據(jù)。如果某Topic有N個(gè)Partition,集群有N個(gè)Broker,那么每個(gè)Broker存儲(chǔ)該Topic的一個(gè)Partition。如果某Topic有N個(gè)Partition,集群有(N+M)個(gè)Broker,那么其中有N個(gè)Broker存儲(chǔ)該Topic的一個(gè)Partition,剩下的M個(gè)Broker不存儲(chǔ)該Topic的Partition數(shù)據(jù)。如果某Topic有N個(gè)Partition,集群中Broker數(shù)目少于N個(gè),那么一個(gè)Broker存儲(chǔ)該Topic的一個(gè)或多個(gè)Partition。在實(shí)際生產(chǎn)環(huán)境中,盡量避免這種情況的發(fā)生,這種情況容易導(dǎo)致Kafka集群數(shù)據(jù)不均衡。每條發(fā)布到Kafka集群的消息都有一個(gè)類別,這個(gè)類別被稱為Topic。(物理上不同Topic的消息分開存儲(chǔ),邏輯上一個(gè)Topic的消息雖然保存于一個(gè)或多個(gè)broker上但用戶只需指定消息的Topic即可生產(chǎn)或消費(fèi)數(shù)據(jù)而不必關(guān)心數(shù)據(jù)存于何處)類似于數(shù)據(jù)庫(kù)的表名。kafka系統(tǒng)2)
Kafka的特性kafka中的相關(guān)組件如下(3)分區(qū)(Partition)0304(4)生產(chǎn)者(Producer)Topic中的數(shù)據(jù)分割為一個(gè)或多個(gè)Partition。每個(gè)Topic至少有一個(gè)Partition。每個(gè)Partition中的數(shù)據(jù)使用多個(gè)Segment文件存儲(chǔ)。Partition中的數(shù)據(jù)是有序的,不同Partition間的數(shù)據(jù)丟失了數(shù)據(jù)的順序。如果Topic有多個(gè)Partition,消費(fèi)數(shù)據(jù)時(shí)就不能保證數(shù)據(jù)的順序。在需要嚴(yán)格保證消息的消費(fèi)順序的場(chǎng)景下,需要將Partition數(shù)目設(shè)為1。生產(chǎn)者即數(shù)據(jù)的發(fā)布者,該角色將消息發(fā)布到Kafka的Topic中。Broker接收到生產(chǎn)者發(fā)送的消息后,Broker將該消息追加到當(dāng)前用于追加數(shù)據(jù)的Segment文件中。生產(chǎn)者發(fā)送的消息,存儲(chǔ)到一個(gè)Partition中,生產(chǎn)者也可以指定數(shù)據(jù)存儲(chǔ)的Partition。kafka系統(tǒng)2)
Kafka的特性kafka中的相關(guān)組件如下(5)消費(fèi)者(Consumer)0304(6)消費(fèi)者群ConsumerGroup)消費(fèi)者可以從Broker中讀取數(shù)據(jù)。消費(fèi)者可以消費(fèi)多個(gè)Topic中的數(shù)據(jù)。每個(gè)Consumer屬于一個(gè)特定的ConsumerGroup(可為每個(gè)Consumer指定GroupName,若不指定GroupName則屬于默認(rèn)的Group)。kafka系統(tǒng)3)Kafka與RabbitMQ的區(qū)別區(qū)別Kafka傳統(tǒng)消息隊(duì)列架構(gòu)模型Kafka遵從一般的MQ結(jié)構(gòu),Producer,Broker,Consumer,以Consumer為中心,消息的消費(fèi)信息保存的客戶端Consumer上,Consumer根據(jù)消費(fèi)的點(diǎn),從Broker上批量Pull數(shù)據(jù);無消息確認(rèn)機(jī)制。Rabbitmq遵循AMQP協(xié)議,Rabbitmq的Brokerexchange,Binding,Queue組成,其中Exchange和Binding組成了消息的路由鍵;客戶端Producer通過連接Channel和Server進(jìn)行通信,Consumer從Queue獲取消息進(jìn)行消費(fèi)(長(zhǎng)連接,Queue有消息會(huì)推送到Consumer端,Consumer循環(huán)從輸入流讀取數(shù)據(jù))。Rabbitmq以Broker為中心;有消息的確認(rèn)機(jī)制。吞吐量方面Kafka具有高的吞吐量,內(nèi)部采用消息的批量處理,zero-copy機(jī)制,數(shù)據(jù)的存儲(chǔ)和獲取是本地磁盤順序批量操作,具有O(1)的復(fù)雜度,消息處理的效率很高。RabbitMQ在吞吐量方面稍遜于kafka,他們的出發(fā)點(diǎn)不一樣,rabbitMQ支持對(duì)消息的可靠的傳遞,支持事務(wù),不支持批量的操作;基于存儲(chǔ)的可靠性的要求存儲(chǔ)可以采用內(nèi)存或者硬盤??捎眯苑矫鍷afka的broker支持主備模式。Rabbitmq支持Miror的Queue,主Queue失效,MirorQueue接管。集群負(fù)載均衡Kafka采用Zookeeper對(duì)集群中的Broker、Consumer進(jìn)行管理,可以注冊(cè)Topic到Zookeeper上;通過Zookeeper的協(xié)調(diào)機(jī)制,Producer保存對(duì)應(yīng)Topic的Broker信息,可以隨機(jī)或者輪詢發(fā)送到Broker上;并且Producer可以基于語義指定分片,消息發(fā)送到Broker的某分片上。Rabbitmq支持集群模式,但不支持負(fù)載均衡。SqoopSqoop(SQL-to-Hadoop)項(xiàng)目旨在協(xié)助RDBMS與Hadoop之間進(jìn)行高效的大數(shù)據(jù)交流,是一款基于MapReduce的數(shù)據(jù)遷移工具,同時(shí)也是一款開源的工具。它主要用在Hadoop(Hive)與非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL、HBase等)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(MySQL,Oracle,PostgreSQL等)中的數(shù)據(jù)導(dǎo)人Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)人關(guān)系型數(shù)據(jù)庫(kù)中。隨著聯(lián)網(wǎng)的普及,企業(yè)積累的數(shù)據(jù)量越來越大,傳統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)無法滿足存儲(chǔ)需求,所以更多的用戶選擇使用Hadoop的HDFS來存儲(chǔ)數(shù)據(jù)。那么就需要將數(shù)據(jù)在傳統(tǒng)數(shù)據(jù)庫(kù)與HDFS之間進(jìn)行轉(zhuǎn)移能夠幫助數(shù)據(jù)傳輸?shù)墓ぞ咦兊酶又匾pacheSqoop就是這樣一款開源工具,可以在Hadoop和關(guān)系型數(shù)據(jù)庫(kù)之間轉(zhuǎn)移大量數(shù)據(jù)。Sqoop項(xiàng)目開始于2009年,最早是作為Hadop的一個(gè)第三方模塊存在,后來為了讓使用者能夠快速部署,也為了讓開發(fā)人員能夠更快速地送代開發(fā),Sqoop獨(dú)立成為一個(gè)Apache項(xiàng)目。Sqoop本質(zhì)其實(shí)是將導(dǎo)入或?qū)С雒罘g成MapReduce程序并執(zhí)行。在翻譯成MapReduce程序中主要是對(duì)InputFormat和OutputFormat進(jìn)行定制。隨著Sqoop的使用者越來越多,舊版本的Sqoop已經(jīng)漸漸暴露出一些缺點(diǎn),開發(fā)人員優(yōu)化之后推出了一個(gè)新的系列版本Sqoop2。Sqoop1與Sqoop2是兩個(gè)完全不同的版本,它們并不兼容。Sqoopl通常是指1.4.x版本,Sqoop2是指1.99.x以后的版本。1)Sqoop的概念Sqoop(1)引入sqoopserver,集中化管理connector等。(2)多種訪問方式:CLI,WebUI,RESTAPI。(3)引入基于角色的安全機(jī)制。Sqoop2和Sqoop1的功能性對(duì)比,如下表所示:2)Sqoop2比sqoop1的改進(jìn):功能Sqoop1Sqoop2用于所有主要RDBMS的連接器支持不支持解決辦法:使用已在以下數(shù)據(jù)庫(kù)上執(zhí)行測(cè)試的通用JDBC連接器:Micros
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024礦山開采渣土砂石外運(yùn)及環(huán)保處理合同
- 2024年項(xiàng)目工程專項(xiàng)技術(shù)咨詢合同范本版B版
- 2024年道路貨物運(yùn)輸服務(wù)協(xié)議版B版
- 2024石材資源開發(fā)與保護(hù)合作合同范本3篇
- 2024青島汽車租賃合同違約責(zé)任條款3篇
- 2024年高效工業(yè)設(shè)備購(gòu)銷合同
- 2024版廣告投放合同詳細(xì)條款
- 2024年無子離婚雙方共識(shí)合同范本
- 2024年高層住宅工程總包合同樣本
- 2024男方債務(wù)分擔(dān)與子女撫養(yǎng)權(quán)及贍養(yǎng)費(fèi)支付協(xié)議書9篇
- 2024-2025學(xué)年山東省德州市高中五校高二上學(xué)期期中考試地理試題(解析版)
- 2025年國(guó)務(wù)院發(fā)展研究中心信息中心招聘應(yīng)屆畢業(yè)生1人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 麻風(fēng)病病情分析
- 2024年公安機(jī)關(guān)理論考試題庫(kù)500道及參考答案
- 特殊情況施工的技術(shù)措施
- 《急診科建設(shè)與設(shè)備配置標(biāo)準(zhǔn)》
- 建筑工地節(jié)前停工安全檢查表
- 鈑金與成型 其它典型成形
- 注塑件生產(chǎn)通用標(biāo)準(zhǔn)
- 八卦象數(shù)療法
- (完整版)視頻監(jiān)控系統(tǒng)用戶操作手冊(cè)
評(píng)論
0/150
提交評(píng)論