大數(shù)據(jù)導(dǎo)論 課件 張良均第1-3章 大數(shù)據(jù)概述、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)與管理_第1頁(yè)
大數(shù)據(jù)導(dǎo)論 課件 張良均第1-3章 大數(shù)據(jù)概述、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)與管理_第2頁(yè)
大數(shù)據(jù)導(dǎo)論 課件 張良均第1-3章 大數(shù)據(jù)概述、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)與管理_第3頁(yè)
大數(shù)據(jù)導(dǎo)論 課件 張良均第1-3章 大數(shù)據(jù)概述、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)與管理_第4頁(yè)
大數(shù)據(jù)導(dǎo)論 課件 張良均第1-3章 大數(shù)據(jù)概述、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)與管理_第5頁(yè)
已閱讀5頁(yè),還剩156頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概述實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代古人記錄信息的手段非常原始,如果要記往一件事,他們會(huì)在繩子上打一個(gè)結(jié),以后看到該結(jié),就會(huì)想起那件事,這便是結(jié)繩記事。如果有很多事需要記住,那么就會(huì)在繩子上打很多結(jié),時(shí)間長(zhǎng)了就很難想起是什么事了。由此可見(jiàn),“結(jié)繩記事”這種古老的方法雖然簡(jiǎn)單但并不可靠。隨著人類(lèi)文明的不斷進(jìn)步,記錄信息的載體也在發(fā)生著變化,例如龜甲、獸骨、竹簡(jiǎn)、紙張、錄音磁帶、可移動(dòng)磁盤(pán)、數(shù)據(jù)庫(kù)等。隨著第三次工業(yè)革命的到來(lái),人類(lèi)進(jìn)入了信息時(shí)代,電子計(jì)算機(jī)的發(fā)明更是為信息技術(shù)的發(fā)展插上了翅膀,大量的信息由此產(chǎn)生,大數(shù)據(jù)的時(shí)代就此到來(lái)。信息時(shí)代數(shù)據(jù)爆炸信息時(shí)代以電子信息產(chǎn)業(yè)的突破與迅猛發(fā)展為標(biāo)志,和工業(yè)時(shí)代有著明顯的區(qū)別。在工業(yè)時(shí)代,人們更看重的是土地、廠房、機(jī)械設(shè)備、勞動(dòng)力等傳統(tǒng)生產(chǎn)要素。在信息時(shí)代,數(shù)據(jù)變成一種新的生產(chǎn)要素,蘊(yùn)含了對(duì)未來(lái)事件的判斷、事物之間的聯(lián)系、未被發(fā)現(xiàn)的知識(shí)規(guī)律等,因此,數(shù)據(jù)積累就顯得十分重要。在信息時(shí)代,晶體管和大規(guī)模集成電路極大地降低了信息傳播的費(fèi)用,隨著計(jì)算機(jī)的出現(xiàn)和逐步普及,信息對(duì)整個(gè)社會(huì)的影響逐步提高。信息指標(biāo)呈現(xiàn)出一種逐漸提升的態(tài)勢(shì),主要體現(xiàn)在信息總量的增長(zhǎng)、信息傳播速度的提升、信息處理速度的加快以及信息應(yīng)用的廣度和深度的擴(kuò)展。信息時(shí)代數(shù)據(jù)爆炸信息技術(shù)的發(fā)展為人們學(xué)習(xí)知識(shí)、掌握知識(shí)和運(yùn)用知識(shí)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。雖然信息與知識(shí)并非完全等同,但通過(guò)信息技術(shù)的支持,人們可以更方便地獲取各種信息資源,并利用工具和平臺(tái)進(jìn)行知識(shí)的積累和應(yīng)用。中國(guó)信息通信研究院發(fā)布的《大數(shù)據(jù)白皮書(shū)(2020年)》中提到,根據(jù)國(guó)際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測(cè),2035年全球數(shù)據(jù)產(chǎn)生量將達(dá)到2142ZB,全球數(shù)據(jù)量即將迎來(lái)更大規(guī)模的爆發(fā)。三次信息化浪潮人類(lèi)記錄信息的方式不斷的變化著,記錄信息的方式經(jīng)歷了3次信息化浪潮三次信息化浪潮人類(lèi)記錄信息的方式不斷的變化著,記錄信息的方式經(jīng)歷了3次信息化浪潮第一次信息化浪潮是計(jì)算機(jī)的普及

計(jì)算機(jī)的價(jià)格不斷下降,尺寸不斷縮小,進(jìn)入日常生活第二次信息化浪潮是互聯(lián)網(wǎng)的普及

獲取信息的便利性增大第三次信息化浪潮是大數(shù)據(jù)技術(shù)的發(fā)展網(wǎng)絡(luò)共享的數(shù)據(jù)不斷積累,通過(guò)數(shù)據(jù)挖掘,發(fā)現(xiàn)其中隱含的價(jià)值大數(shù)據(jù)的發(fā)展大數(shù)據(jù)的發(fā)展可以分為4個(gè)階段大數(shù)據(jù)的發(fā)展大數(shù)據(jù)萌芽階段(1980年—2008年)1980年,美國(guó)著名未來(lái)學(xué)家阿爾文·托夫勒(AlvinToffler)在《第三次浪潮》一書(shū)中提出大數(shù)據(jù)這一概念大數(shù)據(jù)發(fā)展階段(2009年—2011年)在大數(shù)據(jù)發(fā)展階段,處理海量數(shù)據(jù)已經(jīng)成為整個(gè)社會(huì)迫在眉睫的事情,全球范圍內(nèi)開(kāi)始進(jìn)行大數(shù)據(jù)的研究探索和實(shí)際運(yùn)用。2010年,肯尼斯·庫(kù)克爾發(fā)表了長(zhǎng)達(dá)14頁(yè)的大數(shù)據(jù)專(zhuān)題報(bào)告《數(shù)據(jù),無(wú)所不在的數(shù)據(jù)》,系統(tǒng)地分析了當(dāng)前社會(huì)中的數(shù)據(jù)問(wèn)題大數(shù)據(jù)的發(fā)展大數(shù)據(jù)爆發(fā)階段(2012年—2016年)大數(shù)據(jù)成為各行各業(yè)討論的時(shí)代主題,對(duì)數(shù)據(jù)的認(rèn)知更新引領(lǐng)著思維變革、商業(yè)變革和管理變革,大數(shù)據(jù)應(yīng)用規(guī)模不斷擴(kuò)大,全球開(kāi)始針對(duì)大數(shù)據(jù)制定相應(yīng)的戰(zhàn)略和規(guī)劃大數(shù)據(jù)成熟階段(2017年至今)在大數(shù)據(jù)成熟階段,與大數(shù)據(jù)相關(guān)的政策、法規(guī)、技術(shù)、教育、應(yīng)用等發(fā)展因素開(kāi)始走向成熟,其中,政策和法規(guī)對(duì)技術(shù)的應(yīng)用進(jìn)行了約束和規(guī)范,起到了至關(guān)重要的作用大數(shù)據(jù)帶來(lái)思維模式的改變?cè)谟?jì)算機(jī)發(fā)明初期,由于技術(shù)條件的限制,人類(lèi)無(wú)法獲取大量的數(shù)據(jù),沒(méi)有辦法完全利用已獲得的數(shù)據(jù)來(lái)分析問(wèn)題,一般采用統(tǒng)計(jì)學(xué)方法和建立因果關(guān)系模型來(lái)分析。但是很多問(wèn)題無(wú)法通過(guò)因果關(guān)系來(lái)描述,或其因果關(guān)系非常復(fù)雜難以準(zhǔn)確描述。在大數(shù)據(jù)時(shí)代,人類(lèi)可以利用全部的樣本數(shù)據(jù),通過(guò)算法找出其中的繁雜關(guān)系;而且并不要求這些數(shù)據(jù)是完全精確的,可以是混雜的,完全符合客觀世界的真實(shí)規(guī)律。這樣的思路來(lái)分析問(wèn)題,就是采用了大數(shù)據(jù)思維。大數(shù)據(jù)帶來(lái)思維模式的改變大數(shù)據(jù)思維是在利用數(shù)據(jù)解決業(yè)務(wù)問(wèn)題的過(guò)程中所表現(xiàn)出來(lái)的思維模式,這個(gè)過(guò)程涉及一系列的步驟,包括選擇一個(gè)業(yè)務(wù)領(lǐng)域或主題,理解業(yè)務(wù)問(wèn)題及其數(shù)據(jù),描述業(yè)務(wù)問(wèn)題及其數(shù)據(jù)等。為了完整性,大數(shù)據(jù)思維還涉及尋找合適的方法分析數(shù)據(jù),以及如何恰當(dāng)?shù)卣故痉治鼋Y(jié)果,把數(shù)據(jù)處理整個(gè)流程的開(kāi)始(業(yè)務(wù)需求)和結(jié)束(結(jié)果的解釋和展示)關(guān)聯(lián)起來(lái),形成一個(gè)閉環(huán)。大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)和處理都不同于傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù),而且出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)。經(jīng)過(guò)總結(jié),可以得到大數(shù)據(jù)的5個(gè)特征,簡(jiǎn)稱(chēng)5V特征。Volume(數(shù)據(jù)量)Variety(多樣性)Value(價(jià)值)Velocity(速度)Veracity(真實(shí)性)實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況1.大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀與市場(chǎng)規(guī)模我國(guó)大數(shù)據(jù)經(jīng)過(guò)多年高速發(fā)展,不斷取得重要突破,呈現(xiàn)良好發(fā)展態(tài)勢(shì)。一是產(chǎn)業(yè)規(guī)模高速增長(zhǎng),2021年,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增加到1.3萬(wàn)億元,復(fù)合增長(zhǎng)率(CompoundAnnualGrowthRate,CAGR)超過(guò)30%;二是創(chuàng)新能力不斷增強(qiáng),2021年我國(guó)發(fā)表大數(shù)據(jù)領(lǐng)域論文量占全球31%,大數(shù)據(jù)相關(guān)專(zhuān)利受理總數(shù)占全球超50%,均位居第一;三是生態(tài)體系持續(xù)優(yōu)化,2021年我國(guó)大數(shù)據(jù)市場(chǎng)主體總量超18萬(wàn)家,一批大數(shù)據(jù)龍頭企業(yè)快速崛起,初步形成了大企業(yè)引領(lǐng)、中小企業(yè)協(xié)同、創(chuàng)新大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況2.大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用領(lǐng)域及其應(yīng)用價(jià)值隨著大數(shù)據(jù)成為國(guó)家戰(zhàn)略以及大數(shù)據(jù)技術(shù)和商業(yè)模式逐漸成熟,大數(shù)據(jù)的應(yīng)用在各行業(yè)、各領(lǐng)域得到了快速拓展。在經(jīng)濟(jì)預(yù)警、輿情分析、健康醫(yī)療、農(nóng)業(yè)精準(zhǔn)管理、城市綜合治理、電信運(yùn)營(yíng)、互聯(lián)網(wǎng)金融、電子商務(wù)等領(lǐng)域已出現(xiàn)先導(dǎo)應(yīng)用并在不斷深化。金融領(lǐng)域電子商務(wù)領(lǐng)域交通領(lǐng)域醫(yī)療衛(wèi)生行業(yè)3.大數(shù)據(jù)市場(chǎng)產(chǎn)業(yè)鏈大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)采集、交易、存儲(chǔ)、加工、分析、服務(wù)為主的各類(lèi)經(jīng)濟(jì)活動(dòng),包括數(shù)據(jù)資源建設(shè)、大數(shù)據(jù)軟硬件產(chǎn)品的開(kāi)發(fā)、銷(xiāo)售、租賃活動(dòng)和相關(guān)信息技術(shù)服務(wù)。整體來(lái)看,大數(shù)據(jù)產(chǎn)業(yè)鏈由上游、中游和下游3部分組成,如右圖,上游是基礎(chǔ)支持,中游是大數(shù)據(jù)服務(wù),下游是大數(shù)據(jù)應(yīng)用,三者相互交融,形成完整的大數(shù)據(jù)產(chǎn)業(yè)鏈。實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)技術(shù)體系內(nèi)容大數(shù)據(jù)的出現(xiàn)顛覆了傳統(tǒng)數(shù)據(jù)處理的一系列技術(shù),如大數(shù)據(jù)獲取方式的改變導(dǎo)致數(shù)據(jù)規(guī)模迅速膨脹,對(duì)傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)而言,其索引、查詢(xún)以及存儲(chǔ)技術(shù)都面臨著嚴(yán)峻的考驗(yàn),而且如何快速地完成大數(shù)據(jù)的分析也是傳統(tǒng)數(shù)據(jù)分析方法無(wú)法解決的問(wèn)題。大數(shù)據(jù)技術(shù)應(yīng)用于大數(shù)據(jù)系統(tǒng)端到端的各個(gè)環(huán)節(jié),包括數(shù)據(jù)接入、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)治理,以及安全與隱私保護(hù)等。數(shù)據(jù)接入大數(shù)據(jù)系統(tǒng)需要從不同應(yīng)用和數(shù)據(jù)源(如互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等)進(jìn)行離線或?qū)崟r(shí)的數(shù)據(jù)采集、傳輸、分發(fā)。為了支持多種應(yīng)用和數(shù)據(jù)類(lèi)型,大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)接入需要基于規(guī)范化的傳輸協(xié)議和數(shù)據(jù)格式,提供豐富的數(shù)據(jù)接口、讀入各種類(lèi)型的數(shù)據(jù)。數(shù)據(jù)預(yù)處理預(yù)處理是大數(shù)據(jù)重點(diǎn)技術(shù)之一。由于采集到的數(shù)據(jù)在來(lái)源、格式、數(shù)據(jù)質(zhì)量等方面可能存在較大的差異,需要對(duì)數(shù)據(jù)進(jìn)行整理、清洗、轉(zhuǎn)換等操作,以便支撐后續(xù)數(shù)據(jù)處理、查詢(xún)、分析等進(jìn)一步應(yīng)用。數(shù)據(jù)存儲(chǔ)隨著大數(shù)據(jù)系統(tǒng)數(shù)據(jù)規(guī)模的擴(kuò)大、數(shù)據(jù)處理和分析維度的提升、以及大數(shù)據(jù)應(yīng)用對(duì)數(shù)據(jù)處理性能要求的不斷提高,數(shù)據(jù)存儲(chǔ)技術(shù)得到持續(xù)的發(fā)展與優(yōu)化。一方面,基于大規(guī)模并行數(shù)據(jù)庫(kù)(MassivelyParallelProcessingDatabase,MPPDB)集群實(shí)現(xiàn)了海量結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與高質(zhì)量管理,并能有效支持SQL和聯(lián)機(jī)交易處理(OnlineTransactionProcessing,OLTP)查詢(xún)。另一方面,Hadoop分布式文件系統(tǒng)(HadoopDistributdeFileSystem,HDFS)實(shí)現(xiàn)了對(duì)海量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),進(jìn)一步支撐內(nèi)容檢索、深度挖掘、綜合分析等大數(shù)據(jù)分析應(yīng)用。同時(shí),數(shù)據(jù)規(guī)模的快速增長(zhǎng),也使得分布式存儲(chǔ)成為主流的存儲(chǔ)方式,通過(guò)充分利用分布式存儲(chǔ)設(shè)備的資源,能夠顯著提升容量和讀寫(xiě)性能,具備較高的擴(kuò)展性。數(shù)據(jù)處理數(shù)據(jù)處理方法說(shuō)明如下表。近年來(lái),為滿(mǎn)足不同數(shù)據(jù)分析場(chǎng)景在性能、數(shù)據(jù)規(guī)模、并發(fā)性等方面的要求,流計(jì)算、內(nèi)存計(jì)算、圖計(jì)算等數(shù)據(jù)處理技術(shù)不斷發(fā)展。同時(shí),人工智能的快速發(fā)展使得機(jī)器學(xué)習(xí)算法更多地融入數(shù)據(jù)處理、分析過(guò)程,進(jìn)一步提升了數(shù)據(jù)處理結(jié)果的精準(zhǔn)度、智能化和分析效率。方法說(shuō)明離線處理離線處理通常是指對(duì)海量數(shù)據(jù)進(jìn)行批量的處理和分析,對(duì)處理操作的實(shí)時(shí)性要求不高,但數(shù)據(jù)量巨大、占用計(jì)算及存儲(chǔ)資源較多實(shí)時(shí)處理實(shí)時(shí)處理指對(duì)實(shí)時(shí)數(shù)據(jù)源(如流數(shù)據(jù))進(jìn)行快速分析,對(duì)分析處理操作的實(shí)時(shí)性要求高,單位時(shí)間處理的數(shù)據(jù)量大,對(duì)CPU和內(nèi)存的要求很高交互查詢(xún)交互查詢(xún)是指對(duì)數(shù)據(jù)進(jìn)行交互式的分析和查詢(xún),對(duì)查詢(xún)操作響應(yīng)時(shí)間要求較高,對(duì)查詢(xún)語(yǔ)言支持要求高實(shí)時(shí)檢索實(shí)時(shí)檢索指對(duì)實(shí)時(shí)寫(xiě)入的數(shù)據(jù)進(jìn)行動(dòng)態(tài)的查詢(xún),對(duì)查詢(xún)操作響應(yīng)時(shí)間要求較高,并且通常需要支持高并發(fā)查詢(xún)數(shù)據(jù)可視化數(shù)據(jù)可視化是大數(shù)據(jù)技術(shù)在各行業(yè)應(yīng)用中的關(guān)鍵環(huán)節(jié)。其直觀反映出數(shù)據(jù)各維度指標(biāo)的變化趨勢(shì),用以支撐用戶(hù)分析、監(jiān)控和數(shù)據(jù)價(jià)值挖掘。數(shù)據(jù)可視化技術(shù)還可使用戶(hù)借助圖表、2D/3D視圖等多種方式自定義配置可視化界面,實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)源進(jìn)行面向不同應(yīng)用要求的分析。數(shù)據(jù)治理數(shù)據(jù)治理涉及數(shù)據(jù)全生存周期端到端過(guò)程,不僅與技術(shù)緊密相關(guān),還與政策、法規(guī)、標(biāo)準(zhǔn)、流程等密切關(guān)聯(lián)。從技術(shù)角度來(lái)看,大數(shù)據(jù)治理涉及元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全管理等多方面技術(shù)。當(dāng)前,數(shù)據(jù)資源分散、數(shù)據(jù)流通困難(模型不統(tǒng)一、接口難對(duì)接)、應(yīng)用系統(tǒng)孤立等問(wèn)題已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的極大挑戰(zhàn)。大數(shù)據(jù)系統(tǒng)需要通過(guò)提供集成化的數(shù)據(jù)治理能力,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)資產(chǎn)管理及數(shù)據(jù)資源規(guī)劃。安全與隱私保護(hù)大數(shù)據(jù)系統(tǒng)的安全與系統(tǒng)的各個(gè)組件、系統(tǒng)工作的各個(gè)環(huán)節(jié)相關(guān),需要從數(shù)據(jù)安全(例如,備份容災(zāi)、數(shù)據(jù)加密)、應(yīng)用安全(例如,身份鑒別和認(rèn)證)、設(shè)備安全(例如,網(wǎng)絡(luò)安全、主機(jī)安全)等方面全面保障系統(tǒng)的運(yùn)行安全。同時(shí)隨著數(shù)據(jù)應(yīng)用的不斷深入,數(shù)據(jù)隱私保護(hù)(包括個(gè)人隱私保護(hù)、企業(yè)商業(yè)秘密保護(hù)、國(guó)家機(jī)密保護(hù))也已成為大數(shù)據(jù)技術(shù)重點(diǎn)研究方向之一。實(shí)例引入:三次信息化浪潮迎來(lái)大數(shù)據(jù)時(shí)代大數(shù)據(jù)產(chǎn)業(yè)發(fā)展概況大數(shù)據(jù)技術(shù)體系大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)相關(guān)崗位需求近年來(lái),隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,相關(guān)就業(yè)崗位的數(shù)量和種類(lèi)也不斷地增加。大數(shù)據(jù)技術(shù)發(fā)展初期,受歡迎的是大數(shù)據(jù)算法開(kāi)發(fā)工程師,但是大數(shù)據(jù)技術(shù)的發(fā)展帶動(dòng)了大數(shù)據(jù)配套產(chǎn)業(yè)的發(fā)展,相關(guān)的就業(yè)崗位也增加了,逐漸從大數(shù)據(jù)平臺(tái)開(kāi)發(fā)向著大數(shù)據(jù)應(yīng)用領(lǐng)域開(kāi)發(fā)擴(kuò)展,極大地增加了就業(yè)機(jī)會(huì),也拓寬了就業(yè)面。大數(shù)據(jù)相關(guān)崗位需求大數(shù)據(jù)主要崗位方向崗位崗位職責(zé)數(shù)據(jù)預(yù)處理數(shù)據(jù)采集工程師負(fù)責(zé)大數(shù)據(jù)采集方案設(shè)計(jì)與開(kāi)發(fā),實(shí)現(xiàn)基于系統(tǒng)集成、日志、網(wǎng)絡(luò)爬蟲(chóng)等的數(shù)據(jù)采集數(shù)據(jù)清洗工程師負(fù)責(zé)發(fā)現(xiàn)和處理數(shù)據(jù)異常,制定確保數(shù)據(jù)質(zhì)量的流程和制度數(shù)據(jù)存儲(chǔ)工程師負(fù)責(zé)設(shè)計(jì)和開(kāi)發(fā)大數(shù)據(jù)存儲(chǔ)系統(tǒng),解決存儲(chǔ)性能優(yōu)化、容量規(guī)劃數(shù)據(jù)分析數(shù)據(jù)挖掘工程師負(fù)責(zé)利用算法從大量數(shù)據(jù)中搜索隱藏于其中的信息,提高大數(shù)據(jù)利用效率數(shù)據(jù)分析工程師負(fù)責(zé)數(shù)據(jù)統(tǒng)計(jì)分析、深度挖掘分析與業(yè)務(wù)預(yù)測(cè),并形成分析報(bào)告數(shù)據(jù)可視化工程師負(fù)責(zé)開(kāi)發(fā)數(shù)據(jù)可視化產(chǎn)品、輸出數(shù)據(jù)可視化圖表和報(bào)告數(shù)據(jù)管理數(shù)據(jù)治理工程師負(fù)責(zé)制定大數(shù)據(jù)戰(zhàn)略、組織結(jié)構(gòu)、規(guī)章制度數(shù)據(jù)管理工程師負(fù)責(zé)大數(shù)據(jù)全生命周期管理數(shù)據(jù)安全數(shù)據(jù)安全架構(gòu)工程師負(fù)責(zé)制定大數(shù)據(jù)安全體系頂層規(guī)劃與設(shè)計(jì),設(shè)計(jì)組織架構(gòu)和安全管理體系數(shù)據(jù)安全評(píng)估工程師負(fù)責(zé)分析、評(píng)估大數(shù)據(jù)中存在的威脅、漏洞及風(fēng)險(xiǎn),并提出改進(jìn)措施數(shù)據(jù)安全運(yùn)維工程師負(fù)責(zé)大數(shù)據(jù)安全巡檢、安全加固、脆弱性檢查、滲透性測(cè)試應(yīng)急保障小結(jié)經(jīng)過(guò)3次信息化浪潮,人類(lèi)社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代。在信息爆炸的時(shí)代里,傳統(tǒng)的數(shù)據(jù)管理和分析技術(shù)已經(jīng)無(wú)法滿(mǎn)足大數(shù)據(jù)存儲(chǔ)與分析的需求,因此產(chǎn)生了大數(shù)據(jù)的存儲(chǔ)技術(shù),可對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)、管理,也產(chǎn)生了數(shù)據(jù)的分析和挖掘技術(shù),可在海量的數(shù)據(jù)中找到隱含的邏輯關(guān)系。在大數(shù)據(jù)時(shí)代里,需要新的技術(shù)、新的思維方式,相關(guān)的軟件和硬件也都要更新。與大數(shù)據(jù)相關(guān)的產(chǎn)業(yè)蓬勃發(fā)展,新的就業(yè)崗位也應(yīng)運(yùn)而生,如何使用大數(shù)據(jù)新技術(shù)和面對(duì)新改變是本書(shū)所研究的內(nèi)容。大數(shù)據(jù)采集實(shí)例引入:在線旅行社的用戶(hù)訪問(wèn)行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架實(shí)例引入:在線旅行社的用戶(hù)訪問(wèn)行為數(shù)據(jù)采集近年來(lái),伴隨著國(guó)內(nèi)經(jīng)濟(jì)的持續(xù)增長(zhǎng),居民的消費(fèi)水平逐漸提升,我國(guó)旅游市場(chǎng)也持續(xù)升溫,旅游成為我國(guó)居民日常生活的選擇。隨著大數(shù)據(jù)應(yīng)用的普及,新時(shí)代賦予了大數(shù)據(jù)更重要的社會(huì)責(zé)任。例如,在線旅行社為了把握旅游產(chǎn)業(yè)發(fā)展趨勢(shì),通過(guò)對(duì)用戶(hù)訪問(wèn)行為數(shù)據(jù)的采集,研判增長(zhǎng)趨勢(shì)、個(gè)性化及品質(zhì)型消費(fèi)的發(fā)展以及旅游消費(fèi)新熱點(diǎn)的轉(zhuǎn)化等。我們通過(guò)梳理在線旅行社的用戶(hù)訪問(wèn)行為數(shù)據(jù)來(lái)源,對(duì)特定用戶(hù)行為或事件設(shè)定埋點(diǎn),根據(jù)運(yùn)營(yíng)定義好的埋點(diǎn)接口形式采集用戶(hù)的訪問(wèn)日志數(shù)據(jù)。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的指標(biāo)主要包括頁(yè)面訪問(wèn)量、獨(dú)立訪客數(shù)、跳出率、訪問(wèn)深度、停留時(shí)長(zhǎng)等??偟貋?lái)說(shuō),這些都屬于統(tǒng)計(jì)指標(biāo),反映的是用戶(hù)訪問(wèn)頁(yè)面的總體情況。但是數(shù)據(jù)的價(jià)值除了反映現(xiàn)狀,更重要的是應(yīng)用。統(tǒng)計(jì)是數(shù)據(jù)匯總整理的結(jié)果,分析是促進(jìn)業(yè)務(wù)增長(zhǎng)的依據(jù),因此可以利用從用戶(hù)訪問(wèn)行為數(shù)據(jù)分析出的價(jià)值來(lái)指導(dǎo)業(yè)務(wù)活動(dòng)。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值1.什么是用戶(hù)行為分析用戶(hù)行為分析是指對(duì)用戶(hù)在網(wǎng)站、應(yīng)用、社交媒體等平臺(tái)上產(chǎn)生的行為及行為背后的數(shù)據(jù)進(jìn)行深入的研究和分析。其目的是發(fā)現(xiàn)用戶(hù)的行為規(guī)律、偏好和需求,以便企業(yè)能夠更精準(zhǔn)地制定產(chǎn)品策略、營(yíng)銷(xiāo)策略和運(yùn)營(yíng)策略,實(shí)現(xiàn)業(yè)務(wù)的增長(zhǎng)和優(yōu)化。用戶(hù)行為分析可以對(duì)用戶(hù)畫(huà)像進(jìn)行關(guān)鍵補(bǔ)充,構(gòu)建更精細(xì)、完整的用戶(hù)畫(huà)像。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評(píng)估;產(chǎn)品分析;精準(zhǔn)營(yíng)銷(xiāo)。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;

定義:自定義留存分析是通過(guò)對(duì)用戶(hù)行為數(shù)據(jù)的深入分析,設(shè)定特定的條件或事件,以評(píng)估用戶(hù)在這些條件下的留存情況。目的:幫助企業(yè)更精準(zhǔn)地了解用戶(hù)在不同場(chǎng)景下的留存表現(xiàn),從而優(yōu)化產(chǎn)品或服務(wù),提升用戶(hù)體驗(yàn)和留存率。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;分析步驟確定分析主體;設(shè)定初始行為和后續(xù)行為;添加篩選條件;選擇時(shí)間范圍;分組展示。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評(píng)估;產(chǎn)品分析;精準(zhǔn)營(yíng)銷(xiāo)。定義:精細(xì)化渠道質(zhì)量評(píng)估是確保企業(yè)產(chǎn)品在運(yùn)營(yíng)和推廣中能夠找到高質(zhì)量渠道的重要步驟。原則:用戶(hù)群體匹配:確保渠道的用戶(hù)群體與產(chǎn)品的目標(biāo)人群和產(chǎn)品調(diào)性相匹配。數(shù)據(jù)量化監(jiān)控:結(jié)合定量數(shù)據(jù)進(jìn)行監(jiān)控,持續(xù)優(yōu)化投放策略。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評(píng)估;產(chǎn)品分析;精準(zhǔn)營(yíng)銷(xiāo)。定義:產(chǎn)品分析是對(duì)產(chǎn)品進(jìn)行全面、系統(tǒng)的評(píng)估和研究,以便了解產(chǎn)品的優(yōu)點(diǎn)、缺點(diǎn)、市場(chǎng)定位、競(jìng)爭(zhēng)環(huán)境等,從而為企業(yè)制定產(chǎn)品策略、優(yōu)化產(chǎn)品設(shè)計(jì)、提升市場(chǎng)競(jìng)爭(zhēng)力提供依據(jù)。目的:明確產(chǎn)品的名稱(chēng),確定產(chǎn)品所屬的行業(yè)或細(xì)分市場(chǎng),簡(jiǎn)要介紹產(chǎn)品的功能、特點(diǎn)、用途等。用戶(hù)訪問(wèn)行為數(shù)據(jù)分析的價(jià)值2.用戶(hù)行為分析在應(yīng)用中的價(jià)值自定義留存分析;精細(xì)化渠道質(zhì)量評(píng)估;產(chǎn)品分析;精準(zhǔn)營(yíng)銷(xiāo)。定義:精細(xì)化渠道質(zhì)量評(píng)估是確保企業(yè)產(chǎn)品在運(yùn)營(yíng)和推廣中能夠找到高質(zhì)量渠道的重要步驟。原則:用戶(hù)群體匹配:確保渠道的用戶(hù)群體與產(chǎn)品的目標(biāo)人群和產(chǎn)品調(diào)性相匹配。數(shù)據(jù)量化監(jiān)控:結(jié)合定量數(shù)據(jù)進(jìn)行監(jiān)控,持續(xù)優(yōu)化投放策略。指標(biāo):流量規(guī)模、拉新能力、渠道質(zhì)量。用戶(hù)行為分析在產(chǎn)品分析中的價(jià)值用戶(hù)行為分析在產(chǎn)品分析中的主要價(jià)值如下表。價(jià)值體現(xiàn)說(shuō)明優(yōu)化用戶(hù)體驗(yàn)分析用戶(hù)行為路徑、使用習(xí)慣和反饋找出潛在的問(wèn)題和痛點(diǎn),有針對(duì)性地優(yōu)化產(chǎn)品設(shè)計(jì),提升用戶(hù)體驗(yàn)精細(xì)化運(yùn)營(yíng)了解不同用戶(hù)群體的特點(diǎn)和需求,根據(jù)不同群體的行為特征精細(xì)化運(yùn)營(yíng),提高運(yùn)營(yíng)效果指導(dǎo)產(chǎn)品迭代方向了解用戶(hù)對(duì)產(chǎn)品的滿(mǎn)意度、核心功能的使用情況等,得出產(chǎn)品迭代的優(yōu)先級(jí)和方向,產(chǎn)品的更新更加符合用戶(hù)的需求和市場(chǎng)的發(fā)展預(yù)測(cè)用戶(hù)需求通過(guò)對(duì)用戶(hù)行為數(shù)據(jù)的深入挖掘,產(chǎn)品團(tuán)隊(duì)可以預(yù)測(cè)用戶(hù)未來(lái)的需求,提前做好功能儲(chǔ)備和優(yōu)化,提升產(chǎn)品的競(jìng)爭(zhēng)力和市場(chǎng)占有率發(fā)現(xiàn)增長(zhǎng)機(jī)會(huì)通過(guò)對(duì)比不同用戶(hù)群體的行為模式和轉(zhuǎn)化率,產(chǎn)品團(tuán)隊(duì)可以發(fā)現(xiàn)新的增長(zhǎng)機(jī)會(huì),例如,哪些功能或服務(wù)對(duì)用戶(hù)的吸引力不足,哪些運(yùn)營(yíng)活動(dòng)可以帶來(lái)更多的收益等,從而制定更加有效的增長(zhǎng)策略用戶(hù)訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì)1.用戶(hù)訪問(wèn)行為分析指標(biāo)指標(biāo)指標(biāo)說(shuō)明示例WHO獲取登錄用戶(hù)的個(gè)人信息用戶(hù)名稱(chēng)、角色WHEN獲取用戶(hù)訪問(wèn)頁(yè)面每個(gè)模塊的時(shí)間開(kāi)始時(shí)間、結(jié)束時(shí)間WHAT獲取用戶(hù)登錄頁(yè)面后的具體操作單擊頁(yè)面行為,單擊模塊行為WHERE確定用戶(hù)訪問(wèn)頁(yè)面的具體網(wǎng)址和鏈接情況頁(yè)面URLWHY分析用戶(hù)單擊該模塊的目的用戶(hù)單擊意圖HOW用戶(hù)通過(guò)什么方式訪問(wèn)的系統(tǒng)Web、App、小程序HOWLONG用戶(hù)訪問(wèn)某個(gè)模塊、瀏覽某個(gè)頁(yè)面的時(shí)間長(zhǎng)度時(shí)間(小時(shí)、分鐘、秒)WHO獲取登錄用戶(hù)的個(gè)人信息用戶(hù)名稱(chēng)、角色用戶(hù)訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶(hù)訪問(wèn)行為數(shù)據(jù)采集選擇埋點(diǎn)方式全埋點(diǎn);代碼埋點(diǎn);全埋點(diǎn)是前端的一種埋點(diǎn)方式,在產(chǎn)品中調(diào)用軟件開(kāi)發(fā)工具包(SoftwareDevelopmentKit,SDK),通過(guò)界面配置的方式對(duì)關(guān)鍵的行為進(jìn)行定義,完成埋點(diǎn)采集。用戶(hù)訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶(hù)訪問(wèn)行為數(shù)據(jù)采集選擇埋點(diǎn)方式全埋點(diǎn);代碼埋點(diǎn);代碼埋點(diǎn)是經(jīng)常使用的埋點(diǎn)方式。代碼埋點(diǎn)分為前端代碼埋點(diǎn)和后端代碼埋點(diǎn)。前端埋點(diǎn)類(lèi)似于全埋點(diǎn),需要調(diào)用前端埋點(diǎn)SDK。后端埋點(diǎn)則將事件、屬性通過(guò)后端程序調(diào)用后端埋點(diǎn)SDK發(fā)送到后臺(tái)服務(wù)器。用戶(hù)訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶(hù)訪問(wèn)行為數(shù)據(jù)采集選擇埋點(diǎn)方式埋點(diǎn)協(xié)作用戶(hù)訪問(wèn)行為數(shù)據(jù)采集方案的設(shè)計(jì)2.用戶(hù)訪問(wèn)行為數(shù)據(jù)采集選擇埋點(diǎn)方式埋點(diǎn)協(xié)作數(shù)據(jù)采集過(guò)程實(shí)例引入:在線旅行社的用戶(hù)訪問(wèn)行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架了解大數(shù)據(jù)采集1.傳統(tǒng)的數(shù)據(jù)采集方式說(shuō)明問(wèn)卷調(diào)查問(wèn)卷調(diào)查是指制定詳細(xì)周密的問(wèn)卷,要求被調(diào)查者據(jù)此進(jìn)行回答以收集數(shù)據(jù)的方法。問(wèn)卷調(diào)查是數(shù)據(jù)收集最常用的一種方式,操作方便,缺點(diǎn)是數(shù)據(jù)沒(méi)有針對(duì)性,無(wú)法得到深層次的數(shù)據(jù)。人工方式推廣時(shí)間比較慢,很耗人力,網(wǎng)上問(wèn)卷通過(guò)自動(dòng)化實(shí)現(xiàn)了過(guò)程集成,更方便快速查閱資料查閱資料是最古老的數(shù)據(jù)收集的方式,通過(guò)查閱書(shū)籍、記錄等資料來(lái)得到想要的數(shù)據(jù)。查閱資料本來(lái)就有篩選性和分析性,所得到的數(shù)據(jù)可能更接近想要得到的結(jié)果。查閱資料的缺點(diǎn)是對(duì)操作者要求較高,并且現(xiàn)在的資料煩瑣、真假參半,需要操作者有很強(qiáng)的判斷力。目前,網(wǎng)絡(luò)查詢(xún)非常方便,給查閱資料提供了很好的環(huán)境實(shí)地考察實(shí)地考察是為了深入了解特定地點(diǎn)的研究行為,旨在揭示事物的真相、發(fā)展過(guò)程和現(xiàn)狀。通過(guò)直接觀察和詳細(xì)了解局部情況,實(shí)地考察提供了直觀的數(shù)據(jù)支持。在考察過(guò)程中,要隨時(shí)對(duì)自己觀察到的現(xiàn)象進(jìn)行分析,努力把握考察對(duì)象特點(diǎn)。實(shí)地考察的優(yōu)點(diǎn)是可以得到第一手資料,缺點(diǎn)是比較耗時(shí)耗力,需要考察人員之間相互配合,因?yàn)榭疾爝^(guò)程中變數(shù)很大,可能沒(méi)有辦法達(dá)到目標(biāo)實(shí)驗(yàn)根據(jù)科學(xué)研究的目的,盡可能地排除外界的影響,突出主要因素并利用一些專(zhuān)門(mén)的儀器設(shè)備,人為地變革、控制或模擬研究對(duì)象,使某一些事物(或過(guò)程)發(fā)生或再現(xiàn),從而去認(rèn)識(shí)自然現(xiàn)象、自然性質(zhì)、自然規(guī)律。實(shí)驗(yàn)是4種方法中最耗時(shí)間的一種。缺點(diǎn)是未知性很大,不管是實(shí)驗(yàn)周期還是實(shí)驗(yàn)結(jié)果都是不確定的了解大數(shù)據(jù)采集2.大數(shù)據(jù)采集線上行為數(shù)據(jù)機(jī)器系統(tǒng)中的內(nèi)容數(shù)據(jù)企業(yè)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對(duì)象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率大數(shù)據(jù)采集的數(shù)據(jù)對(duì)象包括射頻識(shí)別(Radio-FrequencyIdentif

ication,RFID)數(shù)據(jù)、傳感器數(shù)據(jù)、用戶(hù)行為數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)對(duì)象單一,包括從傳統(tǒng)企業(yè)的客戶(hù)關(guān)系管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)及相關(guān)業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對(duì)象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率盡管企業(yè)系統(tǒng)的數(shù)據(jù)量與日俱增,但其仍屬于傳統(tǒng)數(shù)據(jù)采集的范疇。不過(guò)系統(tǒng)日志除外,原因是系統(tǒng)日志的增長(zhǎng)趨勢(shì)大,極容易形成大規(guī)模數(shù)據(jù)?;ヂ?lián)網(wǎng)系統(tǒng)和機(jī)器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)大于企業(yè)系統(tǒng)的數(shù)據(jù)量,而針對(duì)互聯(lián)網(wǎng)和機(jī)器系統(tǒng)的數(shù)據(jù)采集已經(jīng)達(dá)到大數(shù)據(jù)規(guī)模,數(shù)量級(jí)達(dá)PB級(jí)。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對(duì)象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)大部分是結(jié)構(gòu)化的數(shù)據(jù),而大數(shù)據(jù)采集系統(tǒng)不僅能采集結(jié)構(gòu)化的數(shù)據(jù),還能采集大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁(yè)、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。了解大數(shù)據(jù)采集3.大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別采集對(duì)象采集數(shù)據(jù)量采集的數(shù)據(jù)結(jié)構(gòu)采集的效率傳統(tǒng)數(shù)據(jù)采集的數(shù)據(jù)幾乎都是人為操作生成的,遠(yuǎn)遠(yuǎn)低于大數(shù)據(jù)采集時(shí)系統(tǒng)自動(dòng)化采集數(shù)據(jù)的效率。大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源1.數(shù)據(jù)種類(lèi)和示例數(shù)據(jù)種類(lèi)示例業(yè)務(wù)數(shù)據(jù)消費(fèi)者數(shù)據(jù)、客戶(hù)關(guān)系數(shù)據(jù)、庫(kù)存數(shù)據(jù)、賬目數(shù)據(jù)等行業(yè)數(shù)據(jù)車(chē)流量數(shù)據(jù)、能耗數(shù)據(jù)、PM2.5數(shù)據(jù)等線下行為數(shù)據(jù)車(chē)輛位置和軌跡、用戶(hù)位置和軌跡、動(dòng)物位置和軌跡等線上行為數(shù)據(jù)頁(yè)面數(shù)據(jù)、交互數(shù)據(jù)、表單數(shù)據(jù)、會(huì)話數(shù)據(jù)、反饋數(shù)據(jù)等內(nèi)容數(shù)據(jù)應(yīng)用日志、電子文檔、語(yǔ)音數(shù)據(jù)、社交媒體數(shù)據(jù)等大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源1.數(shù)據(jù)種類(lèi)和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)企業(yè)在運(yùn)營(yíng)時(shí)產(chǎn)生的數(shù)據(jù)、企業(yè)與其他企業(yè)合作時(shí)獲得的數(shù)據(jù)等。大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源1.數(shù)據(jù)種類(lèi)和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)交通流量?jī)x獲取的車(chē)流量數(shù)據(jù)、智能電表獲取的用電量、智能交通監(jiān)控?cái)z像機(jī)自動(dòng)識(shí)別的人和交通工具的屬性和軌跡信息、野生動(dòng)物監(jiān)控?cái)z像頭獲知的動(dòng)物活動(dòng)軌跡信息。大數(shù)據(jù)采集的數(shù)據(jù)來(lái)源1.數(shù)據(jù)種類(lèi)和示例企業(yè)系統(tǒng)機(jī)器系統(tǒng)互聯(lián)網(wǎng)系統(tǒng)用戶(hù)的反饋信息、評(píng)價(jià)信息、購(gòu)買(mǎi)的產(chǎn)品信息、品牌信息、視頻與照片等?;跀?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來(lái)源,通常包含企業(yè)的各種外部數(shù)據(jù)和包括訂單系統(tǒng)、商家系統(tǒng)、客戶(hù)系統(tǒng)、客服系統(tǒng)等聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing,OLTP)系統(tǒng)的數(shù)據(jù)以及文檔資料的內(nèi)部數(shù)據(jù)。基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用數(shù)據(jù)存儲(chǔ)和管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的核心,是指在現(xiàn)有各業(yè)務(wù)系統(tǒng)的基礎(chǔ)上,周期性地對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、加載(ExtractTranformLoad,ETL),按照主題進(jìn)行重新組織,最終確定數(shù)據(jù)倉(cāng)庫(kù)的物理存儲(chǔ)結(jié)構(gòu),將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)中,并在面向如銷(xiāo)售、財(cái)務(wù)、市場(chǎng)等單一主題域時(shí),建立各類(lèi)數(shù)據(jù)集。數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的檢測(cè)與運(yùn)維由數(shù)據(jù)倉(cāng)庫(kù)檢測(cè)、運(yùn)行與維護(hù)工具負(fù)責(zé)。元數(shù)據(jù)是描述數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù),由元數(shù)據(jù)管理系統(tǒng)負(fù)責(zé)管理?;跀?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用OLAP服務(wù)器將需要分析的數(shù)據(jù)按照多維數(shù)據(jù)模型進(jìn)行重組,以服務(wù)的形式支持用戶(hù)隨時(shí)多角度、多層次分析數(shù)據(jù),面向前端工具和應(yīng)用?;跀?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集1.傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)數(shù)據(jù)源數(shù)據(jù)存儲(chǔ)和管理聯(lián)機(jī)分析處理服務(wù)器前端工具和應(yīng)用前端工具和應(yīng)用主要包括數(shù)據(jù)查詢(xún)工具、自由報(bào)表工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具和各類(lèi)應(yīng)用系統(tǒng)等?;跀?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集2.實(shí)時(shí)主動(dòng)數(shù)據(jù)倉(cāng)庫(kù)基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)批量采集2.實(shí)時(shí)主動(dòng)數(shù)據(jù)倉(cāng)庫(kù)方法說(shuō)明數(shù)據(jù)整合利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的ETL工具將數(shù)據(jù)源中的數(shù)據(jù)批量地加載到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)聯(lián)邦在多個(gè)數(shù)據(jù)源的基礎(chǔ)上建立統(tǒng)一的邏輯視圖,對(duì)應(yīng)用而言,只有一個(gè)數(shù)據(jù)訪問(wèn)入口,但在物理上被請(qǐng)求的數(shù)據(jù)仍然分布在各個(gè)數(shù)據(jù)源中數(shù)據(jù)傳播指數(shù)據(jù)在多個(gè)應(yīng)用之間傳播,不同應(yīng)用之間可以通過(guò)傳播消息交互數(shù)據(jù)混合區(qū)分?jǐn)?shù)據(jù)使用范圍,對(duì)于公用數(shù)據(jù)采取數(shù)據(jù)整合的方式進(jìn)行采集,對(duì)于特定應(yīng)用數(shù)據(jù)采取數(shù)據(jù)聯(lián)邦方式進(jìn)行采集網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集1.網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集方法網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集方法是指通過(guò):網(wǎng)絡(luò)爬蟲(chóng);網(wǎng)站公開(kāi)API;等方式從網(wǎng)站上獲取數(shù)據(jù)信息的方法。網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集2.網(wǎng)絡(luò)爬蟲(chóng)原理一個(gè)通用的網(wǎng)絡(luò)爬蟲(chóng)框架包括3個(gè)部分:Web接口;

索引與檢索;

信息采集。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)可自動(dòng)下載索引所鏈接的網(wǎng)頁(yè),并將下載網(wǎng)頁(yè)的索引存放在索引庫(kù),將網(wǎng)頁(yè)信息保存到文檔庫(kù)中。用戶(hù)通過(guò)用戶(hù)接口,可依次讀取索引庫(kù)中的索引,并利用索引指向文檔庫(kù)中的網(wǎng)頁(yè)信息。網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集3.網(wǎng)絡(luò)爬蟲(chóng)工作流程網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集4.網(wǎng)絡(luò)爬蟲(chóng)爬取策略遍歷策略是網(wǎng)絡(luò)爬蟲(chóng)的核心問(wèn)題,決定URL排列順序的方法叫作網(wǎng)絡(luò)爬蟲(chóng)爬取策略,主要包括以下5種策略。0203廣度優(yōu)先遍歷深度優(yōu)先遍歷PartialPageRank010405OPIC大站優(yōu)先網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)采集5.網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)按照網(wǎng)絡(luò)爬蟲(chóng)的功能可以將其分為3類(lèi)爬蟲(chóng):批量型爬蟲(chóng);

增量型爬蟲(chóng);

垂直型爬蟲(chóng)。實(shí)例引入:在線旅行社的用戶(hù)訪問(wèn)行為數(shù)據(jù)采集大數(shù)據(jù)采集技術(shù)主流的大數(shù)據(jù)采集框架Flume1.Flume設(shè)計(jì)動(dòng)機(jī)日志采集面臨以下問(wèn)題:數(shù)據(jù)源種類(lèi)繁多。各種服務(wù)均會(huì)產(chǎn)生日志,日志格式不同,采集日志的方式也不同,有的寫(xiě)到本地日志文件中,有的通過(guò)HTTP發(fā)到遠(yuǎn)端等。

數(shù)據(jù)源是物理分布的。各種服務(wù)運(yùn)行在不同機(jī)器上,有的甚至是跨機(jī)房的。

數(shù)據(jù)是流式的,不間斷產(chǎn)生。日志是實(shí)時(shí)產(chǎn)生的,需要實(shí)時(shí)或近實(shí)時(shí)采集,以便于后端的分析和挖掘。

對(duì)可靠性有一定要求。日志采集過(guò)程中,希望能做到不丟失數(shù)據(jù),或只丟失可控的少量數(shù)據(jù)。Flume1.Flume設(shè)計(jì)動(dòng)機(jī)日志采集面臨以下問(wèn)題,F(xiàn)lume系統(tǒng)可以較好地解決以上日志采集問(wèn)題。Flume2.Flume基本思想及特點(diǎn)日志采集面臨以下問(wèn)題,F(xiàn)lume系統(tǒng)可以較好地解決以上日志采集問(wèn)題。Flume采用了插拔式軟件架構(gòu),所有組件均是可插拔的,用戶(hù)可以根據(jù)需求定制每個(gè)組件。Flume本質(zhì)上是一個(gè)中間件,屏蔽了流式數(shù)據(jù)源和后端中心化存儲(chǔ)系統(tǒng)之間的異構(gòu)性,使得整個(gè)數(shù)據(jù)流非常容易擴(kuò)展。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;

高度定制化;

聲明式動(dòng)態(tài)化配置;

語(yǔ)意路由;

良好的可靠性。

Flume架構(gòu)是完全分布式的,沒(méi)有任何中心化組件,非常容易擴(kuò)展。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;

高度定制化;

聲明式動(dòng)態(tài)化配置;

語(yǔ)意路由;

良好的可靠性。

各個(gè)組件,如Source、Channel和Sink等,均是可插拔的,用戶(hù)很容易根據(jù)需求定制組件。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;

高度定制化;

聲明式動(dòng)態(tài)化配置;

語(yǔ)意路由;

良好的可靠性。

Flume提供了一套聲明式配置語(yǔ)言,用戶(hù)可根據(jù)需求動(dòng)態(tài)配置一個(gè)基于Flume的數(shù)據(jù)流拓?fù)浣Y(jié)構(gòu)。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;

高度定制化;

聲明式動(dòng)態(tài)化配置;

語(yǔ)意路由;

良好的可靠性。

Flume可根據(jù)用戶(hù)的設(shè)置,將流式數(shù)據(jù)路由到不同的組件或存儲(chǔ)系統(tǒng)中,使得搭建一個(gè)支持異構(gòu)的數(shù)據(jù)流變得非常容易。Flume2.Flume基本思想及特點(diǎn)Flume主要具備以下幾個(gè)特點(diǎn)。良好的擴(kuò)展性;

高度定制化;

聲明式動(dòng)態(tài)化配置;

語(yǔ)意路由;

良好的可靠性。

Flume內(nèi)置了事務(wù)支持,能夠保證發(fā)送的每條數(shù)據(jù)能夠被下一環(huán)節(jié)接收而不會(huì)丟失。Flume3.FlumeNG基本架構(gòu)Flume是由一系列稱(chēng)為Agent的組件構(gòu)成的,一個(gè)Agent可從客戶(hù)端(如網(wǎng)頁(yè)日志)或前一個(gè)Agent接收數(shù)據(jù),經(jīng)過(guò)過(guò)濾(可選)、路由等操作后,傳遞給下一個(gè)或多個(gè)Agent(完全分布式),直到抵達(dá)指定的目標(biāo)系統(tǒng),如HDFS。用戶(hù)可根據(jù)需要拼接任意多個(gè)Agent構(gòu)成一個(gè)數(shù)據(jù)流水線。Flume3.FlumeNG基本架構(gòu)Agent內(nèi)部的組件構(gòu)成:Sqoop1.Sqoop設(shè)計(jì)動(dòng)機(jī)Sqoop是連接關(guān)系數(shù)據(jù)庫(kù)和Hadoop的橋梁,主要功能是將關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入Hadoop及其相關(guān)的系統(tǒng)中(如Hive和HBase),或?qū)?shù)據(jù)從Hadoop系統(tǒng)里抽取并導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)。Sqoop1.Sqoop設(shè)計(jì)動(dòng)機(jī)Sqoop從工程角度解決了關(guān)系數(shù)據(jù)庫(kù)與Hadoop之間的數(shù)據(jù)傳輸問(wèn)題,構(gòu)建了兩者之間的“橋梁”,使得數(shù)據(jù)遷移工作變得異常簡(jiǎn)單。在實(shí)際項(xiàng)目中,如果遇到數(shù)據(jù)遷移、結(jié)果可視化分析、數(shù)據(jù)增量導(dǎo)入等任務(wù),可嘗試使用Sqoop完成。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop采用插拔式連接器(Connector)架構(gòu)。Connector是與特定數(shù)據(jù)源相關(guān)的組件,主要負(fù)責(zé)(從特定數(shù)據(jù)源中)抽取和加載數(shù)據(jù)。用戶(hù)可選擇Sqoop自帶的Connector或數(shù)據(jù)庫(kù)提供商發(fā)布的本地Connector,甚至根據(jù)自己的需要定制Connector,從而將Sqoop打造成一個(gè)公司級(jí)別的數(shù)據(jù)遷移統(tǒng)一管理工具。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類(lèi)型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop采用MapReduce完成數(shù)據(jù)的導(dǎo)入導(dǎo)出,具備了MapReduce所具有的優(yōu)點(diǎn),包括并發(fā)度可控、容錯(cuò)性強(qiáng)、擴(kuò)展性強(qiáng)等。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類(lèi)型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop可讀取數(shù)據(jù)源元數(shù)據(jù),自動(dòng)完成數(shù)據(jù)類(lèi)型映射,用戶(hù)也可根據(jù)需求自定義數(shù)據(jù)類(lèi)型映射關(guān)系。Sqoop2.Sqoop基本思想及特點(diǎn)Sqoop主要具備以下特點(diǎn):性能好;自動(dòng)類(lèi)型轉(zhuǎn)換;自動(dòng)傳遞元數(shù)據(jù)。Sqoop在數(shù)據(jù)發(fā)送端和接收端之間傳遞數(shù)據(jù)的同時(shí),也會(huì)將元數(shù)據(jù)傳遞過(guò)去,保證接收端和發(fā)送端有一致的元數(shù)據(jù)。Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過(guò)程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過(guò)程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)Sqoop3.Sqoop基本架構(gòu)導(dǎo)出和導(dǎo)入過(guò)程Sqoop1的基本架構(gòu)Sqoop2的基本架構(gòu)小結(jié)

本章以實(shí)例的形式引入了大數(shù)據(jù)采集的基本應(yīng)用場(chǎng)景,介紹了大數(shù)據(jù)采集的概念和數(shù)據(jù)來(lái)源、大數(shù)據(jù)采集技術(shù)等,初步了解了大數(shù)據(jù)采集在整個(gè)大數(shù)據(jù)生命周期中的基礎(chǔ)作用,也全面分析了大數(shù)據(jù)采集技術(shù)。最后,本章從設(shè)計(jì)動(dòng)機(jī)、基本思想、基本架構(gòu)等方面介紹了Flume和Sqoop這兩種主流的大數(shù)據(jù)采集框架,為深入實(shí)踐大數(shù)據(jù)采集奠定了基礎(chǔ)。大數(shù)據(jù)存儲(chǔ)與管理實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù)主流的分布式存儲(chǔ)框架實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ)隨著信息通信技術(shù)的推進(jìn),各地大力推進(jìn)平安城市建設(shè)。平安城市建設(shè)是建設(shè)和諧的智慧城市,重點(diǎn)對(duì)城市的安防系統(tǒng)、道路交通系統(tǒng)、環(huán)境監(jiān)測(cè)系統(tǒng)等公共服務(wù)系統(tǒng)進(jìn)行綜合調(diào)度管理,為城市居民提供安全、便捷的生活環(huán)境。平安城市建設(shè)中的視頻監(jiān)控系統(tǒng)平安城市視頻監(jiān)控系統(tǒng)是基于云計(jì)算、物聯(lián)網(wǎng)等先進(jìn)技術(shù)的數(shù)字化、網(wǎng)絡(luò)化、高清化、智能化,城市級(jí)的高清數(shù)字視頻監(jiān)控管理應(yīng)用系統(tǒng)。系統(tǒng)在邏輯上由前端監(jiān)控點(diǎn)建設(shè)、視頻傳輸網(wǎng)絡(luò)系統(tǒng)建設(shè)、視頻存儲(chǔ)系統(tǒng)建設(shè)、視頻綜合管理應(yīng)用平臺(tái)建設(shè)4部分組成。平安城市視頻監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)技術(shù)方案視頻存儲(chǔ)系統(tǒng)負(fù)責(zé)整個(gè)平安城市視頻監(jiān)控系統(tǒng)視頻的實(shí)時(shí)存儲(chǔ)和轉(zhuǎn)發(fā),其中視頻數(shù)據(jù)存儲(chǔ)設(shè)備及網(wǎng)絡(luò)架構(gòu)技術(shù)可包括:硬盤(pán)錄像機(jī)(DigitalVideoRecorder,DVR)技術(shù);SAN技術(shù);云存儲(chǔ)技術(shù)。平安城市視頻監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)技術(shù)方案基于云存儲(chǔ)的視頻監(jiān)控由前端視頻采集系統(tǒng)、云存儲(chǔ)平臺(tái)、視頻業(yè)務(wù)服務(wù)組成。前端視頻采集系統(tǒng);云存儲(chǔ)平臺(tái);視頻業(yè)務(wù)服務(wù)。實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù)主流的分布式存儲(chǔ)框架傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)了解數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)類(lèi)型文件系統(tǒng)關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)并行數(shù)據(jù)庫(kù)了解數(shù)據(jù)存儲(chǔ)數(shù)據(jù)存儲(chǔ)的介質(zhì)經(jīng)歷了卡片、紙帶、磁帶、單磁盤(pán)、專(zhuān)用存儲(chǔ)設(shè)備、分布式存儲(chǔ)設(shè)備的演變,數(shù)據(jù)管理技術(shù)相應(yīng)也經(jīng)歷了人工管理、文件系統(tǒng)管理、傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)管理和大數(shù)據(jù)管理的演變,數(shù)據(jù)的存儲(chǔ)與應(yīng)用逐漸從分離走向融合。了解數(shù)據(jù)存儲(chǔ)當(dāng)前,數(shù)據(jù)存儲(chǔ)一般可分為內(nèi)置存儲(chǔ)和外置存儲(chǔ)。內(nèi)置存儲(chǔ)主要包括:分類(lèi)緩存;內(nèi)存(RAM);硬盤(pán);光驅(qū)。數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)類(lèi)型在數(shù)據(jù)存儲(chǔ)中,數(shù)據(jù)可分成文本、圖片、音頻和視頻等基本類(lèi)型;同時(shí)根據(jù)數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),也可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等。數(shù)據(jù)類(lèi)型說(shuō)明文本文本是一種由若干字符構(gòu)成的計(jì)算機(jī)文件,常見(jiàn)格式包括ASCII、MIME和TXT圖片圖片是指由圖形、圖像等構(gòu)成的平面媒體。圖片的格式很多,大體可以分為點(diǎn)陣圖和矢量圖兩大類(lèi)。常見(jiàn)的BMP、JPG等格式都是點(diǎn)陣圖形,PSD是具有矢量?jī)?nèi)容的點(diǎn)陣圖形,而SWF等格式的圖形則屬于矢量圖形音頻音頻是指存儲(chǔ)聲音內(nèi)容的文件,用特定的音頻程序播放音頻文件,即可還原以前錄下的聲音。音頻文件的格式很多,包括WAV、MP3、MID、WMA等視頻視頻通常指存儲(chǔ)各種動(dòng)態(tài)影像的文件,其存儲(chǔ)格式包括MPEG-4、AVI、DAT、RM、MOV、ASF、WMV、DivX等數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)類(lèi)型分類(lèi)說(shuō)明示例結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是指可以使用關(guān)系數(shù)據(jù)庫(kù)表示和存儲(chǔ),表現(xiàn)為二維形式的數(shù)據(jù)。一般特點(diǎn)是數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的。結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和排列是有規(guī)律的,規(guī)律性對(duì)查詢(xún)和修改數(shù)據(jù)等操作很有幫助日期、產(chǎn)品名稱(chēng)半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,盡管其并不符合關(guān)系數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式及其關(guān)聯(lián)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,可用來(lái)分割語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。因此,半結(jié)構(gòu)化數(shù)據(jù)也被稱(chēng)為自描述的結(jié)構(gòu)數(shù)據(jù)日志文件、XML文檔、JSON文檔、郵件非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù),對(duì)于沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù),一般直接對(duì)整體進(jìn)行存儲(chǔ),并將其存儲(chǔ)為二進(jìn)制的數(shù)據(jù)格式文檔、圖片、視頻、音頻數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)都可以由人或機(jī)器生成,但兩者之間有一些明顯的區(qū)別,特別是非結(jié)構(gòu)化數(shù)據(jù)的不規(guī)則性和模糊行為增加了傳統(tǒng)程序理解的難度。對(duì)比內(nèi)容結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)特征預(yù)定義的數(shù)據(jù)模型明確的定義定量數(shù)據(jù)容易訪問(wèn)容易分析沒(méi)有預(yù)定義的數(shù)據(jù)模型沒(méi)有明確的定義定性數(shù)據(jù)很難獲得很難分析存在關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)電子表格NoSQL數(shù)據(jù)庫(kù)數(shù)據(jù)湖數(shù)據(jù)倉(cāng)庫(kù)分析方法回歸分類(lèi)聚類(lèi)數(shù)據(jù)挖掘自然語(yǔ)言處理向量的搜索應(yīng)用在線預(yù)訂自動(dòng)取款機(jī)庫(kù)存控制系統(tǒng)語(yǔ)音識(shí)別圖像識(shí)別文本分析例子名字日期地址電話號(hào)碼信用卡號(hào)碼電子郵件信息健康記錄圖片音頻視頻文件系統(tǒng)文件系統(tǒng)是操作系統(tǒng)用于明確存儲(chǔ)設(shè)備(常見(jiàn)的是磁盤(pán),也有基于NAND閃存的固態(tài)硬盤(pán))或分區(qū)上的文件的方法和數(shù)據(jù)結(jié)構(gòu),即在存儲(chǔ)設(shè)備上組織文件的方法。操作系統(tǒng)中負(fù)責(zé)管理和存儲(chǔ)文件信息的軟件機(jī)構(gòu)稱(chēng)為文件管理系統(tǒng),簡(jiǎn)稱(chēng)“文件系統(tǒng)”。文件系統(tǒng)接口

對(duì)象及其屬性操作管理對(duì)象的軟件集合關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)指的是以一定方式儲(chǔ)存在一起,能為多個(gè)用戶(hù)共享、具有盡可能小的冗余度、與應(yīng)用程序彼此獨(dú)立的數(shù)據(jù)集合。目前,市場(chǎng)上常見(jiàn)的關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品包括Oracle、SQLServer、MySQL、DB2等。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。特點(diǎn)說(shuō)明面向主題操作型數(shù)據(jù)庫(kù)的數(shù)據(jù)是面向事務(wù)處理任務(wù)組織的,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按照一定的主題進(jìn)行組織的。主題是指用戶(hù)使用數(shù)據(jù)倉(cāng)庫(kù)做決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)集成數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成、統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)相對(duì)穩(wěn)定數(shù)據(jù)倉(cāng)庫(kù)是不可更新的,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),涉及的操作主要是數(shù)據(jù)的查詢(xún)反映歷史變化在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)時(shí),會(huì)每隔一定的時(shí)間(如每周、每天、每小時(shí))從數(shù)據(jù)源抽取數(shù)據(jù)并加載到數(shù)據(jù)倉(cāng)庫(kù)并行數(shù)據(jù)庫(kù)并行數(shù)據(jù)庫(kù)是指在無(wú)共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫(kù)系統(tǒng),該數(shù)據(jù)庫(kù)系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語(yǔ)句查詢(xún),但為了能夠并行執(zhí)行SQL的查詢(xún)操作,系統(tǒng)中采用了關(guān)系表的水平劃分和SQL查詢(xún)的分區(qū)執(zhí)行等關(guān)鍵技術(shù)。并行數(shù)據(jù)庫(kù)系統(tǒng)的目標(biāo)是高性能和高可用性,通過(guò)多個(gè)節(jié)點(diǎn)并行執(zhí)行數(shù)據(jù)庫(kù)任務(wù),提高整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的性能和可用性。并行數(shù)據(jù)庫(kù)系統(tǒng)的主要缺點(diǎn)是沒(méi)有較好的彈性。另一個(gè)問(wèn)題是系統(tǒng)的容錯(cuò)性較差。實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù)主流的分布式存儲(chǔ)框架大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù)分布式存儲(chǔ)系統(tǒng)云存儲(chǔ)分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)分布式存儲(chǔ)是將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上,采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)、利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷、利用位置服務(wù)器定位存儲(chǔ)信息的一種數(shù)據(jù)存儲(chǔ)技術(shù)。分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)

運(yùn)行在多個(gè)節(jié)點(diǎn)上,可分擔(dān)存儲(chǔ)負(fù)荷。

整合集群內(nèi)所有存儲(chǔ)空間資源,虛擬化并對(duì)外提供文件訪問(wèn)服務(wù)。

更好的擴(kuò)展性,更大的容量,更適合大規(guī)模數(shù)據(jù)的性能需求。分布式存儲(chǔ)的特點(diǎn)如下:分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)分布式存儲(chǔ)系統(tǒng)的常見(jiàn)分類(lèi)類(lèi)型說(shuō)明分布式文件系統(tǒng)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)對(duì)象,作為其他存儲(chǔ)系統(tǒng)的底層存儲(chǔ),可以存儲(chǔ)3種類(lèi)型的數(shù)據(jù)——類(lèi)文件對(duì)象、定長(zhǎng)塊、大文件。分布式文件系統(tǒng)內(nèi)部按照數(shù)據(jù)塊來(lái)組織數(shù)據(jù),將數(shù)據(jù)塊分散到存儲(chǔ)集群,處理數(shù)據(jù)復(fù)制、一致性、負(fù)載均衡、容錯(cuò)等問(wèn)題,如HDFS分布式鍵值系統(tǒng)存儲(chǔ)關(guān)系簡(jiǎn)單的半結(jié)構(gòu)化數(shù)據(jù),支持?jǐn)?shù)據(jù)分布到集群中的多個(gè)存儲(chǔ)節(jié)點(diǎn),一致性哈希是分布式鍵值系統(tǒng)中常用的數(shù)據(jù)分布技術(shù),如HBase分布式表格系統(tǒng)存儲(chǔ)關(guān)系較為復(fù)雜的半結(jié)構(gòu)化數(shù)據(jù),以表格為單位組織數(shù)據(jù),支持主鍵增、刪、查、改功能以及范圍查找功能,針對(duì)單張表格操作,同一個(gè)表格的多個(gè)數(shù)據(jù)行不要求包含相同類(lèi)型的列,可以做到超大規(guī)模,支持較多的功能,如BigTable分布式數(shù)據(jù)庫(kù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),目前為止最成熟的存儲(chǔ)技術(shù),采用二維表格組織數(shù)據(jù),支持類(lèi)SQL關(guān)系查詢(xún)語(yǔ)言,如Hive分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)分布式數(shù)據(jù)庫(kù)是指數(shù)據(jù)在物理上分布而在邏輯上集中的數(shù)據(jù)庫(kù)系統(tǒng)。物理上分布是指分布式數(shù)據(jù)庫(kù)的數(shù)據(jù)分布在物理位置不同、由網(wǎng)絡(luò)連接的節(jié)點(diǎn)或站點(diǎn)上,不同的節(jié)點(diǎn)可以分布在不同的機(jī)房和地區(qū)。邏輯上集中是指各節(jié)點(diǎn)在邏輯上是一個(gè)整體,并由統(tǒng)一的數(shù)據(jù)庫(kù)管理系統(tǒng)管理。分布式數(shù)據(jù)庫(kù)可分為NewSQL數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)等。12NewSQL數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)1NewSQL數(shù)據(jù)庫(kù)具有代表性的NewSQL數(shù)據(jù)庫(kù)主要包括Spanner、Clustrix等。此外,還有一些在云端提供的NewSQL數(shù)據(jù)庫(kù),包括亞馬遜公司的RDS、微軟公司的AzureSQLDatabase等。分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)2NoSQL數(shù)據(jù)庫(kù)鍵值數(shù)據(jù)庫(kù)列族數(shù)據(jù)庫(kù)文檔數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)2NoSQL數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)的特點(diǎn)特點(diǎn)說(shuō)明靈活的可擴(kuò)展性NoSQL數(shù)據(jù)庫(kù)在設(shè)計(jì)之初是為了滿(mǎn)足“橫向擴(kuò)展”的需求,因此其天生具備良好的水平擴(kuò)展能力靈活的數(shù)據(jù)模型NoSQL數(shù)據(jù)庫(kù)摒棄了流行多年的關(guān)系數(shù)據(jù)模型,轉(zhuǎn)而采用鍵值、列族等非關(guān)系模型,允許在一個(gè)數(shù)據(jù)元素里存儲(chǔ)不同類(lèi)型的數(shù)據(jù)與云計(jì)算緊密融合云計(jì)算具有很好的水平擴(kuò)展能力,可以根據(jù)資源使用情況進(jìn)行自由伸縮,各種資源可以動(dòng)態(tài)加入或退出。NoSQL數(shù)據(jù)庫(kù)可以憑借自身良好的橫向擴(kuò)展能力,充分自由利用云計(jì)算基礎(chǔ)設(shè)施,很好地融入云計(jì)算環(huán)境中,構(gòu)建基于NoSQL的云數(shù)據(jù)庫(kù)服務(wù)分布式存儲(chǔ)系統(tǒng)分布式存儲(chǔ)及系統(tǒng)的概念分布式數(shù)據(jù)庫(kù)分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem,DFS)是一種通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)文件在多臺(tái)主機(jī)上進(jìn)行分布式存儲(chǔ)的文件系統(tǒng)。分布式文件系統(tǒng)的設(shè)計(jì)一般采用“客戶(hù)端/服務(wù)器”(Client/Server)模式,客戶(hù)端以特定的通信協(xié)議通過(guò)網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問(wèn)請(qǐng)求,客戶(hù)端和服務(wù)器可以通過(guò)設(shè)置訪問(wèn)權(quán)限來(lái)限制請(qǐng)求方對(duì)底層數(shù)據(jù)存儲(chǔ)塊的訪問(wèn)。云存儲(chǔ)實(shí)際上是云計(jì)算中有關(guān)數(shù)據(jù)存儲(chǔ)、歸檔、備份的一個(gè)部分,是一種創(chuàng)新服務(wù)。在面向用戶(hù)的服務(wù)形態(tài)方面,云存儲(chǔ)是一種提供按需服務(wù)的應(yīng)用模式,用戶(hù)可以通過(guò)網(wǎng)絡(luò)連接云端存儲(chǔ)資源,在云端隨時(shí)隨地存儲(chǔ)數(shù)據(jù)。云存儲(chǔ)云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品云平臺(tái)按照服務(wù)類(lèi)型大致可以分為基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)3類(lèi)。云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品云平臺(tái)服務(wù)類(lèi)型服務(wù)類(lèi)型說(shuō)明IaaSIaaS將硬件設(shè)備等基礎(chǔ)資源以虛擬機(jī)的形式提供給用戶(hù)使用,如亞馬遜云計(jì)算AWS(AmazonWebService)的彈性計(jì)算云EC2PaaSPaaS進(jìn)一步抽象硬件資源,為用戶(hù)提供應(yīng)用程序的運(yùn)行環(huán)境,開(kāi)發(fā)者只需將應(yīng)用程序提交至PaaS,PaaS會(huì)自動(dòng)完成程序部署、處理服務(wù)器故障、擴(kuò)容等操作,如GAE(GoogleAppEngine)就是PaaS。另外,微軟的云計(jì)算平臺(tái)WindowsAzurePlatform也可歸入PaaS類(lèi)SaaSSaaS的針對(duì)性更強(qiáng),可以將某些特定應(yīng)用軟件轉(zhuǎn)成服務(wù),如Salesforce公司提供的在線客戶(hù)端管理CRM服務(wù)、谷歌公司的企業(yè)應(yīng)用套件GoogleApps等云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品云存儲(chǔ)是在云計(jì)算概念上衍生、發(fā)展出來(lái)的一個(gè)概念,除了可以節(jié)省整體的硬件成本(包括電力成本)外,還具備良好的可擴(kuò)展性、對(duì)用戶(hù)的透明性、按需分配的靈活性和負(fù)載的均衡性等特點(diǎn)。云存儲(chǔ)本質(zhì)上是一種理論,但在實(shí)際產(chǎn)品化的過(guò)程中,仍然依賴(lài)數(shù)據(jù)中心的物理設(shè)備。云存儲(chǔ)屬于云計(jì)算的底層支撐,通過(guò)網(wǎng)絡(luò)將大量普通存儲(chǔ)設(shè)備構(gòu)成的存儲(chǔ)資源池中的存儲(chǔ)資源和數(shù)據(jù)服務(wù)以統(tǒng)一的接口按需提供給授權(quán)用戶(hù)。云存儲(chǔ)將存儲(chǔ)資源集中起來(lái),通過(guò)專(zhuān)門(mén)軟件進(jìn)行自動(dòng)管理,無(wú)須人為參與。云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品存儲(chǔ)設(shè)備、云存儲(chǔ)技術(shù)、云存儲(chǔ)系統(tǒng)、云存儲(chǔ)服務(wù)的關(guān)系云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品特點(diǎn)說(shuō)明超大規(guī)模云存儲(chǔ)具有相當(dāng)大的規(guī)模,單個(gè)系統(tǒng)存儲(chǔ)的數(shù)據(jù)可以達(dá)到千億級(jí),甚至萬(wàn)億級(jí)可擴(kuò)展性云存儲(chǔ)的規(guī)??梢詣?dòng)態(tài)伸縮,滿(mǎn)足數(shù)據(jù)規(guī)模增長(zhǎng)的需要??蓴U(kuò)展性包含兩個(gè)維度,第一,系統(tǒng)本身可以很容易地動(dòng)態(tài)增加服務(wù)器資源以應(yīng)對(duì)數(shù)據(jù)增長(zhǎng);第二,系統(tǒng)運(yùn)維可擴(kuò)展意味著隨著系統(tǒng)規(guī)模的增加,不需要增加太多運(yùn)維人員高可靠性和可用性通過(guò)多副本復(fù)制以及節(jié)點(diǎn)故障自動(dòng)容錯(cuò)等技術(shù),云存儲(chǔ)提供了很高的可靠性和可用性安全云存儲(chǔ)內(nèi)部通過(guò)用戶(hù)鑒權(quán)、訪問(wèn)權(quán)限控制、安全通信(如HTTPS、TLS協(xié)議)等方式保障安全性云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品特點(diǎn)說(shuō)明按需服務(wù)云存儲(chǔ)是一個(gè)龐大的資源池,用戶(hù)按需購(gòu)買(mǎi),其計(jì)費(fèi)方式類(lèi)似于自來(lái)水、電和煤氣的透明服務(wù)云存儲(chǔ)以統(tǒng)一的接口(如RESTful接口)的形式提供服務(wù),后端存儲(chǔ)節(jié)點(diǎn)的變化(如增加節(jié)點(diǎn)、節(jié)點(diǎn)故障)對(duì)用戶(hù)是透明的低成本低成本是云存儲(chǔ)的重要目標(biāo)。云存儲(chǔ)的自動(dòng)容錯(cuò)使得自身可以采用普通的計(jì)算機(jī)服務(wù)器來(lái)構(gòu)建;云存儲(chǔ)的通用性使得資源利用率大幅提升;云存儲(chǔ)的自動(dòng)化管理使得運(yùn)維效率得到提升,運(yùn)維成本有效降低云存儲(chǔ)云平臺(tái)整體架構(gòu)云存儲(chǔ)概念云存儲(chǔ)特點(diǎn)云存儲(chǔ)代表產(chǎn)品目前已有多款關(guān)系型或非關(guān)系型的云存儲(chǔ)服務(wù),常見(jiàn)的云存儲(chǔ)產(chǎn)品主要有:騰訊云系列數(shù)據(jù)庫(kù)

阿里云關(guān)系數(shù)據(jù)庫(kù)

亞馬遜公司的DynamoDB、Redshift、SimpleDB

微軟公司的SQLServer、SQLDataSync

谷歌公司的CloudSQL、BigQuery、CloudDatastoreRackspace的Rackspace云數(shù)據(jù)庫(kù)

MongoLab的MongoDB實(shí)例引入:從平安城市建設(shè)看海量數(shù)據(jù)存儲(chǔ)傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)存儲(chǔ)技術(shù)主流的分布式存儲(chǔ)框架主流的分布式存儲(chǔ)框架MySQLHiveHBaseMongoDBRedisMySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景網(wǎng)絡(luò)連接層位于整個(gè)MySQL體系架構(gòu)的最上層,主要擔(dān)任客戶(hù)端連接器的角色,提供與MySQL服務(wù)器建立連接的功能,幾乎支持所有主流的服務(wù)器端語(yǔ)言,如Java、C、C++、Python等,各語(yǔ)言都是通過(guò)各自的API與MySQL建立連接。MySQLMySQL層次結(jié)構(gòu)

網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層

存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景數(shù)據(jù)庫(kù)服務(wù)層是整個(gè)數(shù)據(jù)庫(kù)服務(wù)器的核心,主要包括了系統(tǒng)管理和控制工具、連接池、SQL接口、解析器、查詢(xún)優(yōu)化器和緩存等部分。MySQLMySQL層次結(jié)構(gòu)

網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層

存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景MySQL中的存儲(chǔ)引擎層主要負(fù)責(zé)數(shù)據(jù)的寫(xiě)入和讀取,與底層的文件進(jìn)行交互,主要包括可插拔存儲(chǔ)引擎部分。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景數(shù)據(jù)存儲(chǔ)層主要是將數(shù)據(jù)存儲(chǔ)在運(yùn)行于裸設(shè)備的文件系統(tǒng)上,并完成與存儲(chǔ)引擎的交互。數(shù)據(jù)存儲(chǔ)層主要包括MySQL中存儲(chǔ)數(shù)據(jù)的文件系統(tǒng),與上層的存儲(chǔ)引擎進(jìn)行交互,是文件的物理存儲(chǔ)層。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層存儲(chǔ)引擎層數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景文件系統(tǒng)主要包括NTFS(NewTechnologyFileSystem)、ext4(FourthExtendedFileSystem)等,存儲(chǔ)的文件主要包括日志文件、數(shù)據(jù)文件、索引文件等,其中,日志文件主要包括二進(jìn)制日志、錯(cuò)誤日志、慢查詢(xún)?nèi)罩?、常?guī)查詢(xún)?nèi)罩?、重做日志、撤銷(xiāo)日志等。MySQLMySQL層次結(jié)構(gòu)網(wǎng)絡(luò)連接層數(shù)據(jù)庫(kù)服務(wù)層存儲(chǔ)引擎層

數(shù)據(jù)存儲(chǔ)層應(yīng)用場(chǎng)景Web網(wǎng)站系統(tǒng)日志記錄系統(tǒng)嵌入式系統(tǒng)HiveHive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將數(shù)據(jù)提取、轉(zhuǎn)化、加載、轉(zhuǎn)存到數(shù)據(jù)倉(cāng)庫(kù)中,可以轉(zhuǎn)儲(chǔ)、查詢(xún)和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)。Hive的優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)SQL語(yǔ)句等實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì),使MapReduce

的用法變得更加簡(jiǎn)單,而不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用程序。Hive十分適合對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行統(tǒng)計(jì)分析。HiveHive系統(tǒng)架構(gòu)應(yīng)用場(chǎng)景驅(qū)動(dòng)器包括:解析器(SQLParser)編譯器(PhysicalPlan)優(yōu)化器(QueryOptimizer)執(zhí)行器(Execution)HiveHive系統(tǒng)架構(gòu)應(yīng)用場(chǎng)景組成說(shuō)明解析器解析器將SQL字符串轉(zhuǎn)換成抽象語(yǔ)法樹(shù)(AbstractSyntaxTree,AST),轉(zhuǎn)換的操作一般都用第三方工具庫(kù)完成,如ANTLR;對(duì)AST進(jìn)行語(yǔ)法分析,如表是否存在、字段是否存在、SQL語(yǔ)義是否有誤編譯器編譯器將AST編譯并生成邏輯執(zhí)行計(jì)劃優(yōu)化器優(yōu)化器對(duì)邏輯執(zhí)行計(jì)劃進(jìn)行優(yōu)化執(zhí)行器執(zhí)行器將邏輯執(zhí)行計(jì)劃轉(zhuǎn)換成可以運(yùn)行的物理計(jì)劃HiveHive系統(tǒng)架構(gòu)應(yīng)用場(chǎng)景Hive十分適合用于數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析和Windows注冊(cè)表文件,主要用于靜態(tài)的結(jié)構(gòu)以及需要經(jīng)常分析的工作。

統(tǒng)計(jì)網(wǎng)站訪問(wèn)量和獨(dú)立訪客數(shù)量等指標(biāo)

多維數(shù)據(jù)分析

海量結(jié)構(gòu)化數(shù)據(jù)離線分析HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)應(yīng)用場(chǎng)景從HBase的底層系統(tǒng)架構(gòu)來(lái)看,HBase更像是一個(gè)多維映射。RegionServerMasterZooKeeperHDFSHBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)應(yīng)用場(chǎng)景RegionServer中數(shù)據(jù)存儲(chǔ)過(guò)程主要涉及的內(nèi)容組成說(shuō)明StoreFile存儲(chǔ)文件,保存實(shí)際數(shù)據(jù)的物理文件,StoreFile以HFile的形式存儲(chǔ)在HDFS上。每個(gè)Store會(huì)有一個(gè)或多個(gè)StoreFile,數(shù)據(jù)在每個(gè)StoreFile中都是有序的MemStore寫(xiě)緩存,由于StoreFile中的數(shù)據(jù)要求是有序的,所以數(shù)據(jù)是先存儲(chǔ)在MemStore中,排好序后,等到達(dá)刷寫(xiě)時(shí)機(jī)才會(huì)刷寫(xiě)到StoreFile中,每次刷寫(xiě)都會(huì)形成一個(gè)新的StoreFile預(yù)寫(xiě)日志(Write-AheadLogfile,WAL)由于數(shù)據(jù)要經(jīng)MemStore排序后才能刷寫(xiě)到StoreFile中,而將數(shù)據(jù)保存在內(nèi)存中會(huì)有很高的概率導(dǎo)致數(shù)據(jù)丟失。為了解決數(shù)據(jù)丟失問(wèn)題,數(shù)據(jù)會(huì)先寫(xiě)在WAL的文件中,然后再寫(xiě)入MemStore中。所以在系統(tǒng)出現(xiàn)故障時(shí),數(shù)據(jù)可以通過(guò)日志文件重建HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)應(yīng)用場(chǎng)景HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)涵蓋邏輯結(jié)構(gòu)和物理存儲(chǔ)結(jié)構(gòu)HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)應(yīng)用場(chǎng)景一個(gè)列族(ColumnFamily)包含多個(gè)列,在物理結(jié)構(gòu)上一個(gè)列族是一個(gè)文件夾,一個(gè)文件夾中包含多個(gè)store文件。數(shù)據(jù)模型說(shuō)明Namespace命名空間,類(lèi)似于關(guān)系數(shù)據(jù)庫(kù)的DataBase概念,每個(gè)命名空間下有多個(gè)表。HBase有兩個(gè)自帶的命名空間,分別是hbase和default,hbase中存放的是HBase內(nèi)置的表,default表是用戶(hù)默認(rèn)使用的命名空間Region類(lèi)似于關(guān)系數(shù)據(jù)庫(kù)的表概念。不同的是,HBase定義表時(shí)只需要聲明列族即可,不需要聲明具體的列。這意味著往HBase寫(xiě)入數(shù)據(jù)時(shí),字段可以動(dòng)態(tài)、按需指定。因此,和關(guān)系數(shù)據(jù)庫(kù)相比,HBase能夠輕松應(yīng)對(duì)字段變更的場(chǎng)景RowHBase表中的每行數(shù)據(jù)都由一個(gè)RowKey(行鍵)和多個(gè)Column(列)組成,數(shù)據(jù)是按照RowKey的字典順序存儲(chǔ)的,并且查詢(xún)數(shù)據(jù)時(shí)只能根據(jù)RowKey進(jìn)行檢索,所以RowKey的設(shè)計(jì)十分重要ColumnHBase中的每個(gè)列都由ColumnFamily和ColumnQualifier(列限定符)進(jìn)行限定,例如,{info:name,info:age}。創(chuàng)建表時(shí),只需指明列族,而列限定符無(wú)須預(yù)先定義TimeStamp用于標(biāo)識(shí)數(shù)據(jù)的不同版本(version),每條數(shù)據(jù)寫(xiě)入時(shí),如果不指定時(shí)間戳,系統(tǒng)會(huì)自動(dòng)為其加上該字段,其值為寫(xiě)入HBase的時(shí)間Cell由{rowkey,columnFamily:columnQualifier,TimeStamp}唯一確定的單元(Cell)。Cell中的數(shù)據(jù)是沒(méi)有類(lèi)型的,全部是字節(jié)碼形式存儲(chǔ)HBaseHBase系統(tǒng)架構(gòu)HBase數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)應(yīng)用場(chǎng)景應(yīng)用場(chǎng)景說(shuō)明?戶(hù)畫(huà)像HBase通過(guò)存儲(chǔ)大型的視頻網(wǎng)站、電商平臺(tái)等產(chǎn)生的用戶(hù)點(diǎn)擊行為、瀏覽行為等,為后續(xù)的智能推薦做數(shù)據(jù)支撐消息或訂單存儲(chǔ)因?yàn)镠Base具有低延時(shí)、高并發(fā)的訪問(wèn)能力,所以可應(yīng)用于電商平臺(tái),實(shí)現(xiàn)消息或訂單的存儲(chǔ)對(duì)象存儲(chǔ)對(duì)象存儲(chǔ)實(shí)際是中等對(duì)象存儲(chǔ),是對(duì)HDFS存儲(chǔ)文件的一個(gè)緩沖過(guò)程。因?yàn)槿绻罅康?MB或2MB的小文件直接存儲(chǔ)在HDFS上,會(huì)增加NameNode元數(shù)據(jù)維護(hù)的壓力,所以可以在HBase中很好地做過(guò)程合并后再將文件持久化到HDFS上。HBase提供了存儲(chǔ)中等對(duì)象的功能,中等對(duì)象的大小范圍在100KB至10MB之間時(shí)序數(shù)據(jù)基于HBase可構(gòu)建適用于時(shí)序數(shù)據(jù)的存儲(chǔ)系統(tǒng),例如,OpenTSDB(OpenTimeSeriesDataBase)。它就是一個(gè)基于HBase的時(shí)序存儲(chǔ)系統(tǒng),適用于日志、監(jiān)控打點(diǎn)數(shù)據(jù)的存儲(chǔ)查詢(xún)Cube分析(KyLin)KyLin將Hive或Kafka中的數(shù)據(jù)用于構(gòu)建Cube,該Cube會(huì)存儲(chǔ)在HBase中,以供其他的應(yīng)用或系統(tǒng)做實(shí)時(shí)查詢(xún)或?qū)崟r(shí)展示Feeds流Feeds流是系統(tǒng)實(shí)時(shí)推送的根據(jù)一定規(guī)則排序的信息流,主要應(yīng)用在抖音或其他小視頻系統(tǒng)中,可以幫助用戶(hù)實(shí)時(shí)獲取最新的訂閱內(nèi)容。HBase的RowKey按字典序排序可實(shí)現(xiàn)Feed消息排序,在獲取某用戶(hù)發(fā)布的消息時(shí),通過(guò)指定搜索的時(shí)間范圍以滿(mǎn)足時(shí)間性要求MongoDBMongoDB是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),是一個(gè)介于關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)之間的產(chǎn)品,由C++語(yǔ)言編寫(xiě),支持的數(shù)據(jù)結(jié)構(gòu)松散,是類(lèi)似JSON的BSON格式,旨在為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。MongoDB最大的特點(diǎn)是支持的查詢(xún)語(yǔ)言非常強(qiáng)大,其語(yǔ)法有點(diǎn)類(lèi)似于面向?qū)ο蟮牟樵?xún)語(yǔ)言,幾乎可以實(shí)現(xiàn)類(lèi)似關(guān)系數(shù)據(jù)庫(kù)單表查詢(xún)的絕大部分功能,而且還支持對(duì)數(shù)據(jù)建立索引。當(dāng)前MongoDB官方支持的客戶(hù)端API語(yǔ)言包括C、C++、Java、JavaScript、Perl、PHP、Python、Ruby等,社區(qū)開(kāi)發(fā)的客戶(hù)端API語(yǔ)言還有Erlang、Go、Haskell等更多種類(lèi)。MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場(chǎng)景MongoDB系統(tǒng)結(jié)構(gòu)層次分明,主要包括應(yīng)用層、查詢(xún)語(yǔ)言層、數(shù)據(jù)模型層和數(shù)據(jù)存儲(chǔ)層。MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場(chǎng)景結(jié)構(gòu)說(shuō)明應(yīng)用層MongoDB支持IoT傳感器數(shù)據(jù)、內(nèi)容報(bào)告、廣告服務(wù)、實(shí)時(shí)分析以及各類(lèi)移動(dòng)App業(yè)務(wù)需求查詢(xún)語(yǔ)言層MongoDB查詢(xún)語(yǔ)言層,可針對(duì)文檔做多種類(lèi)型的查詢(xún),支持簡(jiǎn)單條件查詢(xún)、范圍檢索、連接操作、圖遍歷等。此外,該層還提供復(fù)雜處理管道,以支持?jǐn)?shù)據(jù)分析和轉(zhuǎn)化數(shù)據(jù)模型層MongoDB采用靈活的文檔模型,是其他數(shù)據(jù)模型的一個(gè)超集。MongoDB的文檔模型允許數(shù)據(jù)被表示為簡(jiǎn)單鍵值對(duì)和扁平表結(jié)構(gòu),可存儲(chǔ)多格式的文檔及含嵌套數(shù)組和子文檔的對(duì)象數(shù)據(jù)存儲(chǔ)層MongoDB存儲(chǔ)架構(gòu)靈活,提供多種存儲(chǔ)引擎。允許前端根據(jù)負(fù)載、實(shí)際應(yīng)用和操作需求來(lái)選擇合適的存儲(chǔ)引擎以?xún)?yōu)化處理MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場(chǎng)景MongoDB的結(jié)構(gòu)體系是一種層次結(jié)構(gòu):文檔(Document)集合(Collection)數(shù)據(jù)庫(kù)(DataBase)MongoDBMongoDB系統(tǒng)結(jié)構(gòu)MongoDB結(jié)構(gòu)體系應(yīng)用場(chǎng)景應(yīng)用場(chǎng)景說(shuō)明游戲場(chǎng)景使用MongoDB直接以?xún)?nèi)嵌文檔的形式存儲(chǔ)游戲用戶(hù)信息、裝備、積分等,方便查詢(xún)、更新物流場(chǎng)景使用MongoDB存儲(chǔ)訂單信息、訂單狀態(tài)、物流信息。訂單狀態(tài)在運(yùn)送過(guò)程中飛速更新,以MongoDB內(nèi)嵌數(shù)組的形式來(lái)存儲(chǔ),一次查詢(xún)就能將訂單所有的變更查出來(lái)社交場(chǎng)景使用MongoDB存儲(chǔ)用戶(hù)信息、朋友圈信息,通過(guò)地理位置索引實(shí)現(xiàn)附近的人、定位功能物聯(lián)網(wǎng)場(chǎng)景使

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論