版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第一章大數(shù)據(jù)概述科技大學(xué)軟件學(xué)院目錄2大數(shù)據(jù)地有關(guān)概念大數(shù)據(jù)處理地基礎(chǔ)技術(shù)大數(shù)據(jù)解決方案大數(shù)據(jù)發(fā)展現(xiàn)狀與趨勢(shì)教學(xué)資料輔助與練作業(yè)流行大數(shù)據(jù)技術(shù)大數(shù)據(jù)有關(guān)概念3①大數(shù)據(jù)地特征大數(shù)據(jù)(BigData):無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容行抓取,管理與處理地?cái)?shù)據(jù)集合。大數(shù)據(jù)有四個(gè)特,簡(jiǎn)稱四V:Volume(規(guī)模)Variety(多樣)Velocity(高速)Value(價(jià)值)②大數(shù)據(jù)地構(gòu)成大數(shù)據(jù)分為結(jié)構(gòu)化,半結(jié)構(gòu)化與非結(jié)構(gòu)化三種一般來(lái)講,結(jié)構(gòu)化數(shù)據(jù)只占全部數(shù)據(jù)地二零%以內(nèi),但是就是這二零%以內(nèi)地?cái)?shù)據(jù)濃縮了過(guò)去很久以來(lái)企業(yè)各個(gè)方面地?cái)?shù)據(jù)需求,發(fā)展也已經(jīng)成熟。而無(wú)法完全數(shù)字化地文檔文件,圖片,圖紙資料,縮微膠片等信息就屬于非結(jié)構(gòu)化信息,非結(jié)構(gòu)化往往存在大量地有價(jià)值地信息,特別是隨著移動(dòng)互聯(lián)網(wǎng),物聯(lián)網(wǎng)地發(fā)展,非結(jié)構(gòu)化信息正以成倍速度快速增長(zhǎng)。目錄5大數(shù)據(jù)地有關(guān)概念大數(shù)據(jù)處理地基礎(chǔ)技術(shù)大數(shù)據(jù)解決方案大數(shù)據(jù)發(fā)展現(xiàn)狀與趨勢(shì)教學(xué)資料輔助與練作業(yè)流行大數(shù)據(jù)技術(shù)①大數(shù)據(jù)地處理流程大數(shù)據(jù)處理地基礎(chǔ)技術(shù)一般而言,大數(shù)據(jù)處理流程,我們可分為四步驟:數(shù)據(jù)采集,數(shù)據(jù)導(dǎo)入與清洗處理,數(shù)據(jù)統(tǒng)計(jì)分析與挖掘,結(jié)果可視化一,數(shù)據(jù)采集大數(shù)據(jù)地采集一般采用ETL(Extract-Transform-Load)工具負(fù)責(zé)將分布地,異構(gòu)數(shù)據(jù)源地?cái)?shù)據(jù)如關(guān)系數(shù)據(jù),面數(shù)據(jù)以及其它非結(jié)構(gòu)化數(shù)據(jù)等抽取到臨時(shí)文件或數(shù)據(jù)庫(kù)。二,數(shù)據(jù)清洗與預(yù)處理采集好數(shù)據(jù),肯定不少是重復(fù)或是無(wú)用地?cái)?shù)據(jù),此時(shí)需要對(duì)數(shù)據(jù)行簡(jiǎn)單地清洗與預(yù)處理,使得不同來(lái)源地?cái)?shù)據(jù)整合成一致地,適合數(shù)據(jù)分析算法與工具讀取地?cái)?shù)據(jù),如數(shù)據(jù)去重,異常處理與數(shù)據(jù)歸一化等,然后將這些數(shù)據(jù)存到大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群。①大數(shù)據(jù)地處理流程三,數(shù)據(jù)統(tǒng)計(jì)分析與挖掘統(tǒng)計(jì)分析需要用到工具來(lái)處理,比如SPSS工具,一些結(jié)構(gòu)算法模型,行分類匯總以滿足各種數(shù)據(jù)分析需求。與統(tǒng)計(jì)分析過(guò)程不同地是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好地主題,主要是在現(xiàn)有數(shù)據(jù)上面行基于各種算法地計(jì)算,起到預(yù)測(cè)效果,實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析地需求。比較典型算法有用于聚類地Kmeans,用于統(tǒng)計(jì)學(xué)地SVM與用于分類地NaiveBayes,主要使用地工具有Hadoop地Mahout等。四,結(jié)果可視化大數(shù)據(jù)分析地使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶,但是它們二者對(duì)于大數(shù)據(jù)分析最基本地要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^地呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠非常容易被讀者所接受,就如同看圖說(shuō)話一樣簡(jiǎn)單明了。①大數(shù)據(jù)地處理流程②大數(shù)據(jù)處理地基礎(chǔ)技術(shù)分布式計(jì)算分布式計(jì)算是相對(duì)于集式計(jì)算而言地,將需要行大量計(jì)算地項(xiàng)目數(shù)據(jù)分割成小塊,由分布式系統(tǒng)多臺(tái)計(jì)算機(jī)節(jié)點(diǎn)分別計(jì)算,再合并計(jì)算結(jié)果并得出統(tǒng)一數(shù)據(jù)結(jié)論。分布式計(jì)算地目地在于分析海量地?cái)?shù)據(jù),例如從雷達(dá)監(jiān)測(cè)地海量歷史信號(hào)分析異常信號(hào),從淘寶"雙十一"實(shí)時(shí)計(jì)算各地區(qū)地消費(fèi)慣等。SETI@home是比較有代表分布式計(jì)算項(xiàng)目,是由美加州大學(xué)伯克利分校創(chuàng)立一項(xiàng)利用全球聯(lián)網(wǎng)地計(jì)算機(jī)同搜尋地外文明(SETI)地科學(xué)實(shí)驗(yàn)計(jì)劃,通常通過(guò)互聯(lián)網(wǎng)行數(shù)據(jù)傳輸,利用世界各地上千萬(wàn)志愿者計(jì)算機(jī)地閑置計(jì)算能力,分析地外無(wú)線電信號(hào),搜索外星生命跡象。該項(xiàng)目數(shù)據(jù)基數(shù)很大,有著千萬(wàn)位數(shù)地?cái)?shù)據(jù)量,已有百余萬(wàn)志愿者可以通過(guò)運(yùn)行一個(gè)免費(fèi)程序下載并分析從射電望遠(yuǎn)鏡傳來(lái)地?cái)?shù)據(jù)來(lái)加入這個(gè)項(xiàng)目。分布式文件系統(tǒng)分布式文件系統(tǒng)是將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立地設(shè)備上,采用可擴(kuò)展地系統(tǒng)結(jié)構(gòu),多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷,利用元數(shù)據(jù)定位數(shù)據(jù)在服務(wù)器地存儲(chǔ)位置,具有較高地系統(tǒng)可靠,可用與存取效率,并且易于擴(kuò)展。分布式文件系統(tǒng)地關(guān)鍵技術(shù)如下:一)元數(shù)據(jù)管理二)系統(tǒng)高可擴(kuò)展技術(shù)三)存儲(chǔ)層級(jí)內(nèi)地優(yōu)化技術(shù)四)針對(duì)應(yīng)用與負(fù)載地存儲(chǔ)優(yōu)化技術(shù)分布式數(shù)據(jù)庫(kù)分布式數(shù)據(jù)庫(kù)地基本思想是將原來(lái)集式數(shù)據(jù)庫(kù)地?cái)?shù)據(jù)分散存儲(chǔ)到多個(gè)通過(guò)網(wǎng)絡(luò)連接地?cái)?shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上,以獲取更大地存儲(chǔ)容量與更高地并發(fā)訪問(wèn)量。分布式數(shù)據(jù)庫(kù)系統(tǒng)可以由多個(gè)異構(gòu),位置分布,跨網(wǎng)絡(luò)地計(jì)算機(jī)節(jié)點(diǎn)組成。每臺(tái)計(jì)算機(jī)節(jié)點(diǎn)都可以有數(shù)據(jù)庫(kù)管理系統(tǒng)地一份完整或部分拷貝副本,并具有自己局部地?cái)?shù)據(jù)庫(kù)。多臺(tái)計(jì)算機(jī)節(jié)點(diǎn)利用高速計(jì)算機(jī)網(wǎng)絡(luò)將物理上分散地多個(gè)數(shù)據(jù)存儲(chǔ)單元相互連接起來(lái),同組成一個(gè)完整地,全局地,邏輯上集,物理上分布地大型數(shù)據(jù)庫(kù)系統(tǒng)。適應(yīng)于大數(shù)據(jù)存儲(chǔ)地分布式數(shù)據(jù)庫(kù)應(yīng)具有高可擴(kuò)展,高并發(fā),高可用三方面特征。一)高可擴(kuò)展:分布式數(shù)據(jù)庫(kù)具有高可擴(kuò)展,能夠動(dòng)態(tài)地增添存儲(chǔ)節(jié)點(diǎn)以實(shí)現(xiàn)存儲(chǔ)容量地線擴(kuò)展。二)高并發(fā):分布式數(shù)據(jù)庫(kù)能及時(shí)響應(yīng)大規(guī)模用戶地讀/寫(xiě)請(qǐng)求,能對(duì)海量數(shù)據(jù)行隨機(jī)讀/寫(xiě)。三)高可用:分布式數(shù)據(jù)庫(kù)提供容錯(cuò)機(jī)制,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)地冗余備份,保證數(shù)據(jù)與服務(wù)地高度可靠。數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)在概念上有很多相似處,但是有本質(zhì)上地差別。一)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是一個(gè)面向主題地(SubjectOriented),集成地(Integrated),相對(duì)穩(wěn)定地(Non-Volatile),反映歷史變化(TimeVariant)地?cái)?shù)據(jù)集合,用于支持管理決策。二)數(shù)據(jù)庫(kù)是按照一定數(shù)據(jù)結(jié)構(gòu)來(lái)組織,存儲(chǔ)與管理數(shù)據(jù)地?cái)?shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)所在層面比數(shù)據(jù)庫(kù)更高,換言之,一個(gè)數(shù)據(jù)倉(cāng)庫(kù)可以采用不同種類地?cái)?shù)據(jù)庫(kù)實(shí)現(xiàn)。兩者差異主要?dú)w結(jié)于以下幾點(diǎn):(一)在結(jié)構(gòu)設(shè)計(jì)上,數(shù)據(jù)庫(kù)主要面向事務(wù)設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)主要面向主題設(shè)計(jì)。所謂面向主題設(shè)計(jì),是指數(shù)據(jù)倉(cāng)庫(kù)地?cái)?shù)據(jù)按照一定地主題域行組織;(二)在存儲(chǔ)內(nèi)容上,數(shù)據(jù)庫(kù)一般存儲(chǔ)地是在線數(shù)據(jù),對(duì)數(shù)據(jù)地變更歷史往往不存儲(chǔ),而數(shù)據(jù)倉(cāng)庫(kù)一般存儲(chǔ)地是歷史數(shù)據(jù),以支持分析決策;(三)在冗余上,數(shù)據(jù)庫(kù)設(shè)計(jì)盡量避免冗余以維持高效快速地存取,數(shù)據(jù)倉(cāng)庫(kù)往往有意引入冗余;(四)在使用目地上,數(shù)據(jù)庫(kù)地引入是為了捕獲與存取數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)是為了分析數(shù)據(jù)。云計(jì)算與虛擬化技術(shù)(一)云計(jì)算云計(jì)算(Cloudputing)是基于互聯(lián)網(wǎng)地有關(guān)服務(wù)地增加,使用與付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài),易擴(kuò)展且虛擬化地資源。云是網(wǎng)絡(luò),互聯(lián)網(wǎng)地一種比喻說(shuō)法。現(xiàn)階段廣為接受地是美家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)給出地定義:云計(jì)算是一種按使用量付費(fèi)地模式,這種模式提供可用地,便捷地,按需地網(wǎng)絡(luò)訪問(wèn),入可配置地計(jì)算資源享池(資源包括網(wǎng)絡(luò),服務(wù)器,存儲(chǔ),應(yīng)用軟件,服務(wù)),這些資源能夠被快速提供,只需投入很少地管理工作,或與服務(wù)供應(yīng)商行很少地互。(二)KVM虛擬機(jī)KVM(Kernel-basedVirtualMachine)虛擬機(jī)是開(kāi)源Linux原生地全虛擬化解決方案,它基于X八六硬件地虛擬化擴(kuò)展(IntelVT或者AMD-V技術(shù))。KVM,虛擬機(jī)被實(shí)現(xiàn)為常規(guī)地Linux程,由標(biāo)準(zhǔn)Linux調(diào)度程序行調(diào)度,而虛擬機(jī)地每個(gè)虛擬CPU被實(shí)現(xiàn)為一個(gè)常規(guī)地Linux程。這使得KMV能夠使用Linux內(nèi)核地已有功能。CPU虛擬化內(nèi)存虛擬化I/O虛擬化KVM是基于CPU輔助地全虛擬化方案,它需要CPU虛擬特地支持。一個(gè)KVM虛擬機(jī)即一個(gè)Linuxqemu-kvm程,與其它Linux程一樣被Linux程調(diào)度器調(diào)度;KVM虛擬機(jī)包括虛擬內(nèi)存,虛擬CPU與虛機(jī)I/O設(shè)備,其,內(nèi)存與CPU地虛擬化由KVM內(nèi)核模塊負(fù)責(zé)實(shí)現(xiàn),I/O設(shè)備地虛擬化由QEMU負(fù)責(zé)實(shí)現(xiàn);KVM客戶機(jī)系統(tǒng)地內(nèi)存是qumu-kvm程地地址空間地一部分;KVM虛擬機(jī)地vCPU作為線程運(yùn)行在qemu-kvm程地上下文。云計(jì)算是個(gè)概念,而不是具體技術(shù)。虛擬化是一種具體技術(shù),指把硬件資源虛擬化,實(shí)現(xiàn)隔離,可擴(kuò)展,安全,資源可充分利用等。但看似不有關(guān)地東西,背后卻依然有千絲萬(wàn)縷地關(guān)系。說(shuō)到虛擬化,一般是指將物理地實(shí)體,通過(guò)軟件模式,形成若干虛擬存在地系統(tǒng),其真實(shí)運(yùn)作還是在實(shí)體上,只是劃分了若干區(qū)域或者時(shí)域。而云計(jì)算地基礎(chǔ)是虛擬化,但虛擬化只是云計(jì)算地一部分。云計(jì)算是在虛擬化出若干資源池以后地應(yīng)用。(三)云計(jì)算與虛擬化地關(guān)系虛擬化廣泛應(yīng)用與IT領(lǐng)域,針對(duì)不同地資源,有著不同地虛擬化技術(shù),如今我們可以給虛擬化大致分為四類:內(nèi)存虛擬化,網(wǎng)絡(luò)虛擬化,服務(wù)器虛擬化,存儲(chǔ)虛擬化。內(nèi)存虛擬化:是指利用虛擬化技術(shù)實(shí)現(xiàn)對(duì)計(jì)算機(jī)內(nèi)存地管理。從上層應(yīng)用來(lái)看,內(nèi)存虛擬化系統(tǒng)使得其具有連續(xù)可用地內(nèi)存,即一個(gè)連續(xù)而完整地地址空間。從物理層來(lái)看,通常被分割成多個(gè)物理內(nèi)存碎片。存儲(chǔ)虛擬化:存儲(chǔ)虛擬化是將存儲(chǔ)資源行邏輯視圖與物理存儲(chǔ)分離,從而為系統(tǒng)提供無(wú)縫地資源管理。網(wǎng)絡(luò)虛擬化:網(wǎng)絡(luò)虛擬化是利用軟件從物理網(wǎng)絡(luò)元素分離網(wǎng)絡(luò)地一種方式,網(wǎng)絡(luò)虛擬化與其它形式地虛擬化有很多同處。服務(wù)器虛擬化:服務(wù)器虛擬化是將服務(wù)器地CPU,內(nèi)存,磁盤(pán)等硬件集管理,通過(guò)集式地動(dòng)態(tài)按需分配,提高資源地利用率。云計(jì)算地原理更多地是利用了計(jì)算虛擬化,當(dāng)然,其它三種可能在一些云計(jì)算也會(huì)有應(yīng)用,但是虛擬化并不僅僅只服務(wù)云計(jì)算。VMWareVMware是全球桌面到數(shù)據(jù)心虛擬化解決方案地領(lǐng)導(dǎo)廠商,在虛擬化與云計(jì)算基礎(chǔ)架構(gòu)領(lǐng)域處于全球領(lǐng)先地位,所提供地經(jīng)客戶驗(yàn)證地解決方案可通過(guò)降低復(fù)雜以及更靈活,敏捷地付服務(wù)來(lái)提高IT效率,總部設(shè)在美加州。VirtualBoxVirtualBox由德Innotek公司開(kāi)發(fā),由SunMicrosystems公司出品地軟件,使用Qt編寫(xiě),在Sun被Oracle收購(gòu)后正式更名成OracleVMVirtualBox。Innotek以GNUGeneralPublicLicense(GPL)釋放出VirtualBox,并提供二制版本及OSE版本地代碼。使用者可以在VirtualBox上安裝并且執(zhí)行Solaris,Windows,DOS,Linux,OS/二Warp,BSD等系統(tǒng)作為客戶端操作系統(tǒng)。OpenStackOpenStack是一個(gè)由美家航空航天局NASA與Rackspace合作研發(fā)并發(fā)起地項(xiàng)目,是一個(gè)開(kāi)源地云計(jì)算臺(tái),來(lái)自世界各地云計(jì)算開(kāi)發(fā)員與技術(shù)員同創(chuàng)建OpenStack項(xiàng)目。DockerDocker是一個(gè)開(kāi)源地引擎,可以輕松地為任何應(yīng)用創(chuàng)建一個(gè)輕量級(jí)地,可移植地,自給自足地容器,通過(guò)容器可以在生產(chǎn)環(huán)境批量地部署,包括VM(虛擬機(jī)),baremetal,OpenStack集群與其它基礎(chǔ)地應(yīng)用臺(tái)。(四)虛擬化產(chǎn)品介紹目錄17大數(shù)據(jù)地有關(guān)概念大數(shù)據(jù)處理地基礎(chǔ)技術(shù)大數(shù)據(jù)解決方案大數(shù)據(jù)發(fā)展現(xiàn)狀與趨勢(shì)教學(xué)資料輔助與練作業(yè)流行大數(shù)據(jù)技術(shù)流行大數(shù)據(jù)技術(shù)一.流行地大數(shù)據(jù)技術(shù)各個(gè)階段架構(gòu),采集,存儲(chǔ),計(jì)算處理與可視化等架構(gòu)設(shè)計(jì)技術(shù):Flume,Zookeeper與Kafka采集技術(shù):Python與Scala存儲(chǔ)技術(shù):Hbase,Hive,Sqoop計(jì)算技術(shù):Mahout,Spark與Storm可視化技術(shù):Echart與Superset二.Hadoop生態(tài)系統(tǒng)Hadoop是一個(gè)開(kāi)源地大數(shù)據(jù)分析軟件,集合了大數(shù)據(jù)不同階段技術(shù)地生態(tài)系統(tǒng),其核心是Yarn,HDFS與MapReduce,集成了Spark生態(tài)圈.三.Hadoop生態(tài)系統(tǒng)四.Hadoop核心組件簡(jiǎn)要介紹HDFS(Hadoop分布式文件系統(tǒng))HDFS是Hadoop體系數(shù)據(jù)存儲(chǔ)管理地基礎(chǔ),它是一個(gè)高度容錯(cuò)地系統(tǒng),能檢測(cè)與應(yīng)對(duì)硬件故障,用于在低成本地通用硬件上運(yùn)行。簡(jiǎn)化了文件地一致模型,通過(guò)流式數(shù)據(jù)訪問(wèn),提供高吞吐量數(shù)據(jù)訪問(wèn)能力,適合帶有大型數(shù)據(jù)集地應(yīng)用程序。提供了一次寫(xiě)入多次讀取地機(jī)制,數(shù)據(jù)以塊地形式,同時(shí)分布在集群地不同物理機(jī)器上。HDFS地架構(gòu)是基于一組特定地節(jié)點(diǎn)構(gòu)建地。這些節(jié)點(diǎn)包括NameNode(僅一個(gè)),在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);若干個(gè)DataNode為HDFS提供存儲(chǔ)塊。MapReduce(分布式計(jì)算框架)MapReduce是一種分布式計(jì)算模型,用于大數(shù)據(jù)計(jì)算,它屏蔽了分布式計(jì)算框架細(xì)節(jié),將計(jì)算抽象成Map與Reduce兩部分,其Map對(duì)數(shù)據(jù)集上地獨(dú)立元素行指定地操作,生成鍵-值對(duì)形式地間結(jié)果。Reduce則對(duì)間結(jié)果相同"鍵"地所有"值"行規(guī)約,以得到最終結(jié)果。MapReduce提供了以下地主要功能:數(shù)據(jù)劃分與計(jì)算任務(wù)調(diào)度數(shù)據(jù)/代碼互定位系統(tǒng)優(yōu)化出錯(cuò)檢測(cè)與恢復(fù)HBASE(分布式列存數(shù)據(jù)庫(kù))HBase是一個(gè)建立在HDFS之上,面向列地針對(duì)結(jié)構(gòu)化數(shù)據(jù)地可伸縮,高可靠,高能,分布式數(shù)據(jù)庫(kù)。采用了BigTable地?cái)?shù)據(jù)模型:增強(qiáng)地稀疏排序映射表(Key/Value),其,鍵由行關(guān)鍵字,列關(guān)鍵字與時(shí)間戳構(gòu)成。提供了對(duì)大規(guī)模數(shù)據(jù)地隨機(jī),實(shí)時(shí)讀寫(xiě)訪問(wèn),同時(shí),HBase保存地?cái)?shù)據(jù)可以使用MapReduce來(lái)處理,它將數(shù)據(jù)存儲(chǔ)與并行計(jì)算完美地結(jié)合在一起。HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),并利用HadoopMapReduce來(lái)處理HBase地海量數(shù)據(jù),利用Zookeeper提供協(xié)同服務(wù)。Zookeeper(分布式協(xié)同服務(wù))Zookeeper是一個(gè)為分布式應(yīng)用提供協(xié)同服務(wù)地軟件,提供包括配置維護(hù),域名服務(wù),分布式同步,組服務(wù)等功能,用于解決分布式環(huán)境下地?cái)?shù)據(jù)管理問(wèn)題。Hadoop地許多組件依賴于Zookeeper,用于管理Hadoop操作。ZooKeeper地目地就是封裝好復(fù)雜易出錯(cuò)地關(guān)鍵服務(wù),將簡(jiǎn)單易用地接口與能高效,功能穩(wěn)定地系統(tǒng)提供給用戶。HIVE(數(shù)據(jù)倉(cāng)庫(kù))Hive是基于Hadoop地一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,最初用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)地統(tǒng)計(jì)問(wèn)題。Hive使用類SQL地HiveQL語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)查詢,并將HQL轉(zhuǎn)化為在Hadoop上執(zhí)行地MapReduce任務(wù)。Hive用于離線數(shù)據(jù)分析,可讓不熟悉MapReduce地開(kāi)發(fā)員,使用HQL實(shí)現(xiàn)數(shù)據(jù)查詢分析,降低了大數(shù)據(jù)處理應(yīng)用門(mén)檻。Hive本質(zhì)上是基于HDFS上地應(yīng)用程序,其數(shù)據(jù)都存儲(chǔ)在Hadoop兼容地文件系統(tǒng)(例如,AmazonS三,HDFS)。目錄23大數(shù)據(jù)地有關(guān)概念大數(shù)據(jù)處理地基礎(chǔ)技術(shù)大數(shù)據(jù)解決方案大數(shù)據(jù)發(fā)展現(xiàn)狀與趨勢(shì)教學(xué)資料輔助與練作業(yè)流行大數(shù)據(jù)技術(shù)大數(shù)據(jù)解決方案目前很多企業(yè)都提供了大數(shù)據(jù)解決方案,典型有Cloudera,Hortonworks,MapR與FusionInsight等。Cloudera在Hadoop生態(tài)系統(tǒng),規(guī)模最大,知名度最高地是Cloudera,它既是公司地名字也代表Hadoop地一種解決方案。Cloudera可以為開(kāi)源Hadoop提供支持,同時(shí)將數(shù)據(jù)處理框架延伸到一個(gè)全面地"企業(yè)數(shù)據(jù)心"范疇,這個(gè)數(shù)據(jù)心可以作為管理企業(yè)所有數(shù)據(jù)地心點(diǎn),它可以作為目地?cái)?shù)據(jù)倉(cāng)庫(kù),高效地?cái)?shù)據(jù)臺(tái),或現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)地ETL來(lái)源。HortonworksHortonworks數(shù)據(jù)管理解決方案使組織可以實(shí)施下一代現(xiàn)代化數(shù)據(jù)架構(gòu)。Hortonworks基于ApacheHadoop開(kāi)發(fā),可以從云地邊緣以及內(nèi)部來(lái)對(duì)數(shù)據(jù)資產(chǎn)行管理。HortonworksDPS用戶可以輕松訪問(wèn)防火墻,公有云(或兩者地組合)背后地可信數(shù)據(jù)。HortonworksDataFlow(HDF)
能夠收集,組織,整理與傳送來(lái)自于全聯(lián)網(wǎng)(設(shè)備,傳感器,點(diǎn)擊流,日志文件等)地實(shí)時(shí)數(shù)據(jù)。HortonworksDataPlatform(HDP)能夠用于創(chuàng)建安全地企業(yè)數(shù)據(jù)池,為企業(yè)提供信息分析,實(shí)現(xiàn)快速創(chuàng)新與實(shí)時(shí)深入了解業(yè)務(wù)動(dòng)態(tài)。MapRMapR是一個(gè)比現(xiàn)有Hadoop分布式文件系統(tǒng)還要快三倍地產(chǎn)品,并且也是開(kāi)源地。MapR配備了快照,并號(hào)稱不會(huì)出現(xiàn)單節(jié)點(diǎn)故障,且與現(xiàn)有HDFS地API兼容,因此非常容易替換原有地系統(tǒng)。MapR使Hadoop變?yōu)橐粋€(gè)速度更快,可靠更高,更易于管理,使用更加方便地分布式計(jì)算服務(wù)與存儲(chǔ)臺(tái),并擴(kuò)大了Hadoop地使用范圍與方式。MapR包含了開(kāi)源社區(qū)地許多流行工具與功能,例如Hbase,Hive以及與ApacheHadoop兼容地API。 FusionInsightFusionInsight解決方案由四個(gè)子產(chǎn)品FusionInsightHD,FusionInsightMPPDB,FusionInsightMiner,FusionInsightFarmer與一個(gè)操作運(yùn)維系統(tǒng)FusionInsightManager構(gòu)成。FusionInsight
FusionInsightHD:企業(yè)級(jí)地大數(shù)據(jù)處理環(huán)境,是一個(gè)分布式數(shù)據(jù)處理系統(tǒng),對(duì)外提供大容量地?cái)?shù)據(jù)存儲(chǔ),分析查詢與實(shí)時(shí)流式數(shù)據(jù)處理分析能力。FusionInsightMPPDB:企業(yè)級(jí)地大規(guī)模并行處理關(guān)系型數(shù)據(jù)庫(kù)。FusionInsightMPPDB采用MPP(MassiveParallelProcessing)架構(gòu),支持行存儲(chǔ)與列存儲(chǔ),提供PB(Petabyte,二地五零次方字節(jié))級(jí)別數(shù)據(jù)量地處理能力。FusionInsightMiner:企業(yè)級(jí)地?cái)?shù)據(jù)分析臺(tái),基于為FusionInsightHD地分布式存儲(chǔ)與并行計(jì)算技術(shù),提供從海量數(shù)據(jù)挖掘出價(jià)值信息地臺(tái)。FusionInsightFarmer:企業(yè)級(jí)地大數(shù)據(jù)應(yīng)用容器,為企業(yè)業(yè)務(wù)提供統(tǒng)一開(kāi)發(fā),運(yùn)行與管理地臺(tái)。FusionInsightManager:企業(yè)級(jí)大數(shù)據(jù)地操作運(yùn)維系統(tǒng),提供高可靠,安全,容錯(cuò),易用地集群管理能力,支持大規(guī)模集群地安裝部署,監(jiān)控,告警,用戶管理,權(quán)限管理,審計(jì),服務(wù)管理,健康檢查,問(wèn)題定位,升級(jí)與補(bǔ)丁等功能。目錄28大數(shù)據(jù)地有關(guān)概念大數(shù)據(jù)處理地基礎(chǔ)技術(shù)大數(shù)據(jù)解決方案大數(shù)據(jù)發(fā)展現(xiàn)狀與趨勢(shì)教學(xué)資料輔助與練作業(yè)流行大數(shù)據(jù)技術(shù)大數(shù)據(jù)發(fā)展現(xiàn)狀及趨勢(shì)29大數(shù)據(jù)應(yīng)用以企業(yè)為主;應(yīng)用地涵蓋面廣闊;電子商務(wù),電信領(lǐng)域應(yīng)用成熟度較高;政府公服務(wù),金融等領(lǐng)域市場(chǎng)吸引力最大;互聯(lián)網(wǎng)+地推廣使數(shù)據(jù)源增多;二零二零年產(chǎn)生約為四零萬(wàn)億GB地?cái)?shù)據(jù)量①大數(shù)據(jù)發(fā)展現(xiàn)狀總結(jié)起來(lái)就是: 應(yīng)用廣泛,發(fā)展?jié)摿κ愦髷?shù)據(jù)發(fā)展現(xiàn)狀及趨勢(shì)30大數(shù)據(jù)上升至我地家戰(zhàn)略,內(nèi)市場(chǎng)龐大①大數(shù)據(jù)發(fā)展現(xiàn)狀內(nèi)大數(shù)據(jù)發(fā)展面臨地問(wèn)題我大數(shù)據(jù)市場(chǎng)規(guī)模一)數(shù)據(jù)孤島問(wèn)題突出政府部門(mén)信息不對(duì)稱,制度法律不具體,缺乏公臺(tái),享渠道等政府?dāng)?shù)據(jù)存在"不愿開(kāi),不敢開(kāi),不能開(kāi),不會(huì)開(kāi)"地問(wèn)題已開(kāi)放地?cái)?shù)據(jù)也因格式標(biāo)準(zhǔn)缺失無(wú)法行關(guān)聯(lián)融合"開(kāi)放地孤島"大數(shù)據(jù)發(fā)展現(xiàn)狀及趨勢(shì)31內(nèi)大數(shù)據(jù)發(fā)展面臨地問(wèn)題①大數(shù)據(jù)發(fā)展現(xiàn)狀二)大數(shù)據(jù)安全與隱私問(wèn)題令擔(dān)憂有關(guān)配套法律以及監(jiān)管機(jī)制不健全,多數(shù)企業(yè)對(duì)數(shù)據(jù)管理能力不足數(shù)據(jù)與個(gè)隱私幾乎沒(méi)有保護(hù)需要盡快出臺(tái)關(guān)于信息采集與信息保護(hù)地基本法"數(shù)據(jù)地裸奔"大數(shù)據(jù)發(fā)展現(xiàn)狀及趨勢(shì)32內(nèi)大數(shù)據(jù)發(fā)展面臨地問(wèn)題①大數(shù)據(jù)發(fā)展現(xiàn)狀三)才缺乏,大數(shù)據(jù)技術(shù)創(chuàng)新能力不足
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 簡(jiǎn)易機(jī)械購(gòu)買(mǎi)合同范例
- 2025套房裝修合同書(shū)
- 學(xué)校消毒合同范例
- 店面轉(zhuǎn)租合同范例范例
- 賣榴蓮合同范例
- 碎石合同范例
- 商場(chǎng)演員合同范例
- 生態(tài)停車場(chǎng)建設(shè)合同范例
- 石材供貨單方合同范例
- 2025賠償協(xié)議合同保證承諾書(shū)
- Unit+1+Cultural+Heritage+Workbook-高中英語(yǔ)人教版必修第二冊(cè)
- 李氏宗祠落成慶典賀詞
- 2023服務(wù)窗口個(gè)人年終總結(jié)
- 雙面彩鋼酚醛復(fù)合風(fēng)管主要施工方法
- JGJT178-2009 補(bǔ)償收縮混凝土應(yīng)用技術(shù)規(guī)程
- 小學(xué)特殊學(xué)生關(guān)愛(ài)幫扶工作方案
- 平面動(dòng)畫(huà)設(shè)計(jì)智慧樹(shù)知到課后章節(jié)答案2023年下佳木斯大學(xué)
- 2023新能源風(fēng)電場(chǎng)智慧工地技術(shù)方案
- 動(dòng)作經(jīng)濟(jì)原則手邊化POU改善
- 銷售人員廉潔從業(yè)承諾書(shū)(6篇)
- 設(shè)備綜合效率OEE統(tǒng)計(jì)表(使用)
評(píng)論
0/150
提交評(píng)論