




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)平臺(tái)技術(shù)方案
1.大數(shù)據(jù)平臺(tái)技術(shù)方案............................建吳!未定義書簽。
技術(shù)路線.........................................專笥吳!未定義書簽。
動(dòng)靜態(tài)信息交換..................................錯(cuò)誤!未定義書簽。
系統(tǒng)概述.....................................錯(cuò)誤!未定義書簽。
數(shù)據(jù)采集服務(wù)................................錯(cuò)誤!未定義書簽。
數(shù)據(jù)采集服務(wù)配置............................錯(cuò)誤!未定義書簽。
平臺(tái)認(rèn)證服務(wù)................................錯(cuò)誤!未定義書簽。
動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù).....................錯(cuò)誤味定義書簽。
負(fù)載均衡服務(wù)................................錯(cuò)誤味定義書簽。
協(xié)議分析轉(zhuǎn)換功能............................錯(cuò)誤!未定義書簽。
動(dòng)靜態(tài)數(shù)據(jù)分發(fā)服務(wù).........................錯(cuò)誤味定義書簽。
數(shù)據(jù)分發(fā)服務(wù)配置............................錯(cuò)誤!未定義書簽。
數(shù)據(jù)緩存服務(wù)................................錯(cuò)誤!未定義書簽。
數(shù)據(jù)交換信息日志............................錯(cuò)誤!未定義書簽。
大數(shù)據(jù)存儲(chǔ).......................................錯(cuò)誤!未定義書簽。
數(shù)據(jù)倉(cāng)庫工具.錯(cuò)誤!未定義書簽。
大數(shù)據(jù)在線存儲(chǔ)錯(cuò)誤!未定義書簽。
大數(shù)據(jù)離線存儲(chǔ)錯(cuò)誤!未定義書簽。
數(shù)據(jù)清洗轉(zhuǎn)換.錯(cuò)誤!未定義書簽。
流數(shù)據(jù)處理框架錯(cuò)誤!未定義書簽。
分布式ETL工具錯(cuò)誤!未定義書簽。
ETL功能介紹錯(cuò)誤!未定義書簽。
大數(shù)據(jù)處理錯(cuò)誤!未定義書簽。
實(shí)時(shí)數(shù)據(jù)流處理錯(cuò)誤!未定義書簽。
數(shù)據(jù)挖掘分析引擎,錯(cuò)誤!未定義書簽。
大數(shù)據(jù)服務(wù)引擎錯(cuò)誤!未定義書簽。
大數(shù)據(jù)配置服務(wù)管理錯(cuò)誤!未定義書簽。
大數(shù)據(jù)在線分析錯(cuò)誤!未定義書簽。
大數(shù)據(jù)離線分析錯(cuò)誤!未定義書簽。
大數(shù)據(jù)可視化管理.錯(cuò)誤!未定義書簽。
大數(shù)據(jù)全文檢索錯(cuò)誤!未定義書簽。
調(diào)度與業(yè)務(wù)監(jiān)控錯(cuò)誤!未定義書簽。
資源與安全錯(cuò)誤!未定義書簽。
租戶管理.錯(cuò)誤!未定義書簽。
資源分配'錯(cuò)誤!未定義書簽。
權(quán)限管理.錯(cuò)誤!未定義書簽。
接口封裝錯(cuò)誤!未定義書簽。
1.大數(shù)據(jù)平臺(tái)技術(shù)方案
1.1概述
大數(shù)據(jù)平臺(tái)必須具有高度可擴(kuò)展性、實(shí)時(shí)性、高性能、低延遲分析、高度容錯(cuò)
性、可用性、支持異構(gòu)環(huán)境、開放性、易用性,同時(shí)也希望具有較低成本;其核心
技術(shù)包括大規(guī)模數(shù)據(jù)流處理技術(shù)以及大規(guī)模數(shù)據(jù)管理、分析技術(shù)。
系統(tǒng)技術(shù)架構(gòu)采用面向服務(wù)的體系結(jié)構(gòu)(Service-OrientedArchitecture,
SOA),遵循分層原則,每一層為上層提供服務(wù)。將大數(shù)據(jù)平臺(tái)進(jìn)行逐層解析,
從下至上分別是數(shù)據(jù)接口層、文件存儲(chǔ)層、數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)分析層、數(shù)據(jù)層、
業(yè)務(wù)控制層、表現(xiàn)層、系統(tǒng)監(jiān)控層。
(1)數(shù)據(jù)接口層:為保證數(shù)據(jù)接入層的接口靈活性,采用Restful風(fēng)格
接口實(shí)現(xiàn)方式,Restful有輕量級(jí)以及通過HTTP直接傳輸數(shù)據(jù)的特性,Web
服務(wù)的RESTful方法已經(jīng)成為最常見的方法。同時(shí)數(shù)據(jù)的接入及交換采用
Kafka集群和WebService方式,Kafka是一種高吞吐量的分布式發(fā)布訂閱消
息系統(tǒng),可以滿足系統(tǒng)與大數(shù)據(jù)平臺(tái)的高并發(fā)量數(shù)據(jù)交換。WebService是一
個(gè)平臺(tái)獨(dú)立的,低耦合的,自包含的、基于可編程的web的應(yīng)用程序,可使用
開放的XM標(biāo)準(zhǔn)來描述、發(fā)布、發(fā)現(xiàn)、協(xié)調(diào)和配置這些應(yīng)用程序,用于開發(fā)分
布式的互操作的應(yīng)用程序。
(2)文件存儲(chǔ)層:為滿足大數(shù)據(jù)的存儲(chǔ)要求,文件存儲(chǔ)采用HDFS文件
系統(tǒng),Hadoop分布式文件系統(tǒng)(HDFS)是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署
在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集
上的應(yīng)用。
(3)數(shù)據(jù)存儲(chǔ)層:根據(jù)本工程數(shù)據(jù)資源設(shè)計(jì)的需要,數(shù)據(jù)存儲(chǔ)分別采用關(guān)
系數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫Redis、分布式大數(shù)據(jù)存儲(chǔ)。
(4)數(shù)據(jù)分析層:采用Storm技術(shù)完成實(shí)時(shí)流分析的需求,Storm是一
個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)??梢苑奖愕卦谝粋€(gè)計(jì)算機(jī)集群中編寫與擴(kuò)
展復(fù)雜的實(shí)時(shí)計(jì)。采用MapReduce和Spark實(shí)現(xiàn)離線分析。Spark是類
HadoopMapReduce的通用并行框架,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
等需要迭代的MapReduce的算法。
(5)數(shù)據(jù)接入層:應(yīng)用與數(shù)據(jù)庫的交互采用JDBC級(jí)Hibernate技術(shù)實(shí)
現(xiàn)。Hibernate是一個(gè)開放源代碼的對(duì)象關(guān)系映射框架,它對(duì)JDBC進(jìn)行了非
常輕量級(jí)的對(duì)象封裝,它將POJO與數(shù)據(jù)庫表建立映射關(guān)系,是一個(gè)全自動(dòng)的
orm框架,hibernate可以自動(dòng)生成SQL語句,自動(dòng)執(zhí)行,使得Java程序員
可以隨心所欲的使用對(duì)象編程思維來操縱數(shù)據(jù)庫。
(6)業(yè)務(wù)控制層:采用當(dāng)今最流行的輕量級(jí)Java開發(fā)框架Spring,同
時(shí)與SpringMVC整合。Spring具有輕量、低侵入式設(shè)計(jì)、方便解耦,簡(jiǎn)化
開發(fā)、AOP編程的支持、方便集成各種優(yōu)秀框架等優(yōu)點(diǎn)。
(7)表現(xiàn)層:采用EasyUI,Ajax,FreeMarker,JavaScript技術(shù),這
些技術(shù)能極大提高開發(fā)效率,同時(shí)能滿足工程中各種復(fù)雜的前端展現(xiàn)要求。
(8)監(jiān)控層:采用Zookeeper分布式服務(wù)框架。主要是用來解決分布
式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,如:統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、
集群管理、分布式應(yīng)用配置項(xiàng)的管理等。它的作用主要是用來維護(hù)和監(jiān)控你存
儲(chǔ)的數(shù)據(jù)的狀態(tài)變化。通過監(jiān)控這些數(shù)據(jù)狀態(tài)的變化,從而可以達(dá)到基于數(shù)據(jù)
的集群管理。
1.2動(dòng)靜態(tài)信息交換
1.2.1系統(tǒng)概述
動(dòng)靜態(tài)信息交換建立目的是通過標(biāo)準(zhǔn)的規(guī)范性數(shù)據(jù)接口定義,實(shí)現(xiàn)采集各類動(dòng)
態(tài)和靜態(tài)數(shù)據(jù),實(shí)現(xiàn)與接入平臺(tái)的數(shù)據(jù)通信與交換共享。
數(shù)據(jù)采集交換系統(tǒng)根據(jù)數(shù)據(jù)交換的對(duì)象和內(nèi)容的不同,服務(wù)對(duì)象包括省市級(jí)管
理機(jī)構(gòu)等。數(shù)據(jù)交換平臺(tái)包含一系列的服務(wù),如:數(shù)據(jù)采集服務(wù)、平臺(tái)認(rèn)證服務(wù)、
發(fā)布訂閱服務(wù)等。
1.2.2數(shù)據(jù)采集服務(wù)
數(shù)據(jù)采集服務(wù)采集各級(jí)行業(yè)管理部門、各行業(yè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)信息,對(duì)這些靜
動(dòng)態(tài)數(shù)據(jù)進(jìn)行收集,用以進(jìn)行后續(xù)操作。
數(shù)據(jù)采集模塊按照定義的接口規(guī)范進(jìn)行連接、響應(yīng)、接收、發(fā)送處理。接收各
級(jí)行業(yè)管理部門報(bào)送的數(shù)據(jù)。
1.2.3數(shù)據(jù)采集服務(wù)配置
針對(duì)上報(bào)大數(shù)據(jù)管理平臺(tái)的信息,靈活配置其可采集的服務(wù)種類,來源,卬
地址,采集的數(shù)據(jù)類型以及服務(wù)方式,使數(shù)據(jù)的采集更加靈活可控。
數(shù)據(jù)采集服務(wù)配置模塊的主要功能有:
(D動(dòng)態(tài)配置服務(wù)。根據(jù)卬、數(shù)據(jù)類型和服務(wù)方式對(duì)服務(wù)進(jìn)行動(dòng)態(tài)配置。
(2)對(duì)接入數(shù)據(jù)進(jìn)行驗(yàn)證。不允許非配置內(nèi)的服務(wù)接入數(shù)據(jù),允許配置內(nèi)的服
務(wù)接入數(shù)據(jù)。
1.2.4平臺(tái)認(rèn)證服務(wù)
為了保障數(shù)據(jù)服務(wù)的安全性,在傳輸數(shù)據(jù)之前,需要先通過接口進(jìn)行登錄認(rèn)
證,從而確定數(shù)據(jù)交換平臺(tái)及權(quán)限,以及平臺(tái)接入的有效期。
平臺(tái)認(rèn)證模塊主要功能有:
根據(jù)平臺(tái)信息進(jìn)行登錄認(rèn)證。根據(jù)申請(qǐng)接入的其他平臺(tái)或者系統(tǒng)的相關(guān)信息,
對(duì)該平臺(tái)或者系統(tǒng)進(jìn)行身份驗(yàn)證。
根據(jù)認(rèn)證結(jié)果獲取登錄權(quán)限和有效期等信息。如果膜證通過,則允許接入系
統(tǒng),如果驗(yàn)證不通過,則不允許接入。
1.2.5動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱服務(wù)
發(fā)布訂閱服務(wù)根據(jù)分發(fā)調(diào)度策略,判斷采集動(dòng)靜態(tài)數(shù)據(jù)屬于某個(gè)地市,發(fā)布
到該地市的主題,存儲(chǔ)到消息隊(duì)列,記錄日志。
動(dòng)靜態(tài)數(shù)據(jù)發(fā)布訂閱模塊的主要功能有:
(1)獲取信息,將數(shù)據(jù)存儲(chǔ)到消息隊(duì)列。根據(jù)接入數(shù)據(jù)的相關(guān)信息,獲取對(duì)應(yīng)
的信息。
(2)記錄日志信息。將信息下發(fā)到相應(yīng)的消息隊(duì)列,并記錄日志信息。
1.2.6負(fù)載均衡服務(wù)
根據(jù)數(shù)據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載分析與數(shù)據(jù)的多路徑流向調(diào)整,用以
減小平臺(tái)壓力,提高平臺(tái)的運(yùn)行效率。
負(fù)載均衡模塊的主要功能是根據(jù)采集服務(wù)和分發(fā)服務(wù)進(jìn)行負(fù)載均衡處理。
1.2.7協(xié)議分析轉(zhuǎn)換功能
按協(xié)議規(guī)范對(duì)上報(bào)數(shù)據(jù)進(jìn)行解析,對(duì)分發(fā)的數(shù)據(jù)進(jìn)行封裝,實(shí)現(xiàn)與其他平臺(tái)
的數(shù)據(jù)準(zhǔn)確對(duì)接。
協(xié)議分析轉(zhuǎn)換模塊的主要功能有:
(1)按協(xié)議規(guī)范對(duì)上報(bào)數(shù)據(jù)進(jìn)行解析。對(duì)接入的數(shù)據(jù),按照預(yù)先指定的協(xié)議進(jìn)
行解析,方便在系統(tǒng)中的處理和流通。
(2)對(duì)分發(fā)的數(shù)據(jù)進(jìn)行封裝。對(duì)于系統(tǒng)處理過的數(shù)據(jù),要根據(jù)預(yù)先指定的協(xié)議,
將數(shù)據(jù)進(jìn)行打包封裝,然后下發(fā)到其他平臺(tái)或者系統(tǒng)。
1.2.8動(dòng)靜態(tài)數(shù)據(jù)分發(fā)服務(wù)
根據(jù)各級(jí)數(shù)據(jù)請(qǐng)求,按照定義的接口規(guī)范進(jìn)行連接、響應(yīng)、按主題分發(fā)處理。
分發(fā)各類動(dòng)靜態(tài)信息。
⑴按照定義的接口規(guī)范進(jìn)行連接響應(yīng)。
(2)對(duì)數(shù)據(jù)按照主題進(jìn)行分發(fā)。根據(jù)接入數(shù)據(jù)的相關(guān)信息,從而獲取相關(guān)的數(shù)
據(jù)需求方信息,并且獲取相應(yīng)的主題信息,并將數(shù)據(jù)按照主題下發(fā)到相應(yīng)的平臺(tái)。
1.2.9數(shù)據(jù)分發(fā)服務(wù)配置
針對(duì)分發(fā)平臺(tái)的信息,靈活配置分發(fā)的服務(wù)種類,分發(fā)的數(shù)據(jù)類型以及服務(wù)
方式,實(shí)現(xiàn)分發(fā)的靈活可控性。
數(shù)據(jù)分發(fā)服務(wù)配置模塊的主要功能有:
(D獲取將要分發(fā)的平臺(tái)的信息。根據(jù)系統(tǒng)中提供的其他平臺(tái)的相關(guān)數(shù)據(jù),獲
取將要分發(fā)的平臺(tái)的相關(guān)信息,方便后續(xù)數(shù)據(jù)的分發(fā)。
(2)根據(jù)平臺(tái)的信息配置要進(jìn)行分發(fā)的服務(wù)。根據(jù)已經(jīng)獲取的相關(guān)的平臺(tái)的數(shù)
據(jù),對(duì)平臺(tái)的服務(wù)信息進(jìn)行配置。
1.2.10數(shù)據(jù)緩存服務(wù)
數(shù)據(jù)緩存服務(wù)主要提供本項(xiàng)目動(dòng)態(tài)信息內(nèi)存緩存、持久化存儲(chǔ)當(dāng)前點(diǎn)以及緩
存預(yù)處理的數(shù)據(jù),向數(shù)據(jù)應(yīng)用提供快速訪問中間數(shù)據(jù)源。
數(shù)據(jù)緩存模塊的主要功能是進(jìn)行數(shù)據(jù)緩存,如內(nèi)存緩存、持久化存儲(chǔ)當(dāng)前點(diǎn)
以及緩存預(yù)處理網(wǎng)格信息等數(shù)據(jù)。
1.2.11數(shù)據(jù)交換信息日志
記錄數(shù)據(jù)采集以及分發(fā)的數(shù)據(jù)量,為驗(yàn)證數(shù)據(jù)交換的完整性、可追溯性以及
可視性打下基礎(chǔ)。
數(shù)據(jù)交換信息日志模塊的主要功能有:
(1)記錄數(shù)據(jù)采集獲取的數(shù)據(jù)量。在進(jìn)行數(shù)據(jù)交互時(shí),記錄接入的數(shù)據(jù)的數(shù)據(jù)
量信息。
(2)記錄數(shù)據(jù)分發(fā)的數(shù)據(jù)量。在進(jìn)行數(shù)據(jù)的交互時(shí),記錄分發(fā)的數(shù)據(jù)的數(shù)據(jù)量
1.3大數(shù)據(jù)存儲(chǔ)
根據(jù)業(yè)務(wù)類型,數(shù)據(jù)劃分為基礎(chǔ)信息數(shù)據(jù)庫、主題數(shù)據(jù)庫、業(yè)務(wù)數(shù)據(jù)庫三大
數(shù)據(jù)庫。其中基礎(chǔ)數(shù)據(jù)庫存儲(chǔ)行業(yè)的靜態(tài)數(shù)據(jù)以實(shí)現(xiàn)與實(shí)時(shí)數(shù)據(jù)的快速擬合;主
題數(shù)據(jù)庫各類主題數(shù)據(jù);業(yè)務(wù)庫存儲(chǔ)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)。根據(jù)數(shù)據(jù)的使用時(shí)效分為
在線存儲(chǔ)、離線存儲(chǔ)。
1.3.1數(shù)據(jù)倉(cāng)庫工具
隨著大數(shù)據(jù)平臺(tái)不斷的接入海量數(shù)據(jù),大數(shù)據(jù)平臺(tái)引入數(shù)據(jù)倉(cāng)庫技術(shù)來解決
各類業(yè)務(wù)問題。數(shù)據(jù)倉(cāng)庫是一個(gè)抽象的概念所以可以簡(jiǎn)單的理解為不同粒度的數(shù)
據(jù)層,比如:數(shù)據(jù)緩沖層(存放當(dāng)日增量數(shù)據(jù))、數(shù)據(jù)明細(xì)層(存放最全的明細(xì)數(shù)據(jù))、
數(shù)據(jù)模型層(輕粒度的數(shù)據(jù)匯總以及模型設(shè)計(jì),這個(gè)時(shí)候需要設(shè)計(jì)相應(yīng)的主題)、數(shù)
據(jù)集市層(一般就是一些寬表,包含多維度和指標(biāo),方便用來做多維分析)、數(shù)據(jù)應(yīng)
用層(主要是開放給業(yè)務(wù)側(cè)使用,多存放粗粒度的數(shù)據(jù)報(bào)表)。通過數(shù)據(jù)倉(cāng)庫模型為
各類應(yīng)用提供數(shù)據(jù)支撐。
1.3.2大數(shù)據(jù)在線存儲(chǔ)
大數(shù)據(jù)在線存儲(chǔ)存儲(chǔ)臨時(shí)性的數(shù)據(jù),提供高效數(shù)據(jù)索引,面向列的高可靠性、
高性能、可伸縮的分布式存儲(chǔ),以及面向RMDB的數(shù)據(jù)導(dǎo)入與導(dǎo)出功能。大數(shù)據(jù)
在線存儲(chǔ)子系統(tǒng)提供簡(jiǎn)化編程模型支持、容錯(cuò)、橫向線性擴(kuò)展等特性。
在線存儲(chǔ)主要利用Hbase列式數(shù)據(jù)庫做為主在線存儲(chǔ)。
在線存儲(chǔ)的技術(shù)架構(gòu)如上圖所示,其中:
HBaseClient使用HBase的RPC機(jī)制與HMaster和HRegionServeriS
行通信。對(duì)于管理類操作(如建表,刪表等),Client和HMaster進(jìn)行RPC;
對(duì)于數(shù)據(jù)讀寫類操作,Client和HRegionServer進(jìn)行RPC.
每臺(tái)HRegionServer都會(huì)與HMaster進(jìn)行il信,HMaster的主要任務(wù)就
是要告訴每臺(tái)HRegionServer它要維護(hù)哪些HRegion。當(dāng)一臺(tái)新的
HRegionserver登錄到HMaster時(shí),HMaster會(huì)告訴它等待分配數(shù)據(jù)。而當(dāng)
一臺(tái)HRegion死機(jī)時(shí),HMaster會(huì)把它負(fù)責(zé)的HRegion標(biāo)記為未分配,然后
再把它們分配到其他的HRegionServer中。HBase通過多個(gè)HMaster實(shí)例和
Zookeeper的協(xié)調(diào)功能解決了HMaster單點(diǎn)故障問。HMaster在功能上主要
負(fù)責(zé)Table和Region的管理工作。
HRegionserver主要負(fù)責(zé)響應(yīng)用戶I/O請(qǐng)求,向HDFS文件系統(tǒng)中讀寫數(shù)
據(jù),是HBase中最核心的模塊。
HBase能提供實(shí)時(shí)計(jì)算服務(wù)是由其架構(gòu)和底層的數(shù)據(jù)結(jié)構(gòu)決定的,即由
LSM-Tree(Log-StructuredMerge-Tree)+HTable(region分區(qū))+Cache
決定一客戶端可以直接定位到要查數(shù)據(jù)所在的HRegionserver服務(wù)器,然后
直接在服務(wù)器的一個(gè)region上查找要匹配的數(shù)據(jù),并且這些數(shù)據(jù)部分是經(jīng)過
cache緩存的。
包括以下功能:
(1)高效數(shù)據(jù)索引
HBase讀取首先會(huì)在緩存中直找,它采用了LRU(最近最少使用算法),如
果緩存中沒找到,會(huì)從內(nèi)存中的MemStore中蟄找,只有這兩個(gè)地方都找不到時(shí),
才會(huì)加載HFile中的內(nèi)容,而使用了LSM樹型結(jié)構(gòu)的HFile節(jié)省了尋道開銷,讀
取速度也會(huì)很快。
(2)分布式存儲(chǔ)
HBase存儲(chǔ)的文件系統(tǒng)使用HDFS分布式存儲(chǔ)系統(tǒng),每張表都通過行鍵按照
一定的范圍被分割成多個(gè)子表(HRegion),默認(rèn)一個(gè)HRegion超過預(yù)設(shè)大,JX默
認(rèn)256M)就要被分割成兩介。HRegionServer存取一個(gè)子表時(shí),會(huì)創(chuàng)建一個(gè)
HRegion對(duì)象,然后對(duì)表的每個(gè)列族(ColumnFamily)創(chuàng)建一個(gè)Store實(shí)例,
每個(gè)Store都會(huì)有0個(gè)或多個(gè)StoreFile與之對(duì)應(yīng),每介StoreFile都會(huì)對(duì)應(yīng)一
介HFile,HFile就是實(shí)際的存儲(chǔ)文件。
1.3.3大數(shù)據(jù)離線存儲(chǔ)
大數(shù)據(jù)離線存儲(chǔ)通過HDFS分布式文件系統(tǒng)技術(shù)為平臺(tái)提供穩(wěn)定可靠的存儲(chǔ)
支持。離線存儲(chǔ)保存了所有歷史數(shù)據(jù)。
大數(shù)據(jù)離線存儲(chǔ)提供的功能包括:容錯(cuò)機(jī)制、集群資源管理、存儲(chǔ)資源的訪
間隔離和橫向擴(kuò)展、數(shù)據(jù)的鏡像和冗余等功能。
(1)容錯(cuò)機(jī)制
HDFS通過多方面保證數(shù)據(jù)的可靠性,實(shí)現(xiàn)了高容錯(cuò)功能:多份復(fù)制并且分
布到物理位置的不同服務(wù)器上、數(shù)據(jù)校驗(yàn)功能、后臺(tái)的連續(xù)自檢數(shù)據(jù)一致性功能。
(2)集群資源管理
①元數(shù)據(jù)節(jié)點(diǎn)用來管理文件系統(tǒng)的命名空間;數(shù)據(jù)節(jié)點(diǎn)是文件系統(tǒng)中真正
存儲(chǔ)數(shù)據(jù)的地方,其周期性的向元數(shù)據(jù)節(jié)點(diǎn)回報(bào)其存儲(chǔ)的數(shù)據(jù)塊信息。
②HDFS文件系統(tǒng)檢查工具FSCK可以檢蟄HDFS系統(tǒng)的健康狀況。
③一旦數(shù)據(jù)發(fā)生異常,NameNode可進(jìn)入安全模式,便于數(shù)據(jù)的恢復(fù)。
④每一個(gè)DataNode都會(huì)周期性運(yùn)行一個(gè)數(shù)據(jù)掃描線程,它可以檢測(cè)并通
過修復(fù)命令來修復(fù)壞塊或丟失的數(shù)據(jù)塊。
(3)存儲(chǔ)資源的訪問隔離
①用戶提交作業(yè)時(shí),JobTracker端要進(jìn)行身份核實(shí),先是驗(yàn)證到底是不是
這個(gè)人,即通過檢蟄執(zhí)行當(dāng)前代碼的人與JobConf中的中的用戶是否一致。
②然后會(huì)檢蟄ACL(AccessControlList)配置文件(由管理員配置)看你是
否有提交作業(yè)的權(quán)限。一旦你通過驗(yàn)證,會(huì)獲取HDFS或者mapreduce授予的
delegationtoken(訪問不同模塊有不同的delegationtoken)。
③之后的任何操作,比如訪問文件,均要檢查該token是否存在,且使用
者跟之前注冊(cè)使用該token的人是否一致。
另外HDFSFederation方案允許HDFS創(chuàng)建多個(gè)namespace以提高集群
的隔離性。
(4)存儲(chǔ)資源的橫向擴(kuò)展
①可擴(kuò)展性是HDFS的一個(gè)重要特性,向HDFS集群中添加或刪除節(jié)點(diǎn),
可以通過簡(jiǎn)單操作即可完成。新增或刪除DataNode節(jié)點(diǎn)時(shí),會(huì)導(dǎo)致數(shù)據(jù)塊分布
的不均勻,用戶可以使用balance命令重新平衡DataNode上的數(shù)據(jù)塊的分布。
②HDFSFederation方案使用了多個(gè)獨(dú)立的Namenode/namespace
來使得HDFS的命名服務(wù)能夠水平擴(kuò)展成聯(lián)合集群
(5)數(shù)據(jù)的鏡像和冗余
①冗余備份:HDFS將每個(gè)文件存儲(chǔ)成一系列的數(shù)據(jù)塊(Block),默認(rèn)塊
大小為64MB(可以自定義配置X為了容錯(cuò),文件的所有數(shù)據(jù)塊都可以有副本(默
認(rèn)為3個(gè),可以自定義配置X當(dāng)DataNode啟動(dòng)的時(shí)候,它會(huì)遍歷本地文件系
統(tǒng),產(chǎn)生一份HDFS數(shù)據(jù)塊和本地文件對(duì)應(yīng)關(guān)系的列表,并把這個(gè)報(bào)告發(fā)送給
NameNode,這就是報(bào)告塊(BlockReport),報(bào)告塊上包含了DataNode上
所有塊的列表。
②副本存放:HDFS集群一般運(yùn)行在多個(gè)機(jī)架上,不同機(jī)架上機(jī)器的通信
需要通過交換機(jī)。通常情況下,副本的存放策略很關(guān)鍵,機(jī)架內(nèi)節(jié)點(diǎn)之間的帶寬
比跨機(jī)架節(jié)點(diǎn)之間的帶寬要大,它能影響HDFS的可靠性和性能。HDFS采用一
種稱為機(jī)架感知(Rack-aware)的策略來改進(jìn)數(shù)據(jù)的可靠性、可用性和網(wǎng)絡(luò)帶寬
的利用率。在大多數(shù)情況下,HDFS副本系數(shù)是默認(rèn)為3,HDFS的存放策略是將
一個(gè)副本存放在本地機(jī)架節(jié)點(diǎn)上,一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上,
最后一個(gè)副本放在不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸,提高
了寫操作的效率。機(jī)架整體出現(xiàn)錯(cuò)誤的幾率遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的少,所以這種策略不會(huì)
影響到數(shù)據(jù)的可靠性和可用性。
1.4數(shù)據(jù)清洗轉(zhuǎn)換
大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)清洗轉(zhuǎn)換工具,提供了一個(gè)強(qiáng)健、高效的數(shù)據(jù)處理引擎,
支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的高效運(yùn)行。引擎采取異步并行處
理的技術(shù),實(shí)現(xiàn)流程中的每個(gè)組件多線程并行高效處理;支持集群部署方式,允
許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在多臺(tái)服務(wù)器上并發(fā)執(zhí)行,從
而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_(tái)服務(wù)器上,從而提高數(shù)據(jù)處理效率。
1.4.1流數(shù)據(jù)處理框架
流數(shù)據(jù)處理框架是針對(duì)流式數(shù)據(jù)提供的可在分布式環(huán)境下運(yùn)行的組件和程序
框架,將針對(duì)實(shí)時(shí)數(shù)據(jù)的清洗、轉(zhuǎn)換、計(jì)算程序在此框架下編寫,運(yùn)行在流數(shù)據(jù)
處理組件中,從分布式消息隊(duì)列中獲取相應(yīng)的實(shí)時(shí)數(shù)據(jù),經(jīng)過程序的處理后,推
送到相應(yīng)的位置中。例如實(shí)時(shí)流數(shù)據(jù)、路況數(shù)據(jù)等,經(jīng)過清洗轉(zhuǎn)換后,根據(jù)業(yè)務(wù)
的需要推送到分布式文件系統(tǒng)、數(shù)據(jù)庫或者其他的存儲(chǔ)中。
1.4.2分布式ETL工具
將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)
至目的端的過程,支持分布式的部署方式,支持關(guān)系數(shù)據(jù)庫、文件,支持SQL語
句,操作簡(jiǎn)單容易上手,對(duì)抽取、轉(zhuǎn)換、加載過程可監(jiān)控。
公路路網(wǎng)道路地理數(shù)據(jù)等可開放直連數(shù)據(jù)庫接口,此時(shí)可以使用分布式ETL
工具從開放的數(shù)據(jù)庫接口中將路網(wǎng)道路地理數(shù)據(jù)抽取出來,經(jīng)過工具轉(zhuǎn)換后,存
入到分布式文件系統(tǒng)中。
1.4.3ETL功能介紹
1.4.3.1ETL弓|擎
提供任務(wù)引擎和轉(zhuǎn)換引擎,支撐各種復(fù)雜的數(shù)據(jù)轉(zhuǎn)換流程、任務(wù)調(diào)度流程的
高效運(yùn)行,為大塊、大批量、異構(gòu)的數(shù)據(jù)的整合提供堅(jiān)實(shí)保障。
1.4.3.2數(shù)據(jù)處理組件
大量的任務(wù)組件和轉(zhuǎn)換組件,用戶可以通過拖拽的方式快速完成各種復(fù)雜數(shù)
據(jù)集成需求和集成的調(diào)度控制。提供的轉(zhuǎn)換組件覆蓋數(shù)據(jù)映射、數(shù)據(jù)豐富、數(shù)據(jù)
計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)排序、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)生成、數(shù)據(jù)去重、數(shù)據(jù)
分組、行列轉(zhuǎn)換等復(fù)雜處理,提供的任務(wù)組件涵蓋定時(shí)調(diào)度、周期循環(huán)調(diào)度等調(diào)
度模式組件、以及數(shù)據(jù)處理的一些前置、后置檢蟄操作等。
L4.3.3數(shù)據(jù)抽取模式
支持各種數(shù)據(jù)抽取模式,如全量同步、增量同步CDC(基于觸發(fā)器、基于時(shí)
間戳、全表比對(duì)、基于數(shù)據(jù)庫日志分析八單向同步、雙向同步、文件目錄同步
等。
基于數(shù)據(jù)庫日志分析的增量抽取支持?jǐn)?shù)據(jù)庫:Oracle,SqlServer2008,
Mysql5o
1.4.3.4圖形化操作
通過大量組件和可視化圖形界面,使用人員無需編碼,既可以靈活、方便地
定制出各種數(shù)據(jù)集成流程,又能夠減少手工代碼的錯(cuò)誤,還可以利用調(diào)試預(yù)覽及
時(shí)發(fā)現(xiàn)潛在錯(cuò)誤,提升集成質(zhì)量,并能對(duì)ETL服務(wù)器和資源庫進(jìn)行管理,全面提
高集成速度。
1.4.3.5高效數(shù)據(jù)處理
采用異步并行處理的方式實(shí)現(xiàn)數(shù)據(jù)的高效處理,每經(jīng)過一個(gè)組件就被加工成
一個(gè)既定格式的中間狀態(tài)。數(shù)據(jù)經(jīng)過一個(gè)組件的處理后被迅速交給下一個(gè)組件處
理,同時(shí)當(dāng)前的組件已經(jīng)開始處理新的數(shù)據(jù)。
提供集群部署方式,允許將轉(zhuǎn)換或轉(zhuǎn)換中的比較耗時(shí)的數(shù)據(jù)處理組件部署在
多臺(tái)服務(wù)器上并發(fā)執(zhí)行,從而將轉(zhuǎn)換的工作分?jǐn)偟蕉嗯_(tái)服務(wù)器上,提高數(shù)據(jù)處理
效率。
1.4.3.6異?;謴?fù)和數(shù)據(jù)一致性
任務(wù)流程提供多個(gè)調(diào)度機(jī)制和異?;謴?fù)機(jī)制,在異常后,支持自動(dòng)和手動(dòng)恢
復(fù)。異?;謴?fù)可以保證恢復(fù)的流程從異常點(diǎn)開始重新同步,保證數(shù)據(jù)的最終完整
性和一致性。
1.4.3.7監(jiān)控管理
提供基于JS+REST技術(shù)規(guī)范的前端界面和后臺(tái)數(shù)據(jù)提供相分離的統(tǒng)一管理
平臺(tái),界面風(fēng)格符合扁平化設(shè)計(jì)潮流。
提供對(duì)分布式網(wǎng)絡(luò)環(huán)境中部署的服務(wù)器運(yùn)行實(shí)例集中統(tǒng)一管理,包括對(duì)服務(wù)
器、流程的運(yùn)行狀態(tài)、運(yùn)行日志、執(zhí)行性能的蟄看,以及遠(yuǎn)程的啟動(dòng)、停止、暫
停、恢復(fù)等管理操作,支持統(tǒng)一的權(quán)限管理配置、錯(cuò)誤告警等功能。
提供插件管理機(jī)制,方便用戶安裝、卸載已有的功能插件,允許用戶自定義
自己的功能插件,并集成到統(tǒng)一管理平臺(tái)中。提供自定義面板功能,方便用戶在
一個(gè)視圖中集中展示自己關(guān)注的內(nèi)容。
提供Java、HTTP、REST等多種封裝形式的監(jiān)控管理接口,方便用戶快速將
監(jiān)控管理功能集成到自己的平臺(tái)中。
1.4.3.8插件式組件管理和可擴(kuò)展性
提供插件式的組件管理機(jī)制,對(duì)于特殊的場(chǎng)景,可以方便的進(jìn)行擴(kuò)展開發(fā),
如客戶自定義結(jié)構(gòu)的文本進(jìn)行轉(zhuǎn)換組件的定制開發(fā)、專有的應(yīng)用系統(tǒng)進(jìn)行適配器
的定制開發(fā)等,并以插件的方式集成使用。
1.5大數(shù)據(jù)處理
1.5.1實(shí)時(shí)數(shù)據(jù)流處理
實(shí)時(shí)性是數(shù)據(jù)處理的關(guān)鍵也是其價(jià)值得以實(shí)現(xiàn)的基礎(chǔ)。如流的實(shí)時(shí)監(jiān)控、擁
堵狀況的實(shí)時(shí)信息、誘導(dǎo)等應(yīng)用均要求系統(tǒng)能夠返回當(dāng)前的狀態(tài);在另一些場(chǎng)景
則需要進(jìn)行連續(xù)監(jiān)控,在技術(shù)上涉及連續(xù)查詢。這方面的功能需求已在第二節(jié)講
述。在構(gòu)建大數(shù)據(jù)處理平臺(tái)中,實(shí)時(shí)數(shù)據(jù)流處理子系統(tǒng)是關(guān)鍵系統(tǒng)之一。該系統(tǒng)
中涉及的關(guān)鍵技術(shù)包括:高速數(shù)據(jù)轉(zhuǎn)換,將獲取的事件數(shù)據(jù)流由隨機(jī)訪問格式轉(zhuǎn)
換為分布式并行分析格式,將幾分鐘前獲取的數(shù)據(jù)即時(shí)處理呈現(xiàn)最新分析結(jié)果;
靈活的資源分配方案,不同類型的數(shù)據(jù)處理組件(即事件處理服務(wù))與可伸縮分
布式鍵值存儲(chǔ)靈活連接,可以便捷地構(gòu)造新的服務(wù)而不影響現(xiàn)有系統(tǒng)的運(yùn)行;基
于滑動(dòng)窗口的連續(xù)計(jì)算技術(shù);自適應(yīng)負(fù)載平衡與資源分配優(yōu)化。
實(shí)時(shí)流數(shù)據(jù)處理基于流計(jì)算框架為平臺(tái)提供一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算
系統(tǒng),用于對(duì)接收的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算,例如支持車輛實(shí)時(shí)位置計(jì)算、車輛按行
政區(qū)劃分級(jí)聚合(到地區(qū)級(jí)X實(shí)時(shí)車輛蟄找、區(qū)域車輛異常聚集、相關(guān)運(yùn)營(yíng)指標(biāo)
實(shí)時(shí)計(jì)算等業(yè)務(wù)。實(shí)時(shí)流數(shù)據(jù)處理提供簡(jiǎn)化編程模型支持、容錯(cuò)、水平擴(kuò)展、可
靠消息處理等功能。
1.5.2數(shù)據(jù)挖掘分析引擎
數(shù)據(jù)挖掘分析是對(duì)清洗后的數(shù)據(jù),運(yùn)用數(shù)學(xué)算法,對(duì)其進(jìn)行數(shù)據(jù)運(yùn)行,并把
運(yùn)算后的結(jié)果模型保存起來,供業(yè)務(wù)程序的調(diào)用。
支持多種數(shù)據(jù)挖掘算法分析,可以生成分類、聚集、回歸模型,適應(yīng)在多種
行業(yè)的機(jī)器學(xué)習(xí)場(chǎng)景提供挖掘分析功能。
多種分布式機(jī)器學(xué)習(xí)、智能攙掘、統(tǒng)計(jì)分析計(jì)算框架
豐富的、功能齊全的行業(yè)分析數(shù)據(jù)模型,譬如分類、聚集,回歸
等應(yīng)用分析模型。
1.6大數(shù)據(jù)服務(wù)引擎
1.6.1大數(shù)據(jù)配置服務(wù)管理
根據(jù)各類業(yè)務(wù)系統(tǒng)的需求,進(jìn)行大數(shù)據(jù)配置服務(wù),支持方便靈活的數(shù)據(jù)應(yīng)用。
1.6.2大數(shù)據(jù)在線分析
大數(shù)據(jù)在線分析分析耗時(shí)較短的業(yè)務(wù)功能提供支撐。該模塊集成大數(shù)據(jù)分析
算法組件,面向用戶提供對(duì)業(yè)務(wù)的遠(yuǎn)程分析能力。用戶通過界面提交分析的需求、
參數(shù)或者是符合規(guī)約的算法,在大數(shù)據(jù)在線分析上完成大數(shù)據(jù)的搜索、分析、挖
掘和運(yùn)算,最終展示給用戶。具體功能包括:面向海量數(shù)據(jù)的全局掃描抽取、多
維視圖展示、信息挖掘與關(guān)聯(lián)分析、實(shí)時(shí)數(shù)據(jù)融合。在技術(shù)上使用Spark快速數(shù)
據(jù)處理框架實(shí)現(xiàn)。
在線分析系統(tǒng)主要是面向海量數(shù)據(jù)的全局掃描抽取、多維視圖展示、信息挖
掘與關(guān)聯(lián)分析、實(shí)時(shí)數(shù)據(jù)融合等分析工作。
SparkSQL可以實(shí)現(xiàn)多維度統(tǒng)計(jì)分析。
SparkMlib可以實(shí)現(xiàn)信息發(fā)掘和關(guān)聯(lián)分析。
SparkonYarn啟動(dòng)后,由SparkAppMasterReceiver作為一個(gè)Task
提交給某一個(gè)SparkExecutor;Receive啟動(dòng)后輸入數(shù)據(jù),生成數(shù)據(jù)塊,然后通
知SparkAppMaster;SparkAppMaster會(huì)根據(jù)數(shù)據(jù)塊生成相應(yīng)的Job,并
把Job的Task提交給空閑SparkExecutor執(zhí)行。圖中藍(lán)色的粗箭頭顯示被處
理的數(shù)據(jù)流,輸入數(shù)據(jù)流可以是磁盤、網(wǎng)絡(luò)和HDFS等,輸出可以是HDFS,數(shù)
據(jù)庫等。SparkStreaming的基本原理是將輸入數(shù)據(jù)流以時(shí)間片(秒級(jí))為單位
進(jìn)行拆分,然后以類似批處理的方式處理每個(gè)時(shí)間片數(shù)據(jù)。
SparkStreaming將流式計(jì)算分解成多個(gè)SparkJob,對(duì)于每一段數(shù)據(jù)的處
理都會(huì)經(jīng)過SparkDAG圖分解,以及Spark的任務(wù)集的調(diào)度過程。對(duì)于目前版
本的SparkStreaming而言,其最小的BatchSize的選取在?2秒鐘之間
(Storm目前最小的延遲是100ms左右),所以SparkStreaming能夠滿足除
對(duì)實(shí)時(shí)性要求非常高(如高頻實(shí)時(shí)交易)之外的所有流式準(zhǔn)實(shí)時(shí)計(jì)算場(chǎng)景。
1.6.3大數(shù)據(jù)離線分析
本子系統(tǒng)基于HDFS的分布式存儲(chǔ)技術(shù)、HadoopMapReduce并行計(jì)算技
術(shù),是支持大數(shù)據(jù)分析系統(tǒng)高效檢索和快速處理的基礎(chǔ),例如可以對(duì)車輛訂單和
軌跡序列進(jìn)行多要素、多層次、多時(shí)次、多范圍檢索分析和計(jì)算;針對(duì)跨年度、
跨區(qū)域的大規(guī)模車輛軌跡等歷史數(shù)據(jù)進(jìn)行離線分析,并能夠?qū)y(tǒng)計(jì)結(jié)果進(jìn)行在線
展示和下載。大數(shù)據(jù)離線分析提供數(shù)據(jù)蟄詢系統(tǒng)、行業(yè)管理相關(guān)功能提供底層數(shù)
據(jù)和計(jì)算的支持。
大數(shù)據(jù)離線分析的技術(shù)架構(gòu)圖如下:
MapReduce設(shè)計(jì)上具有以下主要的技術(shù)特征
(1)向“外”橫向獷展,而非向"上”縱向獷展
即MapReduce集群的構(gòu)建完全選用價(jià)格便宜、易于擴(kuò)展的低端商用服務(wù)器。
(2)失效被認(rèn)為是常態(tài)
MapReduce并行計(jì)算軟件框架使用了多種有效的錯(cuò)誤檢測(cè)和恢復(fù)機(jī)制,如
節(jié)點(diǎn)自動(dòng)重啟技術(shù),使集群和計(jì)算框架具有對(duì)付節(jié)點(diǎn)失效的健壯性,能有效處理
失效節(jié)點(diǎn)的檢測(cè)和恢復(fù)。
(3)把處理向數(shù)據(jù)遷移
為了減少大規(guī)模數(shù)據(jù)并行計(jì)算系統(tǒng)中的數(shù)據(jù)通信開銷,代之以把數(shù)據(jù)傳送到
處理節(jié)點(diǎn)(數(shù)據(jù)向處理器或代碼遷移),應(yīng)當(dāng)考慮將處理向數(shù)據(jù)靠攏和遷移。
MapReduce采用了數(shù)據(jù)/代碼互定位的技術(shù)方法,計(jì)算節(jié)點(diǎn)將首先盡量負(fù)責(zé)計(jì)算
其本地存儲(chǔ)的數(shù)據(jù),以發(fā)揮數(shù)據(jù)本地化特點(diǎn),僅當(dāng)節(jié)點(diǎn)無法處理本地?cái)?shù)據(jù)時(shí),再
采用就近原則尋找其他可用計(jì)算節(jié)點(diǎn),并把數(shù)據(jù)傳送到該可用計(jì)算節(jié)點(diǎn)。
(4)順序處理數(shù)據(jù)、避免隨機(jī)訪問數(shù)據(jù)
為了實(shí)現(xiàn)面向大數(shù)據(jù)集批處理的高吞吐量的并行處理,MapReduce可以利
用集群中的大量數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)同時(shí)訪問數(shù)據(jù),以此利用分布集群中大量節(jié)點(diǎn)上的
磁盤集合提供高帶寬的數(shù)據(jù)訪問和傳輸。
(5)為應(yīng)用開發(fā)者隱藏系統(tǒng)層細(xì)節(jié)
MapReduce提供了一種抽象機(jī)制將程序員與系統(tǒng)層細(xì)節(jié)隔離開來,程序員
僅需描述需要計(jì)算什么(Whattocompute),而具體怎么去計(jì)算(Howto
compute)就交由系統(tǒng)的執(zhí)行框架處理。
(6)平滑無縫的可獷展性
這里指出的可擴(kuò)展性主要包括兩層意義上的擴(kuò)展性:數(shù)據(jù)擴(kuò)展和系統(tǒng)規(guī)模擴(kuò)
展性。
①使用MapReduce進(jìn)行多維分析,首先能解決維度難以改變的問題,利
用HDFS中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來的數(shù)據(jù)本身就是包含大量冗余信息的。
同時(shí)也可以將大量冗余的維度信息整合到事實(shí)表中,這樣可以在冗余維度下靈活
地改變問題分析的角度。
②利用MapReduce強(qiáng)大的并行化處理能力,無論OLAP分析中的維度增
加多少,開銷并不顯著增長(zhǎng)。換言之,Hadoop可以支持一個(gè)巨大無比的Cube,
包含了無數(shù)你想到或者想不到的維度,而且每次多維分析,都可以支持成千上百
個(gè)維度,并不會(huì)顯著影響分析的性能。
對(duì)于很多計(jì)算問題,基于M叩Reduce的計(jì)算性能可隨節(jié)點(diǎn)數(shù)目增長(zhǎng)保持近
似于線性的熠長(zhǎng)。
1.6.4大數(shù)據(jù)可視化管理
數(shù)據(jù)可視化是將統(tǒng)計(jì)分析結(jié)果以報(bào)表、圖表、及位置數(shù)據(jù)的地圖顯示方式(如
折線圖、直方圖、用散點(diǎn)圖等)進(jìn)行可視化表達(dá)。包括統(tǒng)計(jì)分析結(jié)果可視化顯示
和可視化配置。可視化顯示:包括對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果的報(bào)表展示、圖形化展
示,以及在線對(duì)比??梢暬渲茫罕灸K根據(jù)用戶需求可視化顯示各類數(shù)據(jù)和產(chǎn)
品,用戶輸入所需的數(shù)據(jù)信息如數(shù)據(jù)生成時(shí)間、數(shù)據(jù)類型等,獲得符合條件的數(shù)
據(jù)列表,并根據(jù)需要進(jìn)行可視化顯示?;诘貓D的位置相關(guān)信息與屬性的顯示。
數(shù)據(jù)可視化管理子系統(tǒng)可以通過多種方法來實(shí)現(xiàn),比如多角度展示數(shù)據(jù)、聚
焦大量數(shù)據(jù)中的動(dòng)態(tài)變化,以及篩選信息(包括動(dòng)態(tài)問詢篩選,星圖展示,和緊
密耦合)等。以下一些可視化方法是按照不同的數(shù)據(jù)類型(大規(guī)模體數(shù)據(jù)、變化
數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù))來進(jìn)行分析和分類的:
(1)樹狀圖式:基于分層數(shù)據(jù)的空間填充可視化方法。
(2)圓形填充式:樹狀圖式的直接替代。它使用圓形作為原始形狀,
并能從更高級(jí)的分層結(jié)構(gòu)中引入更多的圓形。
(3)旭日型:在樹狀圖可視化基礎(chǔ)上轉(zhuǎn)換到極坐標(biāo)系統(tǒng)。其中的可變
參量由寬和高變成半徑和弧長(zhǎng)。
(4)平行坐標(biāo)式:通過可視化分析,將不同維度的多重?cái)?shù)據(jù)因素拓展
開來。
(5)蒸汽圖式:堆疊區(qū)域圖的一種,數(shù)據(jù)圍繞一條中軸線展開,并伴
隨流動(dòng)及有機(jī)形態(tài)。
循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個(gè)圓形排列,并按照它們自身的相關(guān)性比率由曲
線相互連接。通常用不同的線寬或色彩飽和度測(cè)量數(shù)據(jù)對(duì)象的相關(guān)性。
1.7大數(shù)據(jù)全文檢索
大數(shù)據(jù)平臺(tái),提供數(shù)據(jù)全文檢索功能,需滿足檢索響應(yīng)快、實(shí)時(shí)性等要求。
Solr是一個(gè)高性能,采用Java5開發(fā),基于Lucene的全文搜索服務(wù)器。Solr
是一個(gè)獨(dú)立的企業(yè)級(jí)搜索應(yīng)用服務(wù)器。文檔通過Http利用XML加到一個(gè)搜索集
合中。查詢?cè)?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院外包運(yùn)營(yíng)合同范本
- 發(fā)廊股合同范本
- 博士勞動(dòng)合同范本
- 2025年供應(yīng)鏈金融業(yè)務(wù)培訓(xùn)助力企業(yè)轉(zhuǎn)型升級(jí)
- 勞務(wù)用工中介合同范例
- 公園ppp模式合同范本
- 中學(xué)歷史教師聘用合同范本
- 醫(yī)療投資合同范本
- 2024-2025學(xué)年江蘇省常州市高三上學(xué)期期末質(zhì)量調(diào)研語文試卷
- 廠銷合同范本
- 體育競(jìng)賽的組織與編排
- 動(dòng)靜脈內(nèi)瘺的圍手術(shù)期護(hù)理-課件
- reaxys使用介紹課件
- 工程建設(shè)項(xiàng)目管理培訓(xùn)教材課件
- 11-化學(xué)動(dòng)力學(xué)基礎(chǔ)-2-考研試題資料系列
- 《簡(jiǎn)愛》課本劇劇本
- 社區(qū)獲得性肺炎臨床路徑
- 產(chǎn)品品質(zhì)檢驗(yàn)流程標(biāo)準(zhǔn)規(guī)范模板()
- GB∕T 7260.40-2020 不間斷電源系統(tǒng) UPS 第4部分:環(huán)境 要求及報(bào)告
- 安全文明施工管理(EHS)方案(24頁)
- 水廠項(xiàng)目基于BIM技術(shù)全生命周期解決方案-城市智慧水務(wù)講座課件
評(píng)論
0/150
提交評(píng)論