智慧城市多源異構(gòu)大數(shù)據(jù)處理框架_第1頁
智慧城市多源異構(gòu)大數(shù)據(jù)處理框架_第2頁
智慧城市多源異構(gòu)大數(shù)據(jù)處理框架_第3頁
智慧城市多源異構(gòu)大數(shù)據(jù)處理框架_第4頁
智慧城市多源異構(gòu)大數(shù)據(jù)處理框架_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上智慧城市多源異構(gòu)大數(shù)據(jù)處理框架摘要:智慧城市建設(shè)的重心已由傳統(tǒng)IT系統(tǒng)和信息資源共享建設(shè),轉(zhuǎn)變?yōu)閿?shù)據(jù)的深度挖掘利用和數(shù)據(jù)資產(chǎn)的運營流通。大數(shù)據(jù)中心是數(shù)據(jù)資產(chǎn)管理和利用的實體基礎(chǔ),其核心驅(qū)動引擎是大數(shù)據(jù)平臺及各類數(shù)據(jù)挖掘與分析系統(tǒng)。討論了智慧城市大數(shù)據(jù)中心建設(shè)的功能架構(gòu),圍繞城市多源異構(gòu)數(shù)據(jù)處理的實際需要,對數(shù)據(jù)中心大數(shù)據(jù)平臺的架構(gòu)進行了拆分講解,并以視頻大數(shù)據(jù)處理為例,闡述了數(shù)據(jù)中心中大數(shù)據(jù)平臺的運轉(zhuǎn)流程。 關(guān)鍵詞:智慧城市;大數(shù)據(jù);多源異構(gòu);視頻分析 1 引言隨著智慧城市建設(shè)逐步由信息基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)建設(shè)邁入數(shù)據(jù)資產(chǎn)集約利用與運營管理階段,城市

2、大數(shù)據(jù)中心已成為智慧城市打造核心競爭力、提升政府管理效能的重要工具。一方面政府借助大數(shù)據(jù)中心建設(shè)可以將有限的信息基礎(chǔ)設(shè)施資源集中高效管理和利用,大幅降低各自為政、運維機關(guān)龐雜、財政壓力過大的問題;另一方面,可以在國務(wù)院、發(fā)展和改革委員會大力支持的政策東風(fēng)下,打破部門間數(shù)據(jù)壁壘,推動政府各部門職能由管理轉(zhuǎn)為服務(wù),提高數(shù)據(jù)共享利用率和透明度。以大數(shù)據(jù)中心為核心構(gòu)建城市駕駛艙,實現(xiàn)城市運轉(zhuǎn)過程的實時全面監(jiān)控,提高政府決策的科學(xué)性和及時性。智慧城市大數(shù)據(jù)中心建設(shè)功能框架如圖1所示,其中針對不同部門的數(shù)據(jù)源,由數(shù)據(jù)收集系統(tǒng)完成數(shù)據(jù)的匯聚,并根據(jù)數(shù)據(jù)業(yè)務(wù)類型和內(nèi)容的差異進行粗分類。為避免過多“臟數(shù)據(jù)”對大

3、數(shù)據(jù)平臺的污染,對于批量數(shù)據(jù),不推薦直接將數(shù)據(jù)匯入大數(shù)據(jù)平臺,而是單設(shè)一個前端原始數(shù)據(jù)資源池,在這里暫時存儲前端流入的多源異構(gòu)數(shù)據(jù),供大數(shù)據(jù)平臺處理調(diào)用。圖1 智慧城市大數(shù)據(jù)中心功能框架 大數(shù)據(jù)平臺是城市大數(shù)據(jù)中心運轉(zhuǎn)的核心驅(qū)動引擎,主要完成多源數(shù)據(jù)導(dǎo)入、冗余存儲、冷熱遷移、批量計算、實時計算、圖計算、安全管理、資源管理、運維監(jiān)控等功能1,大數(shù)據(jù)平臺的主體數(shù)據(jù)是通過專線連接或硬件復(fù)制各政府部門數(shù)據(jù)庫的方式獲得,例如地理信息系統(tǒng)(geographic information system,GIS)數(shù)據(jù)、登記信息等。部分數(shù)據(jù)通過直連業(yè)務(wù)部門傳感監(jiān)測設(shè)備的方式獲得,例如監(jiān)控視頻、河道流量等

4、。大數(shù)據(jù)平臺的輸出主要是結(jié)構(gòu)化關(guān)聯(lián)數(shù)據(jù)以及統(tǒng)計分析結(jié)果數(shù)據(jù),以方便各類業(yè)務(wù)系統(tǒng)的直接使用。不同部門間共享與交換的數(shù)據(jù)不推薦直接使用原始數(shù)據(jù),一方面是因為原始數(shù)據(jù)內(nèi)容密級存在差異,另一方面是因為原始數(shù)據(jù)內(nèi)容可能存在錯誤或紕漏。推薦使用經(jīng)過大數(shù)據(jù)平臺分類、過濾和統(tǒng)計分析后的數(shù)據(jù)。不同使用部門經(jīng)過政務(wù)信息門戶統(tǒng)一需求申請和查看所需數(shù)據(jù),所有數(shù)據(jù)的交換和審批以及數(shù)據(jù)的監(jiān)控運維統(tǒng)一由數(shù)據(jù)信息中心負責(zé),避免了跨部門協(xié)調(diào)以及數(shù)據(jù)管理不規(guī)范等人為時間的損耗,極大地提高了數(shù)據(jù)的流通和使用效率。另外,針對特定的業(yè)務(wù)需求,可以基于大數(shù)據(jù)平臺擁有的數(shù)據(jù)進行定制開發(fā),各業(yè)務(wù)系統(tǒng)屬于應(yīng)用層,建設(shè)時不宜與大數(shù)據(jù)平臺部署在同

5、一服務(wù)器集群內(nèi),并且要保證數(shù)據(jù)由大數(shù)據(jù)平臺至業(yè)務(wù)系統(tǒng)的單向性,盡量設(shè)置業(yè)務(wù)數(shù)據(jù)過渡區(qū),避免應(yīng)用系統(tǒng)直接對大數(shù)據(jù)平臺核心區(qū)數(shù)據(jù)的訪問。目前主流大數(shù)據(jù)平臺都采用以Hadoop為核心的數(shù)據(jù)處理框架,例如Cloudera公司的CDH(Cloud er a Distribution for Hadoop)和星環(huán)信息科技(上海)有限公司(Transwarp)的TDH(Transwarp Data Hub)、Apache Hadoop等。以Hadoop為核心的大數(shù)據(jù)解決方案占大數(shù)據(jù)市場95%以上的份額,目前國內(nèi)80%的市場被 Cloudera占有,剩余20%的市場由星環(huán)信息科技(上海)有限公司、北京紅象云騰

6、系統(tǒng)技術(shù)有限公司、華為技術(shù)有限公司等大數(shù)據(jù)公司分享。隨著數(shù)據(jù)安全意識的增強、價格競爭優(yōu)勢的擴大,國內(nèi)企業(yè)在國內(nèi)大數(shù)據(jù)市場的份額和影響力正在快速提升。大數(shù)據(jù)的應(yīng)用歷程可歸納為3個階段:第一個階段是面向互聯(lián)網(wǎng)數(shù)據(jù)收集、處理的搜索推薦時代;第二個階段是面向金融、安全、廣播電視數(shù)據(jù)的用戶畫像和關(guān)系發(fā)現(xiàn)時代;第三個階段是面向多數(shù)據(jù)源與多業(yè)務(wù)領(lǐng)域數(shù)據(jù)的融合分析與數(shù)據(jù)運營時代,并且對數(shù)據(jù)處理規(guī)模和實時性的要求大幅提高。本文在智慧城市大數(shù)據(jù)中心建設(shè)方案的基礎(chǔ)上,闡述了多源異構(gòu)大數(shù)據(jù)處理的框架和流程,并以最典型的非結(jié)構(gòu)化視頻大數(shù)據(jù)處理為例,介紹了多源異構(gòu)大數(shù)據(jù)處理框架運轉(zhuǎn)的流程。 2 多源異構(gòu)大數(shù)據(jù)處

7、理框架 2.1 系統(tǒng)整體架構(gòu) 多源異構(gòu)是大數(shù)據(jù)的基本特征2,為適應(yīng)此類數(shù)據(jù)導(dǎo)入、存儲、處理和交互分析的需求,本文設(shè)計了如圖2所示的系統(tǒng)框架,主要包括3個層面的內(nèi)容:基礎(chǔ)平臺層、數(shù)據(jù)處理層、應(yīng)用展示層。其中,基礎(chǔ)平臺層由Hadoop生態(tài)系統(tǒng)組件以及其他數(shù)據(jù)處理工具構(gòu)成,除了提供基本的存儲、計算和網(wǎng)絡(luò)資源外,還提供分布式流計算、離線批處理以及圖計算等計算引擎;數(shù)據(jù)處理層由多個數(shù)據(jù)處理單元組成,除了提供基礎(chǔ)的數(shù)據(jù)抽取與統(tǒng)計分析算法外,還提供半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)化數(shù)據(jù)處理算法、數(shù)據(jù)內(nèi)容深度理解算法等,涉及自然語言處理、視頻圖像內(nèi)容理解、文本挖掘與分析等,是與人工智能聯(lián)系最緊

8、密的層,該層數(shù)據(jù)處理效果的好壞直接決定了業(yè)務(wù)應(yīng)用層數(shù)據(jù)統(tǒng)計分析的準確性和客戶體驗;應(yīng)用展示層由SSH(Struts+Spring+Hibernate)框架及多類前端可視化工具組成,對應(yīng)用層的約束是比較寬松的,主要是對數(shù)據(jù)處理層結(jié)果的進一步歸納和總結(jié),以滿足具體業(yè)務(wù)的需要。系統(tǒng)框架的使用優(yōu)先推薦開源生態(tài)系統(tǒng)及其組件,系統(tǒng)存儲主要依托Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)、HBase,同時支持Oracle、MySQL等結(jié)構(gòu)化數(shù)據(jù)存儲系統(tǒng),計算框架涵蓋MapReduce、Storm、Spark以及定制分布式視頻流處理引擎,可視化系統(tǒng)基于S

9、SH框架設(shè)計,可根據(jù)實際需求,靈活配置。 圖2 多源異構(gòu)大數(shù)據(jù)處理框架 2.2 多源數(shù)據(jù)導(dǎo)入 鑒于數(shù)據(jù)存儲介質(zhì)、數(shù)據(jù)存儲類型和數(shù)據(jù)傳輸方式的差異,系統(tǒng)在數(shù)據(jù)導(dǎo)入單元設(shè)計了如下數(shù)據(jù)導(dǎo)入框架,借助不同的導(dǎo)入工具,實現(xiàn)不同源數(shù)據(jù)和不同結(jié)構(gòu)數(shù)據(jù)的導(dǎo)入,如圖3所示。其中,對實時性要求較高的監(jiān)測數(shù)據(jù)以分布式消息隊列的形式由Kafka分發(fā);關(guān)系型數(shù)據(jù)庫使用Sqoop等工具,直接將數(shù)據(jù)導(dǎo)入HDFS3,4;對于安全等級較高的數(shù)據(jù)和其他一些離線數(shù)據(jù),使用硬件復(fù)制或文件 傳輸 協(xié)議(file transfer protocol,F(xiàn)TP)傳輸?shù)姆绞綄?dǎo)入;對于日志等文本數(shù)據(jù)使用Flume工

10、具導(dǎo)入;對于互聯(lián)網(wǎng)數(shù)據(jù)使用爬蟲程序爬取,并導(dǎo)入;對于視頻等多媒體數(shù)據(jù),使用各廠商提供的定制碼流軟件開發(fā)工具包(software development kit, SDK)開發(fā)導(dǎo)入程序,或者利用多媒體流處理引擎直接抓取和在線處理。在智慧城市建設(shè)過程中,數(shù)據(jù)來源差異一般較大,數(shù)據(jù)庫中存放的主要是經(jīng)過業(yè)務(wù)系統(tǒng)加工后的數(shù)據(jù),而描述行為過程的數(shù)據(jù)一般都未被記錄,此時,需要定制開發(fā)能夠直接連接原始數(shù)據(jù)源的數(shù)據(jù)采集工具。 圖3 多源數(shù)據(jù)導(dǎo)入框架 2.3 異構(gòu)數(shù)據(jù)處理根據(jù)數(shù)據(jù)類型的差異,選擇不同的計算和存儲引擎。對于非實時性數(shù)據(jù)計算,選擇MapReduce計算引擎5;對實時性要求較高的數(shù)據(jù)

11、計算,選擇Spark或Storm計算框架6,7;對時序不可分的流媒體數(shù)據(jù)處理,選擇定制流媒體計算引擎,如圖4所示。對于結(jié)構(gòu)化或鍵值對數(shù)據(jù),采用Hive或HBase存儲,兼容Oracle和MySQL等關(guān)系型數(shù)據(jù)庫;對于日志、多媒體等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用HDFS存儲。數(shù)據(jù)倉庫可以統(tǒng)一建立在HDFS上,統(tǒng)一的存儲有助于最大化地發(fā)揮分布式系統(tǒng)的數(shù)據(jù)處理能力,充分利用內(nèi)網(wǎng)帶寬,減少異構(gòu)數(shù)據(jù)倉庫自身性能瓶頸導(dǎo)致的大數(shù)據(jù)系統(tǒng)性能下降問題。 圖4 異構(gòu)數(shù)據(jù)處理框架對于結(jié)構(gòu)化數(shù)據(jù)的處理主要包括內(nèi)容清洗、統(tǒng)計分析、關(guān)聯(lián)分析等;對于半結(jié)構(gòu)化數(shù)據(jù)的處理涉及模板分類、字段檢索、關(guān)鍵字段提取等;對于非結(jié)

12、構(gòu)化數(shù)據(jù)的處理涉及音視頻內(nèi)容的結(jié)構(gòu)轉(zhuǎn)化、文本內(nèi)容的挖掘與分析、語義理解與情感分析等。隨著數(shù)據(jù)結(jié)構(gòu)多樣性和內(nèi)容不確定性的增加,數(shù)據(jù)處理的復(fù)雜度和難度呈現(xiàn)指數(shù)型非線性增長,諸多數(shù)據(jù)處理問題在這個階段轉(zhuǎn)變?yōu)槿斯ぶ悄芩惴▎栴}。 2.4 統(tǒng)一運維管理大數(shù)據(jù)平臺的運維管理借助統(tǒng)一運維管理平臺實現(xiàn),管控平臺具備大數(shù)據(jù)平臺定制化組件安裝、資源靈活配置、字段級權(quán)限控制、賬戶管理等功能,借助統(tǒng)一的運維管理平臺,對平臺安裝節(jié)點的CPU、內(nèi)存、硬盤資源進行控制,并對節(jié)點所在機架進行規(guī)劃,通過運維管理主節(jié)點,可實現(xiàn)大數(shù)據(jù)平臺的自動部署和安裝,與此同時,運維管理平臺可實時監(jiān)控正在運行的各服務(wù)的資源使用情況和任務(wù)

13、進度情況,為各服務(wù)提供資源隔離或資源搶占式兩種選擇方案,靈活配置服務(wù)運行節(jié)點,大大節(jié)省運維管理人員的工作量。 3 視頻數(shù)據(jù)處理應(yīng)用示例在智慧城市建設(shè)中,視頻不僅是存儲規(guī)模最大的數(shù)據(jù),同時也是最典型的異構(gòu)大數(shù)據(jù),數(shù)據(jù)內(nèi)容在不同的處理階段,表現(xiàn)為不同的數(shù)據(jù)形式:非結(jié)構(gòu)化(視頻、圖像)、半結(jié)構(gòu)化(特征點)、結(jié)構(gòu)化(特征向量、描述屬性)。視頻數(shù)據(jù)8不僅用于治安偵查、違章監(jiān)測,還被用于城市人群密度監(jiān)測,結(jié)合輿情、地理定位等信息,可用于對城市不同區(qū)域安全等級的評估。視頻數(shù)據(jù)處理算法框架如圖5所示,視頻數(shù)據(jù)處理的過程是逐步將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),然后做統(tǒng)計和關(guān)聯(lián)分析的過程。 圖5

14、視頻數(shù)據(jù)處理流程 3.1 視頻數(shù)據(jù)標記視頻數(shù)據(jù)標記有助于提高視頻內(nèi)容提取和描述的準確性和穩(wěn)定性,使得視頻內(nèi)容檢測與分析算法的設(shè)計更有針對性,原則上對視頻內(nèi)容的結(jié)構(gòu)化描述信息越全面越好,但是容易受標記人員主觀因素干擾,因此只選擇容易區(qū)分和定義的以下幾類標記信息:視頻場景、視頻主色、運動方向、適用算法。視頻場景可分為:卡口、路口、廣場、街道等,視頻主色可分為:彩色和灰色,運動方向根據(jù)圖像坐標系分為8個方向,適用算法主要用于標記該視頻適用于哪類算法,例如行人檢測、遺留物檢測、交通標志檢測、車牌檢測等。標記后的視頻經(jīng)過視頻分割算法處理,被切分成大小適合MapReduce處理的文件塊。

15、0;3.2 視頻內(nèi)容挖掘視頻多媒體數(shù)據(jù)包含的信息非常豐富,這里僅以視頻中的人、車、自行車目標的檢測與跟蹤為例,闡述非結(jié)構(gòu)化視頻大數(shù)據(jù)內(nèi)容挖掘的實現(xiàn)過程。視頻內(nèi)容挖掘是通過對視頻文件或視頻流的解碼,逐幀進行分析處理的。視頻中的運動目標是檢測的主要對象,通過背景建模、前景目標分割算法確定潛在運動目標的位置,然后通過運動目標跟蹤算法對粘連目標、誤分割目標以及特征不穩(wěn)定目標進行切分、合并和過濾處理,處理流程如圖6所示,圖6中對不同的運動目標分別建立檢測存儲隊列、跟蹤存儲隊列、結(jié)果存儲隊列,用以實現(xiàn)基于視頻前后幀序列的目標過濾與判定。整個處理過程可以使用MapReduce框架實現(xiàn),值得注意的是,視頻對象

16、處理需要耗費大量的內(nèi)存資源,單靠Java虛擬機(Java virtual machine,JVM)已難以滿足需求,因此,推薦使用C+Java的混合語言編程處理模式。  圖6 視頻內(nèi)容挖掘流程 3.3 視頻目標分類 對視頻內(nèi)容挖掘單元輸出的目標圖像文件做進一步顯著性檢測與分類判定,主要包括圖像中的人體檢測、車輛檢測、自行車檢測,并對目標圖像中包含多個目標的情況進行切分,對誤檢或位置不精確的目標進行過濾或校正。本文使用優(yōu)化的彈性形變模型(deformable parts model,DPM)算法對目標圖像進行二次檢測,如圖7所示。為提高檢測精度,對尺寸(寬或

17、高)小于320像素的圖像進行插值處理,擴大至(寬或高)640像素,二次檢測的結(jié)果仍以圖像文件的形式存儲在HDFS上,文件屬性及其與原視頻流的對應(yīng)關(guān)系記錄在HBase中,該對應(yīng)關(guān)系主要包括原視頻路徑、圖像對應(yīng)視頻中的幀序號等。 圖 7 基于優(yōu)化 DPM 的行人二次定位示例 3.4 視頻目標檢索視頻目標檢索是在視頻目標分類結(jié)果的基礎(chǔ)上,對圖像內(nèi)容進行結(jié)構(gòu)化特征描述9,特征向量冷數(shù)據(jù)存儲在HBase中,熱數(shù)據(jù)存儲在內(nèi)存中,每一次的檢索查詢是對所有圖像數(shù)據(jù)特征的相似性比較。其中特征向量的構(gòu)建綜合考慮顏色不變性和尺度不變性的現(xiàn)實需求,使得特征向量對顏色變化敏感而對尺度變化頑健,目標間的相似性通過特征向量余弦計算。視頻監(jiān)控目標檢索示例如圖8所示。圖8 視頻監(jiān)控目標檢索示例 3.5 區(qū)域密度監(jiān)測如圖9所示,將檢測到的人、車、自行車等以行為人為主體的目標與監(jiān)控攝像機的地理位置結(jié)合在一起,得出人車分布情況和城市活躍度情況。圖9(a)以曲線形式展示了不同時刻的人車分布情況,圖9(b)為基于密度波動的城市活躍度評分。 圖9 城市區(qū)域密度監(jiān)測示例 4 結(jié)束語在智慧城

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論