![物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)全套教學(xué)課件_第1頁](http://file4.renrendoc.com/view4/M01/24/0C/wKhkGGashP2AMiFPAAHhgxzENRM418.jpg)
![物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)全套教學(xué)課件_第2頁](http://file4.renrendoc.com/view4/M01/24/0C/wKhkGGashP2AMiFPAAHhgxzENRM4182.jpg)
![物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)全套教學(xué)課件_第3頁](http://file4.renrendoc.com/view4/M01/24/0C/wKhkGGashP2AMiFPAAHhgxzENRM4183.jpg)
![物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)全套教學(xué)課件_第4頁](http://file4.renrendoc.com/view4/M01/24/0C/wKhkGGashP2AMiFPAAHhgxzENRM4184.jpg)
![物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐(第2版)全套教學(xué)課件_第5頁](http://file4.renrendoc.com/view4/M01/24/0C/wKhkGGashP2AMiFPAAHhgxzENRM4185.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐IoT
BigDataProcessingTechnologyandPractice第1章-物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展第2章-大數(shù)據(jù)處理技術(shù)的發(fā)展第3章-物聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)體系第4章-感知數(shù)據(jù)特性與模型第5章-感知數(shù)據(jù)庫管理系統(tǒng)第6章-實(shí)時(shí)事務(wù)調(diào)度處理技術(shù)第7章-物聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)與管理第8章-物聯(lián)網(wǎng)大數(shù)據(jù)計(jì)算與分析第9章-物聯(lián)網(wǎng)網(wǎng)關(guān)CubeOne物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐-第10章-ChinDB感知數(shù)據(jù)庫系統(tǒng)物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐-第11章-DeCloud物聯(lián)網(wǎng)大數(shù)據(jù)云平臺(tái)物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐-第12章-基于Kafka進(jìn)行物聯(lián)數(shù)據(jù)實(shí)時(shí)采集編程實(shí)踐-第13章-基于KafkaConnect進(jìn)行物聯(lián)數(shù)據(jù)采集編程實(shí)踐-第14章-基于Flink進(jìn)行物聯(lián)數(shù)據(jù)實(shí)時(shí)處理編程實(shí)踐-全套可編輯PPT課件物聯(lián)網(wǎng)與產(chǎn)業(yè)發(fā)展物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展1物聯(lián)網(wǎng)與大數(shù)據(jù)2物聯(lián)網(wǎng)產(chǎn)業(yè)的機(jī)遇與挑戰(zhàn)3163PARTONE1物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語1.1物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展當(dāng)前,新一代信息通信技術(shù),包括移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù),正引領(lǐng)全球科技革命和產(chǎn)業(yè)變革。物聯(lián)網(wǎng)應(yīng)用蓬勃發(fā)展,與傳統(tǒng)領(lǐng)域融合深入,重點(diǎn)領(lǐng)域包括M2M通信、智能汽車等。各國政府積極制定戰(zhàn)略,如美國的制造業(yè)復(fù)興、德國的工業(yè)4.0、中國的制造強(qiáng)國計(jì)劃,推動(dòng)全球物聯(lián)網(wǎng)和大數(shù)據(jù)迅速增長。中國在物聯(lián)網(wǎng)領(lǐng)域也采取重要措施,如《中國制造2025》和《智能制造發(fā)展規(guī)劃》,強(qiáng)調(diào)信息化與工業(yè)化深度融合,推動(dòng)物聯(lián)網(wǎng)和新技術(shù)應(yīng)用。1.1.1傳感器與智能硬件傳感器與智能硬件產(chǎn)業(yè)是物聯(lián)網(wǎng)產(chǎn)業(yè)的重要組成部分,其是與物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展同步快速發(fā)展的。消費(fèi)者物聯(lián)網(wǎng)設(shè)備包括可穿戴設(shè)備、智能家居產(chǎn)品、無人機(jī)、無人駕駛汽車等。除了面向消費(fèi)者的物聯(lián)網(wǎng)設(shè)備之外,產(chǎn)業(yè)物聯(lián)網(wǎng)連接數(shù)在總的物聯(lián)網(wǎng)總連接數(shù)中的占比將提速。其中智慧工業(yè)、智慧交通、智慧健康、智慧能源等領(lǐng)域?qū)⒆钣锌赡艹蔀楫a(chǎn)業(yè)物聯(lián)網(wǎng)連接數(shù)增長最快的領(lǐng)域。傳感器在賦予手機(jī)和物聯(lián)網(wǎng)產(chǎn)品更強(qiáng)大功能方面發(fā)揮關(guān)鍵作用,傳感器通常由敏感元件和轉(zhuǎn)換元件組成,將檢測(cè)感受到的信息轉(zhuǎn)化為電信號(hào),廣泛用于各個(gè)領(lǐng)域的感知和控制。1.1.2物聯(lián)網(wǎng)服務(wù)平臺(tái)隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的增長,物聯(lián)網(wǎng)服務(wù)平臺(tái)提供了端到端物聯(lián)網(wǎng)云服務(wù),幫助制造商打造物聯(lián)網(wǎng)產(chǎn)品。預(yù)測(cè)顯示到2025年,物聯(lián)網(wǎng)平臺(tái)、應(yīng)用和服務(wù)的收入將占據(jù)物聯(lián)網(wǎng)總收入的67%。多家知名科技公司如蘋果、華為等都推出了物聯(lián)網(wǎng)平臺(tái)或套件,中國移動(dòng)、阿里巴巴、華為等公司在物聯(lián)網(wǎng)領(lǐng)域也取得了顯著進(jìn)展,連接數(shù)和提供的應(yīng)用不斷增加。物聯(lián)網(wǎng)服務(wù)平臺(tái)在不同行業(yè),尤其是車聯(lián)網(wǎng)領(lǐng)域,具有巨大市場(chǎng)潛力,可以改善交通管理和提供智能化的車輛服務(wù)。1.1.3工業(yè)4.0與CPS美國工業(yè)的發(fā)展德國工業(yè)的發(fā)展美國與德國工業(yè)發(fā)展的異同日本工業(yè)4.0的發(fā)展美國工業(yè)的發(fā)展2006年美國提出了虛擬網(wǎng)絡(luò)-實(shí)體物理系統(tǒng)或者信息物理系統(tǒng)(CPS:Cyber-PhysicalSystem)的概念。2010年美國總統(tǒng)奧巴馬簽署了《美國制造業(yè)促進(jìn)法案》,提出運(yùn)用數(shù)字制造和人工智能等未來科技重構(gòu)美國的制造業(yè)優(yōu)勢(shì)。2012年2月美國國家科技委員會(huì)發(fā)布了《先進(jìn)制造業(yè)國家戰(zhàn)略計(jì)劃》報(bào)告,將促進(jìn)先進(jìn)制造業(yè)發(fā)展提高到了國家戰(zhàn)略層面2012年11月美國通用電氣公司(簡稱GE)發(fā)布《工業(yè)互聯(lián)網(wǎng)——打破智慧與機(jī)器的邊界》報(bào)告,開始向全世界推廣工業(yè)互聯(lián)網(wǎng)模式。CPS將物聯(lián)網(wǎng)和互聯(lián)網(wǎng)與制造業(yè)的融合做出綜合性的概括,并將此項(xiàng)技術(shù)體系作為新一代技術(shù)革命的突破點(diǎn)。汽車、飛機(jī)、船舶、電梯、機(jī)床以及生產(chǎn)線等,都可以存在于虛擬和實(shí)體兩個(gè)世界,在虛擬世界中將實(shí)體的狀態(tài)以及實(shí)體之間的關(guān)系透明化.虛擬世界中代表實(shí)體狀態(tài)和相互關(guān)系的模型和計(jì)算結(jié)果能夠精確地指導(dǎo)實(shí)體的活動(dòng),從而使實(shí)體的活動(dòng)相互協(xié)調(diào)優(yōu)化.德國工業(yè)的發(fā)展2011年工業(yè)4.0的概念首次在德國漢諾威工業(yè)博覽會(huì)上第一次提出。2013年正式發(fā)布了“工業(yè)4.0實(shí)施建議”,拉開了全球范圍內(nèi)推進(jìn)第四次工業(yè)革命的序幕?!肮I(yè)4.0”的核心就是信息物聯(lián)網(wǎng)和服務(wù)互聯(lián)網(wǎng)與制造業(yè)的融合創(chuàng)新。“工業(yè)4.0”會(huì)將智能技術(shù)和網(wǎng)絡(luò)投入到工業(yè)應(yīng)用中,從而進(jìn)一步鞏固德國作為生產(chǎn)地以及制造設(shè)備供應(yīng)國和IT業(yè)務(wù)解決方案供應(yīng)國的領(lǐng)先地位。美國與德國工業(yè)發(fā)展的異同美國與德國面對(duì)制造業(yè)未來雖然提出的概念不同,但“工業(yè)4.0”與CPS本質(zhì)上是異曲同工的,其戰(zhàn)略核心是:制造智能化?!肮I(yè)4.0”與CPS目標(biāo)在于通過物聯(lián)網(wǎng)、信息通訊技術(shù)與大數(shù)據(jù)分析,把不同設(shè)備通過數(shù)據(jù)交互連接到一起,讓工廠內(nèi)部、工廠之間都能成為一個(gè)整體,在自動(dòng)化之上,形成制造的智能化。第四次工業(yè)革命主要是指通過物聯(lián)網(wǎng)和信息物理系統(tǒng)技術(shù),將制造業(yè)向智能化轉(zhuǎn)型,實(shí)現(xiàn)集中式控制向分散式增強(qiáng)型控制的基本模式轉(zhuǎn)變,最終建立一個(gè)高度靈活的個(gè)性化和數(shù)字化的產(chǎn)品與服務(wù)生產(chǎn)模式。物聯(lián)網(wǎng)、互聯(lián)網(wǎng)服務(wù)以及大數(shù)據(jù)是“工業(yè)4.0”的基礎(chǔ)。美國與德國工業(yè)發(fā)展的異同德國工業(yè)4.0的戰(zhàn)略意圖:(1)對(duì)抗美國互聯(lián)網(wǎng)產(chǎn)業(yè)從“信息”領(lǐng)域加速進(jìn)入“物理”業(yè)務(wù)領(lǐng)域的影響。(2)工業(yè)4.0希望用“信息物理系統(tǒng)”升級(jí)“智能工廠”中的“生產(chǎn)設(shè)備”,使生產(chǎn)設(shè)備因信息物理系統(tǒng)而獲得智能。(3)工業(yè)4.0戰(zhàn)略的推進(jìn)也是德國在日本、中國等國的制造業(yè)快速趕超的背景下保持國際競(jìng)爭力的重大舉措。日本工業(yè)4.0的發(fā)展2015年1月,日本政府公布了《機(jī)器人新戰(zhàn)略》,該戰(zhàn)略首先列舉了歐美與中國的技術(shù)趕超,互聯(lián)網(wǎng)企業(yè)向傳統(tǒng)機(jī)器人產(chǎn)業(yè)的涉足,而給機(jī)器人產(chǎn)業(yè)環(huán)境帶來了劇變。2021年,我國政府十五部門印發(fā)《“十四五”機(jī)器人產(chǎn)業(yè)發(fā)展規(guī)劃》指出,新一代信息技術(shù)、生物技術(shù)、新能源、新材料和機(jī)器人技術(shù)的深度融合,機(jī)器人產(chǎn)業(yè)迎來升級(jí)換代、跨越發(fā)展的窗口期。未來五年,我國要突破若干核心技術(shù)、實(shí)現(xiàn)制造業(yè)機(jī)器人密度翻番。這些變化,將使機(jī)器人開始應(yīng)用大數(shù)據(jù)實(shí)現(xiàn)自律化,使機(jī)器人之間的協(xié)同實(shí)現(xiàn)網(wǎng)絡(luò)化,物聯(lián)網(wǎng)時(shí)代也將隨之真正到來。PARTTWO2物聯(lián)網(wǎng)與大數(shù)據(jù)大數(shù)據(jù)的產(chǎn)生近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是隨著電子商務(wù)、社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)以及多種傳感器的廣泛應(yīng)用,以數(shù)量龐大、種類眾多、時(shí)效性強(qiáng)為特征的非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)的重要性愈發(fā)凸顯。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、處理和分析技術(shù)難以有效應(yīng)對(duì)這些大量的非結(jié)構(gòu)化信息,大數(shù)據(jù)的概念應(yīng)運(yùn)而生。大數(shù)據(jù)的提出2008年9月,《自然(Nature)》刊登了一個(gè)名為“BigData”的專輯,首次提出了大數(shù)據(jù)(BigData)概念。2011年5月,EMC舉辦了主題為“云計(jì)算相遇大數(shù)據(jù)”的大會(huì)。2011年6月麥肯錫全球研究所發(fā)布研究報(bào)告——《大數(shù)據(jù):下一個(gè)前沿——?jiǎng)?chuàng)新、競(jìng)爭和生產(chǎn)力》,提出了“大數(shù)據(jù)時(shí)代”的到來。2012年5月聯(lián)合國“全球脈沖”計(jì)劃發(fā)布《大數(shù)據(jù)開發(fā):機(jī)遇與挑戰(zhàn)》報(bào)告,闡述了大數(shù)據(jù)帶來的機(jī)遇、挑戰(zhàn)以及大數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)的定義大數(shù)據(jù):是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)從宏觀世界角度來講,大數(shù)據(jù)是融合物理世界、信息空間和人類社會(huì)三元世界的紐帶從社會(huì)經(jīng)濟(jì)角度來講,大數(shù)據(jù)是第二經(jīng)濟(jì)的核心關(guān)鍵支撐“第二經(jīng)濟(jì)的概念是由美國經(jīng)濟(jì)學(xué)家Auther在2011年提出的,他指出由處理器、鏈接器、傳感器、執(zhí)行器以及運(yùn)行在其上的經(jīng)濟(jì)活動(dòng)形成了人們熟知的物理經(jīng)濟(jì)(第一經(jīng)濟(jì))之外的第二經(jīng)濟(jì)(不是虛擬經(jīng)濟(jì))。第二經(jīng)濟(jì)的本質(zhì)是為第一經(jīng)濟(jì)附著一個(gè)“神經(jīng)層”,使國民經(jīng)濟(jì)活動(dòng)能夠變得智能化。據(jù)Gartner預(yù)測(cè),未來幾年內(nèi),傳感和移動(dòng)設(shè)備將更深入延伸至我們的日常生活,導(dǎo)致數(shù)據(jù)爆發(fā)。另根據(jù)相關(guān)研究統(tǒng)計(jì),物聯(lián)網(wǎng)中產(chǎn)生的來自傳感器的數(shù)據(jù)逐步超越互聯(lián)網(wǎng)的數(shù)據(jù)量,如果算上工業(yè)企業(yè)自動(dòng)化生產(chǎn)線及設(shè)備上的運(yùn)行數(shù)據(jù),特別是隨著工業(yè)4.0推進(jìn)而帶來的數(shù)據(jù)爆炸,物聯(lián)網(wǎng)數(shù)據(jù)的量更是呈現(xiàn)幾何級(jí)數(shù)增長??梢哉f,未來人們談到或研究“大數(shù)據(jù)”,無疑物聯(lián)網(wǎng)將是主要的數(shù)據(jù)來源。PARTTHREE3物聯(lián)網(wǎng)產(chǎn)業(yè)的機(jī)遇與挑戰(zhàn)物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn)物聯(lián)網(wǎng)市場(chǎng)的增長帶來許多好處,方便人們的生活以及企業(yè)的生產(chǎn)、提高效率和降低成本。但同時(shí)也面臨著不少的挑戰(zhàn):碎片化問題安全性和隱私保護(hù)問題資源受限問題物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):碎片化“碎片化”原指完整的東西破成諸多零塊。我們現(xiàn)在更多地通過網(wǎng)絡(luò)傳媒了解信息,信息內(nèi)容更加分散,完整的信息被各式各樣的分類分解為信息片段。由于終端產(chǎn)品種類繁多,同樣的功能可以由不同種類的產(chǎn)品來實(shí)現(xiàn),其終端呈現(xiàn)碎片化。因此相對(duì)于互聯(lián)網(wǎng),物聯(lián)網(wǎng)相呈現(xiàn)出更加碎片化的趨勢(shì)。物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):安全性和隱私保護(hù)隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展擴(kuò)大,物聯(lián)網(wǎng)安全問題面臨的安全威脅呈現(xiàn)多樣化、網(wǎng)絡(luò)攻擊越發(fā)猖獗。物聯(lián)網(wǎng)安全問題的出現(xiàn)可能會(huì)導(dǎo)致數(shù)據(jù)泄露、網(wǎng)絡(luò)癱瘓等多種后果。業(yè)界通過安全標(biāo)準(zhǔn)化、安全保障及隱私保護(hù)新技術(shù)等多個(gè)方面的手段應(yīng)對(duì)此問題。加密通信技術(shù)、安全通信技術(shù)、訪問控制技術(shù)等。加強(qiáng)安全管理,嚴(yán)格管理對(duì)設(shè)備、數(shù)據(jù)的訪問權(quán)限。完善物聯(lián)網(wǎng)相關(guān)法律、制定專項(xiàng)安全規(guī)章制度等來規(guī)范物聯(lián)網(wǎng)產(chǎn)業(yè)。物聯(lián)網(wǎng)產(chǎn)業(yè)面臨的挑戰(zhàn):資源受限物聯(lián)網(wǎng)設(shè)備受限于電池壽命物聯(lián)網(wǎng)的通信環(huán)境受限于物理環(huán)境條件的限制物聯(lián)網(wǎng)終端設(shè)備的計(jì)算能力受限于其自身有限的硬件條件…緩解方法:低功耗硬件通信技術(shù)云邊協(xié)同計(jì)算技術(shù)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫物聯(lián)網(wǎng)操作系統(tǒng)提供各種物聯(lián)網(wǎng)軟硬件資源的管理功能,為用戶和開發(fā)者提供統(tǒng)一的開發(fā)接口,具有巨大的發(fā)展?jié)摿ΑN锫?lián)網(wǎng)操作系統(tǒng)使物聯(lián)網(wǎng)設(shè)備能夠在有限的內(nèi)存帶寬、數(shù)據(jù)量和處理能力的嚴(yán)格參數(shù)內(nèi)通過全球網(wǎng)絡(luò)與云服務(wù)進(jìn)行交互。物聯(lián)網(wǎng)操作系統(tǒng)架構(gòu)示意圖物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)通過對(duì)智能手機(jī)、PC操作系統(tǒng)的改造而成。例如:Windows物聯(lián)網(wǎng)操作系統(tǒng)Google發(fā)布的Brillo操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)以傳統(tǒng)嵌入式操作系統(tǒng)為基礎(chǔ),在其上改造以適應(yīng)物聯(lián)網(wǎng)設(shè)備的連接及通信等需求。例如:Mbed操作系統(tǒng)Contiki操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫一部分物聯(lián)網(wǎng)操作系統(tǒng)面向特定的產(chǎn)業(yè)研發(fā)定制化的操作系統(tǒng)。例如:鴻蒙操作系統(tǒng)物聯(lián)網(wǎng)操作系統(tǒng)與數(shù)據(jù)庫目前各式各樣的物聯(lián)網(wǎng)操作系統(tǒng)才剛剛推出,還并未成熟,未來還存在很大的變數(shù)。無論傳感網(wǎng)還是智能硬件,不可避免面臨著數(shù)據(jù)管理問題,傳感器數(shù)據(jù)庫、微小型數(shù)據(jù)庫也正在進(jìn)入人們的視野。隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,相信會(huì)形成一定的規(guī)范與市場(chǎng)需求。物聯(lián)網(wǎng)大數(shù)據(jù)未來,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)將超過當(dāng)今互聯(lián)網(wǎng)數(shù)據(jù)作為大數(shù)據(jù)的主要來源。什么是物聯(lián)網(wǎng)大數(shù)據(jù)?物聯(lián)網(wǎng)技術(shù)的發(fā)展將和大數(shù)據(jù)技術(shù)緊密結(jié)合起來,將成萬上億計(jì)的傳感器嵌入到現(xiàn)實(shí)世界的各種設(shè)備中,獲取來自傳感器的數(shù)據(jù)。物聯(lián)網(wǎng)大數(shù)據(jù)處理與應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)處理是指:將成萬上億計(jì)的傳感器嵌入到現(xiàn)實(shí)世界的各種設(shè)備中,獲取來自傳感器的數(shù)據(jù),對(duì)其進(jìn)行智能化的處理、分析,挖掘出物聯(lián)網(wǎng)大數(shù)據(jù)在單個(gè)物聯(lián)網(wǎng)設(shè)備及傳感器條件下完全不同的價(jià)值,從而提供更加深化、智能、貼近于用戶的產(chǎn)品及服務(wù)。物聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用:智慧城市、智慧醫(yī)療、智能家居、工業(yè)生產(chǎn)等物聯(lián)網(wǎng)與大數(shù)據(jù)結(jié)合中的挑戰(zhàn)數(shù)據(jù)類型多樣:數(shù)據(jù)類型多樣使得一個(gè)應(yīng)用往往既要處理結(jié)構(gòu)化數(shù)據(jù),同時(shí)還要處理文本、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù),這對(duì)現(xiàn)有數(shù)據(jù)庫系統(tǒng)來說難以應(yīng)付。及時(shí)響應(yīng):在許多應(yīng)用中,數(shù)據(jù)是實(shí)時(shí)變化的,用戶對(duì)數(shù)據(jù)處理響應(yīng)速度及數(shù)據(jù)處理實(shí)時(shí)性的需求是關(guān)鍵因素,如何正確、及時(shí)地處理連續(xù)不斷的海量數(shù)據(jù)面臨很大的挑戰(zhàn)數(shù)據(jù)的不確定性:噪聲廣泛存在于原始數(shù)據(jù)的采集過程之中,是無法避免的客觀因素引起的。但追求高數(shù)據(jù)質(zhì)量是對(duì)大數(shù)據(jù)的一項(xiàng)重要要求,最好的數(shù)據(jù)清理方法也難以消除某些數(shù)據(jù)固有的不確定性。如何應(yīng)對(duì)大數(shù)據(jù)帶來的上述困難和挑戰(zhàn)?各大互聯(lián)網(wǎng)企業(yè)及學(xué)術(shù)界近幾年推出了各種不同類型的大數(shù)據(jù)處理編程框架、系統(tǒng)等,使大數(shù)據(jù)分析技術(shù)也得到迅速發(fā)展,已逐漸被廣泛應(yīng)用于不同的行業(yè)和領(lǐng)域。例如:Hadoop框架spark框架Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings
BigDataprocessingTechnologyandPractice大數(shù)據(jù)處理技術(shù)的發(fā)展大數(shù)據(jù)存儲(chǔ)和管理技術(shù)1大數(shù)據(jù)計(jì)算技術(shù)2大數(shù)據(jù)分析技術(shù)3人工智能研究的基本內(nèi)容4人工智能的主要應(yīng)用和研究領(lǐng)域5PARTONE1大數(shù)據(jù)存儲(chǔ)和管理技術(shù)師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語大數(shù)據(jù)存儲(chǔ)和管理技術(shù)大數(shù)據(jù)每年都在激增龐大的信息量,加上已有的歷史數(shù)據(jù)信息,對(duì)整個(gè)業(yè)界的數(shù)據(jù)存儲(chǔ)、處理帶來了很大的機(jī)遇與挑戰(zhàn)。對(duì)于大數(shù)據(jù)的存儲(chǔ),存在以下問題和挑戰(zhàn):容量問題延遲問題安全問題靈活性...大數(shù)據(jù)存儲(chǔ)和管理技術(shù)數(shù)據(jù)在存儲(chǔ)設(shè)備上以數(shù)據(jù)塊的形式存儲(chǔ),人們對(duì)物理數(shù)據(jù)進(jìn)行直接訪問和查詢文件系統(tǒng)以文件為單位對(duì)數(shù)據(jù)進(jìn)行訪問和管理數(shù)據(jù)庫在文件系統(tǒng)上增加了一個(gè)抽象層,用戶可以根據(jù)數(shù)據(jù)模型對(duì)文件中的數(shù)據(jù)進(jìn)行記錄級(jí)新增、截取、更新、刪除等操作傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理技術(shù):與傳統(tǒng)的單機(jī)版文件系統(tǒng)及數(shù)據(jù)庫不同,對(duì)于大數(shù)據(jù)的存儲(chǔ)和管理,由于數(shù)據(jù)規(guī)模巨大,必須將數(shù)據(jù)存儲(chǔ)在多個(gè)機(jī)器中,并且在多臺(tái)機(jī)器中共享這些數(shù)據(jù)。這時(shí),就需要采用新的文件系統(tǒng)技術(shù)。面向大數(shù)據(jù)的文件系統(tǒng)在多臺(tái)機(jī)器中存儲(chǔ)與共享數(shù)據(jù):以手工的方式共享文件FTP技術(shù)被用來共享文件網(wǎng)絡(luò)文件系統(tǒng)(NetworkFileSystem,NFS),最初的分布式文件系統(tǒng)分布式文件系統(tǒng)搭建在傳統(tǒng)文件系統(tǒng)之上,它必須允許用戶在企業(yè)內(nèi)部網(wǎng)上的任一計(jì)算機(jī)上訪問自己的文件,程序可以像對(duì)待本地文件一樣存儲(chǔ)和訪問遠(yuǎn)程文件。為了達(dá)到此效果,分布式文件系統(tǒng)必須解決一些基本問題。這些問題包括:1).程序如何尋址遠(yuǎn)程文件,像對(duì)待本地文件一樣訪問遠(yuǎn)程文件?2).元數(shù)據(jù)管理問題3).一致性問題4).并發(fā)文件更新問題上世紀(jì)八十年代出現(xiàn)的網(wǎng)絡(luò)文件系統(tǒng)主要解決思路是實(shí)現(xiàn)客戶端和文件(存儲(chǔ))服務(wù)器的交互問題。在緩存和一致性管理方面,Sun公司的網(wǎng)絡(luò)文件系統(tǒng)NFS采用了簡單的弱一致性方式:對(duì)于緩存的數(shù)據(jù),客戶端周期性(30秒)去詢問服務(wù)器,查詢文件被最后修改的時(shí)間,如果本地緩存數(shù)據(jù)的時(shí)間早于該時(shí)間,則讓本地緩存數(shù)據(jù)無效,下次讀取數(shù)據(jù)時(shí)就去服務(wù)器獲取最新的數(shù)據(jù)。服務(wù)器對(duì)外提供統(tǒng)一的命名空間(目錄樹),存儲(chǔ)服務(wù)器節(jié)點(diǎn)之間不共享存儲(chǔ)空間,每個(gè)服務(wù)器存儲(chǔ)不同目錄子樹的方式實(shí)現(xiàn)擴(kuò)展。網(wǎng)絡(luò)文件系統(tǒng)的服務(wù)器之間缺乏負(fù)載均衡和容錯(cuò)機(jī)制,不同服務(wù)器之間的存儲(chǔ)空間也不能得以均衡利用,可靠性差,文件(存儲(chǔ))服務(wù)器的可擴(kuò)展性問題十分突出:每個(gè)存儲(chǔ)服務(wù)器所支持的存儲(chǔ)容量局限于SCSI總線的限制而難以擴(kuò)展。網(wǎng)絡(luò)文件系統(tǒng)90年代,存儲(chǔ)區(qū)域網(wǎng)(StorageAreaNetwork,SAN)成為解決存儲(chǔ)系統(tǒng)可擴(kuò)展性的最有效的途徑。SAN是用網(wǎng)絡(luò)取代SCSI總線,從而使存儲(chǔ)系統(tǒng)的容量與性能的可擴(kuò)展性都得以極大提高。在SAN網(wǎng)絡(luò)中,可以接入多個(gè)存儲(chǔ)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都對(duì)外提供I/O通道,在寫入數(shù)據(jù)時(shí),服務(wù)器端可以并行寫入到多個(gè)存儲(chǔ)節(jié)點(diǎn)中,從而顯著提高I/O吞吐量。早期的SAN主要用于集群計(jì)算系統(tǒng)中。存儲(chǔ)區(qū)域網(wǎng)分布式集群文件系統(tǒng)分布式集群文件系統(tǒng):在傳統(tǒng)文件系統(tǒng)基礎(chǔ)上,每臺(tái)計(jì)算機(jī)各自提供自己的存儲(chǔ)空間,并各自協(xié)調(diào)管理所有計(jì)算機(jī)節(jié)點(diǎn)中的文件,節(jié)點(diǎn)通過前端網(wǎng)絡(luò)發(fā)送請(qǐng)求讀寫數(shù)據(jù)。典型代表Google文件系統(tǒng)GFS雅虎工程師開發(fā)了HDFSGlusterFS、Ceph、Lustre、MooseFS等分布式集群文件系統(tǒng)HDFS對(duì)大文件采用分塊存儲(chǔ),非常適合在以計(jì)算為主和超大文件存儲(chǔ)的應(yīng)用環(huán)境下,支持對(duì)大文件的每一塊進(jìn)行獨(dú)立地計(jì)算處理。HDFS可以在集群內(nèi)進(jìn)行文件塊的移動(dòng)遷移,將文件塊遷移到計(jì)算空閑的機(jī)器上,以充分利用CPU計(jì)算資源,加快數(shù)據(jù)處理速度。同時(shí),分塊導(dǎo)致了文件難以修改數(shù)據(jù)。Ceph的主要目標(biāo)是設(shè)計(jì)成可輕松擴(kuò)展到數(shù)PB容量、基于POSIX、沒有單點(diǎn)故障、對(duì)多種工作負(fù)載提供高性能的訪問。目前Ceph支持OpenStack、CloudStack、OpenNebula、Hadoop等。GlusterFS是完全與POSIX標(biāo)準(zhǔn)兼容的分布式集群文件系統(tǒng)。分布式內(nèi)存文件系統(tǒng)Tachyon可以在集群里以訪問內(nèi)存的速度來訪問存在tachyon里的文件Tachyon是框架在分布式文件存儲(chǔ)和各種計(jì)算框架之間的一種中間件主要職責(zé)是將那些不需要落地到普通文件系統(tǒng)里的文件,落地到分布式內(nèi)存文件系統(tǒng)中,來達(dá)到共享內(nèi)存、提高效率,同時(shí)可以達(dá)到減少內(nèi)存冗余、GC時(shí)間等的目的面向大數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng):并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)庫操作的數(shù)據(jù)庫系統(tǒng)。這些系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢,但為了能夠并行執(zhí)行SQL的查詢操作,系統(tǒng)中采用了兩個(gè)關(guān)鍵技術(shù):關(guān)系表的水平劃分:根據(jù)某種策略將關(guān)系表中的元組分布到集群中的不同節(jié)點(diǎn)上,這些節(jié)點(diǎn)上的表結(jié)構(gòu)是一樣的,這樣就可以對(duì)元組并行處理SQL查詢的分區(qū)執(zhí)行:首先為SQL查詢生成總的執(zhí)行計(jì)劃,再拆分成能夠在各個(gè)節(jié)點(diǎn)上獨(dú)立執(zhí)行的子計(jì)劃。在執(zhí)行時(shí),每個(gè)節(jié)點(diǎn)將中間結(jié)果發(fā)送到某一特定節(jié)點(diǎn)進(jìn)行聚集產(chǎn)生最終結(jié)果。并行數(shù)據(jù)庫優(yōu)點(diǎn):擁有較高的性能和可用性缺點(diǎn):沒有較好的可伸縮性;系統(tǒng)的容錯(cuò)性較差只適合小規(guī)模集群,以及資源需求相對(duì)固定的應(yīng)用程序NoSQL數(shù)據(jù)管理系統(tǒng)由于傳統(tǒng)關(guān)系數(shù)據(jù)庫(Oracle、MSSQLServer和MySQL等)不擅長處理模式不確定性的數(shù)據(jù)、使傳統(tǒng)關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)變得復(fù)雜和對(duì)事務(wù)管理的嚴(yán)格要求嚴(yán)重影響了系統(tǒng)在分布式環(huán)境下的可用性和可伸縮性等原因,出現(xiàn)了NoSQL數(shù)據(jù)管理系統(tǒng)。NoSQL(NotOnlySQL)數(shù)據(jù)存儲(chǔ)和管理系統(tǒng)是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng),并分為key-value存儲(chǔ)、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫這3類。根據(jù)CAP定理,對(duì)于分布式系統(tǒng)來說,系統(tǒng)的一致性(consistency,C)、可用性(availability,A)和分區(qū)容錯(cuò)性(partitiontolerance,P)三者是不可能同時(shí)實(shí)現(xiàn)的,任何設(shè)計(jì)高明的分布式系統(tǒng)只能同時(shí)保障其中的兩個(gè)性質(zhì)。如以上的NoSQL數(shù)據(jù)庫中,Cassandra,Dynamo滿足CAP定理中的AP;BigTable,MongoDB滿足CP;而關(guān)系數(shù)據(jù)庫,如MySQL和Postgres滿足AC。NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL典型地遵循BASE原則,更加強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性.NoSQL數(shù)據(jù)庫一般只支持簡單的key/value接口,只支持根據(jù)惟一的鍵值(key)定義在一個(gè)數(shù)據(jù)項(xiàng)上的讀寫操作。支持事務(wù)的分布式NoSQL--FoundationDB優(yōu)點(diǎn):相對(duì)于復(fù)雜的關(guān)系數(shù)據(jù)庫系統(tǒng),其主要優(yōu)點(diǎn)在于其查詢速度快、支持大規(guī)模數(shù)據(jù)存儲(chǔ)且支持高并發(fā),非常適合只需要通過主鍵進(jìn)行簡單查詢的應(yīng)用場(chǎng)景。缺點(diǎn):它本身沒有任何表示約束和關(guān)系的機(jī)制,因此數(shù)據(jù)完整性的保障完全依賴客戶程序本身;由于目前出現(xiàn)了很多NoSQL數(shù)據(jù)存儲(chǔ)系統(tǒng)的產(chǎn)品或工具,但由于缺乏統(tǒng)一標(biāo)準(zhǔn),彼此之間兼容性差等。NewSQL數(shù)據(jù)管理系統(tǒng)NewSQL能夠提供SQL數(shù)據(jù)庫的質(zhì)量保證,也能提供NoSQL數(shù)據(jù)庫的可擴(kuò)展性。VoltDB是NewSQL的實(shí)現(xiàn)之一,其開發(fā)公司的CTO宣稱,它們的系統(tǒng)使用NewSQL的方法處理事務(wù)的速度比傳統(tǒng)數(shù)據(jù)庫系統(tǒng)快45倍。VoltDB可以擴(kuò)展到39個(gè)機(jī)器上,在300個(gè)CPU內(nèi)核中每分鐘處理1600萬事務(wù),其所需的機(jī)器數(shù)比Hadoop集群要少很多。NewSQL的出現(xiàn):2012年Google在OSDI上發(fā)表了Spanner的論文,2013年在SIGMOD發(fā)表了F1的論文。這兩篇論文讓業(yè)界第一次看到了關(guān)系模型和NoSQL的擴(kuò)展性在超龐大集群規(guī)模上融合的可能性。這種可擴(kuò)展、高性能的SQL數(shù)據(jù)庫被稱為NewSQL,其中“New”用來表明與傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)的區(qū)別。PARTTWO2大數(shù)據(jù)計(jì)算技術(shù)批處理計(jì)算模式
批量數(shù)據(jù)三大特征數(shù)據(jù)體量巨大數(shù)據(jù)精確度高數(shù)據(jù)價(jià)值密度低大數(shù)據(jù)的批處理系統(tǒng)適用于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場(chǎng)景。批處理計(jì)算模式批量數(shù)據(jù)處理適合大型、相對(duì)成熟的作業(yè),但可能浪費(fèi)時(shí)間,因?yàn)樘幚斫Y(jié)果與預(yù)期差異大。MapReduce編程模型在批處理計(jì)算中廣泛應(yīng)用,因?yàn)樗哂辛己玫男詢r(jià)比、易于使用和可伸縮性。離線批處理計(jì)算模式適用于靜態(tài)數(shù)據(jù),但對(duì)于實(shí)時(shí)性要求高的應(yīng)用不夠強(qiáng)大,因?yàn)樗幸恍┚窒扌?,如中間數(shù)據(jù)傳輸難以優(yōu)化、任務(wù)重啟開銷大等。交互式查詢計(jì)算模式數(shù)據(jù)查詢和分析是迭代的交互過程,對(duì)實(shí)時(shí)性要求高,大數(shù)據(jù)環(huán)境下需要改進(jìn)響應(yīng)時(shí)間,引入索引和內(nèi)存計(jì)算等手段,如Spark和Dremel系統(tǒng)。Spark系統(tǒng):是高效的開源集群計(jì)算系統(tǒng),利用內(nèi)存快速處理數(shù)據(jù),比Hadoop快10倍~100倍,兼容Hadoop存儲(chǔ)API,支持交互式查詢。Dremel系統(tǒng):交互式數(shù)據(jù)分析系統(tǒng),處理PB級(jí)數(shù)據(jù),秒級(jí)響應(yīng),嵌套數(shù)據(jù)模型適合大規(guī)模數(shù)據(jù)和相關(guān)查詢,結(jié)合Web搜索技術(shù),能夠?qū)崿F(xiàn)并發(fā)執(zhí)行查詢。流處理計(jì)算模式流處理計(jì)算的現(xiàn)狀流處理計(jì)算的方式流處理的應(yīng)用流處理計(jì)算的現(xiàn)狀流數(shù)據(jù)具有持續(xù)到達(dá)、規(guī)模大且速度快等特點(diǎn),通常不會(huì)對(duì)所有數(shù)據(jù)進(jìn)行永久化存儲(chǔ),而基本在內(nèi)存中完成。流數(shù)據(jù)處理方式更多地依賴于內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)。在云計(jì)算和大數(shù)據(jù)環(huán)境下面臨新的挑戰(zhàn),流處理仍舊是研究熱點(diǎn)。物聯(lián)網(wǎng)領(lǐng)域由于大量實(shí)時(shí)產(chǎn)生的感知數(shù)據(jù),也對(duì)流處理計(jì)算模式有廣泛的需求。流處理計(jì)算的方式流處理兩種典型的處理方式:真正的流處理方式:計(jì)算是針對(duì)一條新的記錄進(jìn)行一次。
(例如Storm,其響應(yīng)時(shí)間可以達(dá)毫秒級(jí)。)微批處理方式:將流數(shù)據(jù)分為很多小的片段,針對(duì)每個(gè)片段進(jìn)行一次處理。(例如SparkStreaming,響應(yīng)時(shí)間難以達(dá)到毫秒級(jí)。)流處理的應(yīng)用Twitter的Storm系統(tǒng)
Storm是一套分布式、可靠、可容錯(cuò)的用于處理流數(shù)據(jù)的系統(tǒng)。其流式處理作業(yè)被分發(fā)至不
同類型的組件,每個(gè)組件負(fù)責(zé)一項(xiàng)簡單的、特定的處理任務(wù)。Storm提供了簡單的類似于MapReduce的編程模型,降低了實(shí)時(shí)處理的復(fù)雜性。它也具有擁有良好的水平擴(kuò)展能力,其流式計(jì)算過程是在多個(gè)線程、進(jìn)程和服務(wù)器之間并行進(jìn)行的。Linkedin的Samza系統(tǒng)
Samza與Kafka的關(guān)系可以類比MapReduce與HDFS的關(guān)系。Samza系統(tǒng)由3個(gè)層次組成,包括流式數(shù)據(jù)層(Kafka)、執(zhí)行層(YARN)、處理層(SamzaAPI).一個(gè)Samza任務(wù)的輸入與輸出均是流。
Samza使用Kafka來保證所有消息都會(huì)按照寫入分區(qū)的順序進(jìn)行處理,絕對(duì)不會(huì)丟失任何消息。SparkStreaming系統(tǒng)
SparkStreaming是SparkAPI的一個(gè)擴(kuò)展,它并不會(huì)像Storm那樣一次一個(gè)地處理數(shù)據(jù)流,而是在處理前按時(shí)間間隔預(yù)先將其切分為一段一段的微批處理作業(yè)。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及KappaLambda架構(gòu)是由Storm的作者NathanMarz提出的一個(gè)實(shí)時(shí)大數(shù)據(jù)處理框架。Lambda架構(gòu)將大數(shù)據(jù)系統(tǒng)構(gòu)建為多個(gè)層次。
理想狀態(tài)下,任何數(shù)據(jù)訪問都可以通過對(duì)數(shù)據(jù)的直接查詢獲取,但是,若數(shù)據(jù)達(dá)到相當(dāng)大的一個(gè)級(jí)別(例如PB),且還需要支持實(shí)時(shí)查詢時(shí),就需要耗費(fèi)非常龐大的資源。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa
在Lambda架構(gòu)中,實(shí)現(xiàn)batchview的部分被稱之為批處理層(Batchlayer)。主要包含兩個(gè)職責(zé):
存儲(chǔ)主數(shù)據(jù)集(不變的持續(xù)增長的數(shù)據(jù)集)
針對(duì)這個(gè)主數(shù)據(jù)集進(jìn)行預(yù)運(yùn)算
大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa加速層只處理最近的數(shù)據(jù),它會(huì)在接收到新數(shù)據(jù)時(shí),進(jìn)行一種增量的計(jì)算。
大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa
針對(duì)Lambda架構(gòu)的缺點(diǎn),LinkedIn的工程師JayKreps提出了應(yīng)對(duì)大數(shù)據(jù)實(shí)時(shí)處理的另外一種方式,即Kappa架構(gòu)。
在Kappa架構(gòu)中,流處理系統(tǒng)來處理輸入的數(shù)據(jù),流處理系統(tǒng)的輸出直接進(jìn)入數(shù)服務(wù)層,而應(yīng)用直接從服務(wù)層獲取查詢結(jié)果。也就是說Kappa只有兩層:實(shí)時(shí)處理層和服務(wù)層。大數(shù)據(jù)實(shí)時(shí)處理的架構(gòu):Lambda及Kappa
在Kappa架構(gòu)中,不需要對(duì)數(shù)據(jù)的處理開發(fā)和維護(hù)兩套不同的系統(tǒng),因此系統(tǒng)復(fù)雜度減少了。
但是,由于Kappa架構(gòu)去掉了批處理層,因此其不適合用來管理一些需要利用大量歷史數(shù)據(jù)進(jìn)行批處理的應(yīng)用。例如在某些大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景需要海量的歷史數(shù)據(jù)進(jìn)行模型訓(xùn)練時(shí),Kappa架構(gòu)可能會(huì)無法勝任。Kappa架構(gòu)層次圖PARTTHREE3大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)分析技術(shù)傳統(tǒng)數(shù)據(jù)分析主要針對(duì)結(jié)構(gòu)化數(shù)據(jù)展開,且形成了成熟的技術(shù)體系,但大數(shù)據(jù)數(shù)據(jù)的規(guī)模效應(yīng)給很多傳統(tǒng)單機(jī)版的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法帶來了很多的挑戰(zhàn)。主要體現(xiàn)在:數(shù)據(jù)量的膨脹數(shù)據(jù)深度分析需求的增長傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)分析在傳統(tǒng)工業(yè)、電子商務(wù)、政務(wù)以及科學(xué)研究等應(yīng)用領(lǐng)域產(chǎn)生了大量的結(jié)構(gòu)化數(shù)據(jù),許多數(shù)據(jù)挖掘的技術(shù)已成功用于一些結(jié)構(gòu)化數(shù)據(jù)分析的應(yīng)用。例如:統(tǒng)計(jì)機(jī)器學(xué)習(xí)、時(shí)空挖掘技術(shù)、高速數(shù)據(jù)流與傳感器數(shù)據(jù)中的模式。文本數(shù)據(jù)分析文本數(shù)據(jù)分析是指從無結(jié)構(gòu)的文本中提取有用信息或知識(shí)的過程。文本分析技術(shù)包括信息提取、主題建模、摘要(summarization)、分類、聚類、問答系統(tǒng)和觀點(diǎn)挖掘等技術(shù)。多媒體數(shù)據(jù)分析多媒體數(shù)據(jù)分析是指從圖像、語音等多媒體數(shù)據(jù)中提取知識(shí)。多媒體分析研究覆蓋范圍較廣,包括多媒體識(shí)別、多媒體摘要、多媒體標(biāo)注、多媒體索引和檢索、多媒體推薦和多媒體事件檢測(cè)等。社交網(wǎng)絡(luò)數(shù)據(jù)分析隨著在線社交網(wǎng)絡(luò)的興起,興起了社交網(wǎng)絡(luò)分析。社交數(shù)據(jù)包括聯(lián)系數(shù)據(jù)和內(nèi)容數(shù)據(jù)。聯(lián)系數(shù)據(jù)通常用一個(gè)圖拓?fù)浔硎緦?shí)體間的聯(lián)系,是圖數(shù)據(jù);內(nèi)容數(shù)據(jù)包含文本、圖像和其他多媒體數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,圖的規(guī)模大到一定程度后,單機(jī)很難解決大規(guī)模的圖計(jì)算。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計(jì)算模型來迎接挑戰(zhàn)并解決問題.物聯(lián)網(wǎng)傳感數(shù)據(jù)分析無線傳感器、移動(dòng)技術(shù)和流處理技術(shù)的發(fā)展促進(jìn)了各種物聯(lián)傳感器網(wǎng)絡(luò)的部署,在工業(yè)、醫(yī)學(xué)等各個(gè)行業(yè)用于實(shí)時(shí)監(jiān)控設(shè)備狀態(tài)、個(gè)體健康狀態(tài)等。這些數(shù)據(jù)的分析面臨巨大的挑戰(zhàn),但也推動(dòng)了物聯(lián)網(wǎng)傳感數(shù)據(jù)分析技術(shù)的發(fā)展?;谶@些數(shù)據(jù)的分析既是描述性分析,也是預(yù)測(cè)性分析。大數(shù)據(jù)分析技術(shù)的發(fā)展趨勢(shì)由于大數(shù)據(jù)模式多樣、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊,使得傳統(tǒng)的數(shù)據(jù)分析與挖掘任務(wù)變得異常困難。但同時(shí)也推動(dòng)了大數(shù)據(jù)分析技術(shù)的發(fā)展。大數(shù)據(jù)的可計(jì)算性和建立新型計(jì)算范式研究分布式的、并行的、流式計(jì)算算法,形成通信、存儲(chǔ)、計(jì)算融合優(yōu)化的大數(shù)據(jù)計(jì)算框架。數(shù)據(jù)可視化分析技術(shù)THANKS
FOR
YOUR
WATCHINGLoremIpsumDolorSitErElitLamet,ConsectetaurCilliumAdipisicingPecu,SedDoEiusmodTemporIncididuntUtLaboreEtDoloreMagnaAliqua.Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings
BigDataprocessingTechnologyandPractice物聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)體系物聯(lián)網(wǎng)中的大數(shù)據(jù)挑戰(zhàn)1技術(shù)體系2PARTONE1物聯(lián)網(wǎng)中的大數(shù)據(jù)挑戰(zhàn)師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語物聯(lián)網(wǎng)中的大數(shù)據(jù)挑戰(zhàn)根據(jù)相關(guān)研究統(tǒng)計(jì),物聯(lián)網(wǎng)中產(chǎn)生的感知數(shù)據(jù)逐步超越互聯(lián)網(wǎng)的數(shù)據(jù)量;如果算上工業(yè)企業(yè)自動(dòng)化生產(chǎn)線及設(shè)備上的運(yùn)行數(shù)據(jù),特別是隨著工業(yè)4.0推進(jìn)而帶來的數(shù)據(jù)爆炸,感知數(shù)據(jù)的量更是呈現(xiàn)幾何級(jí)數(shù)增長。物聯(lián)網(wǎng)大數(shù)據(jù)的獲取、傳輸、存儲(chǔ)、分析挖掘以及應(yīng)用面臨著不一樣的挑戰(zhàn)。互聯(lián)網(wǎng)大數(shù)據(jù)的特征可以用5個(gè)V(即Volume、Variety、Value、Velocity、Veracity)來概括互聯(lián)網(wǎng)大數(shù)據(jù)的特征:Volume:數(shù)據(jù)體量巨大Variety:數(shù)據(jù)類型繁多Value:價(jià)值密度低Velocity:處理速度快Veracity:結(jié)果的真實(shí)性數(shù)據(jù)的重要性在于對(duì)決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實(shí)性和質(zhì)量才是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。數(shù)據(jù)增長速度快,處理速度也快,時(shí)效性要求高,這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。據(jù)統(tǒng)計(jì),互聯(lián)網(wǎng)一天產(chǎn)生的全部內(nèi)容可以制作1.68億張DVD,一天發(fā)出2940億郵件以及200萬個(gè)帖子……數(shù)據(jù)格式變得越來越多樣;數(shù)據(jù)來源也越來越多樣數(shù)據(jù)間更多地表現(xiàn)為稀缺性、不確定性和多樣性2014年,IBM發(fā)布了《踐行大數(shù)據(jù)承諾:大數(shù)據(jù)項(xiàng)目的實(shí)施應(yīng)用》白皮書,在該報(bào)告中進(jìn)一步擴(kuò)展了大數(shù)據(jù)的特性,提出將大數(shù)據(jù)的特性擴(kuò)展為“Vs”?!癡s”在大數(shù)據(jù)已有特性的基礎(chǔ)上,增加了數(shù)據(jù)粘度(Viscosity),主要用來衡量數(shù)據(jù)流的關(guān)聯(lián)性(ResistancetoFlowofData);數(shù)據(jù)易變性(Variability),主要衡量數(shù)據(jù)流的變化率;數(shù)據(jù)波動(dòng)性(Volatility),主要表明數(shù)據(jù)有效性的期限和存儲(chǔ)的時(shí)限。數(shù)據(jù)的可視化可視化是大數(shù)據(jù)分析與應(yīng)用的重要途徑,能夠更加直觀地展現(xiàn)大數(shù)據(jù)的完整視圖,并且充分挖掘大數(shù)據(jù)的價(jià)值。
可視化方法可通過創(chuàng)建表格、圖標(biāo)、圖像等直觀地表示數(shù)據(jù)。可視化并非僅僅是靜態(tài)形式,而應(yīng)當(dāng)是互動(dòng)的。
高維可視化越有效,識(shí)別出潛在的模式、相關(guān)性或離群值的概率越高。高效的數(shù)據(jù)可視化是大數(shù)據(jù)時(shí)代發(fā)展進(jìn)程中關(guān)鍵的一部分。
交互式可視化可以通過縮放等方法進(jìn)行細(xì)節(jié)概述。真正讓大數(shù)據(jù)成為主流的是,大數(shù)據(jù)不僅能夠與數(shù)據(jù)科學(xué)家和技術(shù)人員相連,還與業(yè)務(wù)人員密切相關(guān)。當(dāng)然,其中關(guān)鍵的一點(diǎn)是可視化,是能夠向用戶顯示,不僅僅是告知人們,也不僅僅是顯示數(shù)字甚至圖表,而是生動(dòng)地顯示圖表和圖形以及可視化。物聯(lián)網(wǎng)大數(shù)據(jù)的特征物聯(lián)網(wǎng)的不同解讀物聯(lián)網(wǎng)面臨的問題物聯(lián)網(wǎng)面臨的挑戰(zhàn)物聯(lián)網(wǎng)的不同解讀
由于物聯(lián)網(wǎng)大數(shù)據(jù)具有更強(qiáng)的時(shí)序性與實(shí)時(shí)性要求,以及數(shù)據(jù)本身的專業(yè)性、相互關(guān)聯(lián)性等特點(diǎn),導(dǎo)致傳統(tǒng)大數(shù)據(jù)處理技術(shù)無法滿足要求。物聯(lián)網(wǎng)大數(shù)據(jù)處理面臨的問題:隱匿性(Below-Surface),洞悉數(shù)據(jù)特征背后的意義碎片化(Broken),避免數(shù)據(jù)的斷續(xù),保證連續(xù)且時(shí)態(tài)一致性的數(shù)據(jù)集低質(zhì)性(Bad-Quality),提高數(shù)據(jù)質(zhì)量,滿足低容錯(cuò)性物聯(lián)網(wǎng)面臨的問題
基于物聯(lián)網(wǎng)大數(shù)據(jù)的特征以及面臨的問題,物聯(lián)網(wǎng)大數(shù)據(jù)的管理與處理分析需要解決以下的問題與挑戰(zhàn):由于物聯(lián)網(wǎng)數(shù)據(jù)的連續(xù)性以及處理的實(shí)時(shí)性要求,如何構(gòu)建分布的、多層次數(shù)據(jù)處理技術(shù)體系是首先面臨的問題物聯(lián)網(wǎng)數(shù)據(jù)處理的實(shí)時(shí)性如何得到滿足與保證是我們必須關(guān)注的第二個(gè)問題如同互聯(lián)網(wǎng)一樣,物聯(lián)網(wǎng)的價(jià)值也需要通過服務(wù)以及大數(shù)據(jù)分析挖掘來體現(xiàn)物聯(lián)網(wǎng)面臨的挑戰(zhàn)PARTTWO2技術(shù)體系技術(shù)體系隨著物聯(lián)網(wǎng)應(yīng)用的快速發(fā)展,億萬級(jí)的各類傳感器持續(xù)產(chǎn)生海量的數(shù)據(jù),物聯(lián)網(wǎng)應(yīng)用中的數(shù)據(jù)更加傾向于結(jié)構(gòu)化、半結(jié)構(gòu)化。我們稱這些來自于傳感器、智能設(shè)備以及工業(yè)物聯(lián)網(wǎng)端的自動(dòng)化數(shù)據(jù)為感知數(shù)據(jù)。物聯(lián)網(wǎng)中感知數(shù)據(jù)的處理分為三個(gè)層次,包括:感知數(shù)據(jù)的采集與傳輸、感知數(shù)據(jù)管理與實(shí)時(shí)計(jì)算、物聯(lián)網(wǎng)平臺(tái)與大數(shù)據(jù)中心。感知數(shù)據(jù)的采集物聯(lián)網(wǎng)平臺(tái)與大數(shù)據(jù)中心感知數(shù)據(jù)采集與傳輸感知數(shù)據(jù)的采集與傳輸這一層主要實(shí)現(xiàn)傳感器、智能硬件、工廠以及設(shè)備的數(shù)據(jù)采集,并對(duì)數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)換、過濾等預(yù)處理,之后實(shí)時(shí)上傳到感知數(shù)據(jù)管理層或者大數(shù)據(jù)中心。通常通過物聯(lián)網(wǎng)網(wǎng)關(guān)來實(shí)現(xiàn)這些功能。物聯(lián)網(wǎng)網(wǎng)關(guān)分為:工業(yè)型網(wǎng)關(guān)、傳感型網(wǎng)關(guān)、混合型網(wǎng)關(guān)。物聯(lián)網(wǎng)網(wǎng)關(guān)的主要功能:實(shí)現(xiàn)傳感網(wǎng)絡(luò)與通信網(wǎng)絡(luò)、不同類型傳感網(wǎng)絡(luò)、智能設(shè)備之間的雙向協(xié)議轉(zhuǎn)換。物聯(lián)網(wǎng)網(wǎng)關(guān)需具備的能力為了實(shí)現(xiàn)協(xié)議轉(zhuǎn)換以及跨網(wǎng)絡(luò)通信,物聯(lián)網(wǎng)網(wǎng)關(guān)需要具備以下能力:(1)廣泛的接入能力:物聯(lián)網(wǎng)網(wǎng)關(guān)根據(jù)應(yīng)用場(chǎng)景的不同,必須支持工廠、設(shè)備、裝備以及傳感器、無線傳感器網(wǎng)絡(luò)的接入。(2)可管理能力:首先要對(duì)網(wǎng)關(guān)進(jìn)行管理,如注冊(cè)管理、權(quán)限管理、狀態(tài)監(jiān)管等。網(wǎng)關(guān)實(shí)現(xiàn)子網(wǎng)內(nèi)的節(jié)點(diǎn)的管理,如獲取節(jié)點(diǎn)的標(biāo)識(shí)、狀態(tài)、屬性、能量等,以及遠(yuǎn)程實(shí)現(xiàn)喚醒、控制、診斷、升級(jí)和維護(hù)等。
(3)協(xié)同轉(zhuǎn)換能力:從不同的感知網(wǎng)絡(luò)到接入網(wǎng)絡(luò)的協(xié)議轉(zhuǎn)換、將下層的標(biāo)準(zhǔn)格式的數(shù)據(jù)統(tǒng)一封裝、保證不同的感知網(wǎng)絡(luò)的協(xié)議能夠變成統(tǒng)一的數(shù)據(jù)和信令;將上層下發(fā)的數(shù)據(jù)包解析成感知層協(xié)議可以識(shí)別的信令和控制指令。(4)數(shù)據(jù)質(zhì)量標(biāo)識(shí):能夠識(shí)別所連接系統(tǒng)或者網(wǎng)絡(luò)中系統(tǒng)以及傳感器的狀態(tài);針對(duì)獲取的數(shù)據(jù)以及相關(guān)信息辨別其數(shù)據(jù)質(zhì)量,并進(jìn)行標(biāo)識(shí)以便數(shù)據(jù)分析應(yīng)用提供更加準(zhǔn)確的分析結(jié)果感知數(shù)據(jù)管理感知數(shù)據(jù)之間具有強(qiáng)相關(guān)性,因此建立合適的數(shù)據(jù)模型進(jìn)行組織管理是數(shù)據(jù)管理和分析的關(guān)鍵步驟之一。在物聯(lián)網(wǎng)時(shí)代,上億計(jì)的傳感器被嵌入到現(xiàn)實(shí)世界的各種設(shè)備中,如何將這些感知數(shù)據(jù)梳理清晰,并挖掘出價(jià)值非常重要。實(shí)時(shí)計(jì)算隨著移動(dòng)設(shè)備、物聯(lián)網(wǎng)設(shè)備的持續(xù)增長,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,越來越多的業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)處理的實(shí)時(shí)性有了更高的要求,在這個(gè)背景下,各種實(shí)時(shí)處理平臺(tái)應(yīng)運(yùn)而生。實(shí)時(shí)計(jì)算一般都是針對(duì)海量數(shù)據(jù)進(jìn)行的,一般要求為秒級(jí)。它有如下特征:無限數(shù)據(jù)無界數(shù)據(jù)處理低延遲實(shí)時(shí)計(jì)算對(duì)于許多物聯(lián)網(wǎng)應(yīng)用來說,實(shí)時(shí)的處理與計(jì)算要求盡量在本地被滿足,或者在部分網(wǎng)絡(luò)節(jié)點(diǎn)上進(jìn)行處理。右圖是物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺(tái)的部署示意圖,實(shí)時(shí)計(jì)算分布于更加靠近物聯(lián)網(wǎng)設(shè)備端的計(jì)算節(jié)點(diǎn)上,而不是大數(shù)據(jù)中心。物聯(lián)網(wǎng)平臺(tái)與大數(shù)據(jù)中心在物聯(lián)網(wǎng)時(shí)代,通過將大量的傳感器嵌入各種設(shè)備中,物聯(lián)網(wǎng)產(chǎn)業(yè)在數(shù)據(jù)的驅(qū)動(dòng)下提供高價(jià)值的服務(wù)。云計(jì)算、大數(shù)據(jù)中心成為支撐物聯(lián)網(wǎng)平臺(tái)的基石,幫助處理和分析海量的數(shù)據(jù),實(shí)現(xiàn)服務(wù)的智能化和無人化。物聯(lián)網(wǎng)平臺(tái)THANKS
FOR
YOUR
WATCHINGLoremIpsumDolorSitErElitLamet,ConsectetaurCilliumAdipisicingPecu,SedDoEiusmodTemporIncididuntUtLaboreEtDoloreMagnaAliqua.Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings
BigDataprocessingTechnologyandPractice感知數(shù)據(jù)特性與模型感知數(shù)據(jù)的特性分析1感知數(shù)據(jù)的表示與組織2感知數(shù)據(jù)庫的定位3感知數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫4PARTONE1感知數(shù)據(jù)的特性分析師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語常用的感知數(shù)據(jù)類型感知數(shù)據(jù)是指通過傳感器和感知設(shè)備獲取到的一種原始數(shù)據(jù)。包括圖像、聲音、壓力、溫度、濕度等多種類型的數(shù)據(jù)。它可以用于實(shí)時(shí)監(jiān)測(cè)、環(huán)境監(jiān)測(cè)、行為識(shí)別、智能決策等。從應(yīng)用角度來說,感知數(shù)據(jù)可以概括性地分為以下七種類型:標(biāo)識(shí)數(shù)據(jù)狀態(tài)數(shù)據(jù)運(yùn)行數(shù)據(jù)或者測(cè)量數(shù)據(jù)波形數(shù)據(jù)或者圖像數(shù)據(jù)位置數(shù)據(jù)指令數(shù)據(jù)反饋數(shù)據(jù)感知數(shù)據(jù)的主要特征基于對(duì)感知數(shù)據(jù)類型的分析,感知數(shù)據(jù)具有以下特征:時(shí)態(tài)屬性位置屬性序列屬性海量屬性實(shí)時(shí)屬性事件觸發(fā)感知數(shù)據(jù)的主要特征:時(shí)態(tài)屬性由于設(shè)備的狀態(tài)以及運(yùn)行數(shù)據(jù)、傳感器感知的環(huán)境等都是時(shí)刻變化的,因此數(shù)據(jù)具有很強(qiáng)的時(shí)間屬性。時(shí)態(tài)屬性帶來數(shù)據(jù)的時(shí)態(tài)一致性要求,包括以下兩個(gè)方面:絕對(duì)一致性:存在于傳感器感知的環(huán)境狀態(tài)與其在系統(tǒng)的數(shù)據(jù)映像是否足夠一致;相對(duì)一致性:存在于推導(dǎo)計(jì)算其它數(shù)據(jù)的一組數(shù)據(jù)所反映的環(huán)境狀態(tài)是否足夠接近。觸發(fā)上圖給出了數(shù)據(jù)時(shí)態(tài)一致性的示例圖。圖中數(shù)據(jù)a與b是直接來自傳感器的映像數(shù)據(jù),而c是由數(shù)據(jù)a與b推導(dǎo)而得來。感知數(shù)據(jù)的主要特征:實(shí)時(shí)屬性由于感知數(shù)據(jù)的時(shí)態(tài)屬性以及對(duì)外部環(huán)境或者設(shè)備狀態(tài)的及時(shí)反饋需求,導(dǎo)致這些數(shù)據(jù)的處理具有實(shí)時(shí)特性。實(shí)時(shí)屬性要求這些數(shù)據(jù)的處理滿足截止期需要,導(dǎo)致事務(wù)具有實(shí)時(shí)特性,按照截止期需求的不同,分為以下三種類型:硬實(shí)時(shí)固實(shí)時(shí)軟實(shí)時(shí)觸發(fā)感知數(shù)據(jù)的主要特征:事件觸發(fā)一些感知數(shù)據(jù)意味著環(huán)境或者設(shè)備的狀態(tài)變化,狀態(tài)的變化需要觸發(fā)必要的處理過程。這些狀態(tài)的變化一般定義為事件,對(duì)于一些異常事件定義為報(bào)警。事件分為外部觸發(fā)事件與自定義事件。報(bào)警屬于基于條件的事件,一般采用ECA規(guī)則來定義。常用的報(bào)警事件有:越限報(bào)警狀態(tài)報(bào)警變化率報(bào)警PARTTWO2感知數(shù)據(jù)的表示與組織物聯(lián)網(wǎng)數(shù)據(jù)模型物聯(lián)網(wǎng)中的每個(gè)傳感器屬于某個(gè)特定的場(chǎng)景、設(shè)備或者傳感器網(wǎng)絡(luò)以自動(dòng)化工廠為例,工廠物聯(lián)網(wǎng)的數(shù)據(jù)模型可以參考OPC對(duì)象模型OPC數(shù)據(jù)模型物聯(lián)網(wǎng)數(shù)據(jù)模型模型的最上層是場(chǎng)景、設(shè)備或者傳感網(wǎng);而模型的最下層是傳感器對(duì)象,一個(gè)傳感器對(duì)應(yīng)一個(gè)或者多個(gè)感知數(shù)據(jù)對(duì)象,Group是對(duì)傳感器對(duì)象從物理上或者邏輯上進(jìn)行組織。物聯(lián)網(wǎng)數(shù)據(jù)模型時(shí)態(tài)對(duì)象模型時(shí)態(tài)對(duì)象數(shù)據(jù)模型適用于實(shí)時(shí)感知數(shù)據(jù),能夠表示復(fù)雜的數(shù)據(jù)類型和關(guān)系,以及數(shù)據(jù)的時(shí)間屬性和時(shí)間關(guān)系。每個(gè)對(duì)象可以有一個(gè)或多個(gè)時(shí)態(tài)屬性,每個(gè)屬性是按時(shí)間組織的二維表,代表傳感器的采集或計(jì)算數(shù)據(jù)點(diǎn)。這種數(shù)據(jù)模型能夠提高數(shù)據(jù)管理和處理效率。時(shí)態(tài)對(duì)象數(shù)據(jù)模型PARTTHREE3感知數(shù)據(jù)庫的定位感知數(shù)據(jù)庫的定位感知數(shù)據(jù)庫的功能定位包括:全面地采集并存儲(chǔ)管理規(guī)定區(qū)域內(nèi)的感知數(shù)據(jù),構(gòu)造統(tǒng)一的基礎(chǔ)數(shù)據(jù)環(huán)境,一方面滿足本地實(shí)時(shí)計(jì)算的需求,另一方面為后端的大數(shù)據(jù)處理提供最有價(jià)值的數(shù)據(jù)資源。保證感知數(shù)據(jù)的時(shí)態(tài)一致性,控制數(shù)據(jù)質(zhì)量;數(shù)據(jù)質(zhì)量包括兩個(gè)方面:一是數(shù)據(jù)的時(shí)態(tài)一致性保證,一方面是數(shù)據(jù)本身的質(zhì)量,如傳感器誤差等。滿足本地事務(wù)的實(shí)時(shí)處理要求,通過實(shí)時(shí)事務(wù)調(diào)度處理技術(shù)滿足本地事務(wù)的執(zhí)行,結(jié)合流處理以及機(jī)器學(xué)習(xí)算法滿足狀態(tài)判定、態(tài)勢(shì)分析以及預(yù)測(cè)的需求。提供質(zhì)量保證的數(shù)據(jù)同步、數(shù)據(jù)遷移能力,感知數(shù)據(jù)庫向其他數(shù)據(jù)庫或者大數(shù)據(jù)中心提供高質(zhì)量的數(shù)據(jù)集是整個(gè)物聯(lián)網(wǎng)大數(shù)據(jù)處理的關(guān)鍵環(huán)節(jié)。感知數(shù)據(jù)庫的特征感知數(shù)據(jù)庫具有如下特征:感知能力:系統(tǒng)提供主動(dòng)數(shù)據(jù)采集機(jī)制,能夠通過單個(gè)或者一組傳感器數(shù)據(jù)提供用戶所需數(shù)據(jù)的能力。數(shù)據(jù)的多元特性:類型多樣,支持時(shí)態(tài)、關(guān)系、位置、塊數(shù)據(jù)等。數(shù)據(jù)及事務(wù)的實(shí)時(shí)性:具有保證數(shù)據(jù)時(shí)態(tài)一致性的能力;從事務(wù)處理角度來講,具有按照事務(wù)的實(shí)時(shí)處理需求進(jìn)行事務(wù)調(diào)度以及并發(fā)控制的能力。內(nèi)置數(shù)據(jù)處理規(guī)則以及事件觸發(fā)機(jī)制。多級(jí)分布式部署:由于物聯(lián)網(wǎng)本身的廣域特性,使得感知數(shù)據(jù)庫系統(tǒng)必須隨需而變地進(jìn)行部署。數(shù)據(jù)的追溯性:系統(tǒng)能夠?qū)崿F(xiàn)對(duì)所有感知數(shù)據(jù)的存儲(chǔ)管理,并提供高效的檢索分析能力,系統(tǒng)實(shí)現(xiàn)上必須采用數(shù)據(jù)在線壓縮、基于時(shí)間的索引機(jī)制以及提供高效的數(shù)據(jù)查詢算法與挖掘分析方法等。PARTFOUR4感知數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫感知數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫的區(qū)別基于感知數(shù)據(jù)的特殊需求,感知數(shù)據(jù)庫系統(tǒng)與傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)在設(shè)計(jì)原則、管理對(duì)象以及數(shù)據(jù)存儲(chǔ)、典型操作等多個(gè)方面具有很大的區(qū)別。
關(guān)系數(shù)據(jù)庫系統(tǒng)感知數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)原則數(shù)據(jù)的完整性、一致性,保證事務(wù)的ACID屬性數(shù)據(jù)的時(shí)態(tài)一致性,保證事務(wù)的實(shí)時(shí)性管理對(duì)象靜態(tài)存儲(chǔ)、隨機(jī)讀取連續(xù)有序、壓縮存儲(chǔ)特征或者時(shí)段查詢典型操作數(shù)據(jù)增刪改,關(guān)系數(shù)據(jù)查詢數(shù)據(jù)追加,禁止刪改,順序掃描、持續(xù)查詢數(shù)據(jù)存儲(chǔ)外存存儲(chǔ)、被動(dòng)查詢主存處理、外存存儲(chǔ)、歷史摘要數(shù)據(jù)有效性持續(xù)有效瞬時(shí)有效,有時(shí)標(biāo)感知數(shù)據(jù)庫與實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)旨在處理永久性數(shù)據(jù),其設(shè)計(jì)與開發(fā)主要強(qiáng)調(diào)數(shù)據(jù)的完整性、一致性,提高系統(tǒng)的平均吞吐量等總體性能指標(biāo),很少考慮與數(shù)據(jù)及其處理相關(guān)聯(lián)的定時(shí)限制。實(shí)時(shí)數(shù)據(jù)庫同感知數(shù)據(jù)庫一樣從外部環(huán)境獲取數(shù)據(jù),同時(shí)對(duì)數(shù)據(jù)或者事務(wù)的處理具有時(shí)間特性。感知數(shù)據(jù)庫系統(tǒng)與實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)的區(qū)別:感知數(shù)據(jù)庫系統(tǒng)更加面向互聯(lián)網(wǎng)應(yīng)用體系,而在技術(shù)實(shí)現(xiàn)上是在實(shí)時(shí)數(shù)據(jù)庫基礎(chǔ)上,融合工廠數(shù)據(jù)庫系統(tǒng)以及流數(shù)據(jù)處理系統(tǒng)的延續(xù)發(fā)展。感知數(shù)據(jù)庫與工廠數(shù)據(jù)庫系統(tǒng)針對(duì)工業(yè)自動(dòng)化的過程數(shù)據(jù)管理需求,工業(yè)實(shí)時(shí)數(shù)據(jù)庫主要提供工廠生產(chǎn)過程中的設(shè)備運(yùn)行狀態(tài)以及相關(guān)數(shù)據(jù)的采集、以及存儲(chǔ)管理需求。目前,在工業(yè)領(lǐng)域廣泛提到的實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)主要是面向工業(yè)過程監(jiān)控與管理需求的過程數(shù)據(jù)管理系統(tǒng),如OSIsoftPI、GEFunuciHistorian以及中科啟信的ChinDB等。這些產(chǎn)品主要面向工業(yè)企業(yè)生產(chǎn)過程數(shù)據(jù)的管理,由于生產(chǎn)過程數(shù)據(jù)具有一定的時(shí)態(tài)屬性,因此這些產(chǎn)品也稱為工業(yè)實(shí)時(shí)數(shù)據(jù)庫。但是,從這些產(chǎn)品的技術(shù)特點(diǎn)來看,其重點(diǎn)是保存工廠底層自動(dòng)化設(shè)備上不斷變化的過程數(shù)據(jù),以便進(jìn)一步開發(fā)實(shí)現(xiàn)面向工廠管理與先進(jìn)控制的應(yīng)用系統(tǒng),滿足工業(yè)企業(yè)的實(shí)時(shí)生產(chǎn)過程管理需求。因此,更貼切地說這些產(chǎn)品名稱為工廠歷史數(shù)據(jù)庫。感知數(shù)據(jù)庫系統(tǒng)需要具有工廠歷史數(shù)據(jù)庫數(shù)據(jù)管理能力,但是不局限于工廠應(yīng)用。感知數(shù)據(jù)庫與流數(shù)據(jù)處理系統(tǒng)流數(shù)據(jù)處理系統(tǒng)的需求來自下面兩個(gè)方面:持續(xù)自動(dòng)產(chǎn)生大量的細(xì)節(jié)數(shù)據(jù):銀行和股票交易、網(wǎng)絡(luò)流量監(jiān)控、傳感器網(wǎng)絡(luò)
要以近實(shí)時(shí)的方式對(duì)更新數(shù)據(jù)流進(jìn)行復(fù)雜分析:檢測(cè)互聯(lián)網(wǎng)上的極端事件、欺詐、入侵、異常等感知數(shù)據(jù)庫系統(tǒng)與傳統(tǒng)的流數(shù)據(jù)處理系統(tǒng)的共同點(diǎn)如下:數(shù)據(jù)持續(xù)、聯(lián)機(jī)到達(dá)數(shù)據(jù)是無限的,數(shù)據(jù)規(guī)模大數(shù)據(jù)需要快速處理以便快速響應(yīng)兩者差異之處在于:對(duì)感知數(shù)據(jù)庫系統(tǒng)來說,數(shù)據(jù)的達(dá)到是可預(yù)測(cè)的,并且必要時(shí)可主動(dòng)采集獲得歷史數(shù)據(jù)的價(jià)值與讀取次數(shù)需求:流數(shù)據(jù)處理系統(tǒng)中數(shù)據(jù)流是“只能被讀取一次或少數(shù)幾次的點(diǎn)的有序序列”,甚至于只有在數(shù)據(jù)最初到達(dá)時(shí)有機(jī)會(huì)對(duì)其進(jìn)行一次處理,其他時(shí)候很難再存取到這些數(shù)據(jù)感知數(shù)據(jù)庫系統(tǒng)具有歷史數(shù)據(jù)的存儲(chǔ)需求與挖掘分析需求流數(shù)據(jù):指一組數(shù)據(jù)項(xiàng)的序列,按照固定的順序,以連續(xù)、快速、隨時(shí)間變化的,可能是不可預(yù)測(cè)和無限的方式到達(dá)。THANKS
FOR
YOUR
WATCHINGLoremIpsumDolorSitErElitLamet,ConsectetaurCilliumAdipisicingPecu,SedDoEiusmodTemporIncididuntUtLaboreEtDoloreMagnaAliqua.Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings
BigDataprocessingTechnologyandPractice感知數(shù)據(jù)庫管理系統(tǒng)感知數(shù)據(jù)庫的總體設(shè)計(jì)1感知數(shù)據(jù)庫的分布部署體系2感知數(shù)據(jù)庫中的關(guān)鍵技術(shù)3PARTONE1感知數(shù)據(jù)庫的總體設(shè)計(jì)師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語感知數(shù)據(jù)庫總體設(shè)計(jì)感知數(shù)據(jù)庫設(shè)計(jì)的主要原則:松耦合組件化消息機(jī)制感知數(shù)據(jù)庫松耦合:由于感知數(shù)據(jù)的海量數(shù)據(jù)流以上行數(shù)據(jù)為主的特性,因?qū)⒏哳l度、周期性的感知數(shù)據(jù)在線處理任務(wù)與其他非周期任務(wù)分開處理,以避免系統(tǒng)抖動(dòng)問題。組件化:通過系統(tǒng)的解耦和以及組件化設(shè)計(jì),有利用系統(tǒng)的分布式部署以及充分利用服務(wù)器上的多處理器多核的計(jì)算能力。消息機(jī)制:組件之間更多采用消息機(jī)制,提高并發(fā)處理能力,避免接口調(diào)用導(dǎo)致堵塞降低系統(tǒng)性能。感知數(shù)據(jù)庫的設(shè)計(jì)框架感知數(shù)據(jù)系統(tǒng)主要包含九大組件,分別是:數(shù)據(jù)采集協(xié)調(diào)器、內(nèi)存數(shù)據(jù)管理器、歷史數(shù)據(jù)管理器、數(shù)據(jù)組織管理器、實(shí)時(shí)事務(wù)調(diào)度中心、數(shù)據(jù)訂閱-發(fā)布中心、數(shù)據(jù)同步服務(wù)器、日志管理器、應(yīng)用接口服務(wù)器組成。如右圖所示。應(yīng)用服務(wù)接口數(shù)據(jù)訂閱-發(fā)布中心數(shù)據(jù)同步服務(wù)器內(nèi)存數(shù)據(jù)管理器數(shù)據(jù)采集協(xié)調(diào)器日志管理器實(shí)時(shí)調(diào)度處理中心歷史數(shù)據(jù)管理器數(shù)據(jù)組織管理器感知數(shù)據(jù)庫的設(shè)計(jì)框架感知數(shù)據(jù)庫系統(tǒng)的九大組件具體功能如下:(1)數(shù)據(jù)采集協(xié)調(diào)器:提供一個(gè)標(biāo)準(zhǔn)的框架及其插件的系統(tǒng)架構(gòu),不同協(xié)議類似于一個(gè)插件,可以動(dòng)態(tài)加入統(tǒng)一的框架中,方便系統(tǒng)擴(kuò)展數(shù)據(jù)采集能力。(2)數(shù)據(jù)組織管理器:數(shù)據(jù)組織管理器按照時(shí)態(tài)對(duì)象模型組織數(shù)據(jù),其中實(shí)時(shí)數(shù)據(jù)由內(nèi)存數(shù)據(jù)管理器負(fù)責(zé)組織管理,歷史數(shù)據(jù)緩存以及持久存儲(chǔ)由歷史數(shù)據(jù)管理器負(fù)責(zé)。感知數(shù)據(jù)庫的設(shè)計(jì)框架(3)內(nèi)存數(shù)據(jù)管理器:內(nèi)存數(shù)據(jù)管理器利用主內(nèi)存的快速存取優(yōu)勢(shì),采用獨(dú)占寫數(shù)據(jù)權(quán)限+共享多用戶讀數(shù)據(jù)權(quán)限,以及多版本并發(fā)控制,最大化數(shù)據(jù)訪問的并發(fā)能力,以便快速處理源源不斷到達(dá)的實(shí)時(shí)數(shù)據(jù)流。(4)歷史數(shù)據(jù)管理器:歷史數(shù)據(jù)管理器采用數(shù)據(jù)緩存、數(shù)據(jù)塊、歸檔文件三級(jí)模式進(jìn)行數(shù)據(jù)管理。歷史數(shù)據(jù)管理器利用數(shù)據(jù)緩存進(jìn)行數(shù)據(jù)壓縮打包,并建立索引,形成數(shù)據(jù)塊,存入物理磁盤。根據(jù)數(shù)據(jù)訪問需求以及用戶設(shè)置,長期不用的數(shù)據(jù)可以轉(zhuǎn)換成歸檔文件,歸檔文件一般不提供在線查詢服務(wù)。(5)實(shí)時(shí)事務(wù)調(diào)度中心:系統(tǒng)中所有的數(shù)據(jù)操作都是采用事務(wù)模型進(jìn)行處理,實(shí)時(shí)事務(wù)調(diào)度處理中心是整個(gè)系統(tǒng)的核心,事務(wù)的調(diào)度算法以及并發(fā)控制機(jī)制是體現(xiàn)系統(tǒng)性能的關(guān)鍵。(6)數(shù)據(jù)訂閱-發(fā)布中心:由于感知數(shù)據(jù)處理的實(shí)時(shí)性需求,數(shù)據(jù)分發(fā)方式不能采用關(guān)系數(shù)據(jù)庫等傳統(tǒng)系統(tǒng)的查詢或者輪詢方式,必須采用訂閱-發(fā)布機(jī)制確保數(shù)據(jù)更新能夠及時(shí)地到達(dá)系統(tǒng)內(nèi)部的其他組件或者外部應(yīng)用。感知數(shù)據(jù)庫的設(shè)計(jì)框架(7)數(shù)據(jù)同步服務(wù)器:數(shù)據(jù)同步服務(wù)器是支撐系統(tǒng)進(jìn)行分布式部署的基礎(chǔ),常用的同步方式包括鏡像同步與聚合同步。·鏡像同步主要應(yīng)用于跨網(wǎng)絡(luò)的數(shù)據(jù)共享應(yīng)用,最典型的場(chǎng)景是通過網(wǎng)絡(luò)隔離裝置-安全隔離網(wǎng)閘實(shí)現(xiàn)的單向數(shù)據(jù)同步服務(wù)-通用的網(wǎng)閘設(shè)計(jì)一般分三個(gè)基本部分:內(nèi)網(wǎng)處理單元、外網(wǎng)處理單元、隔離與交換控制單元(8)日志管理器:日志管理器主要用來記錄數(shù)據(jù)庫中的重大參數(shù)修改、系統(tǒng)運(yùn)行日志、用戶事務(wù)日志、錯(cuò)誤日志等,其中系統(tǒng)運(yùn)行日志包括數(shù)據(jù)采集接口運(yùn)行狀態(tài)、用戶端連接狀態(tài)、系統(tǒng)運(yùn)行負(fù)荷等內(nèi)容。(9)應(yīng)用接口服務(wù)器:系統(tǒng)對(duì)外提供數(shù)據(jù)訂閱服務(wù)、數(shù)據(jù)查詢服務(wù)、數(shù)據(jù)回放服務(wù)以及對(duì)SQL語言的支持等,這些都是使用特定的協(xié)議通過應(yīng)用接口服務(wù)與系統(tǒng)打交道。網(wǎng)閘結(jié)構(gòu)PARTTWO2感知數(shù)據(jù)庫的分布部署體系感知數(shù)據(jù)庫的分布部署體系感知數(shù)據(jù)庫的分布部署一方面來源于系統(tǒng)的分級(jí)、分區(qū)管理需求,另一方面來源于系統(tǒng)的高性能與高可用性需求,而且系統(tǒng)高可用性的分布部署模式也是整個(gè)系統(tǒng)分布部署的基礎(chǔ)環(huán)節(jié)。系統(tǒng)的集群部署模式根據(jù)側(cè)重的方向和目的,集群分為三大類:高性能集群(HighPerformanceCluster,HPC)負(fù)載均衡集群(LoadBalanceCluster,LBC)高可用性集群(HighAvailabilityCluster,HAC)高性能集群目的是利用一個(gè)集群中的多臺(tái)機(jī)器共同完成同一件任務(wù),使得完成任務(wù)的速度和可靠性都遠(yuǎn)遠(yuǎn)高于單機(jī)運(yùn)行的效果,彌補(bǔ)單機(jī)性能上的不足主要用在天氣預(yù)報(bào)、環(huán)境監(jiān)控等數(shù)據(jù)量大、計(jì)算復(fù)雜的環(huán)境中系統(tǒng)的集群部署模式負(fù)載均衡集群利用一個(gè)集群中的多臺(tái)單機(jī),完成許多并行的小的工作主要目的是選擇負(fù)載最小的機(jī)器,縮短用戶請(qǐng)求的響應(yīng)時(shí)間,提供最好的服務(wù),并且增加系統(tǒng)的可用性和穩(wěn)定性在網(wǎng)站中使用較多高可用性集群
依利用集群中系統(tǒng)的冗余,最大限度地保證集群中服務(wù)的可用性
廣泛應(yīng)用于系統(tǒng)可靠性要求高的領(lǐng)域系統(tǒng)的集群部署模式按照集群工作的層面可分為:數(shù)據(jù)庫集群、應(yīng)用服務(wù)集群、交換機(jī)集群等。MicrosoftSQLServer自身可提供兩種集群技術(shù):失敗轉(zhuǎn)移集群(MSCS:MicrosoftSQLClusterServer)和鏡像(Mirror)鏡像(Mirror)是一種不需要共享磁盤的高可用集群,是數(shù)據(jù)庫級(jí)別的集群。MSCS是一種基于共享磁盤的高可用集群,是操作系統(tǒng)級(jí)別的集群,這也能夠通過第三方的高可用(HA:HighAvailability)軟件實(shí)現(xiàn)系統(tǒng)的集群部署模式目前,工業(yè)上數(shù)據(jù)庫系統(tǒng)支持最多并且最常用的集群方式是雙機(jī)熱備與鏡像。雙機(jī)熱備:是一種主從模式、基于共享磁盤的失敗轉(zhuǎn)移集群,是操作系統(tǒng)級(jí)別的集群,大部分通過操作系統(tǒng)或者第三方的HA軟件來實(shí)現(xiàn),不需要數(shù)據(jù)庫系統(tǒng)的特別支持。數(shù)據(jù)庫鏡像:是非共享磁盤型的高可用解決方案,可分為完全鏡像與部分鏡像,一般需要數(shù)據(jù)庫自身的支持,是進(jìn)行系統(tǒng)多層級(jí)部署的基礎(chǔ);部分?jǐn)?shù)據(jù)鏡像的主要目的是實(shí)現(xiàn)數(shù)據(jù)庫的聚合同步,實(shí)現(xiàn)系統(tǒng)的分級(jí)部署。系統(tǒng)的集群部署模式數(shù)據(jù)庫系統(tǒng)的雙機(jī)部署模式系統(tǒng)的集群部署模式多點(diǎn)集群是雙機(jī)系統(tǒng)在技術(shù)上的提升,由多臺(tái)服務(wù)器組成一個(gè)集群,靈活地進(jìn)行系統(tǒng)部署,并設(shè)置適合的接管策略。常用的方式有:一備多、多備多、多機(jī)互備等。可以充分地利用服務(wù)器資源,同時(shí)保證系統(tǒng)的高可用性與擴(kuò)展能力。數(shù)據(jù)庫系統(tǒng)的多點(diǎn)集群部署模式系統(tǒng)的集群部署模式以上集群部署模式主要目的在于系統(tǒng)的高可用性,通過雙機(jī)互備或者多點(diǎn)集群能在一定程度上實(shí)現(xiàn)系統(tǒng)的高性能。這些部署中的許多模式需要數(shù)據(jù)庫本身的支持,包括數(shù)據(jù)庫的多實(shí)例、數(shù)據(jù)同步復(fù)制、全局?jǐn)?shù)據(jù)字典管理、多服務(wù)器的統(tǒng)一訪問接口等等。多層級(jí)的系統(tǒng)部署體系一級(jí)數(shù)據(jù)庫系統(tǒng):一般來說,一級(jí)數(shù)據(jù)庫系統(tǒng)部署在基層單位,直接從工業(yè)現(xiàn)場(chǎng)、傳感器網(wǎng)絡(luò)或者嵌入式數(shù)據(jù)庫中采集或者同步復(fù)制數(shù)據(jù),支持本地應(yīng)用并為上一級(jí)系統(tǒng)提供數(shù)據(jù)基礎(chǔ);感知數(shù)據(jù)庫系統(tǒng)的部署可以根據(jù)實(shí)際需求采用雙機(jī)熱備、雙機(jī)互備、雙機(jī)雙工或者多點(diǎn)集群等模式。這一級(jí)數(shù)據(jù)庫系統(tǒng)更多地是面向SCADA之類的綜合自動(dòng)化應(yīng)用,以及部分在線計(jì)算分析應(yīng)用。由于物聯(lián)網(wǎng)本身的廣域特征以及管理的級(jí)別體系需求,感知數(shù)據(jù)庫系統(tǒng)在一定情況下有必要采用多層級(jí)的分布式體系。下面,我們以典型的三級(jí)分布部署體系為例,描述多層級(jí)的系統(tǒng)部署體系。多層級(jí)的系統(tǒng)部署體系二級(jí)數(shù)據(jù)庫系統(tǒng):二級(jí)數(shù)據(jù)庫系統(tǒng)同樣可采用多種部署方式,數(shù)據(jù)來源可能包括工業(yè)現(xiàn)場(chǎng)、一級(jí)數(shù)據(jù)庫系統(tǒng)以及一定數(shù)量的在線整合計(jì)算數(shù)據(jù),并可支持?jǐn)?shù)據(jù)的歸檔管理;二級(jí)數(shù)據(jù)庫系統(tǒng)與一級(jí)數(shù)據(jù)庫可以采用鏡像方式進(jìn)行數(shù)據(jù)同步復(fù)制,并且在必要的情況下支持跨網(wǎng)閘的數(shù)據(jù)傳輸,保證兩級(jí)系統(tǒng)之間的網(wǎng)絡(luò)隔離。三級(jí)數(shù)據(jù)庫系統(tǒng)或者大數(shù)據(jù)云平臺(tái):三級(jí)數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)主要來源于二級(jí)數(shù)據(jù)庫以及在線的整合計(jì)算數(shù)據(jù),系統(tǒng)主要是面向管理業(yè)務(wù)提供實(shí)時(shí)的統(tǒng)計(jì)分析以及設(shè)備運(yùn)行分析與預(yù)測(cè)應(yīng)用,而非面向監(jiān)控應(yīng)用。系統(tǒng)在二級(jí)數(shù)據(jù)庫系統(tǒng)的基礎(chǔ)上,更加深入地與關(guān)系數(shù)據(jù)庫、知識(shí)庫系統(tǒng)等結(jié)合,通過進(jìn)一步數(shù)據(jù)整合計(jì)算或者數(shù)據(jù)挖掘分析,構(gòu)建全面完整的企業(yè)實(shí)時(shí)數(shù)據(jù)倉庫和挖掘分析平臺(tái)。多層級(jí)的系統(tǒng)部署體系數(shù)據(jù)庫系統(tǒng)的三級(jí)部署體系多層級(jí)的數(shù)據(jù)庫系統(tǒng)部署體系是許多大型工廠與企業(yè)進(jìn)行實(shí)時(shí)數(shù)據(jù)平臺(tái)建設(shè)的基本模式,要求大型分布式數(shù)據(jù)庫系統(tǒng)產(chǎn)品提供一定的功能支持,包括數(shù)據(jù)庫的聚合同步、數(shù)據(jù)的在線整合計(jì)算、一定的數(shù)據(jù)挖掘分析能力等。服務(wù)分布的部署體系感知數(shù)據(jù)庫系統(tǒng)不僅需要支持系統(tǒng)的多級(jí)部署,而且應(yīng)該支持系統(tǒng)中不同服務(wù)的分布部署感知數(shù)據(jù)庫系統(tǒng)中的服務(wù)通常包括:基于內(nèi)存的實(shí)時(shí)數(shù)據(jù)服務(wù)、歷史數(shù)據(jù)服務(wù)、報(bào)警與事件服務(wù)、數(shù)據(jù)訂閱服務(wù)、數(shù)據(jù)目錄服務(wù)、實(shí)時(shí)計(jì)算服務(wù)等等這些服務(wù)通過實(shí)時(shí)高效的通信機(jī)制互聯(lián)互通,其分布部署體系分為三個(gè)方面:服務(wù)的分布式部署系統(tǒng)中,每類服務(wù)都可有多個(gè),每個(gè)服務(wù)都可單獨(dú)部署,多個(gè)服務(wù)也可部署在同一節(jié)點(diǎn)上。通過分布式部署某類服務(wù)的多個(gè)實(shí)例,可提高服務(wù)和系統(tǒng)的并行處理能力。例如,實(shí)時(shí)數(shù)據(jù)服務(wù)與歷史數(shù)據(jù)服務(wù)以及報(bào)警與事件服務(wù)都能夠部署在不同的服務(wù)器上。服務(wù)間的靈活映射系統(tǒng)中不同服務(wù)之間的關(guān)系可根據(jù)應(yīng)用需求進(jìn)行動(dòng)態(tài)組合、拆分和配置;比如,某幾個(gè)實(shí)時(shí)數(shù)據(jù)服務(wù)可以對(duì)應(yīng)到某一歷史數(shù)據(jù)服務(wù)。服務(wù)間的靈活映射是系統(tǒng)進(jìn)行多點(diǎn)集群部署的基礎(chǔ)。服務(wù)的冗余配置系統(tǒng)中重要的服務(wù)可冗余配置,包括雙機(jī)熱備、雙機(jī)互備、多機(jī)互備等上面描述的多種方式,保證整個(gè)系統(tǒng)的高可用性。服務(wù)分布的部署體系感知數(shù)據(jù)庫系統(tǒng)的服務(wù)分布部署體系PARTTHREE3感知數(shù)據(jù)庫中的關(guān)鍵技術(shù)智能設(shè)備及傳感器接口技術(shù)隨著工業(yè)領(lǐng)域的發(fā)展,智能工廠、智能生產(chǎn)、智能物流對(duì)設(shè)備的智能化、生產(chǎn)線的智能化以及感知手段有了更新更高的要求。此外,在智能建筑、智能家居、環(huán)境監(jiān)控等領(lǐng)域,都涉及到系統(tǒng)與智能設(shè)備、傳感器的雙向通信與交互。智能設(shè)備及傳感器接口技術(shù)從設(shè)計(jì)方面來說,系統(tǒng)需要提供可配置的協(xié)議擴(kuò)展框架,以便兼容眾多的工業(yè)總線協(xié)議及廠商的定制化協(xié)議。常見的工業(yè)協(xié)議有:Modubus、Prifibus、BACnet、CAN、Lonworks以及OPC、SNMP等。右圖給出了系統(tǒng)的協(xié)議擴(kuò)展框架:感知數(shù)據(jù)采集協(xié)調(diào)器的框架+插件模型智能設(shè)備及傳感器接口技術(shù)感知數(shù)據(jù)采集協(xié)調(diào)器把遠(yuǎn)遠(yuǎn)不斷涌來的數(shù)據(jù)按照優(yōu)先級(jí)放入不同的數(shù)據(jù)隊(duì)列,以便基于內(nèi)存的實(shí)時(shí)數(shù)據(jù)管理器進(jìn)行處理。感知數(shù)據(jù)采集協(xié)調(diào)器的數(shù)據(jù)交互模型流數(shù)據(jù)實(shí)時(shí)在線處理技術(shù)基于目前廣泛使用的多CPU多核的特點(diǎn),系統(tǒng)根據(jù)需要建立感知事務(wù)處理線程池;根據(jù)優(yōu)先級(jí)調(diào)度執(zhí)行感知數(shù)據(jù)對(duì)象的在線處理過程,數(shù)據(jù)更新結(jié)果進(jìn)入基于內(nèi)存的實(shí)時(shí)數(shù)據(jù)管理器;根據(jù)事件定義觸發(fā)相應(yīng)的事件,放入事件隊(duì)列;根據(jù)用戶的訂閱需求,把需要發(fā)布的數(shù)據(jù)放入發(fā)布隊(duì)列。感知數(shù)據(jù)庫工作原理流數(shù)據(jù)實(shí)時(shí)在線處理技術(shù)感知數(shù)據(jù)屬于典型的流數(shù)據(jù),它的處理具有流數(shù)據(jù)處理的典型特征:數(shù)據(jù)觸發(fā)模式,處理過程始終在線;在數(shù)據(jù)流動(dòng)的過程中進(jìn)行處理與計(jì)算;只對(duì)一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行處理,感知數(shù)據(jù)對(duì)象內(nèi)置的在線處理過程必須能夠在確定的時(shí)間內(nèi)完成,否則會(huì)影響整個(gè)系統(tǒng)的性能。流數(shù)據(jù)實(shí)時(shí)在線處理技術(shù)內(nèi)置的在線處理過程針對(duì)采集的數(shù)據(jù)進(jìn)行常規(guī)處理,通常包括以下內(nèi)容:標(biāo)記時(shí)間戳基本報(bào)警判定更新內(nèi)存快照訂閱數(shù)據(jù)發(fā)布除了以上系統(tǒng)提供的標(biāo)準(zhǔn)數(shù)據(jù)操作,系統(tǒng)還支持定制內(nèi)嵌操作或者進(jìn)行操作的擴(kuò)展,以便提供更加豐富的數(shù)據(jù)處理能力。事件驅(qū)動(dòng)的高效處理機(jī)制事件驅(qū)動(dòng)框架(EDA:Event-DrivenArchitecture)是Gartner于2003年提出的實(shí)時(shí)事件處理的軟件架構(gòu),它定義了一個(gè)設(shè)計(jì)和實(shí)現(xiàn)軟件系統(tǒng)的方法學(xué),在這個(gè)系統(tǒng)里事件可傳輸于松散耦合的軟件組件和服務(wù)之間。一個(gè)事件驅(qū)動(dòng)系統(tǒng)典型地由事件消費(fèi)者和事件產(chǎn)生者組成,通常采用訂閱-發(fā)布機(jī)制。事件驅(qū)動(dòng)架構(gòu)在具體實(shí)現(xiàn)中是指由一系列相關(guān)組件構(gòu)成的應(yīng)用,而組件之間通過事件機(jī)制完成一定的業(yè)務(wù)功能。事件驅(qū)動(dòng)的高效處理機(jī)制EDA系統(tǒng)能夠更有加效地對(duì)管道化(Pipelined)的、由多軟件模塊鏈接而成的并發(fā)事件流(ConcurrentProcessingofEvents)進(jìn)行處理。其各組件以異步方式響應(yīng)事件,在本質(zhì)上是可以并行的,其具備以下特點(diǎn):并發(fā)執(zhí)行事件觸發(fā)/數(shù)據(jù)觸發(fā)/時(shí)間規(guī)則觸發(fā)實(shí)時(shí)/增量響應(yīng)分布式事件系統(tǒng)處理事件驅(qū)動(dòng)設(shè)計(jì)和開發(fā)的優(yōu)勢(shì)如下:可以更容易開發(fā)和維護(hù)大規(guī)模分布式應(yīng)用程序和不可預(yù)知的服務(wù)或異步服務(wù);可以很容易,低成本地集成、再集成、再配置新的和已存在的應(yīng)用程序和服務(wù);促進(jìn)遠(yuǎn)程組件和服務(wù)的再使用,擁有一個(gè)更靈敏、健壯的開發(fā)環(huán)境;系統(tǒng)對(duì)動(dòng)態(tài)處理有更好的響應(yīng),對(duì)實(shí)時(shí)變化的響應(yīng)接近于同步。事件驅(qū)動(dòng)的高效處理機(jī)制數(shù)據(jù)的訂閱-發(fā)布
數(shù)據(jù)的訂閱-發(fā)布模式是以消息流的處理為核心的技術(shù)框架,消息的產(chǎn)生是由感知數(shù)據(jù)對(duì)象的更新事件驅(qū)動(dòng)。
訂閱-發(fā)布模式定義了一種一對(duì)多的依賴關(guān)系,讓多個(gè)訂閱者同時(shí)監(jiān)聽某一個(gè)感知數(shù)據(jù)對(duì)象。事件驅(qū)動(dòng)的高效處理機(jī)制數(shù)據(jù)的訂閱-發(fā)布
對(duì)于感知數(shù)據(jù)這類具有時(shí)態(tài)屬性的數(shù)據(jù)來說,數(shù)據(jù)或者消息的分發(fā)同樣具有實(shí)時(shí)性要求。消息的調(diào)度處理機(jī)制能夠緩解消息傳輸中的優(yōu)先級(jí)反轉(zhuǎn)問題,為實(shí)時(shí)數(shù)據(jù)庫的實(shí)時(shí)性需求提供了基礎(chǔ)。消息調(diào)度對(duì)512字節(jié)消息傳輸?shù)挠绊懴⒄{(diào)度對(duì)16K消息傳輸?shù)挠绊懯录?qū)動(dòng)的高效處理機(jī)制數(shù)據(jù)的訂閱-發(fā)布基于訂閱-發(fā)布的實(shí)時(shí)消息通信體系必須提供如下功能:提供端到端(Peer-to-Peer)的消息通訊能力,支持QoS保證;消息發(fā)送單次可達(dá):保證每個(gè)消息能從發(fā)送者到達(dá)接收者,且僅被接收一次;提供多種消息緩存機(jī)制:使其能夠支持各種不同應(yīng)用或組件的消息存取速度、持久性和可靠性等方面的不同需求;消息的調(diào)度管理:隊(duì)列中的消息可以按照截止期或優(yōu)先級(jí)進(jìn)行排列,為消息傳遞提供可預(yù)測(cè)的、確定的時(shí)延。
事件驅(qū)動(dòng)的高效處理機(jī)制復(fù)合事件處理技術(shù)
簡單事件處理(SimpleEventProcessing)是消息導(dǎo)向的架構(gòu),主要處理單一事件,其中事件則定義為可直接觀察到的改變。
復(fù)合事件處理(ComplexEventProcessing)機(jī)制使用模式比對(duì)、事件的相互關(guān)系、事件間的聚合關(guān)系,從事件云(EventCloud)中找出有意義的事件,使得系統(tǒng)可以更能彈性使用事件驅(qū)動(dòng)架構(gòu),并且能更快速的開發(fā)出更復(fù)雜的邏輯架構(gòu)。
復(fù)合事件處理描述的就是系統(tǒng)如何持續(xù)地處理這些事件,即系統(tǒng)對(duì)變化的持續(xù)反應(yīng)。事件驅(qū)動(dòng)的高效處理機(jī)制復(fù)合事件處理技術(shù)
規(guī)則語言定義事件處理的規(guī)則,即ECA規(guī)則:事件+條件
動(dòng)作。當(dāng)某事件發(fā)生時(shí),如果某些條件滿足,執(zhí)行一些處理或者一些動(dòng)作。
持續(xù)查詢語言CQL使用類似SQL的語法來描述事件和事件反應(yīng)處理規(guī)則。對(duì)于內(nèi)存中大量的外部事件和內(nèi)部對(duì)象,CQL通過查詢語句來做條件匹配,同時(shí)提供回調(diào)函數(shù),當(dāng)某些事件或者對(duì)象符合查詢條件,就調(diào)用回調(diào)函數(shù)做相應(yīng)的處理。
復(fù)合事件處理描述的就是系統(tǒng)如何持續(xù)地處理這些事件,即系統(tǒng)對(duì)變化的持續(xù)反應(yīng)。事件驅(qū)動(dòng)的高效處理機(jī)制復(fù)合事件處理技術(shù)規(guī)則語言和持續(xù)查詢語言的比較分為以下幾類:兩種技術(shù)的實(shí)現(xiàn)手段兩種技術(shù)的性能如何選擇使用哪種技術(shù)復(fù)合事件處理技術(shù)替代普通編程語言來實(shí)現(xiàn)一些應(yīng)用的好處:開發(fā)時(shí)采用聲明型語言替代過程式語言兩種技術(shù)的性能在對(duì)大量事件和對(duì)象的持續(xù)條件匹配和處理的過程中,復(fù)合事件處理產(chǎn)品提供高效的條件匹配,對(duì)象查詢感知數(shù)據(jù)的壓縮存儲(chǔ)技術(shù)實(shí)時(shí)數(shù)據(jù)采集要求在線壓縮以解決巨大數(shù)據(jù)量和不穩(wěn)定網(wǎng)絡(luò)的挑戰(zhàn)。有損壓縮方法如旋轉(zhuǎn)門算法適用于批量數(shù)據(jù),而快速且高壓縮比的無損壓縮則適用于高精度數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)管理采用內(nèi)存、數(shù)據(jù)庫和文件隊(duì)列三級(jí)管理體制,定制化支持地震勘探數(shù)據(jù)管理的需求數(shù)據(jù)壓縮優(yōu)化存儲(chǔ)空間,并提高數(shù)據(jù)查詢與檢索速度數(shù)據(jù)存儲(chǔ)管理示意圖數(shù)據(jù)在線壓縮技術(shù)工業(yè)實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)采用有損和無損壓縮算法,分別應(yīng)用于不同數(shù)據(jù)類型。死區(qū)壓縮算法通過比較當(dāng)前數(shù)據(jù)與上一個(gè)保存的數(shù)據(jù)的偏差來決定是否保存當(dāng)前數(shù)據(jù),適用于穩(wěn)定測(cè)點(diǎn)數(shù)據(jù)的壓縮和噪音過濾。該算法在處理線性漂移數(shù)據(jù)方面存在限制,不能很好地進(jìn)行壓縮。對(duì)于沿斜線變化的數(shù)據(jù),需要采用能處理斜率變化的壓縮方式以實(shí)現(xiàn)更有效的壓縮。死區(qū)壓縮算法的原理數(shù)據(jù)在線壓縮技術(shù)旋轉(zhuǎn)門壓縮算法是OSIsoft公司PI系統(tǒng)的核心壓縮算法,基于Bristol提出的旋轉(zhuǎn)門趨勢(shì)化算法。它是一種快速、高效、簡單且可控制誤差的線性擬合算法,適用于大量臨近度高的浮點(diǎn)型數(shù)據(jù)壓縮,顯著減少存儲(chǔ)空間占用。旋轉(zhuǎn)門算法以A點(diǎn)為基準(zhǔn),利用平行四邊形確定存儲(chǔ)與丟棄點(diǎn)。具體實(shí)現(xiàn)簡單,計(jì)算量小,最大誤差為壓縮精度的一半。旋轉(zhuǎn)門算法能有效處理數(shù)據(jù)壓縮,優(yōu)化存儲(chǔ)空間利用。旋轉(zhuǎn)門壓縮算法原理圖感知數(shù)據(jù)的索引技術(shù)時(shí)間序列感知數(shù)據(jù)存儲(chǔ)中建立基于時(shí)間的索引至關(guān)重要,有助于提高系統(tǒng)性能。于時(shí)間的索引機(jī)制使系統(tǒng)能夠快速定位數(shù)據(jù)位置,加快數(shù)據(jù)檢索速度。感知數(shù)據(jù)主要應(yīng)用模式包括基于事件的查詢,如狀態(tài)異常事件、用戶反饋信息等,可為感知數(shù)據(jù)建立輔助索引,提升查詢和分析效率?;跁r(shí)間的索引建立示意圖THANKS
FOR
YOUR
WATCHINGLoremIpsumDolorSitErElitLamet,ConsectetaurCilliumAdipisicingPecu,SedDoEiusmodTemporIncididuntUtLaboreEtDoloreMagnaAliqua.Thankyou物聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與實(shí)踐InternetofThings
BigDataprocessingTechnologyandPractice實(shí)時(shí)事務(wù)調(diào)度處理技術(shù)常見事務(wù)特性分析1事務(wù)調(diào)度與并發(fā)控制2服務(wù)器與操作系統(tǒng)3事務(wù)的執(zhí)行框架與模式4系統(tǒng)框架的分析與性能優(yōu)化5PARTONE1常見事務(wù)特性分析師傅領(lǐng)進(jìn)門,學(xué)藝在自身。------中國諺語實(shí)時(shí)事務(wù)調(diào)度處理技術(shù)事務(wù)是面向數(shù)據(jù)庫中數(shù)據(jù)存取訪問的一個(gè)邏輯工作單位,是一個(gè)操作序列,執(zhí)行這個(gè)操作序列使數(shù)據(jù)庫從一種一致狀態(tài)轉(zhuǎn)換到另一種一致狀態(tài),以實(shí)現(xiàn)特定的業(yè)務(wù)功能。感知數(shù)據(jù)來源主要是分布的智能設(shè)備以及傳感器,并且數(shù)據(jù)具有很強(qiáng)的時(shí)間屬性。數(shù)據(jù)的時(shí)間屬性或者直接來自外界的傳感器,或者基于傳感器數(shù)據(jù)推導(dǎo)計(jì)算而來,其最主要的特性是時(shí)態(tài)一致性。傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)旨在處理永久性數(shù)據(jù),其設(shè)計(jì)與開發(fā)主要強(qiáng)調(diào)數(shù)據(jù)的完整性、一致性,要求事務(wù)具有ACID特性(Atomicity-原子性、Consistency-一致性、Isolation-隔離性、Durability-持久性),以及提高系統(tǒng)的平均吞吐量等總體性能指標(biāo),卻很少考慮與數(shù)據(jù)本身及數(shù)據(jù)處理相關(guān)聯(lián)的時(shí)間屬性。常見事務(wù)特性分析根據(jù)感知數(shù)據(jù)的處理需求,我們把數(shù)據(jù)庫中的事務(wù)劃分為三大類:
感知事務(wù)
觸發(fā)事務(wù)
用戶事務(wù)感知事務(wù)
感知事務(wù)是數(shù)據(jù)庫獲取數(shù)據(jù)的基本方式,又稱為數(shù)據(jù)采集事務(wù),或者傳感器事務(wù)。這些事務(wù)一般都是預(yù)定義的定期事務(wù),按照一定的采集周期更新數(shù)據(jù)以保持?jǐn)?shù)據(jù)時(shí)間屬性的絕對(duì)一致性,具有確定的性質(zhì),包括事務(wù)的相對(duì)截止期、執(zhí)行周期以及最壞情形執(zhí)行時(shí)間。采集事務(wù)一般是固實(shí)時(shí)的事務(wù),如果在一定的時(shí)間周期內(nèi)不能執(zhí)行完成,可以放棄;待下個(gè)執(zhí)行周期再執(zhí)行。但是,在特殊情況下,數(shù)據(jù)采集事務(wù)可以由用戶事務(wù)或者其它事務(wù)觸發(fā)。例如,用戶的控制指令往往需要通過即刻執(zhí)行的數(shù)據(jù)采集事務(wù)確定指令執(zhí)行的結(jié)果;或者一些事務(wù)的執(zhí)行需要保持相關(guān)數(shù)據(jù)的相對(duì)時(shí)間一致性時(shí),可以通過發(fā)起實(shí)時(shí)采集事務(wù)保證。觸發(fā)事務(wù)
觸發(fā)事務(wù)是感知數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)主動(dòng)性的關(guān)鍵,可以分為更新觸發(fā)事務(wù)與定期事務(wù)。觸發(fā)事務(wù)一般通過ECA(Eve
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房地產(chǎn)買賣合同
- 車輛駕駛承包合同范本
- 外貿(mào)代理合同仲裁條款
- 正規(guī)個(gè)人借款合同范本
- 無償借用車間合同范本
- 綠化綠植買賣合同范本
- 2025合法的工程合同樣式
- 專利申請(qǐng)委托合同書樣本
- 項(xiàng)目咨詢服務(wù)合同范本
- 貨物運(yùn)輸公司的勞務(wù)合同
- 保安服務(wù)項(xiàng)目信息反饋溝通機(jī)制
- 全國各省(直轄市、自治區(qū))市(自治州、地區(qū))縣(縣級(jí)市)區(qū)名稱一覽表
- 《團(tuán)隊(duì)介紹模板》課件
- 常用中醫(yī)適宜技術(shù)目錄
- 沖壓模具價(jià)格估算方法
- 碳納米管應(yīng)用研究
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第十一章運(yùn)動(dòng)技能的練習(xí)
- 蟲洞書簡全套8本
- 2023年《反電信網(wǎng)絡(luò)詐騙法》專題普法宣傳
- 小學(xué)數(shù)學(xué)五年級(jí)上、下冊(cè)口算題大全
- 和平精英電競(jìng)賽事
評(píng)論
0/150
提交評(píng)論