




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)平臺規(guī)劃方案匯報目錄二、大數(shù)據(jù)平臺整體規(guī)劃一、大數(shù)據(jù)應(yīng)用發(fā)展趨勢大數(shù)據(jù)所謂“大數(shù)據(jù)”,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的信息。。大數(shù)據(jù)處理技術(shù)代表了新一代的技術(shù)架構(gòu),這種架構(gòu)通過高速獲取數(shù)據(jù)并對其進(jìn)行分析和挖掘,從海量形式各異的數(shù)據(jù)源中更有效地抽取出富含價值的信息。從大量數(shù)據(jù)中挖掘高價值知識是各界對于大數(shù)據(jù)的一個共識。海量數(shù)據(jù)可廣泛獲得,所稀缺的是如何從中挖掘出智慧和觀點(diǎn)?!狦oogle首席經(jīng)濟(jì)學(xué)家HalVarian大數(shù)據(jù)主要被用于分析和決策,企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個細(xì)節(jié)相融合,對企業(yè)產(chǎn)生新的價值。大數(shù)據(jù)對電信運(yùn)營商的應(yīng)用價值體現(xiàn)31542自助分析、生產(chǎn)管道可視化、資源解耦隨需而動,營銷實時,以業(yè)務(wù)效率提升為標(biāo)志。提升業(yè)務(wù)效率數(shù)據(jù)集中到數(shù)據(jù)中心,多數(shù)據(jù)源管理,透明服務(wù)支持,實時的決策和預(yù)測能力提升整體經(jīng)營管理水平。增強(qiáng)管理水平數(shù)據(jù)開放服務(wù)、與OTT廠商合作的后向收費(fèi)、廣告等新業(yè)務(wù).創(chuàng)新商業(yè)模式互聯(lián)網(wǎng)化的電子渠道全景體驗、個性化商品推薦、LBS位置營銷、面向客戶個體的深度洞察提升客戶體驗以技術(shù)驅(qū)動為標(biāo)志,內(nèi)存計算、MPP、CEP…分而治之的分布式計算讓運(yùn)營商實時高效決策….技術(shù)高效、低成本數(shù)據(jù)平臺現(xiàn)狀精細(xì)化營銷數(shù)據(jù)中心營賬系統(tǒng)經(jīng)分(BI)GN口上網(wǎng)話單終端(DM)VAC短彩信中心語音通話詳單客服接觸記錄流媒體平臺詳單位置信令話單基站信息116114企業(yè)黃頁信息渠道應(yīng)用助銷信息經(jīng)過一二期的建設(shè),精細(xì)化運(yùn)營平臺的數(shù)據(jù)中心,已經(jīng)成為最大、內(nèi)容最豐富的數(shù)據(jù)倉庫;隨著數(shù)據(jù)量的增長,需要對基礎(chǔ)架構(gòu)做長遠(yuǎn)規(guī)劃;有必要深入挖掘數(shù)據(jù)價值,研究新的商業(yè)模式,將成本中心轉(zhuǎn)化為利潤中心5擴(kuò)展性增量式的、幾乎無限的擴(kuò)展可用性要求系統(tǒng)總是在線運(yùn)行靈活性靈活可動態(tài)改變的數(shù)據(jù)模型擴(kuò)展性縱向擴(kuò)展橫向擴(kuò)展分布式資源集中計算和存儲分布可用性單份數(shù)據(jù)數(shù)據(jù)復(fù)制一致性不要使用分布式事務(wù)處理大數(shù)據(jù)處理的需求和特點(diǎn)低成本運(yùn)營一體化運(yùn)營精細(xì)化運(yùn)營全網(wǎng)運(yùn)營實時、智能化運(yùn)營集中化建設(shè)、管理和維護(hù)可不斷線性擴(kuò)展提高資源綜合利用率標(biāo)準(zhǔn)化功能組件,可共享可復(fù)用按業(yè)務(wù)量、按需支付BASS與BOSS、CRM的一體化BSS與MSS、OSS、VAS等跨域一體化對外部客戶和應(yīng)用的一體化片區(qū)化、網(wǎng)格化管理長尾市場、小眾市場的支撐個性化、短周期需求的滿足異地客戶、家庭客戶、集團(tuán)客戶一點(diǎn)接入、全網(wǎng)服務(wù)、全網(wǎng)客戶畫像全國統(tǒng)一套餐、全網(wǎng)營銷、統(tǒng)一客服實時數(shù)據(jù)獲取、處理、分析智能化主動事件觸發(fā)智能管道移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營發(fā)展趨勢對業(yè)務(wù)支撐平臺的集中化要求對數(shù)據(jù)架構(gòu)的集中化要求集中化、大容量、高擴(kuò)展、高可用數(shù)據(jù)庫平臺:支持全網(wǎng)型數(shù)據(jù)、跨域數(shù)據(jù)的整合,形成集中化管理的的企業(yè)級數(shù)據(jù)中心高性能:支持3G時代更高的實時性要求、支持動態(tài)資源共享:支持多租戶管理、資源動態(tài)按需供應(yīng)可重用、標(biāo)準(zhǔn)化組件:形成可重用組件,支持一次開發(fā)、各省共享的模式,形成規(guī)模型效益數(shù)據(jù)集中化趨勢使得運(yùn)營商面臨著海量數(shù)據(jù)的存儲及分析問題,大數(shù)據(jù)在支撐移動業(yè)務(wù)發(fā)展趨勢中,充當(dāng)重要角色。電信運(yùn)營商數(shù)據(jù)集中化趨勢7電信運(yùn)營面臨的大數(shù)據(jù)挑戰(zhàn)移動互聯(lián)網(wǎng)和個人消費(fèi)領(lǐng)域業(yè)務(wù)擴(kuò)展和CEM導(dǎo)致海量數(shù)據(jù)的及時分析帶來挑戰(zhàn)運(yùn)營商一體化集中運(yùn)營和透明管控,催生巨大的經(jīng)營分析數(shù)據(jù)倉庫,對大數(shù)據(jù)的存儲、性能、開放帶來挑戰(zhàn)DPI和信令監(jiān)測,產(chǎn)生的大量事件在存儲和用戶通信行為分析的實時處理性能帶來挑戰(zhàn)ICT融合,核心網(wǎng)絡(luò)、運(yùn)營支撐和VAS業(yè)務(wù)數(shù)據(jù)的融合催生海量UserProfile并集,對大數(shù)據(jù)的關(guān)聯(lián)分析計算效能帶來挑戰(zhàn)移動互聯(lián)網(wǎng)流量井噴與客戶行為分析業(yè)務(wù)融合、能力互通帶來數(shù)據(jù)融合提升客戶體驗要求分析網(wǎng)絡(luò)服務(wù)數(shù)據(jù)IT系統(tǒng)集中化和行業(yè)數(shù)據(jù)價值挖掘BSSBI數(shù)據(jù):河南17個地市,每天抽取正常用戶數(shù)7000多萬,撥備用戶數(shù)3000多萬,DW層用戶表總量1億多條;語音清單每天2.7億條數(shù)據(jù),GPRS清單每天4.2億條數(shù)據(jù);賬務(wù)每天4.7億條數(shù)據(jù);GPRS文件每個100M左右,其它文件25M。日接口數(shù)據(jù)量:2000G,其中話單220G,WAP清單300G,
工單服務(wù)200G,
用戶、帳務(wù)300G,其它980G。每月124TB數(shù)據(jù)量入庫,歷史數(shù)據(jù)保留1年,總數(shù)據(jù)量1.45PB。按照用戶數(shù)簡單測算,6.5億用戶下,總數(shù)據(jù)量》10PB!總部3G互聯(lián)網(wǎng)訪問記錄查詢及分析系統(tǒng):全國每日新增10TB數(shù)據(jù),每月近萬億條記錄,要存放6個月,約2PB的上網(wǎng)記錄數(shù)據(jù)。上網(wǎng)記錄入庫時間小于30分鐘,原始上網(wǎng)記錄保留6個月。上網(wǎng)查詢速度不高于1秒,并發(fā)查詢數(shù)1000請求/秒。集群規(guī)模188個數(shù)據(jù)節(jié)點(diǎn),存儲容量2.6PB傳統(tǒng)數(shù)據(jù)倉庫無法有效存儲日益增長的業(yè)務(wù)數(shù)據(jù)存儲需求基礎(chǔ)數(shù)據(jù)(用戶資料,產(chǎn)品訂購信息):15G/日*365+40G*12月=5T/年考慮20%的業(yè)務(wù)增長率后為:6T/年用戶上網(wǎng)數(shù)據(jù)話單數(shù)據(jù):250T/年考慮20%的業(yè)務(wù)增長率后為:300T/年MR數(shù)據(jù)話單數(shù)據(jù):634G/日634G/日*365
=227T/年考慮20%的業(yè)務(wù)增長率后為:272T/年BSS數(shù)據(jù)新增新增評估中日使用流量(TB)6月10月隨著業(yè)務(wù)發(fā)展數(shù)據(jù)量的增加,隨著應(yīng)用復(fù)雜導(dǎo)致的數(shù)據(jù)量增加,這些數(shù)據(jù)量導(dǎo)致了數(shù)據(jù)存儲和處理壓力;數(shù)據(jù)倉庫無法線性擴(kuò)容,管理難度加大,成本高擴(kuò)容壓力大,效率下降等傳統(tǒng)數(shù)據(jù)倉庫只保存處理后的匯總數(shù)據(jù)。在大數(shù)據(jù)架構(gòu)下需要對用戶原始話單進(jìn)行長期保存。需要擴(kuò)容大量存儲空間。大數(shù)據(jù)使得現(xiàn)有的數(shù)據(jù)處理方法面臨新問題
用戶層現(xiàn)平臺的數(shù)據(jù)保存周期大數(shù)據(jù)的數(shù)據(jù)保存周期應(yīng)用層KR/CB/DM層永久保留至少2年數(shù)據(jù)存儲層MK層永久保留至少2年DW層5個月永久保留數(shù)據(jù)獲取層ODS層3~7天永久保留面對海量的數(shù)據(jù)壓力,需要大數(shù)據(jù)平臺提供可供線性擴(kuò)容的存儲能力。每個應(yīng)用需求的變化就是一場災(zāi)難。由于數(shù)據(jù)處理與業(yè)務(wù)的緊密關(guān)聯(lián)可能需要對中間每個處理環(huán)節(jié)進(jìn)行逐個調(diào)整。重新生成數(shù)據(jù)的周期也非常緩慢。由于傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)處理流程與業(yè)務(wù)保持緊密關(guān)聯(lián)。整個數(shù)據(jù)加工流程為最終應(yīng)用服務(wù)。為緩解存儲壓力在數(shù)據(jù)抽取和清洗階段會過濾掉與業(yè)務(wù)無關(guān)的數(shù)據(jù)記錄和字段。大數(shù)據(jù)使得現(xiàn)有的數(shù)據(jù)處理方法面臨新問題數(shù)據(jù)源明細(xì)數(shù)據(jù)層
(DW)匯總層(MK)報表數(shù)據(jù)標(biāo)簽庫指標(biāo)數(shù)據(jù)客戶統(tǒng)一視圖……應(yīng)用層DW&MK操作型數(shù)據(jù)ODS層Oracle數(shù)據(jù)庫精細(xì)化營銷架構(gòu)短信中心經(jīng)分DMVACGN話單流媒體客服系統(tǒng)計費(fèi)中心MC話單彩信中心MR數(shù)據(jù)BSS用戶互聯(lián)網(wǎng)聯(lián)系方式(總部研究院)241234現(xiàn)網(wǎng)數(shù)據(jù)平臺是傳統(tǒng)關(guān)系型數(shù)據(jù)庫架構(gòu)。大量的用戶上網(wǎng)、用戶行為等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)無法保存和處理,缺乏非結(jié)構(gòu)化數(shù)據(jù)的處理能力。用戶上網(wǎng)行為等互聯(lián)網(wǎng)行為數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)方式保存至數(shù)據(jù)倉庫中。傳統(tǒng)數(shù)據(jù)倉庫無法有效應(yīng)對大數(shù)據(jù)分析需求1現(xiàn)網(wǎng)每日用戶上網(wǎng)HTTP話單達(dá)14億條。每月匯總的記錄條數(shù)也近30億條。隨著移動互聯(lián)網(wǎng)正在迅猛增長,傳統(tǒng)數(shù)據(jù)倉庫將很難駕馭,無法滿足數(shù)據(jù)處理時限和事務(wù)處理需求。3面對海量的數(shù)據(jù)壓力,需要大數(shù)據(jù)平臺提供快速的處理能力。大數(shù)據(jù)使得現(xiàn)現(xiàn)有的數(shù)據(jù)據(jù)處理方法面臨新問題傳統(tǒng)數(shù)據(jù)倉庫組網(wǎng)將將是大數(shù)據(jù)據(jù)分析的瓶瓶頸現(xiàn)網(wǎng)精細(xì)化化營銷平臺臺的數(shù)據(jù)庫庫既存放著著所有采集集的原始數(shù)數(shù)據(jù),又承承擔(dān)所有的的數(shù)據(jù)加工工任務(wù),還還承載所有有報表和業(yè)業(yè)務(wù)應(yīng)用的的數(shù)據(jù)存儲儲和計算。。缺乏對數(shù)數(shù)據(jù)分層分分級及生命命周期的有有效管理。。系統(tǒng)核心架構(gòu)為為Oracle數(shù)據(jù)庫+小型機(jī)+磁陣。數(shù)據(jù)存存放在磁陣陣上,計算算時由數(shù)據(jù)據(jù)庫服務(wù)器器從磁陣讀讀到本地后后進(jìn)行計算算結(jié)果。隨隨著數(shù)據(jù)量增長,磁磁盤I/O、網(wǎng)絡(luò)帶寬、數(shù)據(jù)據(jù)庫服務(wù)器器的處理能能力將存在在瓶頸,處理理時延嚴(yán)重重。由于傳統(tǒng)統(tǒng)架構(gòu)的可可擴(kuò)展性差,無法滿滿足大數(shù)據(jù)據(jù)的計算的的擴(kuò)容需求求。為應(yīng)對海量量數(shù)據(jù)處理需需求,大數(shù)據(jù)將將從集中數(shù)數(shù)據(jù)庫向分分布式數(shù)據(jù)據(jù)庫進(jìn)行轉(zhuǎn)變。計算算和存儲資資源都由x86服務(wù)器提供供。因為在移動動互聯(lián)網(wǎng)和和物聯(lián)網(wǎng)上上需要有新新領(lǐng)域的突突破,不同同于傳統(tǒng)通通信業(yè)務(wù)分分析特點(diǎn),,需要對內(nèi)內(nèi)容等非結(jié)結(jié)構(gòu)化、大大容量信息息進(jìn)行有效效分析,傳傳統(tǒng)的架構(gòu)構(gòu)處理吃力力。關(guān)系數(shù)據(jù)庫庫引入對XML的支持仍然然無法有效效處理ETL大數(shù)據(jù)使得現(xiàn)現(xiàn)有的數(shù)據(jù)據(jù)處理方法面臨新問題傳統(tǒng)數(shù)據(jù)倉倉庫無法有有效處理新新型的業(yè)務(wù)務(wù)數(shù)據(jù)主要關(guān)鍵技術(shù)自然語言理解,文本分詞、語義分析,情感分析或者大規(guī)模計算技術(shù)非結(jié)構(gòu)化數(shù)據(jù)索引技術(shù),如搜索引擎倒排索引技術(shù)多媒體處理,包括圖像識別,語音識別,多媒體索引等技術(shù)……傳統(tǒng)數(shù)據(jù)倉庫無法有有效支撐數(shù)數(shù)據(jù)合作運(yùn)運(yùn)營由于保存原原始話單數(shù)數(shù)據(jù)周期較較短,合作作運(yùn)營無法法追溯歷史史原始數(shù)據(jù)據(jù)。現(xiàn)網(wǎng)傳統(tǒng)主主數(shù)據(jù)庫的的設(shè)計只適適用與向上上層提供既既定好的數(shù)數(shù)據(jù)分析任任務(wù)結(jié)果。。對外開放放底層數(shù)據(jù)據(jù)將大大消消耗系統(tǒng)資資源,影響響主庫正常常的數(shù)據(jù)處處理流程。。同時數(shù)據(jù)據(jù)的處理方方式及結(jié)果果也恐難以以滿足合作作運(yùn)營的需需要。大數(shù)據(jù)平臺臺的架構(gòu)將將數(shù)據(jù)分層層管理。在在各層提供供數(shù)據(jù)開放放接口,以以滿足不同同數(shù)據(jù)需求求。將更有有效支撐數(shù)數(shù)據(jù)合作運(yùn)運(yùn)營。同時時歷時數(shù)據(jù)據(jù)能促使合合作在第一一時間就開開展起來。。目錄錄二、大數(shù)據(jù)據(jù)平臺整體體規(guī)劃一、大數(shù)據(jù)據(jù)應(yīng)用發(fā)展展趨勢大數(shù)據(jù)平臺臺目標(biāo)架構(gòu)構(gòu)及定位準(zhǔn)實時采集集批量采集Hadoop平臺MPP,基于X86平臺主數(shù)據(jù)倉庫庫分布式數(shù)據(jù)據(jù)庫基于X86平臺數(shù)據(jù)采集((云化ETL,流數(shù)據(jù)處處理、爬蟲)數(shù)據(jù)層獲取層能力層精細(xì)化營銷銷智能運(yùn)營物聯(lián)網(wǎng)應(yīng)用用應(yīng)用商店客服應(yīng)用基礎(chǔ)分析能能力數(shù)據(jù)挖掘能能力實時分析能能力自助分析能能力多維分析能能力數(shù)據(jù)共享能力指標(biāo)應(yīng)用報表應(yīng)用主題分析專題分析互聯(lián)網(wǎng)GN口半結(jié)構(gòu)化、、非結(jié)構(gòu)化數(shù)據(jù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺結(jié)構(gòu)化數(shù)據(jù)據(jù)數(shù)據(jù)源分布式文件系統(tǒng)HDFS記錄明細(xì)數(shù)數(shù)據(jù)HBaseM/RHive記錄匯總數(shù)數(shù)據(jù)數(shù)據(jù)統(tǒng)一服服務(wù)和開放SQL、FTP、WS、MDX、API、……分布式數(shù)據(jù)據(jù)庫(MPP):存儲加工、、關(guān)聯(lián)、匯匯總后的業(yè)業(yè)務(wù)數(shù)據(jù),,并提供分分布式計算算,支撐數(shù)數(shù)據(jù)深度分分析和數(shù)據(jù)挖掘能能力,向主數(shù)據(jù)據(jù)倉庫輸出出KPI和高度匯總總數(shù)據(jù)。主數(shù)據(jù)倉庫庫(與MPP合設(shè)):存儲指標(biāo)數(shù)數(shù)據(jù)、KPI數(shù)據(jù)和高度度匯總數(shù)據(jù)據(jù)。Hadoop云平臺:負(fù)責(zé)存儲海海量的流量量話單數(shù)據(jù)據(jù),提供并并行的計算算和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)的的處理能力力,實現(xiàn)低低成本的存存儲和低時時延、高并并發(fā)的查詢詢能力。數(shù)據(jù)據(jù)開開放放接接口口:向大大數(shù)數(shù)據(jù)據(jù)應(yīng)應(yīng)用用方方提提供供大大數(shù)數(shù)據(jù)據(jù)平平臺臺的的能能力力。。數(shù)據(jù)據(jù)采采集集((ETL)::負(fù)責(zé)責(zé)源源數(shù)數(shù)據(jù)據(jù)的的采采集集、、清清洗洗、、轉(zhuǎn)轉(zhuǎn)換換和和加加載載包包括括::1、把把原原始始數(shù)數(shù)據(jù)據(jù)加加載載到到Hadoop平臺臺。。2、把把加加工工后后的的數(shù)數(shù)據(jù)據(jù)加加載載分分布布式式數(shù)數(shù)據(jù)據(jù)庫庫和和主主數(shù)數(shù)據(jù)據(jù)倉倉庫庫應(yīng)用用層層HDFS:分分布布式式文文件件系系統(tǒng)統(tǒng)有較較強(qiáng)強(qiáng)的的容容錯錯性性可在在x86平臺臺上上運(yùn)運(yùn)行行,,減減少少總總體體成成本本可擴(kuò)擴(kuò)展展,,能能構(gòu)構(gòu)建建大大規(guī)規(guī)模模的的應(yīng)應(yīng)用用HBase:非非結(jié)結(jié)構(gòu)構(gòu)化化NoSQl分布布式式數(shù)數(shù)據(jù)據(jù)庫庫基于于分分布布式式文文件件系系統(tǒng)統(tǒng)HDFS,保保證證數(shù)數(shù)據(jù)據(jù)安安全全列式式存存儲儲,,節(jié)節(jié)省省存存儲儲空空間間提供供大大數(shù)數(shù)據(jù)據(jù)量量的的高高速速讀讀寫寫操操作作Hive:分分布布式式關(guān)關(guān)系系型型數(shù)數(shù)據(jù)據(jù)庫庫數(shù)據(jù)據(jù)可可保保存存在在HDFS,可可提提供供海海量量的的數(shù)數(shù)據(jù)據(jù)存存儲儲類SQL的查查詢詢語語句句,,提提供供大大數(shù)數(shù)據(jù)據(jù)的的統(tǒng)統(tǒng)計計和和分分析析操操作作,,適適合合海海量量數(shù)數(shù)據(jù)據(jù)的的批批處處理理通過過MapReduce實現(xiàn)現(xiàn)大大規(guī)規(guī)劃劃并并行行計計算算MapReduce:大大規(guī)規(guī)劃劃并并行行計計算算引引擎擎可將將任任務(wù)務(wù)分分布布并并行行運(yùn)運(yùn)行行在在一一個個集集群群服服務(wù)務(wù)器器中中Hadoop平臺臺提提供供了了海海量量數(shù)數(shù)據(jù)據(jù)的的分分布布式式存存儲儲與與處處理理的的框框架架。。基基于于服服務(wù)務(wù)器器本本地地的的計計算算與與存存儲儲資資源源,,Hadoop集群群可可以以擴(kuò)擴(kuò)展展到到上上千千臺臺服服務(wù)務(wù)器器。。同同時時,,Hadoop在設(shè)設(shè)計計時時充充分分考考慮慮了了硬硬件件設(shè)設(shè)備備的的不不可可靠靠因因素素,,在在軟軟件件層層面面提提供供數(shù)數(shù)據(jù)據(jù)和和計計算算的的高高可可靠靠保保證證。。大數(shù)數(shù)據(jù)據(jù)平平臺臺::Hadoop主要要功功能能HBaseMapReduceHiveHDFS快速速的的數(shù)數(shù)據(jù)據(jù)讀讀取取大數(shù)數(shù)據(jù)據(jù)存存儲儲統(tǒng)統(tǒng)計計復(fù)雜雜計計算算并并行行處處理理SharedNothing代表表數(shù)據(jù)據(jù)庫庫:GreenPlum、Vertica、Teradata適合合大大數(shù)數(shù)據(jù)據(jù)量量的的OLAP應(yīng)用用缺點(diǎn)優(yōu)點(diǎn)線性擴(kuò)展:X86平臺高可用性較低新型型MPP數(shù)據(jù)據(jù)庫庫主主要要構(gòu)構(gòu)建建在在x86平臺臺上上,,為為無無共共享享架架構(gòu)構(gòu)((ShareNothing),,依依靠靠軟軟件件架架構(gòu)構(gòu)上上的的創(chuàng)創(chuàng)新新和和數(shù)數(shù)據(jù)據(jù)多多副副本本機(jī)機(jī)制制,,實實現(xiàn)現(xiàn)系系統(tǒng)統(tǒng)的的高高可可用用性性和和可可擴(kuò)擴(kuò)展展性性。。負(fù)責(zé)責(zé)深深度度分分析析、、復(fù)復(fù)雜雜查查詢詢、、KPI計算算、、數(shù)數(shù)據(jù)據(jù)挖挖掘掘以以及及多多變變的的自自助助分分析析應(yīng)應(yīng)用用等,支持持PB級的數(shù)據(jù)據(jù)存儲。。大數(shù)據(jù)平平臺:分布式數(shù)數(shù)據(jù)庫新型MPP分布式數(shù)數(shù)據(jù)庫基于開放放平臺x86服務(wù)器大規(guī)模的的并發(fā)處處理能力力無單點(diǎn)故故障,可可線性擴(kuò)擴(kuò)展多副本機(jī)機(jī)制保證證數(shù)據(jù)安安全支撐PB級的數(shù)據(jù)據(jù)量支持SQL,開放靈靈活數(shù)據(jù)分級級存儲原原則數(shù)據(jù)融合合與分級級存儲實實施按數(shù)據(jù)血血緣按邏輯層層次按業(yè)務(wù)種種類按設(shè)備網(wǎng)網(wǎng)絡(luò)劃分分按設(shè)備物物理地址址在線、近近線、離離線按訪問頻頻度內(nèi)存數(shù)據(jù)據(jù)庫按響應(yīng)及時性內(nèi)存數(shù)據(jù)據(jù)庫數(shù)據(jù)生命命周期中中在線數(shù)數(shù)據(jù)對高高性能存存儲的需需求,以以及隨著著數(shù)據(jù)生生命周期期的變更更,逐漸漸向一般般性能存存儲的遷遷移,是是分級存存儲管理理的一條條主線。。同時兼兼顧考慮慮其他分分級原則則,共同同作用影影響數(shù)據(jù)據(jù)遷移機(jī)機(jī)制?;谏芷谄诨谠L問問壓力基于業(yè)務(wù)務(wù)用途基于物理理屬性分級原則則高性能磁盤庫磁帶光盤庫中低性能能磁盤庫將核心模模型(即即中度匯匯總的模模型)通通過改造造融入到到現(xiàn)有主數(shù)據(jù)倉庫的核核心模型型中,減少數(shù)數(shù)據(jù)冗余余,提升升數(shù)據(jù)質(zhì)質(zhì)量。將主數(shù)據(jù)據(jù)倉庫中中的歷史數(shù)據(jù)據(jù)和清單數(shù)據(jù)據(jù)遷移到低低成本分分布式數(shù)數(shù)據(jù)庫,,減輕主主數(shù)據(jù)倉倉庫的計計算與存存儲壓力力并支撐撐深度數(shù)數(shù)據(jù)分析析。數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)1、核心模模型融入入主數(shù)據(jù)據(jù)倉庫主數(shù)據(jù)倉倉庫2、歷史數(shù)數(shù)據(jù)遷移移到分布布式數(shù)據(jù)據(jù)庫分布式數(shù)數(shù)據(jù)庫1’、清單數(shù)數(shù)據(jù)入MPP數(shù)據(jù)庫大數(shù)據(jù)平平臺:數(shù)據(jù)分級級存儲Hadoop平臺主數(shù)據(jù)倉倉庫報表數(shù)據(jù)據(jù)標(biāo)簽庫指標(biāo)數(shù)據(jù)據(jù)客戶統(tǒng)一一視圖……信息子層層話單數(shù)據(jù)據(jù)非結(jié)構(gòu)化化數(shù)據(jù)信息子層層:報表數(shù)數(shù)據(jù)、多多維數(shù)據(jù)據(jù)、指標(biāo)標(biāo)庫等數(shù)數(shù)據(jù)來源源于匯總總層。匯總層:主題域域之間進(jìn)進(jìn)行關(guān)聯(lián)聯(lián)、匯總總計算。。匯總數(shù)數(shù)據(jù)服務(wù)務(wù)于信息息子層,,目的是是為了節(jié)節(jié)約信息息子層數(shù)數(shù)據(jù)計算算成本和和計算時時間。輕度匯總總層:主題域域內(nèi)部基基于明細(xì)細(xì)層數(shù)據(jù)據(jù),進(jìn)行行多維度度的、用用戶級的的匯總。。明細(xì)數(shù)據(jù)據(jù)層:主題域域內(nèi)部進(jìn)進(jìn)行拆分分、關(guān)聯(lián)聯(lián)。是對對ODS操作型數(shù)數(shù)據(jù)按照照主題域域劃分規(guī)規(guī)則進(jìn)行行的拆分分及合并并ODS層:數(shù)據(jù)來來源于各各生產(chǎn)系系統(tǒng),通通過ETL工具對接接口文件件數(shù)據(jù)進(jìn)進(jìn)行編碼碼替換和和數(shù)據(jù)清清洗轉(zhuǎn)換換,不做做關(guān)聯(lián)操操作。未未來也可可用于準(zhǔn)準(zhǔn)實時數(shù)數(shù)據(jù)查詢詢。明細(xì)數(shù)據(jù)據(jù)層(DW)輕度匯總總層(MK)高度匯總總層(MK)應(yīng)用庫精細(xì)化營營銷分布式數(shù)數(shù)據(jù)庫MPP其他應(yīng)用用1其他應(yīng)用用2應(yīng)用層:應(yīng)用系系統(tǒng)的私私有數(shù)據(jù)據(jù),應(yīng)用用的業(yè)務(wù)務(wù)數(shù)據(jù)。。精細(xì)化營營銷做為為大數(shù)據(jù)據(jù)平臺的的一個上上層應(yīng)用,有有由大數(shù)數(shù)據(jù)平臺臺提供數(shù)數(shù)據(jù)支撐撐數(shù)據(jù)訪問問SQLFTPHSQLAPIETL數(shù)據(jù)采集集ETL互聯(lián)網(wǎng)GN口非結(jié)構(gòu)化數(shù)數(shù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺臺結(jié)構(gòu)化數(shù)數(shù)據(jù)數(shù)據(jù)源獲取層12123344大數(shù)據(jù)平平臺:數(shù)據(jù)分層層源數(shù)據(jù)導(dǎo)導(dǎo)入ETL,進(jìn)行數(shù)數(shù)據(jù)的清清洗、轉(zhuǎn)換和入入庫。基礎(chǔ)數(shù)據(jù)據(jù)加載到到主數(shù)據(jù)據(jù)倉庫,,規(guī)劃保保存3年清洗、轉(zhuǎn)轉(zhuǎn)換后的的ODS加載到分分布式數(shù)數(shù)據(jù)庫規(guī)規(guī)劃保存存1+1月,在分分布式數(shù)數(shù)據(jù)庫內(nèi)內(nèi)完成明明細(xì)數(shù)據(jù)據(jù)和輕度度匯總數(shù)數(shù)據(jù)加工工生成,,規(guī)劃保保存2年ODS數(shù)據(jù)和非非結(jié)構(gòu)化化數(shù)據(jù),,如爬到到的網(wǎng)頁頁數(shù)據(jù)ftp到Hadoop平臺做長長久保存存非結(jié)化數(shù)數(shù)據(jù)分析析處理在在Hadoop平臺完成成,產(chǎn)生生的結(jié)果果加載到到分布式式數(shù)據(jù)庫庫生成KPI和高度匯匯總數(shù)據(jù)據(jù)加載到到主數(shù)據(jù)據(jù)倉庫。。Hadoop平臺主數(shù)據(jù)倉倉庫報表數(shù)據(jù)據(jù)標(biāo)簽庫客戶統(tǒng)一一視圖……信息子層層話單數(shù)據(jù)據(jù)非結(jié)構(gòu)化化數(shù)據(jù)明細(xì)數(shù)據(jù)據(jù)層(DW)輕度匯總總層(MK)高度匯總總層(MK)應(yīng)用庫分布式數(shù)數(shù)據(jù)庫MPP數(shù)據(jù)訪問問SQLFTPHSQLAPIETL數(shù)據(jù)采集集ETL互聯(lián)網(wǎng)GN口非結(jié)構(gòu)化數(shù)數(shù)據(jù)BSS經(jīng)分DMVACMC話單業(yè)務(wù)平臺臺結(jié)構(gòu)化數(shù)數(shù)據(jù)數(shù)據(jù)源獲取層123465業(yè)務(wù)應(yīng)用用通過數(shù)數(shù)據(jù)訪問問接口獲獲取所需需求數(shù)據(jù)據(jù)。7精細(xì)化營營銷其他應(yīng)用用1其他應(yīng)用用2指標(biāo)數(shù)據(jù)據(jù)大數(shù)據(jù)平平臺:數(shù)據(jù)處理理流程消息采集文件采集話單預(yù)處理信令預(yù)處理Gn話單位置信令DCNBSS炫鈴V
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第八講·線段、角的軸對稱性(1)-線段的軸對稱性教學(xué)設(shè)計2024-2025學(xué)年蘇科版數(shù)學(xué)八年級上冊
- 第14課 歷史上的疫病與醫(yī)學(xué)成就 教學(xué)設(shè)計 -2024-2025學(xué)年高二歷史統(tǒng)編版(2019)選擇性必修2 經(jīng)濟(jì)與社會生活
- 第13課 香港和澳門回歸祖國(教學(xué)設(shè)計)八年級歷史下冊同步備課系列(部編版)
- 第四章第二節(jié) 《使用數(shù)據(jù)庫管理信息的基本思想與方法》說課教學(xué)設(shè)計 上??平坛霭嫔纭缎畔⒓夹g(shù)基礎(chǔ)》(必修)
- 2025年度房屋買賣定金協(xié)議及房屋買賣合同履行風(fēng)險提示協(xié)議
- 2025年度合資經(jīng)營合同終止及資產(chǎn)清算協(xié)議
- 2025年度農(nóng)村蔬菜產(chǎn)業(yè)扶貧與電商平臺合作框架協(xié)議
- 教育機(jī)構(gòu)裝修保修協(xié)議模板
- 老年疾病護(hù)理指南
- 2025年模壓成型設(shè)備項目合作計劃書
- 商標(biāo)合資經(jīng)營合同
- 第六講當(dāng)前就業(yè)形勢與實施就業(yè)優(yōu)先戰(zhàn)略-2024年形勢與政策
- 2024-2030年中國家政服務(wù)行業(yè)經(jīng)營策略及投資規(guī)劃分析報告
- 2025年護(hù)士資格證考核題庫及答案
- 湖北省黃岡市2023-2024學(xué)年五年級上學(xué)期數(shù)學(xué)期中試卷(含答案)
- ××管業(yè)分銷市場操作方案
- 《ISO 41001-2018 設(shè)施管理- 管理體系 要求及使用指南》專業(yè)解讀與應(yīng)用指導(dǎo)材料之15:“7支持-7.6 組織知識”(雷澤佳編制-2024)
- 2024年建設(shè)工程質(zhì)量檢測人員-建設(shè)工程質(zhì)量檢測人員(主體結(jié)構(gòu)工程)考試近5年真題集錦(頻考類試題)帶答案
- 《向量共線定理》同步課件
- 小學(xué)數(shù)學(xué)學(xué)習(xí)經(jīng)驗交流課件
- 2024年第二批政府專職消防員招錄報名表
評論
0/150
提交評論