大數(shù)據(jù)開發(fā)平臺的搭建_第1頁
大數(shù)據(jù)開發(fā)平臺的搭建_第2頁
大數(shù)據(jù)開發(fā)平臺的搭建_第3頁
大數(shù)據(jù)開發(fā)平臺的搭建_第4頁
大數(shù)據(jù)開發(fā)平臺的搭建_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)開發(fā)平臺(píngtái)的搭建共十五頁什么(shénme)是大數(shù)據(jù)大數(shù)據(jù)(bigdata),是指無法在可承受(chéngshòu)的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產業(yè),那么這種產業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。共十五頁大數(shù)據(jù)(shùjù)所謂“大數(shù)據(jù)”,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到截取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的信息。。大數(shù)據(jù)處理技術代表了新一代的技術架構,這種架構通過高速獲取數(shù)據(jù)并對其進行分析和挖掘,從海量形式各異的數(shù)據(jù)源中更有效地抽取出富含價值的信息。從大量數(shù)據(jù)中挖掘高價值知識是各界對于大數(shù)據(jù)的一個共識。大數(shù)據(jù)主要被用于分析和決策,企業(yè)用以分析的數(shù)據(jù)越全面,分析的結果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合,對企業(yè)產生新的價值。共十五頁4擴展性增量式的、幾乎無限的擴展可用性要求系統(tǒng)總是在線運行靈活性靈活可動態(tài)改變的數(shù)據(jù)模型擴展性縱向擴展橫向擴展分布式資源集中計算和存儲分布可用性單份數(shù)據(jù)數(shù)據(jù)復制一致性不要使用分布式事務處理大數(shù)據(jù)處理的需求(xūqiú)和特點共十五頁大數(shù)據(jù)平臺目標(mùbiāo)架構準實時(shíshí)采集批量采集Hadoop平臺MPP,基于X86平臺主數(shù)據(jù)倉庫分布式數(shù)據(jù)庫基于x86平臺數(shù)據(jù)采集(云化ETL,流數(shù)據(jù)處理、爬蟲)數(shù)據(jù)層獲取層能力層精細化營銷智能運營物聯(lián)網應用應用商店客服應用基礎分析能力數(shù)據(jù)挖掘能力實時分析能力自助分析能力多維分析能力數(shù)據(jù)共享能力指標應用報表應用主題分析專題分析互聯(lián)網GN口半結構化、非結構化數(shù)據(jù)BSS經分DMVACMC話單業(yè)務平臺結構化數(shù)據(jù)數(shù)據(jù)源分布式文件系統(tǒng)HDFS記錄明細數(shù)據(jù)HBaseM/RHive記錄匯總數(shù)據(jù)數(shù)據(jù)統(tǒng)一服務和開放SQL、FTP、WS、MDX、API、……分布式數(shù)據(jù)庫(MPP):存儲加工、關聯(lián)、匯總后的業(yè)務數(shù)據(jù),并提供分布式計算,支撐數(shù)據(jù)深度分析和數(shù)據(jù)挖掘能力,向主數(shù)據(jù)倉庫輸出KPI和高度匯總數(shù)據(jù)。主數(shù)據(jù)倉庫(與MPP合設):存儲指標數(shù)據(jù)、KPI數(shù)據(jù)和高度匯總數(shù)據(jù)。Hadoop云平臺:負責存儲海量的流量話單數(shù)據(jù),提供并行的計算和非結構化數(shù)據(jù)的處理能力,實現(xiàn)低成本的存儲和低時延、高并發(fā)的查詢能力。數(shù)據(jù)開放接口:向大數(shù)據(jù)應用方提供大數(shù)據(jù)平臺的能力。數(shù)據(jù)采集(ETL):負責源數(shù)據(jù)的采集、清洗、轉換和加載包括:1、把原始數(shù)據(jù)加載到Hadoop平臺。2、把加工后的數(shù)據(jù)加載分布式數(shù)據(jù)庫和主數(shù)據(jù)倉庫應用層共十五頁HDFS:分布式文件系統(tǒng)有較強的容錯性可在x86平臺上運行,減少總體成本可擴展,能構建大規(guī)模的應用HBase:非結構化NoSQl分布式數(shù)據(jù)庫

基于分布式文件系統(tǒng)HDFS,保證數(shù)據(jù)安全列式存儲,節(jié)省存儲空間提供大數(shù)據(jù)量的高速讀寫操作Hive:分布式關系型數(shù)據(jù)庫數(shù)據(jù)可保存在HDFS,可提供海量的數(shù)據(jù)存儲類SQL的查詢語句,提供大數(shù)據(jù)的統(tǒng)計和分析操作,適合(shìhé)海量數(shù)據(jù)的批處理通過MapReduce實現(xiàn)大規(guī)劃并行計算MapReduce:大規(guī)劃并行計算引擎可將任務分布并行運行在一個集群服務器中Hadoop平臺提供了海量數(shù)據(jù)的分布式存儲與處理的框架。基于服務器本地的計算與存儲資源,Hadoop集群可以擴展(kuòzhǎn)到上千臺服務器。同時,Hadoop在設計時充分考慮了硬件設備的不可靠因素,在軟件層面提供數(shù)據(jù)和計算的高可靠保證。大數(shù)據(jù)平臺:Hadoop主要功能HBaseMapReduceHiveHDFS快速的數(shù)據(jù)讀取大數(shù)據(jù)存儲統(tǒng)計復雜計算并行處理共十五頁SharedNothing代表(dàibiǎo)數(shù)據(jù)庫:GreenPlum、Vertica、Teradata適合(shìhé)大數(shù)據(jù)量的OLAP應用缺點優(yōu)點線性擴展:X86平臺高可用性較低新型MPP數(shù)據(jù)庫主要構建在x86平臺上,為無共享架構(ShareNothing),依靠軟件架構上的創(chuàng)新和數(shù)據(jù)多副本機制,實現(xiàn)系統(tǒng)的高可用性和可擴展性。負責深度分析、復雜查詢、KPI計算、數(shù)據(jù)挖掘以及多變的自助分析應用等,支持PB級的數(shù)據(jù)存儲。大數(shù)據(jù)平臺:

分布式數(shù)據(jù)庫新型MPP分布式數(shù)據(jù)庫基于開放平臺x86服務器大規(guī)模的并發(fā)處理能力無單點故障,可線性擴展多副本機制保證數(shù)據(jù)安全支撐PB級的數(shù)據(jù)量支持SQL,開放靈活共十五頁數(shù)據(jù)(shùjù)分級存儲原則數(shù)據(jù)(shùjù)融合與分級存儲實施按數(shù)據(jù)血緣按邏輯層次按業(yè)務種類按設備網絡劃分按設備物理地址在線、近線、離線按訪問頻度內存數(shù)據(jù)庫按響應及時性內存數(shù)據(jù)庫數(shù)據(jù)生命周期中在線數(shù)據(jù)對高性能存儲的需求,以及隨著數(shù)據(jù)生命周期的變更,逐漸向一般性能存儲的遷移,是分級存儲管理的一條主線。同時兼顧考慮其他分級原則,共同作用影響數(shù)據(jù)遷移機制。基于生命周期基于訪問壓力基于業(yè)務用途基于物理屬性分級原則高性能磁盤庫磁帶光盤庫中低性能磁盤庫將核心模型(即中度匯總的模型)通過改造融入到現(xiàn)有主數(shù)據(jù)倉庫的核心模型中,減少數(shù)據(jù)冗余,提升數(shù)據(jù)質量。將主數(shù)據(jù)倉庫中的歷史數(shù)據(jù)和清單數(shù)據(jù)遷移到低成本分布式數(shù)據(jù)庫,減輕主數(shù)據(jù)倉庫的計算與存儲壓力并支撐深度數(shù)據(jù)分析。數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)1、核心模型融入主數(shù)據(jù)倉庫主數(shù)據(jù)倉庫2、歷史數(shù)據(jù)遷移到分布式數(shù)據(jù)庫分布式數(shù)據(jù)庫1’、清單數(shù)據(jù)入MPP數(shù)據(jù)庫大數(shù)據(jù)平臺:

數(shù)據(jù)分級存儲共十五頁Hadoop平臺(píngtái)主數(shù)據(jù)倉庫報表(bàobiǎo)數(shù)據(jù)標簽庫指標數(shù)據(jù)客戶統(tǒng)一視圖……信息子層話單數(shù)據(jù)非結構化數(shù)據(jù)信息子層:報表數(shù)據(jù)、多維數(shù)據(jù)、指標庫等數(shù)據(jù)來源于匯總層。匯總層:主題域之間進行關聯(lián)、匯總計算。匯總數(shù)據(jù)服務于信息子層,目的是為了節(jié)約信息子層數(shù)據(jù)計算成本和計算時間。輕度匯總層:主題域內部基于明細層數(shù)據(jù),進行多維度的、用戶級的匯總。明細數(shù)據(jù)層:主題域內部進行拆分、關聯(lián)。是對ODS操作型數(shù)據(jù)按照主題域劃分規(guī)則進行的拆分及合并ODS層:數(shù)據(jù)來源于各生產系統(tǒng),通過ETL工具對接口文件數(shù)據(jù)進行編碼替換和數(shù)據(jù)清洗轉換,不做關聯(lián)操作。未來也可用于準實時數(shù)據(jù)查詢。明細數(shù)據(jù)層

(DW)輕度匯總層(MK)高度匯總層(MK)應用庫精細化營銷分布式數(shù)據(jù)庫MPP其他應用1其他應用2應用層:應用系統(tǒng)的私有數(shù)據(jù),應用的業(yè)務數(shù)據(jù)。精細化營銷做為大數(shù)據(jù)平臺的一個上層應用,有由大數(shù)據(jù)平臺提供數(shù)據(jù)支撐數(shù)據(jù)訪問SQLFTPHSQLAPIETL數(shù)據(jù)采集ETL互聯(lián)網GN口非結構化數(shù)據(jù)BSS經分DMVACMC話單業(yè)務平臺結構化數(shù)據(jù)數(shù)據(jù)源獲取層12123344大數(shù)據(jù)平臺:

數(shù)據(jù)分層共十五頁源數(shù)據(jù)(shùjù)導入ETL,進行數(shù)據(jù)的清洗、轉換和入庫?;A數(shù)據(jù)(shùjù)加載到主數(shù)據(jù)(shùjù)倉庫,規(guī)劃保存3年清洗、轉換后的ODS加載到分布式數(shù)據(jù)庫規(guī)劃保存1+1月,在分布式數(shù)據(jù)庫內完成明細數(shù)據(jù)和輕度匯總數(shù)據(jù)加工生成,規(guī)劃保存2年ODS數(shù)據(jù)和非結構化數(shù)據(jù),如爬到的網頁數(shù)據(jù)ftp到Hadoop平臺做長久保存非結化數(shù)據(jù)分析處理在Hadoop平臺完成,產生的結果加載到分布式數(shù)據(jù)庫生成KPI和高度匯總數(shù)據(jù)加載到主數(shù)據(jù)倉庫。Hadoop平臺主數(shù)據(jù)倉庫報表數(shù)據(jù)標簽庫客戶統(tǒng)一視圖……信息子層話單數(shù)據(jù)非結構化數(shù)據(jù)明細數(shù)據(jù)層

(DW)輕度匯總層(MK)高度匯總層(MK)應用庫分布式數(shù)據(jù)庫MPP數(shù)據(jù)訪問SQLFTPHSQLAPIETL數(shù)據(jù)采集ETL互聯(lián)網GN口非結構化數(shù)據(jù)BSS經分DMVACMC話單業(yè)務平臺結構化數(shù)據(jù)數(shù)據(jù)源獲取層123465業(yè)務應用通過數(shù)據(jù)訪問接口獲取所需求數(shù)據(jù)。7精細化營銷其他應用1其他應用2指標數(shù)據(jù)大數(shù)據(jù)平臺:

數(shù)據(jù)處理流程共十五頁消息(xiāoxi)采集文件(wénjiàn)采集話單預處理信令預處理Gn話單位置信令DCNBSS炫鈴VAC短彩平臺物聯(lián)網客服平臺1*10GE1*GE2*GES9300S9300分布式數(shù)據(jù)庫集群新建ETL、分布式數(shù)據(jù)庫和Hadoop集群內部各自獨立組網。分別通過10GE網口接入?yún)R聚交換機。Hadoop集群…1*10GEETL集群…1*10GE…大數(shù)據(jù)平臺的組網共十五頁12Pcap數(shù)據(jù)(DPI)互聯(lián)網路由器路由器防火墻WAP網站WWW網站分光鏡像DPI數(shù)據(jù)爬取數(shù)據(jù)爬取數(shù)據(jù)采集Agentcollector日志采集網元設備(GGSN\PDSN\WAP網關、NET網關)/Apache日志核心設備話單互聯(lián)網頁面數(shù)據(jù)正向采集用戶行為數(shù)據(jù)反向采集互聯(lián)網數(shù)據(jù)建設方案基于Hadoop構建(ɡòujiàn)大數(shù)據(jù)的用戶行為分析系統(tǒng)系統(tǒng)提供了核心的分布式云存儲、分布式并行計算、分布式數(shù)據(jù)倉庫、分布式列數(shù)據(jù)庫整體解決方案方案延伸基于Hadoop的大數(shù)據(jù)解決方案提供了基礎的云存儲和云計算的能力,基于該技術(jìshù)框架可進行應用的擴展和衍生?;谟脩艋ヂ?lián)網訪問行為分析結果,形成詳細的戶興趣愛好列表,可進行即時、精準的廣告投放大數(shù)據(jù)平臺有助于提升現(xiàn)網分析能力共十五頁13系統(tǒng)(xìtǒng)構成系統(tǒng)主要包含數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)入庫子系統(tǒng)、數(shù)據(jù)存儲子系統(tǒng)、數(shù)據(jù)查詢與分析子系統(tǒng)采用Hadoop/HBase作為上網記錄存儲方案采用MapReduce/Hive作用(zuòyòng)統(tǒng)計分析和數(shù)據(jù)挖掘工具關鍵性指標數(shù)據(jù)存儲上網記錄入庫時間:一般小于30分鐘,實際約10分鐘歷史5個月+當前月數(shù)據(jù)查詢上網記錄查詢速度:不高于1秒(不含用戶訪問查詢頁面的時間)并發(fā)查詢數(shù)目:1000請求/秒大數(shù)據(jù)平臺有效提升數(shù)據(jù)查詢速度以手機上網詳單查詢?yōu)閼冒咐彩屙摯髷?shù)據(jù)平臺從平臺部署和數(shù)據(jù)分析過程(guòchéng)可分為如下幾步1、linux系統(tǒng)安裝一般使用(shǐyòng)開源版的Redhat系統(tǒng)--CentOS作為底層平臺。2、分布式計算平臺/組件安裝目前國內外的分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)。Hadoop的核心是HDFS,一個分布式的文件系統(tǒng)。在其基礎上常用的組件有Zookeeper、Hive、Hbase、Sqoop、Spark等。3、數(shù)據(jù)導入前面提到,數(shù)據(jù)導入的工具是Sqoop。用它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導入到分布式平臺『一般主要導入到Hive,也可將數(shù)據(jù)導入到Hbase』4、數(shù)據(jù)分析數(shù)據(jù)分析一般包括兩個階段:數(shù)據(jù)預處理和數(shù)據(jù)建模分析。數(shù)據(jù)預處理是為后面的建模分析做準備,主要工作時從海量數(shù)據(jù)中提取可用特征,建立大寬表。這個過程可能會用到HiveSQL,SparkQL和Impala。數(shù)據(jù)建模分析是針對預處理提取的特征/數(shù)據(jù)建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網絡、TFIDF、協(xié)同過濾等,都已經在MLlib里面,調用比較方便。5、結果可視化及輸出API可視化一般式對結果或部分原始數(shù)據(jù)做展示。一般有兩種情況,行熟悉展示,和列查找展示。在這里,要基于大數(shù)據(jù)平臺做展示,會需要用到ElasticSearch和Hbase。Hbase提供快速『

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論