大數(shù)據(jù)處理平臺構架設計說明書_第1頁
大數(shù)據(jù)處理平臺構架設計說明書_第2頁
大數(shù)據(jù)處理平臺構架設計說明書_第3頁
大數(shù)據(jù)處理平臺構架設計說明書_第4頁
大數(shù)據(jù)處理平臺構架設計說明書_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)辦理平臺及可視化架構設計說明書版本:1。0改正記錄序號版本改正說明更正人/日期審批人/日期11.0創(chuàng)辦李萬鴻2015-3—18目錄11.文檔介紹......................................................................................................................................21.1文檔目的......................................................................................................21。2文檔范圍......................................................................................................21.3讀者對象......................................................................................................21。4參照文件......................................................................................................21。5術語與縮寫講解...........................................................................................22系統(tǒng)歸納...........................................................................................................................................33設計拘束...........................................................................................................................................44設計策略...........................................................................................................................................55系統(tǒng)整體結構....................................................................................................................................65。1大數(shù)據(jù)集成解析平臺系統(tǒng)架構設計..............................................................65.2可視化平臺系統(tǒng)架構設計............................................................................96其余.................................................................................................................................................116。1數(shù)據(jù)庫設計.................................................................................................116.2系統(tǒng)管理.....................................................................................................116。3日志管理.....................................................................................................111/1111.文檔介紹1.1文檔目的設計大數(shù)據(jù)集成解析平臺,主要功能是多種數(shù)據(jù)庫及文件數(shù)據(jù);接見;采集;解析,清洗,ETL,同時能夠編寫模型支持后臺統(tǒng)計解析算法。設計數(shù)據(jù)可視化平臺,應用于大數(shù)據(jù)的可視化和互動操作.為此,依照“先進合用、牢固可靠"的原則設計本大數(shù)據(jù)辦理平臺及可視化平臺。1.2文檔范圍大數(shù)據(jù)的辦理,包括ETL、解析、可視化、使用。1.3讀者對象管理人員、開發(fā)人員1.4參照文件1.5術語與縮寫講解縮寫、術語講解BDBigdataSD系統(tǒng)設計,SystemDesign2/11系統(tǒng)歸納大數(shù)據(jù)集成解析平臺,分為9個層次,主要功能是對多種數(shù)據(jù)庫及網(wǎng)頁等數(shù)據(jù)進行訪采集、解析,沖刷,整合、ETL,同時編寫模型支持后臺統(tǒng)計解析算法,供應可信的數(shù)據(jù)。設計數(shù)據(jù)可視化平臺,分為3個層次,在大數(shù)據(jù)集成解析平臺的基礎上實現(xiàn)大實現(xiàn)數(shù)據(jù)的可視化和互動操作。3/11設計拘束。系統(tǒng)必定依照國家軟件開發(fā)的標準。2.系統(tǒng)用java開發(fā),采用開源的中間件。3。系統(tǒng)必定牢固可靠,性能高,滿足每天千萬次的接見。4。保證數(shù)據(jù)的成功抽取、變換、解析,實現(xiàn)高可信和高可用.4/11設計策略1.系統(tǒng)高可用、高性能、易擴展,安全牢固,合用可靠,滿足用戶的需要.系統(tǒng)能夠進行擴展,增加數(shù)據(jù)的種類和數(shù)量。系統(tǒng)能夠復用其余軟件和算法。5/11系統(tǒng)整體結構5.1大數(shù)據(jù)集成解析平臺系統(tǒng)架構設計1.邏輯架構架構說明系統(tǒng)分為9個層次:1)數(shù)據(jù)源:CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子庫房、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫、互聯(lián)網(wǎng)的網(wǎng)頁。數(shù)據(jù)獲取層:接收數(shù)據(jù)源的數(shù)據(jù)和抓取網(wǎng)頁,建立知識圖譜將網(wǎng)頁數(shù)據(jù)結構化,為人工和機器決策供應依照。3)數(shù)據(jù)導入層:經過sqoop把數(shù)據(jù)庫的數(shù)據(jù)導入hbase,用flume、kafka把網(wǎng)頁導入hbase。4)數(shù)據(jù)加工層:對導入的數(shù)據(jù)進行沖刷、抽取、整合,并存入數(shù)據(jù)核心儲藏層。5)數(shù)據(jù)核心儲藏層:采用hbase、關系數(shù)據(jù)庫保存加工后的數(shù)據(jù)。6)數(shù)據(jù)解析辦理層:經過統(tǒng)計解析、數(shù)據(jù)挖掘、機器學習、風控模型等對大數(shù)據(jù)進行解析辦理。7)數(shù)據(jù)服務儲藏層:儲藏解析結果,包括Elasticsearch分布式找尋,redis分布式緩存。應用層:包括報表引擎、規(guī)則引擎、風控找尋引擎、用戶認證系統(tǒng)、統(tǒng)計解析接口等。9)服務層:對內的應用服務和對外的應用服務,為用戶供應系統(tǒng)功能。系統(tǒng)采用一系列先進的開源技術框架,實現(xiàn)大數(shù)據(jù)的抽取、ETL變換、沖刷、整合、匯總、統(tǒng)計解析,得出可信度高的結果,高速牢固地響應用戶的央求,可對企業(yè)的寬系列產品供應高質量的支持。還可建立企業(yè)云,把大數(shù)據(jù)平臺放到云上.系統(tǒng)從CSMAR數(shù)據(jù)庫、高頻系列數(shù)據(jù)庫、量化因子庫房、風險控制模型數(shù)據(jù)庫、量化輿情數(shù)據(jù)庫抽取數(shù)據(jù),還用機器爬蟲從互聯(lián)網(wǎng)上抓取與金融相關的網(wǎng)頁,對這些結構化和非結構化的數(shù)據(jù)進行抽取、沖刷、整合、變換,存入hbase數(shù)據(jù)庫.6/11統(tǒng)計解析程序采用必然的算法和模型經過spark、hadoop的yarn、hive、pig等讀取辦理數(shù)據(jù),結果保存在服務層數(shù)據(jù)庫,為用戶供應可信的數(shù)據(jù),還可經過可視化以各種統(tǒng)計圖展現(xiàn)出來,經過pc、手機能夠看到結果。系統(tǒng)供應可視化的操作界面,用戶可自己定義統(tǒng)計統(tǒng)計和參數(shù),系統(tǒng)計算解析后給出對應的圖表。系統(tǒng)的特點1、高負載和海量數(shù)據(jù)辦理能力以云儲藏或當?shù)貎Σ貫榛?,以云計算或企業(yè)服務器為辦理核心,建立了海量的數(shù)據(jù)業(yè)務支撐的大數(shù)據(jù)平臺。每天能夠承受千萬級PV的接見壓力,支撐億級用戶及P級各種數(shù)據(jù)儲藏如金融數(shù)據(jù)、網(wǎng)頁、日志文件、圖片、文檔、影音等?;诖舜髷?shù)據(jù)支撐平臺,不但能夠辦理日以繼夜增加的TB級數(shù)據(jù)增量,更能滿足各種實時業(yè)務需求2、業(yè)界當先的實時性在實時辦理領域實現(xiàn)秒級打破,能夠對各項業(yè)務數(shù)據(jù)驚醒實時查察與統(tǒng)計,方便客戶快速做出決講和即時響應,適應此刻快節(jié)奏發(fā)展趨勢。如傳統(tǒng)監(jiān)控對年、月、周、日的頻次統(tǒng)計,能夠實現(xiàn)24小時內的實時監(jiān)控,和管理當前實時變化的統(tǒng)計儀表盤數(shù)據(jù),更能實現(xiàn)7*24的用戶實時行為監(jiān)測及秒級解析。3、全面運營監(jiān)控指標系統(tǒng)不但擁有常有的接入站點的運營監(jiān)控流量指標如UV、PV、IP、新舊訪客數(shù),還建立了行為質量指標如用戶的央求,統(tǒng)計解析的正確度,并可在此基礎之上加入客戶行為解析、統(tǒng)計模型調優(yōu)、算法調優(yōu)、網(wǎng)站訪客背景解析、鼠標點擊行為等高智能的解析功能,進而為業(yè)務發(fā)展及運營策略供應了有力的數(shù)據(jù)支撐。4、對用戶本源和數(shù)據(jù)的深入挖掘與解析經過該平臺不但能夠看到接入網(wǎng)站用戶的基本信息(跳出率、回訪次數(shù)、回訪頻次、國家解析、省份解析、城市解析、網(wǎng)絡地址、閱讀器、移動終端等),還能夠夠認識到客戶本源(如本源頁面、網(wǎng)站、找尋引擎、要點字等)。并且在此基礎上能夠認識到客戶接見路徑,對數(shù)據(jù)進行多維鉆取,進而對網(wǎng)站客戶數(shù)據(jù)信息的采集、挖掘更加深入.對大數(shù)據(jù)進行深入的解析,為提升網(wǎng)站流量、供應科學的介紹依照、實現(xiàn)高質量的客戶差異化服務給出有力的數(shù)據(jù)支撐。7/115、對用戶行為進行實時追蹤、立體解析及即時溝通和個性介紹服務能夠針對實時在線的個體用戶進行WEBIM即時溝通,供應即時的一對一服務。并能夠結合業(yè)務需求,在實現(xiàn)客服人員與用戶一對一的同時,展現(xiàn)該用戶的歷史業(yè)務操作行為及個性化信息,如用戶花銷歷史記錄統(tǒng)計、行為習慣及喜好等。6、一致數(shù)據(jù)接入平臺數(shù)據(jù)接入層采用sqoop、flume、分布式日志系統(tǒng),實現(xiàn)推拉模式的各種主流方式,并可按需升級為一致數(shù)據(jù)接入平臺,不但支持日志及頁面源碼數(shù)據(jù),還能夠夠實現(xiàn)各種接口數(shù)據(jù)的無縫可視化接入,如關系型和非關系型數(shù)據(jù)、各種主流非結構化數(shù)據(jù)等。7、立體介紹及算法可代替平臺能夠對數(shù)據(jù)進行多種解析算法和模型的辦理,采用mahout、mlib的二元分類、線性回歸、聚類、共同過濾、卷積神經網(wǎng)絡(CNN)進行機器學習,采用RF(隨機森林)、SVM(支持向量機)、半督查學習,經過訓練達到權重等參數(shù)的最正確化,優(yōu)化樣本空間,并實現(xiàn)完好自動化調參和學習。還可結合用戶集體特點、個性行為歷史及各種顯式、隱式反響進行人腦解析,實現(xiàn)個體用戶和集體用戶的立體化介紹和全過程的人工干預。以算法平臺為支撐,建立了可視化的算法訓練和介紹結構的過濾植入,以增強客戶個性化服務配置。實現(xiàn)了各種算法的代替、組合和深度學習,如傳統(tǒng)的UCF、ICF及業(yè)務創(chuàng)新的二度人脈剪枝算法等,以盡吻合人腦思想習慣。8、多種風格統(tǒng)計解析數(shù)據(jù)展現(xiàn)方式對數(shù)據(jù)統(tǒng)計解析實現(xiàn)人性化的各種閱讀器體驗,傳統(tǒng)風格如線性、柱形、餅狀解析圖為企業(yè)對不同樣時段網(wǎng)站接見量、網(wǎng)站不同樣模塊的接見量、針對訪客的不同樣分類進行更加直觀的解析。創(chuàng)新風格如熱力求,更形象、視覺化的表現(xiàn)網(wǎng)站頁面不同樣地址客戶點擊密度,實時反響出集體用戶的興趣特點,增強運營.用戶能夠自定義條件,獲取可視化結果.9、主流客戶端的全端統(tǒng)計該方案不但能夠統(tǒng)計WINDOWS/MAC/LINUX各種PC用戶的主流閱讀器客戶端(如IE、360、Chrome、Firefox等)的數(shù)據(jù),還能夠針對搬動互聯(lián)網(wǎng)用戶統(tǒng)計主流搬動客戶端(如iphone,ipad,Android手機等)的各8/11類數(shù)據(jù),并能依照RESTful接口開發(fā)各種所需的各端統(tǒng)計,如WAP手機端,嵌入設備端等。10、操作體驗簡潔方便該方案秉承了人性化的設計理念.在保證精準、高效的基礎上簡化了操作過程,數(shù)據(jù)檢索解析一鍵解決,極大的方便了客戶使用。各種所需統(tǒng)計數(shù)據(jù)如數(shù)家珍,并能針對主要數(shù)據(jù)如用戶信息、用戶行為等進行一鍵化深度解析或即時服務操作。11、可靠性強以云平臺作為支撐。該平臺有極強的可靠性,能夠保證該軟件更牢固、有效、安全的運行。12、可擴展性強以云平臺作為支撐,能夠實現(xiàn)各種平臺組件按需橫向擴展,如儲藏擴容、計算增強等。13、集成性強豐富的接口擁有極強的集成性。能夠實現(xiàn)與企業(yè)內部業(yè)務系統(tǒng)的高密度集成,依照不同樣業(yè)務部門需求調取數(shù)據(jù)和數(shù)據(jù)解析結果.14、可視化強統(tǒng)計解析數(shù)據(jù)以圖表,熱圖等方式表現(xiàn),方便客戶比較判斷,在使用時更酣暢、方便,供應客戶體驗度。各種操作過程如算法訓練、人工干預、數(shù)據(jù)ETL等均實現(xiàn)可視化,根本性解決了手工代碼操作的問題。15、供應定制服務能夠依照客戶的特定需求進行更豐富的功能擴展,量身打造合適的實時運營解析及服務平臺。5.2可視化平臺系統(tǒng)架構設計數(shù)據(jù)可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論