




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
一、數(shù)據(jù)分析平臺層次解析大數(shù)據(jù)分析解決架構(gòu)圖數(shù)據(jù)源:除該種辦法之外,還能夠分為離線數(shù)據(jù)、近似實時數(shù)據(jù)和實時數(shù)據(jù)。按照圖中的分類其實就是闡明了數(shù)據(jù)存儲的構(gòu)造,而特別要說的是流數(shù)據(jù),它的核心就是數(shù)據(jù)的持續(xù)性和快速分析性;計算層:內(nèi)存計算中的Spark是UCBerkeley的最新作品,思路是運用集群中的全部內(nèi)存將要解決的數(shù)據(jù)加載其中,省掉諸多I/O開銷和硬盤連累,從而加緊計算。而Impala思想來源于谷歌Dremel,充足運用分布式的集群和高效存儲方式來加緊大數(shù)據(jù)集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的文獻系統(tǒng)固然是HDFS獨大,也就是Hadoop的底層存儲,現(xiàn)在大數(shù)據(jù)的技術(shù)除了微軟系的意外,基本都是HDFS作為底層的存儲技術(shù)。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本?;谥系膽?yīng)用有Hive,PigLatin,這兩個是運用了SQL的思想來查詢Hadoop上的數(shù)據(jù)。核心:運用大數(shù)據(jù)做決策支持。R能夠幫你在大數(shù)據(jù)上做統(tǒng)計分析,運用R語言和框架能夠?qū)崿F(xiàn)很專業(yè)的統(tǒng)計分析功效,并且能運用圖形的方式呈現(xiàn);而Mahout就是一種集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實現(xiàn)的典型算法,拿這個作為數(shù)據(jù)分析的核心算法集來參考還是較好的。如此一種決策支持系統(tǒng)要怎么呈現(xiàn)呢?其實這個和數(shù)據(jù)挖掘過程中的呈現(xiàn)同樣,無非就是通過表格和圖標圖形來進行展示,其實一份分類具體、顏色艷麗、數(shù)據(jù)權(quán)威的數(shù)據(jù)圖標報告就是呈現(xiàn)給客戶的最佳方式!至于用什么工具來實現(xiàn),有兩個是最佳的數(shù)據(jù)呈現(xiàn)工具,Tableau和Pentaho,運用他們最為數(shù)據(jù)呈現(xiàn)層絕對是最佳的選擇。二、規(guī)劃的數(shù)據(jù)平臺產(chǎn)品AE(AccelerateEngine)支持下一代公司計算核心技術(shù)的大數(shù)據(jù)解決平臺:涉及計算引擎、開發(fā)工具、管理工具及數(shù)據(jù)服務(wù)。計算引擎是AE的核心部分,提供支持從多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)進行實時數(shù)據(jù)集成、提供分布式環(huán)境下的消息總線、通過ServiceGateway能夠與第三方系統(tǒng)進行服務(wù)整合訪問;設(shè)計了一種分布式計算框架,能夠解決構(gòu)造化和非構(gòu)造化數(shù)據(jù),并提供內(nèi)存計算、規(guī)劃計算、數(shù)據(jù)挖掘、流計算等多個公司計算服務(wù)。DataStudio涉及了數(shù)據(jù)建模、開發(fā)、測試等集成開發(fā)環(huán)境。管理工具涉及了實施、客戶化及系統(tǒng)管理類工具。AE平臺還能夠通過UAP開發(fā)者社區(qū)提供豐富的數(shù)據(jù)服務(wù)。AE架構(gòu)圖新規(guī)劃將BAP平臺拆分為兩部分,底層技術(shù)平臺發(fā)展內(nèi)存計算和數(shù)據(jù)解決,上層BI呈現(xiàn)端重點發(fā)展儀表盤、web和移動設(shè)備呈現(xiàn)。兩大產(chǎn)品通過數(shù)據(jù)解決接口和嵌入式應(yīng)用服務(wù)于業(yè)務(wù)系統(tǒng)。生態(tài)系統(tǒng)圖大數(shù)據(jù)解決平臺肩負著為BI系統(tǒng)提供語義層/OLAP引擎等底層技術(shù)支撐、BI及ERP系統(tǒng)的性能提高、以及數(shù)據(jù)挖掘、非構(gòu)造化數(shù)據(jù)解決等系列數(shù)據(jù)整合與解決的解決方案。具體模塊涉及:語義層:為統(tǒng)一的查詢建模平臺和數(shù)據(jù)訪問接口。除提供原則的查詢建模能力外,尚有語義驅(qū)動、語義規(guī)則、語義函數(shù)、描述器等等擴展方式,滿足不同層面的擴展規(guī)定。OLAP引擎:OLAP引擎提供全方面的多維建模與分析能力。多維模型涉及維度、層次、級別、屬性、指標、計算組員等;同時預(yù)置系列分析函數(shù),涉及同比/環(huán)比/期比/基比等時間序列分析、占比/排名/方差等統(tǒng)計分析、指數(shù)回歸和線性回歸分析等;提供原則的MDX解析與執(zhí)行,與數(shù)據(jù)倉庫等模塊結(jié)合,提供針對海量數(shù)據(jù)的實時分析和解決能力。數(shù)據(jù)集成:能夠勝任在大數(shù)據(jù)量、高并發(fā)、多維分析等環(huán)境背景下的實時分析。通過實時數(shù)據(jù)集成(RDI)提供的數(shù)據(jù)實時復(fù)制與DW的列式存儲引擎,解決了以往在傳統(tǒng)架構(gòu)模式下,普通行式存儲引擎無法實現(xiàn)的業(yè)務(wù)場景。數(shù)據(jù)挖掘:支持運行于分布式文獻系統(tǒng)和分布式計算平臺之上的分布式數(shù)據(jù)挖掘算法,具體涉及:邏輯斯特回歸、樸素貝葉斯分類算法及其分布式實現(xiàn);K均值、譜聚類算法及其分布式實現(xiàn);潛在狄利克雷分派語義挖掘算法及其分布式實現(xiàn);頻繁模式挖掘分析算法及其分布式實現(xiàn);協(xié)同過濾、概率矩陣分解推薦算法及其分布式實現(xiàn);提供分布式挖掘算法的統(tǒng)一操作原語和執(zhí)行引擎。數(shù)據(jù)倉庫:數(shù)據(jù)倉庫提供針對海量數(shù)據(jù)進行高效的查詢和分析。涉及同時支持關(guān)系數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、以及分布式文獻系統(tǒng)進行數(shù)據(jù)存儲和加載的多存儲引擎,基于MapReduce框架針對海量數(shù)據(jù)的高性能查詢和分析,以及MapReduce框架本身含有的高擴展性和容錯性。非構(gòu)造化數(shù)據(jù)管理:非構(gòu)造化數(shù)據(jù)不包含內(nèi)嵌的語義構(gòu)造描述信息,而信息系統(tǒng)需要結(jié)合其“內(nèi)容”而不僅僅是數(shù)據(jù)本身進行查詢、檢索、分析與挖掘,因此非構(gòu)造化數(shù)據(jù)管理系統(tǒng)需要實現(xiàn)非構(gòu)造化數(shù)據(jù)的數(shù)據(jù)提取,提取的非構(gòu)造化數(shù)據(jù)是進行后續(xù)解決的基礎(chǔ),具體涉及構(gòu)造化信息和底層/高層特性的提取兩個。非構(gòu)造化數(shù)據(jù)提取組件依賴于分布式文獻系統(tǒng)和非構(gòu)造化數(shù)據(jù)存儲提供的原始數(shù)據(jù)作為數(shù)據(jù)源數(shù)據(jù),依賴于非構(gòu)造化數(shù)據(jù)存儲來存儲提取的元數(shù)據(jù)或者特性數(shù)據(jù),依賴于并行計算框架來分布化執(zhí)行過程,加緊執(zhí)行速度。消息總線:涉及主數(shù)據(jù)管理、集中身份管理、應(yīng)用集成開發(fā)環(huán)境、集成監(jiān)控管理等。滿足集成平臺的應(yīng)用需求,支持界面集成、信息集成、服務(wù)集成、流程集成等集成方式。分布式計算系統(tǒng):涉及分布式文獻系統(tǒng)和分布式計算框架。分布式文獻系統(tǒng)以高可靠的容錯機制為核心,系統(tǒng)架構(gòu)涉及多元數(shù)據(jù)服務(wù)器、多數(shù)據(jù)存儲服務(wù)器、多監(jiān)管者、多客戶端,支持大文獻和大數(shù)據(jù)塊的分布式存儲與管理;分布式計算框架基于MapReduce與MPI計算模型,提供了一套并行計算框架;并運用物理機以及虛擬機的監(jiān)控信息,實現(xiàn)對計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 協(xié)力商合同標準文本
- 個人采購水泥合同樣本
- 勞務(wù)分包備案合同樣本
- 勞務(wù)人工瓷磚合同樣本
- 勞動合同標準文本格式標準文本
- 制作安裝門合同標準文本
- 加盟店品牌授權(quán)合同標準文本
- 制砂機制沙合同樣本
- 醫(yī)療耗材降價采購合同標準文本
- COCO奶茶店合同標準文本
- 消費者心理與行為教學(xué)ppt課件(完整版)
- 八年級體育教案(全冊)
- 頸椎功能障礙指數(shù),Neck Disabilitv Index,NDI
- 天地萬物一體 的整體觀念
- 大班音樂游戲《郵遞馬車》課后反思
- 2022新高考卷小說《江上》 答案+評點
- 裝配式擋墻專項施工方案
- 污水廠設(shè)備管理培訓(xùn)(共110頁).ppt
- 20-5T雙梁橋式起重機設(shè)計(全套圖紙)
- 潛水式排污泵檢驗報告(共8頁)
- 數(shù)控機床裝調(diào)維修工考工練習(xí)試題題庫
評論
0/150
提交評論