版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)經(jīng)營(yíng)平臺(tái)提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)BigBig Data云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)和云是兩個(gè)不同的概念,但兩者之間有很多交集。支撐大數(shù)據(jù)以及云計(jì)算的底層原則是一樣的,即規(guī)?;?、自動(dòng)化、資源配置、自愈性,因此實(shí)際上大數(shù)據(jù)和云之間存在很多合力的地方。大數(shù)據(jù)應(yīng)用是在云上跑的、非常典型的應(yīng)用。大數(shù)據(jù)處理離不開云大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)4IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB (1ZB = 10億TB)*Source: McKinsey Global Institute AnalysisSG Cross Asset Resea
2、rch, PwC寬帶、移動(dòng)網(wǎng)絡(luò)普及和提速移動(dòng)網(wǎng)絡(luò)和各種智能終端視頻(醫(yī)療影像、地理信息、監(jiān)控錄像等)統(tǒng)計(jì)、分析、預(yù)測(cè)、實(shí)時(shí)處理傳感器、RFID閱讀器、導(dǎo)航終端等非傳統(tǒng)IT設(shè)備社交網(wǎng)絡(luò)(Facebook, Twitter, 微博等)大數(shù)據(jù)處理速度要求越來(lái)越高Source: IDC Digital Universe Study, sponsored by EMC, May 2010大數(shù)據(jù)與海量數(shù)據(jù)的一個(gè)重要區(qū)別,在于不但數(shù)據(jù)尺寸大,而且對(duì)數(shù)據(jù)處理的響應(yīng)速度有有著更高的要求傳統(tǒng)的以周,天,小時(shí)為單位的運(yùn)算處理周期,下降到以分鐘,秒為單位大數(shù)據(jù)高價(jià)值的重要體現(xiàn)-處理速度ValueHigh utilit
3、yDiminishing utilityArchival valueTimeHighLowNegative數(shù)據(jù)的多樣性Source: IDC Digital Universe Study, sponsored by EMC, May 2010數(shù)據(jù)形式的多樣: 結(jié)構(gòu)化數(shù)據(jù) ,數(shù)據(jù)間有很強(qiáng)的因果關(guān)系半結(jié)構(gòu)化數(shù)據(jù) ,數(shù)據(jù)間因果關(guān)系較弱非結(jié)構(gòu)化數(shù)據(jù), 數(shù)據(jù)間無(wú)因果關(guān)系數(shù)據(jù)來(lái)源的多樣性:不同的應(yīng)用系統(tǒng)各種設(shè)備互聯(lián)網(wǎng)其它Flat file創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE) Copyright 2011 EMC Corporation. All rights reserved.大數(shù)據(jù)分析顯著的業(yè)務(wù)價(jià)值 3V特性
4、驅(qū)動(dòng)下創(chuàng)建 挖掘數(shù)據(jù)資產(chǎn)價(jià)值,通過(guò)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),變成本中心為利潤(rùn)中心智慧城市-典型的大數(shù)據(jù)應(yīng)用集合大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸Required ScalabilityRapid AdoptionBig MathBig Data“Moores Law” Scalability數(shù)據(jù)處理需求與傳統(tǒng)平臺(tái)硬件擴(kuò)展的差距不斷擴(kuò)大Industry Progress大數(shù)據(jù)處理需要的擴(kuò)展能力大數(shù)據(jù)分析不同于傳統(tǒng)BI分析結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為TB規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批
5、處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析Examples:TelcoGovtFinanceWeb分布式數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)平臺(tái)融合Raw DataHadoop Cluster(Hundreds of TBs to PBs)Existing Data Warehouse(Hundreds of TBs)Applications and Tools(Modeling on 100s of TBs to PBs)Structured DataSemi-Structured DataBI/Stat ToolsHistorical/Archival/
6、Event Level Aggregated/Enriched Summary/Interactive ETLData EnrichmentDirect QueryDirect queryDirect Modeling提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(1/2)隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,上網(wǎng)記錄查詢成為用戶投訴的焦點(diǎn)問(wèn)題來(lái)源目前,中國(guó)聯(lián)通省分公司3G客戶數(shù)據(jù)流量問(wèn)題爭(zhēng)議占3G業(yè)務(wù)投訴達(dá)7-10%,且近幾個(gè)月呈上升趨勢(shì),個(gè)別省分比例高達(dá)20%一些用戶對(duì)3G業(yè)務(wù)流量產(chǎn)生及計(jì)費(fèi)方式不了解,主觀認(rèn)為自己未使用或使用較少數(shù)據(jù)流量,要求運(yùn)營(yíng)商提供上網(wǎng)記錄,而現(xiàn)
7、有系統(tǒng)不具備此功能,從而導(dǎo)致投訴升級(jí)。3G流量費(fèi)爭(zhēng)議占總咨詢投訴量比率上網(wǎng)記錄查詢對(duì)中國(guó)聯(lián)通的業(yè)務(wù)發(fā)展產(chǎn)生了較大的影響影響對(duì)用戶而言:“要是能查到流量是和誰(shuí)發(fā)生的就好了,如果是手機(jī)的問(wèn)題,我也才知道今后怎么防范,現(xiàn)在連防范誰(shuí)都不知道,誰(shuí)知道下次還會(huì)不會(huì)發(fā)生類似問(wèn)題?”對(duì)運(yùn)營(yíng)商而言:根據(jù)中國(guó)聯(lián)通客戶服務(wù)部門提供的數(shù)據(jù),目前移動(dòng)業(yè)務(wù)每萬(wàn)元收入,因無(wú)法提供上網(wǎng)詳單造成的退費(fèi)和賠付約60.1元;如果問(wèn)題得不到根本解決,將會(huì)影響運(yùn)營(yíng)商按流量計(jì)費(fèi)的資費(fèi)模式,對(duì)運(yùn)營(yíng)商3G業(yè)務(wù)的開展將產(chǎn)生較大影響用戶上網(wǎng)記錄數(shù)是個(gè)海量數(shù)據(jù),不僅投資巨大,傳統(tǒng)的電信業(yè)解決方案根本無(wú)法提供該服務(wù)案例某iPhone合約計(jì)劃用戶,在
8、凌晨零點(diǎn)到4點(diǎn)之間手機(jī)產(chǎn)生巨額流量費(fèi)在其得知因受計(jì)量設(shè)備限制無(wú)法向其提供數(shù)據(jù)流量去向后,竟上升到司法訴訟層面聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(2/2)移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)建設(shè)上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)意義重大查詢?yōu)榭蛻舴?wù)人員提供客戶上網(wǎng)記錄快速查詢服務(wù),解決流量投訴問(wèn)題為用戶提供準(zhǔn)實(shí)時(shí)的異常大流量上網(wǎng)記錄自助查詢服務(wù)分析對(duì)數(shù)據(jù)流量進(jìn)行統(tǒng)計(jì)終端分析:iPhone、iPad、其他智能手機(jī)分布,新終端推廣效果分析熱門流量、熱門網(wǎng)站(業(yè)務(wù))網(wǎng)絡(luò)分析: 2G/3G基站流量分析,網(wǎng)絡(luò)優(yōu)化數(shù)據(jù)挖掘根據(jù)流量分布,分析用戶群特征提供套餐設(shè)計(jì)參考,優(yōu)化用戶體驗(yàn)通過(guò)感知業(yè)務(wù)態(tài)勢(shì),制定市場(chǎng)策略,指導(dǎo)
9、業(yè)務(wù)產(chǎn)品開發(fā),為市場(chǎng)營(yíng)銷提供豐富的數(shù)據(jù)支持移動(dòng)互聯(lián)網(wǎng)處于快速發(fā)展期:每6個(gè)月,流量翻一番移動(dòng)互聯(lián)網(wǎng)用戶快速增加,智能終端迅速普及、戶均流量顯著增長(zhǎng),上網(wǎng)記錄數(shù)據(jù)將進(jìn)一步猛增難點(diǎn)分析上網(wǎng)記錄是海量數(shù)據(jù)用戶每月的上網(wǎng)記錄約幾萬(wàn)至數(shù)十萬(wàn)在Gn(SGSN與GGSN之間)接口上部署采集設(shè)備來(lái)生成用戶上網(wǎng)記錄用戶手機(jī)訪問(wèn)一次網(wǎng)頁(yè),約會(huì)產(chǎn)生數(shù)十條,甚至數(shù)百條請(qǐng)求,意味著產(chǎn)生數(shù)十條和數(shù)百條上網(wǎng)記錄訪問(wèn)手機(jī)新浪網(wǎng)首頁(yè),約產(chǎn)生20條記錄訪問(wèn)新浪iPad首頁(yè),約產(chǎn)生40條記錄在iPad中看一條新浪新聞,產(chǎn)生超過(guò)180條記錄訪問(wèn)淘寶觸摸屏版,約產(chǎn)生60條記錄大量的DNS查詢、推送服務(wù)記錄(如蘋果通知服務(wù))等以中國(guó)聯(lián)通
10、某省分公司為例,日均上網(wǎng)記錄數(shù)近10億條,每月數(shù)據(jù)量近9TB,31個(gè)省份數(shù)據(jù)量12T/day難點(diǎn)分析采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行上網(wǎng)記錄的存儲(chǔ)已不可行采用何種方式進(jìn)行存儲(chǔ)和檢索是一個(gè)問(wèn)題存儲(chǔ):如此大的數(shù)據(jù)量已經(jīng)超越了當(dāng)前關(guān)系型數(shù)據(jù)庫(kù)可管理的容量上限查詢:關(guān)系型數(shù)據(jù)庫(kù)上對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能嚴(yán)重下降當(dāng)數(shù)據(jù)集和索引變大時(shí),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如Oracle、Sybase,在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能嚴(yán)重下降,因?yàn)樵谔幚頂?shù)據(jù)時(shí)SQL請(qǐng)求會(huì)占用大量的CPU周期,并且會(huì)導(dǎo)致大量的磁盤讀寫,性能會(huì)變得讓人無(wú)法忍受成本小型機(jī)高端存儲(chǔ) + 關(guān)系數(shù)據(jù)庫(kù)成本導(dǎo)致擴(kuò)展困難移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系
11、統(tǒng)系統(tǒng)構(gòu)成系統(tǒng)采用全國(guó)集中的一級(jí)架構(gòu)方案進(jìn)行建設(shè),主要包含數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)入庫(kù)子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)、數(shù)據(jù)查詢與分析子系統(tǒng)基本技術(shù)采用Hadoop/HBase作為上網(wǎng)記錄存儲(chǔ)方案采用MapReduce/Hive作用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具關(guān)鍵性能指標(biāo)解決方案數(shù)據(jù)查詢上網(wǎng)記錄查詢速度:不高于1秒(不含用戶訪問(wèn)查詢頁(yè)面的時(shí)間)支持并發(fā)查詢數(shù)目:1000請(qǐng)求/秒數(shù)據(jù)存儲(chǔ)上網(wǎng)記錄入庫(kù)時(shí)間:一般小于30分鐘,實(shí)際約10分鐘具備存儲(chǔ)全國(guó)移動(dòng)用戶不小于6個(gè)月的原始上網(wǎng)記錄能力歷史5個(gè)月+當(dāng)前月統(tǒng)計(jì)分析的中間報(bào)表數(shù)據(jù)保存不小于5年全國(guó)集中的一級(jí)架構(gòu),電信行業(yè)首次將Hadoop/HBase引入到商用電信服務(wù)系
12、統(tǒng)建設(shè)中系統(tǒng)部署19系統(tǒng)部署兩路x86服務(wù)器(基于Intel Xeon E5600系列處理器)NameNode節(jié)點(diǎn):3臺(tái)DataNode(數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)):178臺(tái)Zookeeper節(jié)點(diǎn):7臺(tái)集群監(jiān)控節(jié)點(diǎn):1臺(tái)入庫(kù)服務(wù)節(jié)點(diǎn):24臺(tái)Web查詢應(yīng)用服務(wù)節(jié)點(diǎn):20臺(tái)網(wǎng)絡(luò)交換設(shè)備機(jī)框間通過(guò)萬(wàn)兆交換機(jī)連接,以完成快速的數(shù)據(jù)交換Intel Hadoop發(fā)行版滿足高性能的數(shù)據(jù)導(dǎo)入和快速查詢。穩(wěn)定、易于部署和管理的企業(yè)級(jí)方案。移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)某市智能交通應(yīng)用舉例視頻云計(jì)算/云服務(wù)視頻云服務(wù)中心可以實(shí)時(shí)掌控任一車輛的行駛,運(yùn)行軌跡、分析車輛是否違章視頻云服務(wù)中心對(duì)海量的交通信息進(jìn)行比對(duì)、分析
13、和預(yù)測(cè),為車輛布控、分析擁堵狀態(tài),出行最優(yōu)路徑規(guī)劃、交通管理服務(wù)智能交通系統(tǒng)實(shí)時(shí)監(jiān)控城市的交通狀態(tài),將各個(gè)路口的車輛實(shí)時(shí)抓拍、傳輸?shù)揭曨l云服務(wù)中心面臨的挑戰(zhàn)年過(guò)車信息數(shù)據(jù)量達(dá)數(shù)百億級(jí)記錄規(guī)模市局和區(qū)縣的數(shù)據(jù)中心兩級(jí)架構(gòu),分布式存儲(chǔ),集中管理。 支持多條件組合快速查詢:卡口名稱、車道名稱、車輛類型、車牌類型、車牌號(hào)碼、車身顏色、車牌顏色、車速范圍、車長(zhǎng)范圍、號(hào)牌段范圍、時(shí)間范圍。 支持海量過(guò)車信息的模糊匹配檢索。支持各種統(tǒng)計(jì)分析、數(shù)據(jù)挖掘:車輛違章率統(tǒng)計(jì)、過(guò)車識(shí)別率統(tǒng)計(jì)、套牌分析、關(guān)聯(lián)性分析、黑名單等過(guò)車記錄單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每秒鐘 6MB/s1200 條記錄/s120MB/s24000
14、條記錄/秒每小時(shí)20GB/hour432萬(wàn)條/小時(shí)400GB/hour8640萬(wàn)條/小時(shí)每天480GB/day1億條/天9.6TB/day20億條/天每月14.4TB/month30億條/月288TB/month600億條/月三個(gè)月43.2TB/3months90億條/三個(gè)月0.8PB/3months1800億條/三個(gè)月違章車輛圖片數(shù)據(jù)單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每小時(shí) 1.8GB/h36GB/h每天43.2GB/day864GB/day每月1.2TB/month24TB/month三個(gè)月3.6TB/3months72TB/3months基于英特爾Hadoop技術(shù)方案解決了海量過(guò)車信息(結(jié)構(gòu)文本
15、+圖片)存儲(chǔ)問(wèn)題。解決了分布式數(shù)據(jù)查詢問(wèn)題。系統(tǒng)提供了易于使用的API,方便進(jìn)行二次開發(fā)。系統(tǒng)做了較多優(yōu)化,性能很好的滿足了項(xiàng)目的實(shí)時(shí)性要求。系統(tǒng)的穩(wěn)定性好。智能交通應(yīng)用技術(shù)架構(gòu)圖某市智慧交通信息系統(tǒng)架構(gòu)基于海量數(shù)據(jù)進(jìn)行車輛軌跡分析實(shí)時(shí)路況信息區(qū)域號(hào)牌管理碰撞分析。某市智慧醫(yī)療提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)提供高效的計(jì)算芯片、存儲(chǔ)、I/O、網(wǎng)絡(luò)技術(shù),加速大數(shù)據(jù)價(jià)值挖掘與提高決策反應(yīng)基于x86平臺(tái),提供最優(yōu)的軟件和工具,推動(dòng)大數(shù)據(jù)應(yīng)用的部署和創(chuàng)新促進(jìn)大數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè),與廣泛的合作伙伴合作,與中國(guó)共成長(zhǎng)企業(yè)大數(shù)據(jù)平臺(tái)構(gòu)建中英特爾的角色 投資大數(shù)據(jù)解決方案的研究和服務(wù)什么
16、是Hadoop?開源Apache 項(xiàng)目,靈感來(lái)源于Google的MapReduce白皮書和Google文件系(GFS), Yahoo完成了絕大部分初始設(shè)計(jì)和開發(fā)Hadoop 核心組件包括:-分布式文件系統(tǒng)-Map/Reduce 分布式計(jì)算用Java編寫運(yùn)行平臺(tái):Linux, Mac OS/X, Solaris普通的X86硬件平臺(tái)ShuffleMapReduceHadoop 與“大數(shù)據(jù)”Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺(tái)之一能夠輕松擴(kuò)展到PB級(jí)別的數(shù)據(jù)存儲(chǔ),處理規(guī)模帶有容錯(cuò)功能的并行處理架構(gòu)基于普通的X86平臺(tái)硬件架構(gòu),硬件成本低廉用內(nèi)置格式存儲(chǔ)/處理數(shù)據(jù)基于開源項(xiàng)目,擁有當(dāng)量的代碼
17、來(lái)源,并且傳統(tǒng)廠商也日益重視對(duì)其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn)之一越來(lái)越多的企業(yè)接納Hadoop 2007200820092010The Datagraph BlogSource: Hadoop Summit PresentationsIntel 提供企業(yè)級(jí)的Hadoop產(chǎn)品Intel Hadoop經(jīng)過(guò)測(cè)試和驗(yàn)證的穩(wěn)定版本,在生產(chǎn)環(huán)境成功部署運(yùn)營(yíng)包括了Intel針對(duì)現(xiàn)有客戶在實(shí)際使用中出現(xiàn)問(wèn)題的解決方法以及改進(jìn)和優(yōu)化基于Intel在云計(jì)算研發(fā)上的經(jīng)驗(yàn)積累,提供專業(yè)的咨詢服務(wù),幫助構(gòu)建高可擴(kuò)展高性能的分布式系統(tǒng)結(jié)合Intel的硬件部門,提供全面的軟硬件解決方案為Intel硬件平臺(tái)進(jìn)行優(yōu)
18、化,提供更高性能。Complex MPP Systems(50 TB, real-time analytics)Apache Hadoop(Petabytes, batch analytics)優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件新技術(shù)進(jìn)行優(yōu)化HBase改進(jìn)和創(chuàng)新,為Hadoop提供實(shí)時(shí)數(shù)據(jù)處理能力針對(duì)行業(yè)的功能增強(qiáng),應(yīng)對(duì)不同行業(yè)的大數(shù)據(jù)挑戰(zhàn)Hive 0.9.0數(shù)據(jù)倉(cāng)庫(kù)Sqoop 1.4.1 關(guān)系數(shù)據(jù)ETL工具Flume 1.1.0 日志收集工具Intel Hadoop Manager 2.0安裝、部署、配置、監(jiān)控、告警和訪問(wèn)控制 Zookeeper 3.3.5分布式協(xié)
19、作服務(wù)Pig 0.9.2數(shù)據(jù)流處理語(yǔ)言Mahout 0.6數(shù)據(jù)挖掘HBase 0.90.6實(shí)時(shí)、分布式、高維數(shù)據(jù)庫(kù)Map/Reduce 1.0.3分布式計(jì)算框架HDFS 1.0.3分布式文件系統(tǒng)33英特爾企業(yè)級(jí)Hadoop堆棧英特爾企業(yè)級(jí)Hadoop數(shù)據(jù)平臺(tái)特點(diǎn)更高性能基于Hadoop底層的大量?jī)?yōu)化算法,使應(yīng)用效率更高、計(jì)算存儲(chǔ)分布更均衡系統(tǒng)安裝程序計(jì)算得出的參數(shù)配置,適合大多數(shù)應(yīng)用情況與硬件技術(shù)相結(jié)合,提高平臺(tái)性能穩(wěn)定運(yùn)行全面測(cè)試的企業(yè)級(jí)發(fā)行版,保證長(zhǎng)期穩(wěn)定運(yùn)行集成最新開源的和自行開發(fā)的補(bǔ)丁,用戶可以及時(shí)修正漏洞保證各個(gè)部件之間的一致性,使應(yīng)用順滑運(yùn)行易于管理提供獨(dú)有的基于瀏覽器的集群安裝和
20、管理界面,解決開源版本管理困難的問(wèn)題提供網(wǎng)頁(yè)、郵件和短信方式的系統(tǒng)異常報(bào)警功能增強(qiáng)提供跨數(shù)據(jù)中心的HBase數(shù)據(jù)庫(kù)虛擬大表功能實(shí)現(xiàn)HBase數(shù)據(jù)庫(kù)復(fù)制和備份功能其他針對(duì)企業(yè)用戶需要的增強(qiáng)功能英特爾Hadoop與開源Hadoop比較英特爾產(chǎn)品增強(qiáng)開源系統(tǒng)原始實(shí)現(xiàn)針對(duì)HDFS數(shù)據(jù)節(jié)點(diǎn)的讀寫選取提供高級(jí)均衡算法,提高系統(tǒng)擴(kuò)展性,適合不同配置服務(wù)器組成的集群簡(jiǎn)單均衡算法,容易在慢速服務(wù)器或熱點(diǎn)服務(wù)器上產(chǎn)生讀寫瓶頸,最慢服務(wù)器成為系統(tǒng)性能瓶頸根據(jù)讀請(qǐng)求并發(fā)程度動(dòng)態(tài)增加熱點(diǎn)數(shù)據(jù)的復(fù)制倍數(shù),提高M(jìn)ap/Reduce任務(wù)擴(kuò)展性無(wú)法自動(dòng)擴(kuò)充倍數(shù)功能,在集中讀取時(shí)擴(kuò)展性不強(qiáng),存在性能瓶頸為HDFS的NameNod
21、e提供雙機(jī)熱備方案,提高可靠性NameNode是系統(tǒng)的單點(diǎn)破損點(diǎn),一旦失效系統(tǒng)將無(wú)法讀寫實(shí)現(xiàn)跨區(qū)域數(shù)據(jù)中心的HBase超級(jí)大表,用戶應(yīng)用可實(shí)現(xiàn)位置透明的數(shù)據(jù)讀寫訪問(wèn)和全局匯總統(tǒng)計(jì)無(wú)此功能,無(wú)法進(jìn)行跨數(shù)據(jù)中心部署可將HBase表復(fù)制到異地集群,并提供單向、雙向復(fù)制功能,實(shí)現(xiàn)異地容災(zāi)沒有成熟的復(fù)制方案在HBase中,根據(jù)數(shù)據(jù)局部性、服務(wù)器Region數(shù)、表的Region數(shù)來(lái)實(shí)現(xiàn)負(fù)載均衡,適合多用戶共享集群創(chuàng)建多張大表的應(yīng)用只根據(jù)Region數(shù)量進(jìn)行負(fù)載均衡,容易產(chǎn)生系統(tǒng)不均衡基于HBase的分布式聚合函數(shù),比傳統(tǒng)方式提高10倍以上效率無(wú)成熟方案實(shí)現(xiàn)對(duì)HBase的不同表或不同列族的復(fù)制份數(shù)精細(xì)控制無(wú)
22、此功能HBase的Major Compaction精細(xì)控制簡(jiǎn)單算法,容易產(chǎn)生合并風(fēng)暴Intel對(duì)hadoop的性能優(yōu)化為企業(yè)級(jí)應(yīng)用而優(yōu)化: 優(yōu)化后的HBase與開源版本的性能差異性能數(shù)據(jù)在8臺(tái)服務(wù)器組成的小規(guī)模集群上測(cè)試得到服務(wù)器配置:E5-2680 8核CPU, 64GB內(nèi)存,8塊 7200rpm SATA硬盤, 千兆以太網(wǎng)query/sinsertion/s基于HBase數(shù)據(jù)庫(kù)平均每秒每服務(wù)器插入 10000 條記錄 (雙路, 32GB) (每條記錄大約1KB)數(shù)據(jù)查詢: 平均每秒每服務(wù)器大于400 次查詢,查詢時(shí)延小于1秒(在不同壓力下0.05秒0.8秒)每次查詢返回一個(gè)用戶一個(gè)月的移動(dòng)
23、詳細(xì)記錄異步復(fù)制異步復(fù)制跨數(shù)據(jù)中心大表 全局虛擬大表大表數(shù)據(jù)分區(qū)存放在物理分中心多個(gè)分中心位于不同地理位置分中心之間由網(wǎng)絡(luò)互連接入任何分中心可訪問(wèn)全局?jǐn)?shù)據(jù)高可用性適合本地高速寫入分布式聚合計(jì)算,避免大數(shù)據(jù)傳輸虛擬大表異步復(fù)制分中心 A分中心 B分中心 C直觀集群管理工具簡(jiǎn)化管理專為Hadoop優(yōu)化的硬件I/O:非標(biāo)準(zhǔn)主板設(shè)計(jì)支持最大I/O電源:高效(80+白金)熱插拔冷冗余電源能效:雙CPU分散型設(shè)計(jì)降低散熱功耗內(nèi)存:最大容量適應(yīng) BigData 需求網(wǎng)絡(luò):新一代Intel四網(wǎng)絡(luò)口千兆以太網(wǎng)存儲(chǔ):支持多種硬盤數(shù)量模式,支持最大存儲(chǔ)容量,適應(yīng) BigData 需求新一代英特爾服務(wù)器主板產(chǎn)品S26
24、00GZ “Grizzly Pass”新一代英特爾服務(wù)器系統(tǒng)產(chǎn)品R2000 “Big Horn Peak”電源:高效冗余電源高密度:4-Node-in-2U,適用于計(jì)算密集型節(jié)點(diǎn),高效空間利用,降低TCO靈活:3種主板SKU提供不同計(jì)算能力新一代英特爾服務(wù)器主板產(chǎn)品S2600JF “Jefferson Pass”S2600WP “Washington Pass”新一代英特爾服務(wù)器系統(tǒng)產(chǎn)品H2000 “Bobcat Peak”RAS:?jiǎn)喂?jié)點(diǎn)獨(dú)立散熱內(nèi)存:按需選擇不同內(nèi)存插槽數(shù)量網(wǎng)絡(luò): FDR/QDR InfiniBand高速互聯(lián)I/O: 3至4個(gè) PCIEGen3 x16 I/O易維護(hù)性:服務(wù)器
25、節(jié)點(diǎn)熱插拔3214 容量型大數(shù)據(jù)設(shè)備設(shè)計(jì)參考SpecificationDetail單一機(jī)架設(shè)備可支持20節(jié)點(diǎn)服務(wù)器Per node:CPU: 2x Intel(R) Xeon(R) CPU 8-core E5-2650 2.00GHz (Up to 40 CPUs in total for one rack)Memory: Maximum 384GB (Up to 7,680 GB for one rack)Storage: Maximum 36TB, 12x 3T 3.5 SATA hard disks(Up to 720 TB for one rack)/ 24 x 1T 2.5 SATA hard disks (Up to 480 TB for one rack)ConnectionEthernet: 4x 1 Gb Et
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版門窗行業(yè)品牌推廣與宣傳合同4篇
- 二零二五年度文化產(chǎn)業(yè)發(fā)展基金擔(dān)保貸款合同樣本3篇
- 二零二五年度建設(shè)工程施工合同擔(dān)保服務(wù)協(xié)議2篇
- 2025年離婚補(bǔ)充協(xié)議辦理及情感咨詢合同2篇
- 2025年度銅棒生產(chǎn)安全防護(hù)與應(yīng)急救援合同
- 二零二五年度智能快遞柜租賃及配送服務(wù)合同3篇
- 2025年度大宗貨物物流運(yùn)輸責(zé)任與保險(xiǎn)合同范本
- 2025年度個(gè)人住宅租賃合同范本7篇
- 課題申報(bào)參考:民族交融視域下唐代四夷樂舞伎服飾形象研究
- 課題申報(bào)參考:媒介創(chuàng)新視角下中華傳統(tǒng)文化傳播的“數(shù)字新考”研究
- 江蘇省南京市、鹽城市2023-2024學(xué)年高三上學(xué)期期末調(diào)研測(cè)試+英語(yǔ)+ 含答案
- 鉗工考試題及參考答案
- 移動(dòng)商務(wù)內(nèi)容運(yùn)營(yíng)(吳洪貴)任務(wù)五 引發(fā)用戶共鳴外部條件的把控
- 工程造價(jià)專業(yè)職業(yè)能力分析
- 醫(yī)藥高等數(shù)學(xué)知到章節(jié)答案智慧樹2023年浙江中醫(yī)藥大學(xué)
- 沖渣池施工方案
- 人教版初中英語(yǔ)八年級(jí)下冊(cè) 單詞默寫表 漢譯英
- 學(xué)校網(wǎng)絡(luò)信息安全管理辦法
- 中國(guó)古代文學(xué)史 馬工程課件(下)21第九編晚清文學(xué) 緒論
- 2023年鐵嶺衛(wèi)生職業(yè)學(xué)院高職單招(語(yǔ)文)試題庫(kù)含答案解析
- 2205雙相不銹鋼的焊接工藝
評(píng)論
0/150
提交評(píng)論