![大數(shù)據(jù)智能分析解決方案介紹課件_第1頁(yè)](http://file4.renrendoc.com/view/702c4f16efcf6ccddcfa04f30dd33032/702c4f16efcf6ccddcfa04f30dd330321.gif)
![大數(shù)據(jù)智能分析解決方案介紹課件_第2頁(yè)](http://file4.renrendoc.com/view/702c4f16efcf6ccddcfa04f30dd33032/702c4f16efcf6ccddcfa04f30dd330322.gif)
![大數(shù)據(jù)智能分析解決方案介紹課件_第3頁(yè)](http://file4.renrendoc.com/view/702c4f16efcf6ccddcfa04f30dd33032/702c4f16efcf6ccddcfa04f30dd330323.gif)
![大數(shù)據(jù)智能分析解決方案介紹課件_第4頁(yè)](http://file4.renrendoc.com/view/702c4f16efcf6ccddcfa04f30dd33032/702c4f16efcf6ccddcfa04f30dd330324.gif)
![大數(shù)據(jù)智能分析解決方案介紹課件_第5頁(yè)](http://file4.renrendoc.com/view/702c4f16efcf6ccddcfa04f30dd33032/702c4f16efcf6ccddcfa04f30dd330325.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AnalyticsandBigDataonPower方案及案例分享AnalyticsandBigDataonPowe目錄大數(shù)據(jù)與分析概述高性能運(yùn)算Symphony解決方案DB2BLU助力高性能數(shù)據(jù)集市大數(shù)據(jù)案例分析目錄大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述“上個(gè)月在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是一個(gè)熱點(diǎn)話題。在論壇的一份報(bào)告《大數(shù)據(jù),大影響》中聲明:數(shù)據(jù)已成為一類新的經(jīng)濟(jì)資產(chǎn),就像貨幣或黃金一樣.“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理卻不能理解這些數(shù)據(jù)的意義.”“越來(lái)越多的企業(yè)使用大眾媒體去分析公眾對(duì)產(chǎn)品的反饋,例如Facebook或Twitter,也有使用網(wǎng)站資源試著“了解客戶,是什么讓他們選擇他們想要的東西”負(fù)責(zé)IBM預(yù)測(cè)分析項(xiàng)目的迪阿德瓦說(shuō)。"“大數(shù)據(jù)已抵達(dá)Seton醫(yī)療保健家庭,幸運(yùn)的是,
通過(guò)使用這個(gè)分析工具,每年超過(guò)200萬(wàn)復(fù)雜病例的患者得到了幫助…”“數(shù)據(jù)是新型石油”
未開采的石油,沒有什么價(jià)值。加工及提煉后,將助力世界。
“…現(xiàn)在,沃森正投入到工作中,消化了數(shù)百萬(wàn)頁(yè)的研究,
結(jié)合最佳的臨床實(shí)踐和監(jiān)測(cè)結(jié)果,以協(xié)助醫(yī)生治療癌癥患者.”奧斯卡情感測(cè)量—一種工具,是由洛杉磯時(shí)報(bào)、IBM和南加州大學(xué)安創(chuàng)新實(shí)驗(yàn)室共同開發(fā)的—分析意見,“主要針對(duì)Twitter上共享的百萬(wàn)條奧斯卡獎(jiǎng)項(xiàng)比賽的公共信息做出的分析意見.”“數(shù)據(jù)是新型石油.”CliveHumby“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理大數(shù)據(jù)來(lái)自哪里?
截至2011年末網(wǎng)絡(luò)上有超過(guò)20
億人現(xiàn)在有300億個(gè)RFID記
(2005年時(shí)有13億)全球有46億臺(tái)照相手機(jī)每年售出數(shù)億臺(tái)支持GPS的設(shè)備在2009年有7600萬(wàn)臺(tái)智能儀表……
至2014年將達(dá)到2億臺(tái)每天有超過(guò)3億
活躍用戶每天有超過(guò)25
TB
日志數(shù)據(jù)每天有超過(guò)1億條消息大數(shù)據(jù)來(lái)自哪里?
截至2011年末網(wǎng)絡(luò)上有超過(guò)20大數(shù)據(jù)的特點(diǎn)綜合分析覆蓋面越來(lái)越寬的種類應(yīng)對(duì)日益增長(zhǎng)的速度有效地處理日益增長(zhǎng)的數(shù)量建立大數(shù)據(jù)來(lái)源的真實(shí)性三分之一商界領(lǐng)袖感到無(wú)法信任那些幫助他們做決策的信息50x35ZB20202010300億RFID傳感器和計(jì)數(shù)器世界上80%的數(shù)據(jù)是非結(jié)構(gòu)化的大數(shù)據(jù)的特點(diǎn)綜合分析覆蓋面越來(lái)越寬的種類應(yīng)對(duì)日益增長(zhǎng)的速度有大數(shù)據(jù)會(huì)影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切從渠道交互到社交媒體,通過(guò)分析所有數(shù)據(jù)來(lái)源幫助您了解您的每位客戶零延遲操作分析所有可用的操作數(shù)據(jù)并且實(shí)時(shí)做出反應(yīng),從而優(yōu)化流程。通過(guò)成本效益技術(shù)降低IT成本。在速度和規(guī)模上實(shí)現(xiàn)新產(chǎn)品創(chuàng)新捕獲所有來(lái)源的反饋,分析龐大的市場(chǎng)環(huán)境,研究大量的數(shù)據(jù),從而推動(dòng)創(chuàng)新。即時(shí)的欺詐和風(fēng)險(xiǎn)意識(shí)通過(guò)分析所有可用數(shù)據(jù)來(lái)打造更好的欺詐/風(fēng)險(xiǎn)模型,用流數(shù)據(jù)交易分析來(lái)實(shí)時(shí)監(jiān)測(cè)欺詐利用儀表化資產(chǎn)監(jiān)控資產(chǎn)通過(guò)實(shí)時(shí)數(shù)據(jù)反饋來(lái)預(yù)測(cè)和預(yù)防維修問(wèn)題,并且開發(fā)新產(chǎn)品和新服務(wù)。大數(shù)據(jù)會(huì)影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)在大數(shù)據(jù)的新世界中,我們必須更換所有陳舊系統(tǒng)大數(shù)據(jù)就是Hadoop較為陳舊的事務(wù)數(shù)據(jù)已經(jīng)不再重要數(shù)據(jù)倉(cāng)庫(kù)已是昨日黃花大數(shù)據(jù)適合熟知互聯(lián)網(wǎng)的企業(yè)。傳統(tǒng)業(yè)務(wù)與大數(shù)據(jù)毫無(wú)關(guān)系我們不具備相應(yīng)的需求、預(yù)算或者技能,因此我們不必為此擔(dān)心人們對(duì)于大數(shù)據(jù)的觀點(diǎn)是怎樣的大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)人們對(duì)于大數(shù)據(jù)的觀點(diǎn)是怎樣的研究顯示了實(shí)施大數(shù)據(jù)的4個(gè)階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活動(dòng)級(jí)別而劃分為4個(gè)小組時(shí),受調(diào)查者在組織行為上表現(xiàn)出顯著的一致性
受調(diào)查者總數(shù)n=1061由于舍入原因,各個(gè)比例總和不等于100%6%部署兩個(gè)或更多大數(shù)據(jù)計(jì)劃,繼續(xù)應(yīng)用高級(jí)分析占總受調(diào)查者的百分比執(zhí)行22%試點(diǎn)大數(shù)據(jù)計(jì)劃,以驗(yàn)證價(jià)值和需求占總受調(diào)查者的百分比試點(diǎn)47%基于業(yè)務(wù)需求和挑戰(zhàn)開發(fā)戰(zhàn)略和路線圖占總受調(diào)查者的百分比探索24%專注于知識(shí)收集和市場(chǎng)觀察占總受調(diào)查者的百分比學(xué)習(xí)研究顯示了實(shí)施大數(shù)據(jù)的4個(gè)階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活智慧分析數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)平臺(tái)加速器流
計(jì)算數(shù)據(jù)倉(cāng)庫(kù)Hadoop
系統(tǒng)信息整合與治理應(yīng)用開發(fā)發(fā)現(xiàn)系統(tǒng)管理內(nèi)容管理數(shù)據(jù)倉(cāng)庫(kù)流計(jì)算Hadoop系統(tǒng)信息整合與治理大數(shù)據(jù)平臺(tái)系統(tǒng)、存儲(chǔ)和云業(yè)務(wù)分析內(nèi)容
分析決策管理風(fēng)險(xiǎn)
分析績(jī)效管理商業(yè)智能與預(yù)測(cè)分析大數(shù)據(jù)分析內(nèi)容
分析預(yù)測(cè)分析決策管理社交媒體分析分析整合與治理IBM提供了全面的、整合化的大數(shù)據(jù)和分析方法智慧分析數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)平臺(tái)加速器流
計(jì)算數(shù)據(jù)Hadoop
Hadoop系統(tǒng)管理多樣化海量數(shù)據(jù)企業(yè)級(jí)應(yīng)用增強(qiáng)了開源Hadoop能力流計(jì)算用于分析流動(dòng)的數(shù)據(jù)能夠處理分析多種數(shù)據(jù)–通過(guò)高級(jí)分析運(yùn)算符來(lái)支持結(jié)構(gòu)化,非結(jié)構(gòu)化,視頻,音頻等數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載均衡的MPP架構(gòu),支持高性能的OLAP及混合型的操作和分析負(fù)載數(shù)據(jù)可視化企業(yè)級(jí)搜索引擎圖形展現(xiàn)海量分析結(jié)果IBM大數(shù)據(jù)平臺(tái)
Hadoop系統(tǒng)IBM大數(shù)據(jù)平臺(tái)BAO方案整體技術(shù)架構(gòu)從哪里來(lái)?是誰(shuí)?到哪里去?BAO方案整體技術(shù)架構(gòu)從哪里來(lái)?是誰(shuí)?到哪里去?大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計(jì)算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景模型策略/計(jì)劃平衡計(jì)分卡預(yù)測(cè)/預(yù)報(bào)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險(xiǎn)分析企業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事實(shí)表ETL工具數(shù)據(jù)管理基于門戶的Web頁(yè)面固定報(bào)表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報(bào)
ERPHRSCMCRMStatistics外部數(shù)據(jù)財(cái)務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報(bào)告ETL:抽取、轉(zhuǎn)換和加載大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計(jì)算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)預(yù)數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景模型策略/計(jì)劃平衡計(jì)分卡預(yù)測(cè)/預(yù)報(bào)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險(xiǎn)分析企業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事實(shí)表ETL工具數(shù)據(jù)管理基于門戶的Web頁(yè)面固定報(bào)表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報(bào)
ERPHRSCMCRMStatistics外部數(shù)據(jù)財(cái)務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報(bào)告ETL:抽取、轉(zhuǎn)換和加載電商、微博、社交網(wǎng)站、平安城市等產(chǎn)生大量社交數(shù)據(jù)、日志、圖片、視音頻數(shù)據(jù)….海量數(shù)據(jù)匯總、統(tǒng)計(jì)耗時(shí)太長(zhǎng),滿足不了業(yè)務(wù)部門的時(shí)效性需求;傳統(tǒng)計(jì)算模式遇到的困難某些業(yè)務(wù)部門需要實(shí)時(shí)數(shù)據(jù)分析,數(shù)據(jù)一邊產(chǎn)生,一邊進(jìn)行分析,以應(yīng)對(duì)市場(chǎng)壓力數(shù)據(jù)產(chǎn)生速度快,數(shù)據(jù)量巨大,種類繁多,非結(jié)構(gòu)化數(shù)據(jù)占了80%以上數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)預(yù)測(cè)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前Hadoop并行計(jì)算模式HDFS—HadoopDistributedFileSystem。HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中(computenodes),MapReduce就可以在它們所在的節(jié)點(diǎn)上處理這些數(shù)據(jù)了。MapReduceHadoop并行計(jì)算模式HDFS—HadoopDistr大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系
超越和補(bǔ)充傳統(tǒng)數(shù)據(jù)處理技術(shù)實(shí)時(shí)數(shù)據(jù)處理Internet級(jí)別海量數(shù)據(jù)存儲(chǔ)與分析傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系
超越和補(bǔ)充傳統(tǒng)數(shù)據(jù)處理高性能運(yùn)算Symphony解決方案高性能運(yùn)算Symphony解決方案大數(shù)據(jù)常見應(yīng)用場(chǎng)景舉例影像管理(各類單據(jù)的掃描件、地圖影像),非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和分析(XML文件、文本日志文件)典型應(yīng)用:測(cè)繪行業(yè)系統(tǒng)、地圖服務(wù)提供商產(chǎn)品、公安部、銀行/稅務(wù)票據(jù)管理、電信詳單日志分析、各類終端采集數(shù)據(jù)分析……常見痛點(diǎn):存儲(chǔ)成本/性能,關(guān)系型數(shù)據(jù)庫(kù)性能/功能問(wèn)題。業(yè)務(wù)/產(chǎn)品/服務(wù)創(chuàng)新典型應(yīng)用:CDR分析,輿情分析,LBS,廣告精準(zhǔn)投放,移動(dòng)終端服務(wù)/智慧XX(電表數(shù)據(jù)分析、HIS,電子支付),精益生產(chǎn)、反洗錢……常見痛點(diǎn):實(shí)時(shí)性、數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)量大計(jì)算密集型應(yīng)用高性能計(jì)算技術(shù)非常適用典型應(yīng)用:保險(xiǎn)精算、銀行風(fēng)險(xiǎn)分析、信用卡欺詐分析……常見痛點(diǎn):實(shí)時(shí)性、多種數(shù)據(jù)源要形成統(tǒng)一視圖大數(shù)據(jù)常見應(yīng)用場(chǎng)景舉例影像管理(各類單據(jù)的掃描件、地圖影像)大數(shù)據(jù)智能分析解決方案介紹課件IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)1-高性能國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hbase的數(shù)據(jù)查詢測(cè)試,取得3~15倍的性能優(yōu)勢(shì)國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hive的數(shù)據(jù)分析測(cè)試,取得9~11倍的性能優(yōu)勢(shì)數(shù)據(jù)加載場(chǎng)景每核加載速度為x86核的11.18倍數(shù)據(jù)分析場(chǎng)景每核分析速度為x86核的9.63倍IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)1-高性能國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hbase為什么Symphony更快?JobTracker/TaskTracker用C++/C編寫資源管理和任務(wù)管理解耦.支持300并發(fā)jobtrackers;1000并發(fā)jobs/jobtrackerSOA架構(gòu),共享服務(wù)(reuseJVMacrossmanytasks)使用TCP原語(yǔ)和二進(jìn)制編碼,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval專利的asynchronouspersistencyprotocol以保證可靠性和性能Note:HadoopResultswerepublishedbyClouderaatHadoopWorldeventDec,2011.Hadoopjarexample.jarsleep–mt1–rt1–m5000–r1Testedon10hosts21為什么Symphony更快?JobTracker/TaskIBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)2-高可靠從硬件、文件系統(tǒng)和分布式計(jì)算框架所有層面采用高可靠設(shè)計(jì)架構(gòu),杜絕基于開源產(chǎn)品的不可靠問(wèn)題Symphony計(jì)算框架:經(jīng)過(guò)接近20年全球成功企業(yè)應(yīng)用考驗(yàn)的高可靠性框架,不僅本身可靠性高,不存在單點(diǎn)故障,而且通過(guò)對(duì)下層硬件資源的先進(jìn)管理功能,實(shí)現(xiàn)物理資源與邏輯資源的解耦,實(shí)現(xiàn)資源的動(dòng)態(tài)加減和黑名單等機(jī)制,徹底解決硬件故障的透明failover問(wèn)題GPFS-FPO文件系統(tǒng):經(jīng)過(guò)20多年全球無(wú)數(shù)應(yīng)用驗(yàn)證的分布式文件系統(tǒng),成熟、可靠,GPFS-FPO采用去中心化設(shè)計(jì)(元數(shù)據(jù)分散存儲(chǔ)),天生不存在NameNode的單點(diǎn)故障和可靠性瓶頸問(wèn)題PowerLinux在RAS特性方面全面領(lǐng)先X86平臺(tái)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)2-高可靠從硬件、文件系統(tǒng)和分布式計(jì)算框IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)3-好維護(hù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)3-好維護(hù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)4-高度兼容性Symphony和GPFS具有最廣泛的兼容性,只要是基于Hadoop架構(gòu)標(biāo)準(zhǔn)接口開發(fā)的軟件都可以100%兼容,如HadoopHbase,Pig,Hive,JavaMR,Oozie等各種知名的Hadoop開源方案不僅兼容開源方案,還支持各種商業(yè)分析軟件,如SAS、SPSS、Murex,Algorithmics,Sugard,Calypso,TillingHast等
兼容各種Java、R、C/C++等各種開發(fā)語(yǔ)言,兼容各種文件系統(tǒng)及數(shù)據(jù)庫(kù),如HDFS,GPFS-FPO,RDMBS,MPP等,兼容Linux、Windows、AIX等各種OS平臺(tái),兼容X86、Power等各種硬件平臺(tái),支持虛擬機(jī)和物理機(jī)混合組網(wǎng)使用IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)4-高度兼容性Symphony和GPFSIBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁有完全的技術(shù)研發(fā)與支持力量全球26個(gè)研發(fā)和銷售機(jī)構(gòu),300+的研發(fā)團(tuán)隊(duì)分布在北京和西安兩地強(qiáng)大的QA和服務(wù)支持團(tuán)隊(duì),強(qiáng)大的本地售后支持力量專業(yè)的定制化開發(fā)團(tuán)隊(duì)業(yè)界公認(rèn)的大型網(wǎng)格/工作負(fù)載管理的領(lǐng)導(dǎo)者全方位的技術(shù)支持服務(wù)評(píng)估規(guī)劃與咨詢服務(wù)建設(shè)設(shè)計(jì)與實(shí)施服務(wù)管理管理與維護(hù)支持服務(wù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)6-高效可靠文件系統(tǒng)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)6-高效可靠文件系統(tǒng)GPFS-FPO替換HDFS,更可靠、更高效對(duì)于需要隨機(jī)I/O的SQL查詢,JAQL查詢等對(duì)于需要線性排序的sort操作來(lái)說(shuō)BigInsights提供2至3倍與開源Hadoop技術(shù)的性能文件索引等查找效率17倍于開源Hadoop技術(shù),得益于ClientCache能力Hadoop
Indexing(HDFS)Database
Upload(ext3)WebService
LayerCopyFetchHDFS:
Extracopyoverheadandnetworkfetch,separateclustersforanalyticsanddatabaseHadoopIndexing
+DatabaseUpload(GPFS)WebService
LayerCacheGPFS:
Singleclusterforanalyticsanddatabase,nocopyingrequired,cachingforweblayerWorkloadIsolationProvendataintegrityReplicatedmetadataservicesYahookeeps3copiesof3versionsofHDFSbecauseofunknowndataintegrity[1]QuantcastdeletesfilesonceHDFSis50%full[2][1]CareandFeedingofHadoopClusters,MarcNicosia,Usenix2009
[2]TheKomosDistributedFileSystem,SriramRao,QuantcastInc.GPFS-FPOKeytechnologyLocalityawarenessWriteAffinityMetablocksPipelinedreplicationDistributedrecovery超過(guò)20年發(fā)展的成熟的企業(yè)級(jí)文件系統(tǒng)vsHDFS
4年發(fā)展歷史IBM企業(yè)級(jí)支持的商用軟件vsHDFS開源軟件POSIX兼容,同時(shí)支持傳統(tǒng)文件訪問(wèn)和Hadoop應(yīng)用vsHDFS不兼容POSIX內(nèi)建的安全特性和高可用性(集群管理節(jié)點(diǎn)e.g.)vsHDFSnamenode單點(diǎn)跨數(shù)據(jù)中心復(fù)制容災(zāi)vsHDFS無(wú)遠(yuǎn)程復(fù)制GPFS-FPO替換HDFS,更可靠、更高效對(duì)于需要隨機(jī)I/GPFS-FPO去中心化設(shè)計(jì),高性能與高可靠GPFS-FPO去中心化設(shè)計(jì),高性能與高可靠可擴(kuò)展的IBMSystemsConfiguration初始配置半機(jī)柜配置1stThru4th
滿機(jī)柜附加滿機(jī)柜UsableStorageUpto108TBUpto324TBUpto684TBperrackUpto720TBperrackUserspaceUpto36TBUpto108TBUpto228TBperrackUpto240TBperrack
可擴(kuò)展得多個(gè)入門方式從很小的規(guī)模起步逐步擴(kuò)大
支持多種工作負(fù)載的靈活的
CPU,內(nèi)存,存儲(chǔ)和網(wǎng)絡(luò)
選項(xiàng)可擴(kuò)展的IBMSystemsConfiguration初始IBMPowerLinux7R1–便捷、高效的入門級(jí)產(chǎn)品可靠設(shè)計(jì)Singlesocket,2Urack8-core3.55GHzPOWER7processorUpto128GBmemorywith8/16/32GBDIMMs
First32GBincludedinbasepackage高擴(kuò)展性和強(qiáng)大虛擬化能力Upto24SFFharddrivesper2Ustorageexpansiondrawer(L1S)PowerVM?exploitingintegratedhypervisor8246-L1C/8246-L1SGAonAugustVirtualization&ManagementOperatingSystemsLinuxonlyPOWER7Onesocket,2UrackIBMPowerLinux7R1–便捷、高效的入門級(jí)產(chǎn)IBMPowerLinux7R2-高性能、靈活配置OperatingSystemsVirtualization&Management
高系統(tǒng)密度TwoSocket,2URack16-cores3.3GHzand3.55GHzPOWER7processor256GBmaximummemorywith2/4/8GBDIMMs-First32GBincludedin3.55GHzprocessorbasepackage-First64GBincludedin3.3GHzprocessorbasepackageUpto207R2sinasingle42Urack
強(qiáng)大的I/O和硬盤擴(kuò)展性Upto24SFFharddrivesper2UstorageexpansiondrawerPCIe(Gen1)ExpansionDrawers–4U–twoflavors(L2Sonly)
高效的虛擬化能力PowerVM?exploitingintegratedhypervisorSupportupto10VMs/core,160VMs/serverLinuxonlyPOWER7Twosocket,2Urack8246-L2C/8246-L2SGAonJuneIBMPowerLinux7R2-高性能、靈活配置OIBMStorwizeV7000–在單一系統(tǒng)整合了塊和文件存儲(chǔ)自動(dòng)存儲(chǔ)分層
基于實(shí)時(shí)應(yīng)用分析模式的先進(jìn)的技術(shù),可以自動(dòng)在存儲(chǔ)層之間遷移數(shù)據(jù)新一代圖形化界面(GUI)
易于使用的數(shù)據(jù)管理圖形化用戶界面,擁有極其簡(jiǎn)便的“點(diǎn)選式”系統(tǒng)管理功能性能
針對(duì)在線備份、測(cè)試和數(shù)據(jù)挖掘,支持更快和更高效的數(shù)據(jù)拷貝VirtualizedStorageSystem300%PerformanceImprovement
Automaticmigrationtohigh-performingSSD’sIBMStorwizeV7000–在單一系統(tǒng)整合了塊XIV系列為應(yīng)用程序提供頂級(jí)的性能OracleDataWarehouse(IOPS)OracleDHWWorkloadWatchthevideo:XIVGen3“StraightTalkonPerformance”SASBusinessAnalyticsWorkloadAnalyticsreportscreatedXIV系列為應(yīng)用程序提供頂級(jí)的性能OracleDataFlash無(wú)處不在的優(yōu)化和調(diào)節(jié)是解決方案的主題Flash將被同時(shí)部署在整體架構(gòu)的每一層存儲(chǔ)子系統(tǒng)網(wǎng)絡(luò)設(shè)備PCIe設(shè)備ApplicationServerApplicationServerStoragesystemNetworkStoragebasedRemotereplicationSSDSSDVMVMVMVMVMVMEphemeralStorageHighperf,workingsetDataMoverEasyTierCoordinationDRAMSSDWhy?性能敏感的應(yīng)用程序HDD的性能優(yōu)勢(shì)Flash超越內(nèi)存的性價(jià)比優(yōu)勢(shì)分離的緩存和分層的協(xié)調(diào)是至關(guān)重要的效率數(shù)據(jù)完整性/緩存一致性DRAMFlash無(wú)處不在的優(yōu)化和調(diào)節(jié)是解決方案的主題Flash將DB2BLU助力高性能數(shù)據(jù)集市DB2BLU助力高性能數(shù)據(jù)集市使用DB2BLUonPower構(gòu)建高效內(nèi)存數(shù)據(jù)集市
DB2BLU是一種能極大提高OLAP業(yè)務(wù)性能的新技術(shù)DB2BLU為DB2數(shù)據(jù)庫(kù)添加列式存儲(chǔ)功能充分利用CPU架構(gòu)的新運(yùn)行時(shí)技術(shù),直接內(nèi)置在DB2內(nèi)核中高達(dá)10倍的壓縮比極大提升OLAP查詢性能DB2BLU利用SIMD處理指令獲得更好的性能使用DB2BLUonPower構(gòu)建高效內(nèi)存數(shù)據(jù)集市DCognosBI,帶有BLUAcceleration多平臺(tái)軟件分析
數(shù)據(jù)集市
(BLU表)Oracle或Teradata倉(cāng)庫(kù)的性能較差創(chuàng)建表,加載并啟動(dòng)!即時(shí)性能提高處理TB級(jí)數(shù)據(jù)無(wú)需創(chuàng)建和調(diào)優(yōu)索引/聚合
多平臺(tái)軟件的靈活性CognosBI
,帶有BLUAccelerationDB2BLUonPower用例1
–企業(yè)數(shù)據(jù)倉(cāng)庫(kù)卸載
數(shù)據(jù)集市加速EDW應(yīng)用程序OLAP應(yīng)用程序輕松創(chuàng)建和加載
BLUAcceleration內(nèi)存中集市CognosBI多平臺(tái)軟件分析
數(shù)據(jù)集市
(BLU表多平臺(tái)軟件分析
數(shù)據(jù)集市
(BLU表)ERP或其他事務(wù)性系統(tǒng)輕松創(chuàng)建和加載
BLUAcceleration內(nèi)存中集市事務(wù)性
數(shù)據(jù)庫(kù)DB2BLUonPower用例2
–分析數(shù)據(jù)集市
從事務(wù)性數(shù)據(jù)庫(kù)創(chuàng)建表,加載并啟動(dòng)!即時(shí)性能提高處理TB級(jí)數(shù)據(jù)無(wú)需創(chuàng)建和調(diào)優(yōu)索引/聚合
多平臺(tái)軟件的靈活性業(yè)務(wù)線分析數(shù)據(jù)集市多平臺(tái)軟件分析
數(shù)據(jù)集市
(BLU表)ERP或其他事務(wù)大數(shù)據(jù)智能分析解決方案介紹課件
運(yùn)營(yíng)只需加載數(shù)據(jù)就可以啟動(dòng)像所宣稱的那樣易于評(píng)估和執(zhí)行
BI開發(fā)人員和DBA-更快地交付成果無(wú)需配置或物理建模無(wú)需索引或調(diào)優(yōu)-開箱即用的性能數(shù)據(jù)架構(gòu)師/DBA可專注于業(yè)務(wù)價(jià)值,而不是物理設(shè)計(jì)
ETL開發(fā)人員無(wú)需聚合各個(gè)表-更簡(jiǎn)單的ETL邏輯更快的加載和轉(zhuǎn)換速度
業(yè)務(wù)分析師真正的即席查詢-無(wú)調(diào)優(yōu),無(wú)索引針對(duì)大型數(shù)據(jù)集提出復(fù)雜的查詢DB2BLU七大特點(diǎn)之一
:簡(jiǎn)單易用運(yùn)營(yíng)DB2BLU七大特點(diǎn)之一:簡(jiǎn)單易用?2013IBMCorporationDB2BLU七大特點(diǎn)之二
:卓越的壓縮
更少的數(shù)據(jù)存儲(chǔ)空間同未壓縮數(shù)據(jù)比較,平均可以節(jié)省95%的數(shù)據(jù)存儲(chǔ)空間只需要存儲(chǔ)表數(shù)據(jù),不需要額外空間來(lái)存儲(chǔ)索引等其它類型數(shù)據(jù)應(yīng)用了多種壓縮技術(shù)所有操作都在壓縮數(shù)據(jù)上進(jìn)行針對(duì)不同數(shù)據(jù)類型應(yīng)用最優(yōu)的壓縮算法更多的細(xì)節(jié)參考后面的內(nèi)容?2013IBMCorporationDB2BLU七42沒用SIMD技術(shù)的CPU每條指令職能處理一個(gè)數(shù)據(jù)DB2BLU七大特點(diǎn)之三
:充分利用CPU的SIMD特性
利用SingleInstructionMultipleData(SIMD)特性增加性能DB2BLU能夠在一個(gè)指令中同時(shí)對(duì)多個(gè)數(shù)據(jù)進(jìn)行操作包括比較,Join,分組和數(shù)學(xué)計(jì)算Compare
=2005Compare
=2005Compare
=20052001指令結(jié)果數(shù)據(jù)200220032004200520052006200720082009201020112012Processor
CoreCompare
=20052001指令結(jié)果數(shù)據(jù)200220032004200520062007Compare
=2005Compare
=2005Compare
=2005Compare
=2005Compare
=2005Compare
=20052005Processor
Core42沒用SIMD技術(shù)的CPU每條指令職能處理一個(gè)數(shù)據(jù)DB2DB2BLU七大特點(diǎn)之四
:內(nèi)核友好的并行化
更加關(guān)注于服務(wù)器的硬件設(shè)計(jì)因素DB2
BLU中對(duì)表的查詢將自動(dòng)以并行化的方式處理將CPU緩存,高速緩存塊(cacheline)的效率最大化QUADCORECPUQUADCORECPUQUADCORECPUQUADCORECPUDB2BLU七大特點(diǎn)之四:內(nèi)核友好的并行化
更加關(guān)?2013IBMCorporation44DB2BLU七大特點(diǎn)之五
:列式存儲(chǔ)
?2013IBMCorporation44?2013IBMCorporation44減少I/O只處理查詢關(guān)注的列中的數(shù)據(jù)直接對(duì)相關(guān)列進(jìn)行運(yùn)算
所有的運(yùn)算,Join僅對(duì)關(guān)注列進(jìn)行在必須返回結(jié)果集前,數(shù)據(jù)將不會(huì)組合成行的形式提高內(nèi)存中的數(shù)據(jù)密度列中的數(shù)據(jù)在內(nèi)存和存儲(chǔ)中始終保持著壓縮的形態(tài)
卓越的壓縮提供更高的壓縮比10:1(DB2BLU)高效的緩存數(shù)據(jù)被組合成利于緩存和寄存器處理的格式?2013IBMCorporation44DB2BL?2013IBMCorporationDB2BLU七大特點(diǎn)之六
:優(yōu)化內(nèi)存/緩存管理
?2013IBMCorporation?2013IBMCorporation全新的緩存算法使內(nèi)存使用更高效更高的內(nèi)存命中率新算法盡量保證熱點(diǎn)數(shù)據(jù)保存在內(nèi)存中數(shù)據(jù)可以大于內(nèi)存空間不同于常見的內(nèi)存數(shù)據(jù)庫(kù),數(shù)據(jù)不必完全在內(nèi)存中優(yōu)化以減少內(nèi)存和存儲(chǔ)的I/O交互
RAMDISKSNearoptimalcaching?2013IBMCorporationDB2BLU七?2013IBMCorporationDB2BLU七大特點(diǎn)之七
:數(shù)據(jù)跳過(guò)
?2013IBMCorporation自動(dòng)監(jiān)測(cè)一段數(shù)據(jù)是否符合查詢的忽略條件能夠節(jié)省大量的I/O,內(nèi)存和CPU資源不需要數(shù)據(jù)庫(kù)管理員進(jìn)行任何定義
?2013IBMCorporationDB2BLU七大數(shù)據(jù)案例分析大數(shù)據(jù)案例分析大數(shù)據(jù)實(shí)施案例:某國(guó)外大型汽車制造企業(yè)大數(shù)據(jù)平臺(tái)大數(shù)據(jù)實(shí)施案例:某國(guó)外大型汽車制造企業(yè)大數(shù)據(jù)平臺(tái)某市智能交通項(xiàng)目某市智能交通項(xiàng)目50IBMPlatformComputing支持多種不同金融應(yīng)用類型工作負(fù)載MurexMicrosoftExcelSungardFrontArena,AdaptivAlgorithmicsAlgoRiskMillimanHedge,AlfaPolysysMoodys/FermatCalypsoSASEnterpriseMiner/DataMinerSophis/MisysRisqueGGYAxisOpenlinkKondor+RevolutionRISV應(yīng)用軟件風(fēng)險(xiǎn)估值VaR(valueatrisk)信用值調(diào)整CVA(creditvalueadjustmentsforCCR)資產(chǎn)負(fù)債建模ALM(assetliabilitymodeling)靈敏度分析信用等級(jí)評(píng)分抵押分析可變年金建模模型回溯測(cè)試
投資組合壓力測(cè)試數(shù)據(jù)的提取,轉(zhuǎn)換和加載ETL策略提取Strategymining精算分析50IBMPlatformComputing支持多種不在愛Citi分析網(wǎng)格Citi–計(jì)算和數(shù)據(jù)結(jié)合型網(wǎng)格系統(tǒng),主要為風(fēng)險(xiǎn)分析在一個(gè)共享的網(wǎng)格資源里運(yùn)行著200
以上不同的
BI
和零售分析應(yīng)用
全球動(dòng)態(tài)共享的40,000
cores能夠持續(xù)維持70%以上的利用率超強(qiáng)的管理效率–管理者與主機(jī)的比為
1:400作業(yè)吞吐量–400,000,000作業(yè)/天14
條不同的業(yè)務(wù)線共享著全球的HPC資源為每個(gè)商業(yè)業(yè)務(wù)單元確保SLA
s時(shí)間指標(biāo),實(shí)現(xiàn)廣泛的資源共享4個(gè)數(shù)據(jù)中心包含了異構(gòu)的Linux&Windows主機(jī),一處在倫敦,一處在香港,還有兩處在美國(guó)
處理國(guó)內(nèi)增長(zhǎng)的風(fēng)險(xiǎn),定價(jià)應(yīng)用和其他的商務(wù)應(yīng)用,與SAS,Murex等集成.異構(gòu)的工作內(nèi)容(批處理,SOA,計(jì)劃部署MapReduce)自定義服務(wù),報(bào)表和退款實(shí)時(shí)的監(jiān)控和管理主機(jī),所有全球資產(chǎn)的完全可視化針對(duì)整個(gè)企業(yè)相關(guān)應(yīng)用和風(fēng)險(xiǎn)控制的全球資源分配方案在數(shù)據(jù)中心和功能域基礎(chǔ)上的有關(guān)LOBs和應(yīng)用的彈性的資源分配模式橫跨整個(gè)地域的有關(guān)LOBs和應(yīng)用的全球資源共享視圖案例分析–花旗銀行在愛Citi分析網(wǎng)格Citi–計(jì)算和數(shù)據(jù)結(jié)合型網(wǎng)格系統(tǒng),根據(jù)銀監(jiān)會(huì)的要求,國(guó)內(nèi)商業(yè)銀行需要2015年前滿足中國(guó)版巴塞爾協(xié)議III對(duì)銀行業(yè)風(fēng)險(xiǎn)控制的要求,國(guó)內(nèi)目前已經(jīng)有多家銀行使用Algo風(fēng)險(xiǎn)管理模塊流動(dòng)性風(fēng)險(xiǎn)管理模型屬于計(jì)算密集型,RiskWatch階段占任務(wù)的95%以上,可以通過(guò)Symphony將RW作業(yè)并行化隨著銀行業(yè)務(wù)及數(shù)據(jù)量的增加,提高計(jì)算效率只需要增加Symphony的計(jì)算節(jié)點(diǎn)數(shù)目,可擴(kuò)展性強(qiáng)銀行業(yè)有很多計(jì)算模型都可以通過(guò)Symphony來(lái)解決問(wèn)題,比如MOSES,CALYPSO,RMATLAB,RLanguage業(yè)務(wù)場(chǎng)景FinancialRisks
1.選擇感興趣的地理區(qū)域客戶挑戰(zhàn):目前基于Algo流動(dòng)性風(fēng)險(xiǎn)分析系統(tǒng)風(fēng)險(xiǎn)管理應(yīng)用每周運(yùn)行一次,每次計(jì)算需要100+小時(shí),不能滿足未來(lái)應(yīng)用擴(kuò)展和可靠性需求,不能及時(shí)得出風(fēng)險(xiǎn)分析結(jié)果XX銀行風(fēng)險(xiǎn)管理系統(tǒng)-業(yè)務(wù)描述1/3根據(jù)銀監(jiān)會(huì)的要求,國(guó)內(nèi)商業(yè)銀行需要2015年前滿足中國(guó)版巴塞AlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceAlgoEngineSymServiceSymComputeHosts:6nodes*32cores=192coresSymMasterSchedule,Monitor,ManagementSymMasterCandidateShareStorageSchedule,Monitor,ManagementSchedule,Monitor,ManagementAlgoEngineSymServiceScaleout53AlgoBatchCITICRWAnalysisAlgoEngineClientRequestSingleComputing“使用了PlatformSymphony軟件,計(jì)算機(jī)資源的利用率大幅提高,Algo計(jì)算時(shí)間大幅縮短,達(dá)到了預(yù)期的技術(shù)指標(biāo),且Symphony軟件有豐富的API接口,易于集成其他軟件,為以后的業(yè)務(wù)拓展和升級(jí)留下了巨大空間?!?-客戶證言方案優(yōu)勢(shì):?jiǎn)喂?jié)點(diǎn)情況下客戶的任務(wù)需要100+小時(shí)完成,使用Symphony后業(yè)務(wù)計(jì)算可以在10小時(shí)以內(nèi)完成,速度提高10倍以上;例如:晚上運(yùn)行風(fēng)險(xiǎn)分析任務(wù),次日凌晨可得到分析結(jié)果,滿足業(yè)務(wù)需求;可靠性大大提高,單一節(jié)點(diǎn)故障不影響整體系統(tǒng)運(yùn)行;銀行業(yè)務(wù)數(shù)據(jù)增加、業(yè)務(wù)計(jì)算時(shí)間要求縮短,可以通過(guò)增加Symphony的節(jié)點(diǎn)來(lái)完成銀行風(fēng)險(xiǎn)管理系統(tǒng)-方案結(jié)構(gòu)2/3AlgoEngineSymServiceAlgoEngCustomerCaseandPainPointSolutionsResultDemoPointsClientuseAlgofortheriskmanagement.It’sbasedonC/SarchitecturerunningSinglenode.Withthebusinessgrowth,theprocesscyclereached100+hoursperweek.Managementcouldnotgetthereportintheabusinessday.SymphonyScal-outtheAlgoapplicationfromsinglenodeto192nodes.SymphonyactingasmiddlewarerolesgettheAlgoclientinputandschedulethetaskinadistributedgrid.Thetaskscanbeprocessedinthegridconcurrently.SymphonyresponsetoAlgoclientoncethetaskfinished.Showthesingleserverprocessandsayitcannotbefinishedin10hoursandstopit.ShowthesimilarapplicationprocesswithsamedatainSymphonyGridandfinishedin10hours.SeetaskprogressontheGUISeethehostmanagerfromGUISeetheCPU,I/OandshowthefinishtimeClientcangettheresultin10hours.ThetimecanbecontrolledbyaddingmoreserverintheAlgogridwithbusinessgrowthandprocesstimeispredicable.Besides,Symphonyactingasgeneralmiddlewarecanscale-outapplicationlikeMurex,Moses,Calypso,Matlab,Retc.銀行風(fēng)險(xiǎn)管理系統(tǒng)-案例總結(jié)3/3CustomerCaseandPainPointSo某市人民檢察院某市人民檢察院客戶行為分析-業(yè)務(wù)流程說(shuō)明北京電信互聯(lián)網(wǎng)行為標(biāo)簽系統(tǒng),是匯聚電信用戶通信、終端等上網(wǎng)數(shù)據(jù),解析用戶移動(dòng)互聯(lián)網(wǎng)流量行為,全角度刻畫用戶,為用戶畫像,細(xì)分客戶群的分析系統(tǒng),其輸入數(shù)據(jù)為北京電信用戶DPI上網(wǎng)基礎(chǔ)數(shù)據(jù),輸出為用戶行為分析統(tǒng)計(jì)報(bào)表。主要功能模塊APP數(shù)據(jù)采集:根據(jù)目前各市場(chǎng)及各省手機(jī)應(yīng)用下載情況,選擇建立標(biāo)準(zhǔn)APP庫(kù)。站點(diǎn)信息采集:站點(diǎn)信息定期爬取及更新,建立標(biāo)準(zhǔn)URL庫(kù)用戶行為解析識(shí)別:將用戶的上網(wǎng)訪問(wèn)信息與app庫(kù)進(jìn)行比對(duì)匹配,對(duì)用戶日志進(jìn)行處理,解析用戶下載和使用應(yīng)用產(chǎn)生的記錄分析統(tǒng)計(jì)輸出:根據(jù)用戶的應(yīng)用下載、使用行為,輸出滿足客戶需求的各項(xiàng)報(bào)表,并上傳數(shù)據(jù)。客戶行為分析-業(yè)務(wù)流程說(shuō)明北京電信互聯(lián)網(wǎng)行為標(biāo)簽系統(tǒng),是大數(shù)據(jù)智能分析解決方案介紹課件性能案例:(來(lái)自文獻(xiàn):CloudBurst:highlysensitivereadmappingwithMapReduce):輸入數(shù)據(jù):測(cè)序數(shù)據(jù)7.06minllion條36bpreads,人基因組genome(2.87G)軟件環(huán)境:Hadoop0.15.3,CloudBurst硬件環(huán)境:12nodes,24cores(3.2GHzIntelXeon),250G硬盤測(cè)試結(jié)果:如下圖,橫坐標(biāo)為reads數(shù),縱坐標(biāo)為運(yùn)行時(shí)間,“0、1、2、3、4”為容錯(cuò)數(shù)。
DNA測(cè)序分析平臺(tái):Cloudburst數(shù)據(jù)過(guò)濾插入/缺失識(shí)別基因組學(xué)-SNP分析流程FastQ-Progressing(MR)FastQC(Single)Crossbow(MR)CloudBurst(MR)Soap2(Single)Crossbow(MR)Soapsnp(Single)融合基因發(fā)現(xiàn)結(jié)構(gòu)變異發(fā)現(xiàn)全基因組關(guān)聯(lián)研究BlueSNP(MR)輸入文件
用戶期望和挑戰(zhàn):性能案例中的數(shù)據(jù)量(7.06minllion條36bpreads,人基因組genome,2.87G)在日常分析的數(shù)據(jù)量中算一般大小。一般對(duì)兩個(gè)生物學(xué)樣品進(jìn)行對(duì)照分析,每個(gè)樣品進(jìn)行三次重復(fù),產(chǎn)生6倍于性能案例中的數(shù)據(jù)量。而CloudBurst所做的map工作,僅為分析流程中的一步,用戶希望盡快得到結(jié)果進(jìn)行下一步工作,故6倍數(shù)據(jù)的期望運(yùn)行時(shí)間為2-3h。reads比對(duì)SNP識(shí)別質(zhì)量控制DNA測(cè)序:確定序列中堿基的排列順序,這項(xiàng)工作不僅可以用于物種間的比較研究,也有助于發(fā)現(xiàn)特定基因的功能和性狀表現(xiàn),尤其對(duì)第三代遺傳標(biāo)志(單核苷酸多態(tài)性,SNP)研究有極大的意義?;蚪M測(cè)序不但幫助人們探索生命起源和進(jìn)化的奧秘,也會(huì)促進(jìn)未來(lái)的個(gè)體化醫(yī)療、生物制藥研發(fā)、農(nóng)植物培養(yǎng)等各種致力于人類福祉的實(shí)際應(yīng)用。41h27h13hCloudBurst是第一個(gè)可以在Hadoop分布式框架下運(yùn)行的高通量測(cè)序片段定位算法.性能案例:(來(lái)自文獻(xiàn):CloudBurst:highlys計(jì)算節(jié)點(diǎn)實(shí)時(shí)分析平臺(tái)Symphony客戶端大數(shù)據(jù)平臺(tái)(離線分析)主節(jié)點(diǎn)SSMSymphony計(jì)算集群信息入庫(kù)卡口流動(dòng)車輛信息主節(jié)點(diǎn)SSM(備)1.主節(jié)點(diǎn)SSM讀取黑名單數(shù)據(jù)以CommonData形式下發(fā)到各個(gè)計(jì)算節(jié)點(diǎn)2.Symphony客戶端讀取Message后形成Task提交到集群主節(jié)點(diǎn)3.主節(jié)點(diǎn)SSM分發(fā)接收到的Task到各個(gè)計(jì)算節(jié)點(diǎn)4.計(jì)算節(jié)點(diǎn)運(yùn)行SI獲取Task內(nèi)容根據(jù)黑名單進(jìn)行最終的比對(duì)分析5.計(jì)算節(jié)點(diǎn)將比對(duì)成功的記錄發(fā)送到實(shí)時(shí)預(yù)警平臺(tái)6.計(jì)算節(jié)點(diǎn)將數(shù)據(jù)持久化到大數(shù)據(jù)平臺(tái)實(shí)時(shí)預(yù)警平臺(tái)(110布控)比對(duì)結(jié)果計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)分布式集群上做黑名單比對(duì)黑名單更新黑名單計(jì)算節(jié)點(diǎn)實(shí)時(shí)分析平臺(tái)Symphony大數(shù)據(jù)平臺(tái)主節(jié)點(diǎn)SympIBMConfidential指紋、人臉對(duì)比系統(tǒng)P7R2P7R2P7R2P7R2Sym主節(jié)點(diǎn)(任務(wù)調(diào)度)內(nèi)存網(wǎng)格(200G人臉特征庫(kù))Sym客戶端人臉樣本200T人臉圖像庫(kù)Hbase存儲(chǔ)MapReduce特征轉(zhuǎn)化、加載SOA調(diào)度,并行對(duì)比優(yōu)勢(shì)(相對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)方案):海量分布式存儲(chǔ)線性擴(kuò)展并行對(duì)比快速查詢IBMConfidential指紋、人臉對(duì)比系統(tǒng)P7R2SXX銀行統(tǒng)一考核數(shù)據(jù)平臺(tái)介紹統(tǒng)一考核平臺(tái)數(shù)據(jù)庫(kù)核心系統(tǒng)票據(jù)系統(tǒng)個(gè)貸系統(tǒng)...基金系統(tǒng)MDS考核平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)ETL廣州分行平臺(tái)數(shù)據(jù)集市南京分行平臺(tái)數(shù)據(jù)集市下發(fā)XX分行平臺(tái)數(shù)據(jù)集市廣州分行考核流程廣州分行考核數(shù)據(jù)集市南京分行考核數(shù)據(jù)集市南京分行考核流程XX分行考核數(shù)據(jù)集市XX分行考核流程績(jī)效及報(bào)表查詢績(jī)效及報(bào)表查詢績(jī)效及報(bào)表查詢集中存放的全行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源分行數(shù)據(jù)集市客戶端?2013IBMCorporationXX銀行統(tǒng)一考核數(shù)據(jù)平臺(tái)介紹統(tǒng)一考核平臺(tái)數(shù)據(jù)庫(kù)核心系統(tǒng)票據(jù)系統(tǒng)一考核數(shù)據(jù)平臺(tái)當(dāng)前痛點(diǎn)痛點(diǎn)痛點(diǎn):各分行考核流程負(fù)責(zé)從分行的數(shù)據(jù)集市生成各分行考核數(shù)據(jù)集市。這個(gè)過(guò)程主要包含多表的關(guān)聯(lián)操作。隨著數(shù)據(jù)量大增大,流程處理的時(shí)間也越來(lái)越大。執(zhí)行時(shí)間過(guò)長(zhǎng),對(duì)業(yè)務(wù)考核產(chǎn)生影響,業(yè)務(wù)人員經(jīng)常無(wú)法及時(shí)查詢到自己的考核績(jī)效。流程由分行自行開發(fā),總行DBA無(wú)法過(guò)多介入來(lái)保證性能。針對(duì)目前平臺(tái)痛點(diǎn)的2種可能優(yōu)化方法:優(yōu)化現(xiàn)有的分行的行存儲(chǔ)數(shù)據(jù)集市。利用DB2BLU來(lái)管理分行數(shù)據(jù)集市分行考核流程?2013IBMCorporation統(tǒng)一考核數(shù)據(jù)平臺(tái)當(dāng)前痛點(diǎn)痛點(diǎn)痛點(diǎn):各分行考核流程負(fù)責(zé)從分行的優(yōu)化方案結(jié)果對(duì)比建立額外的索引使用rangepartition分區(qū)表采用頁(yè)壓縮技術(shù)收集統(tǒng)計(jì)信息調(diào)優(yōu)內(nèi)存配置方案1充分優(yōu)化的行數(shù)據(jù)庫(kù)方案2DB2BLUDB2_WORKLOAD=ANALYTICS建庫(kù),加載數(shù)據(jù)運(yùn)行VSDB2BLU無(wú)需繁雜的調(diào)優(yōu)過(guò)程取得了19倍的性能提升19X?2013IBMCorporation優(yōu)化方案結(jié)果對(duì)比建立額外的索引方案1充分優(yōu)化的行數(shù)據(jù)庫(kù)方案
謝謝!謝謝!AnalyticsandBigDataonPower方案及案例分享AnalyticsandBigDataonPowe目錄大數(shù)據(jù)與分析概述高性能運(yùn)算Symphony解決方案DB2BLU助力高性能數(shù)據(jù)集市大數(shù)據(jù)案例分析目錄大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述大數(shù)據(jù)與分析概述“上個(gè)月在瑞士達(dá)沃斯舉行的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是一個(gè)熱點(diǎn)話題。在論壇的一份報(bào)告《大數(shù)據(jù),大影響》中聲明:數(shù)據(jù)已成為一類新的經(jīng)濟(jì)資產(chǎn),就像貨幣或黃金一樣.“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理卻不能理解這些數(shù)據(jù)的意義.”“越來(lái)越多的企業(yè)使用大眾媒體去分析公眾對(duì)產(chǎn)品的反饋,例如Facebook或Twitter,也有使用網(wǎng)站資源試著“了解客戶,是什么讓他們選擇他們想要的東西”負(fù)責(zé)IBM預(yù)測(cè)分析項(xiàng)目的迪阿德瓦說(shuō)。"“大數(shù)據(jù)已抵達(dá)Seton醫(yī)療保健家庭,幸運(yùn)的是,
通過(guò)使用這個(gè)分析工具,每年超過(guò)200萬(wàn)復(fù)雜病例的患者得到了幫助…”“數(shù)據(jù)是新型石油”
未開采的石油,沒有什么價(jià)值。加工及提煉后,將助力世界。
“…現(xiàn)在,沃森正投入到工作中,消化了數(shù)百萬(wàn)頁(yè)的研究,
結(jié)合最佳的臨床實(shí)踐和監(jiān)測(cè)結(jié)果,以協(xié)助醫(yī)生治療癌癥患者.”奧斯卡情感測(cè)量—一種工具,是由洛杉磯時(shí)報(bào)、IBM和南加州大學(xué)安創(chuàng)新實(shí)驗(yàn)室共同開發(fā)的—分析意見,“主要針對(duì)Twitter上共享的百萬(wàn)條奧斯卡獎(jiǎng)項(xiàng)比賽的公共信息做出的分析意見.”“數(shù)據(jù)是新型石油.”CliveHumby“公司被數(shù)據(jù)淹沒了—從客戶的習(xí)慣到供應(yīng)鏈的效率。但是許多經(jīng)理大數(shù)據(jù)來(lái)自哪里?
截至2011年末網(wǎng)絡(luò)上有超過(guò)20
億人現(xiàn)在有300億個(gè)RFID記
(2005年時(shí)有13億)全球有46億臺(tái)照相手機(jī)每年售出數(shù)億臺(tái)支持GPS的設(shè)備在2009年有7600萬(wàn)臺(tái)智能儀表……
至2014年將達(dá)到2億臺(tái)每天有超過(guò)3億
活躍用戶每天有超過(guò)25
TB
日志數(shù)據(jù)每天有超過(guò)1億條消息大數(shù)據(jù)來(lái)自哪里?
截至2011年末網(wǎng)絡(luò)上有超過(guò)20大數(shù)據(jù)的特點(diǎn)綜合分析覆蓋面越來(lái)越寬的種類應(yīng)對(duì)日益增長(zhǎng)的速度有效地處理日益增長(zhǎng)的數(shù)量建立大數(shù)據(jù)來(lái)源的真實(shí)性三分之一商界領(lǐng)袖感到無(wú)法信任那些幫助他們做決策的信息50x35ZB20202010300億RFID傳感器和計(jì)數(shù)器世界上80%的數(shù)據(jù)是非結(jié)構(gòu)化的大數(shù)據(jù)的特點(diǎn)綜合分析覆蓋面越來(lái)越寬的種類應(yīng)對(duì)日益增長(zhǎng)的速度有大數(shù)據(jù)會(huì)影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切從渠道交互到社交媒體,通過(guò)分析所有數(shù)據(jù)來(lái)源幫助您了解您的每位客戶零延遲操作分析所有可用的操作數(shù)據(jù)并且實(shí)時(shí)做出反應(yīng),從而優(yōu)化流程。通過(guò)成本效益技術(shù)降低IT成本。在速度和規(guī)模上實(shí)現(xiàn)新產(chǎn)品創(chuàng)新捕獲所有來(lái)源的反饋,分析龐大的市場(chǎng)環(huán)境,研究大量的數(shù)據(jù),從而推動(dòng)創(chuàng)新。即時(shí)的欺詐和風(fēng)險(xiǎn)意識(shí)通過(guò)分析所有可用數(shù)據(jù)來(lái)打造更好的欺詐/風(fēng)險(xiǎn)模型,用流數(shù)據(jù)交易分析來(lái)實(shí)時(shí)監(jiān)測(cè)欺詐利用儀表化資產(chǎn)監(jiān)控資產(chǎn)通過(guò)實(shí)時(shí)數(shù)據(jù)反饋來(lái)預(yù)測(cè)和預(yù)防維修問(wèn)題,并且開發(fā)新產(chǎn)品和新服務(wù)。大數(shù)據(jù)會(huì)影響到您業(yè)務(wù)的方方面面了解關(guān)于您客戶的一切大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)在大數(shù)據(jù)的新世界中,我們必須更換所有陳舊系統(tǒng)大數(shù)據(jù)就是Hadoop較為陳舊的事務(wù)數(shù)據(jù)已經(jīng)不再重要數(shù)據(jù)倉(cāng)庫(kù)已是昨日黃花大數(shù)據(jù)適合熟知互聯(lián)網(wǎng)的企業(yè)。傳統(tǒng)業(yè)務(wù)與大數(shù)據(jù)毫無(wú)關(guān)系我們不具備相應(yīng)的需求、預(yù)算或者技能,因此我們不必為此擔(dān)心人們對(duì)于大數(shù)據(jù)的觀點(diǎn)是怎樣的大數(shù)據(jù)主要與大型數(shù)據(jù)集相關(guān)人們對(duì)于大數(shù)據(jù)的觀點(diǎn)是怎樣的研究顯示了實(shí)施大數(shù)據(jù)的4個(gè)階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活動(dòng)級(jí)別而劃分為4個(gè)小組時(shí),受調(diào)查者在組織行為上表現(xiàn)出顯著的一致性
受調(diào)查者總數(shù)n=1061由于舍入原因,各個(gè)比例總和不等于100%6%部署兩個(gè)或更多大數(shù)據(jù)計(jì)劃,繼續(xù)應(yīng)用高級(jí)分析占總受調(diào)查者的百分比執(zhí)行22%試點(diǎn)大數(shù)據(jù)計(jì)劃,以驗(yàn)證價(jià)值和需求占總受調(diào)查者的百分比試點(diǎn)47%基于業(yè)務(wù)需求和挑戰(zhàn)開發(fā)戰(zhàn)略和路線圖占總受調(diào)查者的百分比探索24%專注于知識(shí)收集和市場(chǎng)觀察占總受調(diào)查者的百分比學(xué)習(xí)研究顯示了實(shí)施大數(shù)據(jù)的4個(gè)階段大數(shù)據(jù)采用當(dāng)基于當(dāng)前的大數(shù)據(jù)活智慧分析數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)平臺(tái)加速器流
計(jì)算數(shù)據(jù)倉(cāng)庫(kù)Hadoop
系統(tǒng)信息整合與治理應(yīng)用開發(fā)發(fā)現(xiàn)系統(tǒng)管理內(nèi)容管理數(shù)據(jù)倉(cāng)庫(kù)流計(jì)算Hadoop系統(tǒng)信息整合與治理大數(shù)據(jù)平臺(tái)系統(tǒng)、存儲(chǔ)和云業(yè)務(wù)分析內(nèi)容
分析決策管理風(fēng)險(xiǎn)
分析績(jī)效管理商業(yè)智能與預(yù)測(cè)分析大數(shù)據(jù)分析內(nèi)容
分析預(yù)測(cè)分析決策管理社交媒體分析分析整合與治理IBM提供了全面的、整合化的大數(shù)據(jù)和分析方法智慧分析數(shù)據(jù)倉(cāng)庫(kù)大數(shù)據(jù)平臺(tái)加速器流
計(jì)算數(shù)據(jù)Hadoop
Hadoop系統(tǒng)管理多樣化海量數(shù)據(jù)企業(yè)級(jí)應(yīng)用增強(qiáng)了開源Hadoop能力流計(jì)算用于分析流動(dòng)的數(shù)據(jù)能夠處理分析多種數(shù)據(jù)–通過(guò)高級(jí)分析運(yùn)算符來(lái)支持結(jié)構(gòu)化,非結(jié)構(gòu)化,視頻,音頻等數(shù)據(jù)倉(cāng)庫(kù)工作負(fù)載均衡的MPP架構(gòu),支持高性能的OLAP及混合型的操作和分析負(fù)載數(shù)據(jù)可視化企業(yè)級(jí)搜索引擎圖形展現(xiàn)海量分析結(jié)果IBM大數(shù)據(jù)平臺(tái)
Hadoop系統(tǒng)IBM大數(shù)據(jù)平臺(tái)BAO方案整體技術(shù)架構(gòu)從哪里來(lái)?是誰(shuí)?到哪里去?BAO方案整體技術(shù)架構(gòu)從哪里來(lái)?是誰(shuí)?到哪里去?大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計(jì)算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景模型策略/計(jì)劃平衡計(jì)分卡預(yù)測(cè)/預(yù)報(bào)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險(xiǎn)分析企業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事實(shí)表ETL工具數(shù)據(jù)管理基于門戶的Web頁(yè)面固定報(bào)表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報(bào)
ERPHRSCMCRMStatistics外部數(shù)據(jù)財(cái)務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報(bào)告ETL:抽取、轉(zhuǎn)換和加載大數(shù)據(jù)解決方案出現(xiàn)之前傳統(tǒng)的計(jì)算模式數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)預(yù)數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)場(chǎng)景模型策略/計(jì)劃平衡計(jì)分卡預(yù)測(cè)/預(yù)報(bào)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前端展示風(fēng)險(xiǎn)分析企業(yè)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)事實(shí)表ETL工具數(shù)據(jù)管理基于門戶的Web頁(yè)面固定報(bào)表多維分析即席查詢數(shù)據(jù)集市MOLAPRelational立方體管理
行業(yè)情報(bào)
ERPHRSCMCRMStatistics外部數(shù)據(jù)財(cái)務(wù)預(yù)算數(shù)據(jù)員工狀態(tài)
設(shè)備狀態(tài)客戶信息分析報(bào)告ETL:抽取、轉(zhuǎn)換和加載電商、微博、社交網(wǎng)站、平安城市等產(chǎn)生大量社交數(shù)據(jù)、日志、圖片、視音頻數(shù)據(jù)….海量數(shù)據(jù)匯總、統(tǒng)計(jì)耗時(shí)太長(zhǎng),滿足不了業(yè)務(wù)部門的時(shí)效性需求;傳統(tǒng)計(jì)算模式遇到的困難某些業(yè)務(wù)部門需要實(shí)時(shí)數(shù)據(jù)分析,數(shù)據(jù)一邊產(chǎn)生,一邊進(jìn)行分析,以應(yīng)對(duì)市場(chǎng)壓力數(shù)據(jù)產(chǎn)生速度快,數(shù)據(jù)量巨大,種類繁多,非結(jié)構(gòu)化數(shù)據(jù)占了80%以上數(shù)據(jù)源數(shù)據(jù)抽取數(shù)據(jù)倉(cāng)庫(kù)預(yù)測(cè)績(jī)效分析價(jià)值分析數(shù)據(jù)集市數(shù)據(jù)分析前Hadoop并行計(jì)算模式HDFS—HadoopDistributedFileSystem。HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(datablocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中(computenodes),MapReduce就可以在它們所在的節(jié)點(diǎn)上處理這些數(shù)據(jù)了。MapReduceHadoop并行計(jì)算模式HDFS—HadoopDistr大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系
超越和補(bǔ)充傳統(tǒng)數(shù)據(jù)處理技術(shù)實(shí)時(shí)數(shù)據(jù)處理Internet級(jí)別海量數(shù)據(jù)存儲(chǔ)與分析傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)In-MotionAnalyticsDataAnalytics,DataOperations&ModelBuildingResultsInternetScaleDatabase&WarehouseAt-RestDataAnalyticsResultsUltraLowLatencyResultsInfoSphereBigInsights傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源傳統(tǒng)/關(guān)系型數(shù)據(jù)源傳統(tǒng)/非關(guān)系型數(shù)據(jù)源大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理技術(shù)的關(guān)系
超越和補(bǔ)充傳統(tǒng)數(shù)據(jù)處理高性能運(yùn)算Symphony解決方案高性能運(yùn)算Symphony解決方案大數(shù)據(jù)常見應(yīng)用場(chǎng)景舉例影像管理(各類單據(jù)的掃描件、地圖影像),非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和分析(XML文件、文本日志文件)典型應(yīng)用:測(cè)繪行業(yè)系統(tǒng)、地圖服務(wù)提供商產(chǎn)品、公安部、銀行/稅務(wù)票據(jù)管理、電信詳單日志分析、各類終端采集數(shù)據(jù)分析……常見痛點(diǎn):存儲(chǔ)成本/性能,關(guān)系型數(shù)據(jù)庫(kù)性能/功能問(wèn)題。業(yè)務(wù)/產(chǎn)品/服務(wù)創(chuàng)新典型應(yīng)用:CDR分析,輿情分析,LBS,廣告精準(zhǔn)投放,移動(dòng)終端服務(wù)/智慧XX(電表數(shù)據(jù)分析、HIS,電子支付),精益生產(chǎn)、反洗錢……常見痛點(diǎn):實(shí)時(shí)性、數(shù)據(jù)來(lái)源多樣、數(shù)據(jù)量大計(jì)算密集型應(yīng)用高性能計(jì)算技術(shù)非常適用典型應(yīng)用:保險(xiǎn)精算、銀行風(fēng)險(xiǎn)分析、信用卡欺詐分析……常見痛點(diǎn):實(shí)時(shí)性、多種數(shù)據(jù)源要形成統(tǒng)一視圖大數(shù)據(jù)常見應(yīng)用場(chǎng)景舉例影像管理(各類單據(jù)的掃描件、地圖影像)大數(shù)據(jù)智能分析解決方案介紹課件IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)1-高性能國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hbase的數(shù)據(jù)查詢測(cè)試,取得3~15倍的性能優(yōu)勢(shì)國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hive的數(shù)據(jù)分析測(cè)試,取得9~11倍的性能優(yōu)勢(shì)數(shù)據(jù)加載場(chǎng)景每核加載速度為x86核的11.18倍數(shù)據(jù)分析場(chǎng)景每核分析速度為x86核的9.63倍IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)1-高性能國(guó)內(nèi)運(yùn)營(yíng)商進(jìn)行的基于Hbase為什么Symphony更快?JobTracker/TaskTracker用C++/C編寫資源管理和任務(wù)管理解耦.支持300并發(fā)jobtrackers;1000并發(fā)jobs/jobtrackerSOA架構(gòu),共享服務(wù)(reuseJVMacrossmanytasks)使用TCP原語(yǔ)和二進(jìn)制編碼,取代httpandtext/XMLPushprotocolavoidstasktrackerpullingtasksandthedelaycausedbypullinginterval專利的asynchronouspersistencyprotocol以保證可靠性和性能Note:HadoopResultswerepublishedbyClouderaatHadoopWorldeventDec,2011.Hadoopjarexample.jarsleep–mt1–rt1–m5000–r1Testedon10hosts85為什么Symphony更快?JobTracker/TaskIBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)2-高可靠從硬件、文件系統(tǒng)和分布式計(jì)算框架所有層面采用高可靠設(shè)計(jì)架構(gòu),杜絕基于開源產(chǎn)品的不可靠問(wèn)題Symphony計(jì)算框架:經(jīng)過(guò)接近20年全球成功企業(yè)應(yīng)用考驗(yàn)的高可靠性框架,不僅本身可靠性高,不存在單點(diǎn)故障,而且通過(guò)對(duì)下層硬件資源的先進(jìn)管理功能,實(shí)現(xiàn)物理資源與邏輯資源的解耦,實(shí)現(xiàn)資源的動(dòng)態(tài)加減和黑名單等機(jī)制,徹底解決硬件故障的透明failover問(wèn)題GPFS-FPO文件系統(tǒng):經(jīng)過(guò)20多年全球無(wú)數(shù)應(yīng)用驗(yàn)證的分布式文件系統(tǒng),成熟、可靠,GPFS-FPO采用去中心化設(shè)計(jì)(元數(shù)據(jù)分散存儲(chǔ)),天生不存在NameNode的單點(diǎn)故障和可靠性瓶頸問(wèn)題PowerLinux在RAS特性方面全面領(lǐng)先X86平臺(tái)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)2-高可靠從硬件、文件系統(tǒng)和分布式計(jì)算框IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)3-好維護(hù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)3-好維護(hù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)4-高度兼容性Symphony和GPFS具有最廣泛的兼容性,只要是基于Hadoop架構(gòu)標(biāo)準(zhǔn)接口開發(fā)的軟件都可以100%兼容,如HadoopHbase,Pig,Hive,JavaMR,Oozie等各種知名的Hadoop開源方案不僅兼容開源方案,還支持各種商業(yè)分析軟件,如SAS、SPSS、Murex,Algorithmics,Sugard,Calypso,TillingHast等
兼容各種Java、R、C/C++等各種開發(fā)語(yǔ)言,兼容各種文件系統(tǒng)及數(shù)據(jù)庫(kù),如HDFS,GPFS-FPO,RDMBS,MPP等,兼容Linux、Windows、AIX等各種OS平臺(tái),兼容X86、Power等各種硬件平臺(tái),支持虛擬機(jī)和物理機(jī)混合組網(wǎng)使用IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)4-高度兼容性Symphony和GPFSIBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁有完全的技術(shù)研發(fā)與支持力量全球26個(gè)研發(fā)和銷售機(jī)構(gòu),300+的研發(fā)團(tuán)隊(duì)分布在北京和西安兩地強(qiáng)大的QA和服務(wù)支持團(tuán)隊(duì),強(qiáng)大的本地售后支持力量專業(yè)的定制化開發(fā)團(tuán)隊(duì)業(yè)界公認(rèn)的大型網(wǎng)格/工作負(fù)載管理的領(lǐng)導(dǎo)者全方位的技術(shù)支持服務(wù)評(píng)估規(guī)劃與咨詢服務(wù)建設(shè)設(shè)計(jì)與實(shí)施服務(wù)管理管理與維護(hù)支持服務(wù)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)5-技術(shù)支持核心產(chǎn)品由IBM自主開發(fā),擁IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)6-高效可靠文件系統(tǒng)IBM大數(shù)據(jù)平臺(tái)優(yōu)勢(shì)6-高效可靠文件系統(tǒng)GPFS-FPO替換HDFS,更可靠、更高效對(duì)于需要隨機(jī)I/O的SQL查詢,JAQL查詢等對(duì)于需要線性排序的sort操作來(lái)說(shuō)BigInsights提供2至3倍與開源Hadoop技術(shù)的性能文件索引等查找效率17倍于開源Hadoop技術(shù),得益于ClientCache能力Hadoop
Indexing(HDFS)Database
Upload(ext3)WebService
LayerCopyFetchHDFS:
Extracopyoverheadandnetworkfetch,separateclustersforanalyticsanddatabaseHadoopIndexing
+DatabaseUpload(GPFS)WebService
LayerCacheGPFS:
Singleclusterforanalyticsanddatabase,nocopyingrequired,cachingforweblayerWorkloadIsolationProvendataintegrityReplicatedmetadataservicesYahookeeps3copiesof3versionsofHDFSbecauseofunknowndataintegrity[1]QuantcastdeletesfilesonceHDFSis50%full[2][1]CareandFeedingofHadoopClusters,MarcNicosia,Usenix2009
[2]TheKomosDistributedFileSystem,SriramRao,QuantcastInc.GPFS-FPOKeytechnologyLocalityawarenessWriteAffinityMetablocksPipelinedreplicationDistributedrecovery超過(guò)20年發(fā)展的成熟的企業(yè)級(jí)文件系統(tǒng)vsHDFS
4年發(fā)展歷史IBM企業(yè)級(jí)支持的商用軟件vsHDFS開源軟件POSIX兼容,同時(shí)支持傳統(tǒng)文件訪問(wèn)和Hadoop應(yīng)用vsHDFS不兼容POSIX內(nèi)建的安全特性和高可用性(集群管理節(jié)點(diǎn)e.g.)vsHDFSnamenode單點(diǎn)跨數(shù)據(jù)中心復(fù)制容災(zāi)vsHDFS無(wú)遠(yuǎn)程復(fù)制GPFS-FPO替換HDFS,更可靠、更高效對(duì)于需要隨機(jī)I/GPFS-FPO去中心化設(shè)計(jì),高性能與高可靠GPFS-FPO去中心化設(shè)計(jì),高性能與高可靠可擴(kuò)展的IBMSystemsConfiguration初始配置半機(jī)柜配置1stThru4th
滿機(jī)柜附加滿機(jī)柜UsableStorageUpto108TBUpto324TBUpto684TBperrackUpto720TBperrackUserspaceUpto36TBUpto108TBUpto228TBperrackUpto240TBperrack
可擴(kuò)展得多個(gè)入門方式從很小的規(guī)模起步逐步擴(kuò)大
支持多種工作負(fù)載的靈活的
CPU,內(nèi)存,存儲(chǔ)和網(wǎng)絡(luò)
選項(xiàng)可擴(kuò)展的IBMSystemsConfiguration初始IBMPowerLinux7R1–便捷、高效的入門級(jí)產(chǎn)品可靠設(shè)計(jì)Singlesocket,2Urack8-core3.55GHzPOWER7processorUpto128GBmemorywith8/16/32GBDIMMs
First32GBincludedinbasepackage高擴(kuò)展性和強(qiáng)大虛擬化能力Upto24SFFharddrivesper2Ustorageexpansiondrawer(L1S)PowerVM?exploitingintegratedhypervisor8246-L1C/8246-L1SGAonAugustVirtualization&ManagementOperatingSystemsLinuxonlyPOWER7Onesocket,2UrackIBMPowerLinux7R1–便捷、高效的入門級(jí)產(chǎn)IBMPowerLinux7R2-高性能、靈活配置OperatingSystemsVirtualization&Management
高系統(tǒng)密度TwoSocket,2URack16-cores3.3GHzand3.55GHzPOWER7processor256GBmaximummemorywith2/4/8GBDIMMs-First32GBincludedin3.55GHzprocessorbasepackage-First64GBincludedin3.3GHzprocessorbasepackageUpto207R2sinasingle42Urack
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 部審人教版七年級(jí)數(shù)學(xué)下冊(cè)聽評(píng)課記錄《5.2.1 平行線》2
- 人教版地理七年級(jí)上冊(cè)第二節(jié)《地球的運(yùn)動(dòng)》聽課評(píng)課記錄3
- 湘教版數(shù)學(xué)八年級(jí)上冊(cè)4.1《不等式》聽評(píng)課記錄
- 人教版地理八年級(jí)下冊(cè)7.2《魚米之鄉(xiāng)-長(zhǎng)江三角洲地區(qū)》聽課評(píng)課記錄2
- 用戶體驗(yàn)設(shè)計(jì)服務(wù)協(xié)議書(2篇)
- 環(huán)境整治用功協(xié)議書(2篇)
- 人教部編版八年級(jí)道德與法治上冊(cè):8.1《國(guó)家好 大家才會(huì)好-國(guó)家利益的含義》聽課評(píng)課記錄
- 【人教版】河南省八年級(jí)地理上冊(cè)3.2土地資源聽課評(píng)課記錄1新版新人教版
- 新版華東師大版八年級(jí)數(shù)學(xué)下冊(cè)《17.3.2一次函數(shù)的圖象2》聽評(píng)課記錄22
- 北京課改版歷史八年級(jí)上冊(cè)第3課《第二次鴉片戰(zhàn)爭(zhēng)》聽課評(píng)課記錄
- 零售企業(yè)加盟管理手冊(cè)
- 設(shè)備維保的維修流程與指導(dǎo)手冊(cè)
- 招標(biāo)代理服務(wù)的關(guān)鍵流程與難點(diǎn)解析
- GB/T 5465.2-2023電氣設(shè)備用圖形符號(hào)第2部分:圖形符號(hào)
- 材料預(yù)定協(xié)議
- 2023年河北省中考數(shù)學(xué)試卷(含解析)
- 《學(xué)習(xí)的本質(zhì)》讀書會(huì)活動(dòng)
- 高氨血癥護(hù)理課件
- 物流營(yíng)銷(第四版) 課件 胡延華 第3、4章 物流目標(biāo)客戶選擇、物流服務(wù)項(xiàng)目開發(fā)
- 《石油化工電氣自動(dòng)化系統(tǒng)設(shè)計(jì)規(guī)范》
- Q-GGW-BF-0117-2023天然氣管道無(wú)人站技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論