大數據成功關鍵課件_第1頁
大數據成功關鍵課件_第2頁
大數據成功關鍵課件_第3頁
大數據成功關鍵課件_第4頁
大數據成功關鍵課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據成功關鍵課件大數據成功關鍵 --高效地實現大數據的移動劉春霞liuchunx@IBM軟件部資深信息整合顧問大數據成功關鍵劉春霞3InfoSphere:維護信息供應鏈信息治理治理質量安全和隱私生命周期標準事務和協(xié)作應用業(yè)務分析應用外部信息源分析整合管理多維數據集流大數據主數據內容數據流信息數據倉庫內容分析整合和清洗3InfoSphere:維護信息供應鏈信息治理治理質量安全和ThirstforInformation可靠信息移動的速度敏捷

用戶想要快速地訪問數據,幾分鐘內和小時級內(如自主的數據整合)對分析的需求兩者都需要!權威性

在一個流程框架內內的可靠信息避免信息冗余需要敏捷和可靠的數據訪問ThirstforInformation可靠信息移動的速任何數據到大數據大數據到任何數據大數據中心批量數據整合(用于大數據)任何數據ETL/

ELTETL/

ELTELT加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實時流數據提取獲益從多種來源提取數據:機器數據、社交數據、多結構成熟的整合工具,更高的生產力數據中心獲益以大數據形式產生和分析的數據–從不清除用于完成大數據運行時內的工作的圖形工具將現有的企業(yè)數據引入一個探索性分析平臺將社交數據和機器數據引入一個企業(yè)數據倉庫系統(tǒng)自動化一個低成本數據暫存區(qū)域的工具對數據的推送處理(不是其他方法)任何數據到大數據批量數據整合(用于大數據)任何數據ETL/BigInsightsHadoopInfoSphereBigInsights的批量數據整合集市數據倉庫倉庫集市DataStage數據庫FilesFiles文件并行寫入DataStage子集并行讀取細節(jié)和摘要BigInsightsInfoSphereBigInsig與大數據來源交換信息將企業(yè)信息轉移到大數據來源,使它可包含在分析中獲取Hadoop的分析結果,并將它們應用于其他IT解決方案并行性和規(guī)模對HDFS的支持通過信息服務器并行引擎提供了大規(guī)模可伸縮性作業(yè)血統(tǒng)與大洞察來源/目標步驟使用信息服務器中的擴展性功能大數據文件組件與大數據來源交換信息大數據文件組件使用BDFS作為來源BDFS引入了新來源選項NamenodeClusterHost和PortBDFS可并行讀取文件模式BDFS可使用Readers選項并行讀取單個文件使用BDFS作為來源BDFS引入了新來源選項NameBDFS數據流程圖名稱節(jié)點文件請求BDFS數據節(jié)點BDFS數據數據PXPXBDFS使用多個讀取器流程并行化HDFS讀取InfoSphereDataStageBDFS數據流程圖名稱節(jié)點文件請求BDFS數據節(jié)點BDFS使用BDFS作為目標BDFS引入了新的目標選項NamenodeClusterHost和PortBDFS通常寫入單個文件BDFS能夠并行寫入多個文件使用BDFS作為目標BDFS引入了新的目標選項NamBDFS示例

客戶情緒傾向性分析作業(yè)可以通過分析電子郵件在InfoSphereBigInsights中執(zhí)行。客戶情緒傾向性摘要將被更新到倉庫中。InfoSphereDataStage作業(yè)將挑選信息并更新數據倉庫(使用SCD階段的客戶維度)可執(zhí)行基于分類的電子郵件的風險識別??梢詫㈦娮余]件分類為高風險和低風險。分析作業(yè)輸出風險分類BDFS示例客戶情緒傾向性分析作業(yè)可以通過分析電子郵件在12BDFS:可擴展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可擴展性和性能InformationServ13InformationServer–Bigdataintegration-讀寫都具有近線性的可擴展能力-最高可達5.2TB/小時-DataStage節(jié)點翻倍,處理效率翻倍直至磁盤資源全部占用BDFS:可擴展性和性能13InformationServer–Bigdat平衡的優(yōu)化–從DataStage生成HadoopMapReduce作業(yè)使用DataStageDesign流程生成ETL作業(yè)使用BalancedOptimization將其編譯為在BigInsights上運行。將支持完全下推–Hadoop內的所有處理(如果可能)

混合下推–內部的一些處理和外部剩余處理,具體取決于來源和目標平衡的優(yōu)化–從DataStage生成Hadoop15通過InformationServer和Hadoop數據文件系統(tǒng)(HDFS)的

整合,強化了IBM在大數據的領導地位通過JobSequencer對BigInsights和其他MapReduce作業(yè)進行編程調用,結合DataStage和Hadoop實現端到端工作流。利用設計器用戶界面和標準階段結構來生成MapReduce作業(yè),為用戶提供處理BigData來源的能力,可以使用Hadoop更高效地處理這些來源。實現InfoSphereDataStage和InfoSphereStreams之間的直接數據流整合,結合兩個平臺的強大功能和應用范圍通過所有用例提供豐富元數據支持。自動化的大數據作業(yè)生成15通過InformationServer和Hadoop從DataStage調用Oozie工作流Oozie是Hadoop中的一個工作流計劃引擎Oozie提供了一個JavaAPI來調用Oozie工作流調用者是Oozie客戶端DS可充當Oozie客戶端使用OozieAPI,我們構建了一個Oozie調用者模塊該模塊是同步的成功執(zhí)行工作流時返回1發(fā)生錯誤時返回0作業(yè)調度程序有一個執(zhí)行命令階段Oozie調用者模塊從執(zhí)行命令階段執(zhí)行使用返回代碼在發(fā)生錯誤時放棄作業(yè)序列序列從DataStage調用Oozie工作流OozieInfoSphereStreams-InformationServer連接器1) 用戶希望向現有DataStage作業(yè)添加Streams分析2) 用戶希望向現有Streams應用添加DataStage處理3) 從頭創(chuàng)建一個DataStage作業(yè)和Streams應用。

這些整合可能具有以下數據流:? DataStage->Streams? DataStage->Streams->DataStage? Streams->DataStageInfoSphereStreams-Information聯邦整合(用于大數據)18分析和報告工具Web應用建模–查詢–交付搜索–分析–可視化VivisimoVelocityInfoSphereFederationHive

(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大數據聯邦解決方案的另一個企業(yè)數據來源聯邦整合(用于大數據)18分析和報告工具建模–查詢–新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”只需幾次單擊,便可在文件/數據庫與BigInsights之間移動數據滿足需求,以便:生成用于個人開發(fā)工作的沙盒用戶界面顯示了一些策略選項,

無需任何編碼即可將它們自動化?;谒x的策略和源系統(tǒng)功能來

利用InfoSphereDataStage和

InfoSphereDataReplication。整合的設計和操作元數據,用于

內置治理

用于大數據的InfoSphereDataClick:敏捷和可控的整合DB2/

ORACLEInfoSphereDataClickBigInsights分析應用數據倉庫轉換/復制分析存儲分析DS/

CDC新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”實時整合(用于大數據)20InfoSphere

數據復制應用程序事務日志高速雙向數據對實時信息的低延遲捕獲分析極大規(guī)模的移動信息每秒TB級數據,每天PB級數據。分析各種信息分析原生格式的各種信息–流音頻、視頻、空間等信息非擴散性的記錄捕獲從事務數據庫日志中讀取數據,將數據分發(fā)給任何目標–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS

消息隊列ETLHadoop系統(tǒng)流系統(tǒng)倉庫實時整合(用于大數據)20InfoSphere

數據復制應用21InfoSphereDataClick實時數據高性能傳遞JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數據倉庫數據及時性,動態(tài)的數據倉庫結合

ETL/ELT優(yōu)化批處理從源到目標更少的時間和處理即使禁止抽取,數據也可以獲取為轉換清洗ETL提供實時的數據降低數據集市的成本21InfoSphereDataClick實時數據高性221stClick2ndClick預選數據源和目標Tab頁上顯示的核對標志表明所需的配置完成復查配置

Execution!!!InfoSphereDataClick–點擊兩下完成數據整合221stClick2ndClick預選數據源和目標復查23頂級性能加速時間價值:

InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel?Xeon?E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel?Xeon?E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel?10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel?Xeon?E55202.27GHzStorageSpace:128TB*

*@4xcompressionratioNetworkCard:Intel?10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸載速度=2.58TB/hour加載速度=2.38TB/hour23頂級性能加速時間價值:

InformationServ24大數據清洗(驗證、充實和匹配)對傳統(tǒng)數據和大數據的統(tǒng)一和整合訪問驗證、標準化、充實和匹配數據值得信任的數據存儲實現了整體視圖業(yè)務洞察事務數據傳統(tǒng)應用源社會網絡視頻和照片整合數據質量倉庫風險儀表板流計算24大數據清洗(驗證、充實和匹配)對傳統(tǒng)數據和大數據驗證、標InformationServer提供市場上最全面的數據集成和數據管理解決方案獨特優(yōu)勢Business/ITcollaborationondataqualityobjectivesAutomatedbusiness/

ITcollaborationEstablishframeworkfor

metadatalineageUnderstandyourdataIncludesautomated

datadiscoveryCleanseandvalidatedataHighestperformancetools

inthemarketMonitordataqualityOnlysolutionofferingrealtime/in-flightdatavalidationandmonitoringFlexibilitySOAenabledBreadthofsupportedsources

andtargets優(yōu)點LowestTotalCostofOwnership(TCO)EnablessharedservicesandcentralizedrulemanagementProvidesasharedmetadatarepositoryBestinclassdataqualityanalysistoolsUnderstandthecontent,quality,

andstructureofdatasourcesAutomatedataprofilingandanalysisMonitordataqualityovertimeUniqueparallelprocessingengineDeliversunmatchedabilitytoscaleforhugedatavolumesInformationServer提供市場上最全面的數據大數據成功關鍵課件大數據成功關鍵 --高效地實現大數據的移動劉春霞liuchunx@IBM軟件部資深信息整合顧問大數據成功關鍵劉春霞28InfoSphere:維護信息供應鏈信息治理治理質量安全和隱私生命周期標準事務和協(xié)作應用業(yè)務分析應用外部信息源分析整合管理多維數據集流大數據主數據內容數據流信息數據倉庫內容分析整合和清洗3InfoSphere:維護信息供應鏈信息治理治理質量安全和ThirstforInformation可靠信息移動的速度敏捷

用戶想要快速地訪問數據,幾分鐘內和小時級內(如自主的數據整合)對分析的需求兩者都需要!權威性

在一個流程框架內內的可靠信息避免信息冗余需要敏捷和可靠的數據訪問ThirstforInformation可靠信息移動的速任何數據到大數據大數據到任何數據大數據中心批量數據整合(用于大數據)任何數據ETL/

ELTETL/

ELTELT加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實時流數據提取獲益從多種來源提取數據:機器數據、社交數據、多結構成熟的整合工具,更高的生產力數據中心獲益以大數據形式產生和分析的數據–從不清除用于完成大數據運行時內的工作的圖形工具將現有的企業(yè)數據引入一個探索性分析平臺將社交數據和機器數據引入一個企業(yè)數據倉庫系統(tǒng)自動化一個低成本數據暫存區(qū)域的工具對數據的推送處理(不是其他方法)任何數據到大數據批量數據整合(用于大數據)任何數據ETL/BigInsightsHadoopInfoSphereBigInsights的批量數據整合集市數據倉庫倉庫集市DataStage數據庫FilesFiles文件并行寫入DataStage子集并行讀取細節(jié)和摘要BigInsightsInfoSphereBigInsig與大數據來源交換信息將企業(yè)信息轉移到大數據來源,使它可包含在分析中獲取Hadoop的分析結果,并將它們應用于其他IT解決方案并行性和規(guī)模對HDFS的支持通過信息服務器并行引擎提供了大規(guī)??缮炜s性作業(yè)血統(tǒng)與大洞察來源/目標步驟使用信息服務器中的擴展性功能大數據文件組件與大數據來源交換信息大數據文件組件使用BDFS作為來源BDFS引入了新來源選項NamenodeClusterHost和PortBDFS可并行讀取文件模式BDFS可使用Readers選項并行讀取單個文件使用BDFS作為來源BDFS引入了新來源選項NameBDFS數據流程圖名稱節(jié)點文件請求BDFS數據節(jié)點BDFS數據數據PXPXBDFS使用多個讀取器流程并行化HDFS讀取InfoSphereDataStageBDFS數據流程圖名稱節(jié)點文件請求BDFS數據節(jié)點BDFS使用BDFS作為目標BDFS引入了新的目標選項NamenodeClusterHost和PortBDFS通常寫入單個文件BDFS能夠并行寫入多個文件使用BDFS作為目標BDFS引入了新的目標選項NamBDFS示例

客戶情緒傾向性分析作業(yè)可以通過分析電子郵件在InfoSphereBigInsights中執(zhí)行??蛻羟榫w傾向性摘要將被更新到倉庫中。InfoSphereDataStage作業(yè)將挑選信息并更新數據倉庫(使用SCD階段的客戶維度)可執(zhí)行基于分類的電子郵件的風險識別??梢詫㈦娮余]件分類為高風險和低風險。分析作業(yè)輸出風險分類BDFS示例客戶情緒傾向性分析作業(yè)可以通過分析電子郵件在37BDFS:可擴展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可擴展性和性能InformationServ38InformationServer–Bigdataintegration-讀寫都具有近線性的可擴展能力-最高可達5.2TB/小時-DataStage節(jié)點翻倍,處理效率翻倍直至磁盤資源全部占用BDFS:可擴展性和性能13InformationServer–Bigdat平衡的優(yōu)化–從DataStage生成HadoopMapReduce作業(yè)使用DataStageDesign流程生成ETL作業(yè)使用BalancedOptimization將其編譯為在BigInsights上運行。將支持完全下推–Hadoop內的所有處理(如果可能)

混合下推–內部的一些處理和外部剩余處理,具體取決于來源和目標平衡的優(yōu)化–從DataStage生成Hadoop40通過InformationServer和Hadoop數據文件系統(tǒng)(HDFS)的

整合,強化了IBM在大數據的領導地位通過JobSequencer對BigInsights和其他MapReduce作業(yè)進行編程調用,結合DataStage和Hadoop實現端到端工作流。利用設計器用戶界面和標準階段結構來生成MapReduce作業(yè),為用戶提供處理BigData來源的能力,可以使用Hadoop更高效地處理這些來源。實現InfoSphereDataStage和InfoSphereStreams之間的直接數據流整合,結合兩個平臺的強大功能和應用范圍通過所有用例提供豐富元數據支持。自動化的大數據作業(yè)生成15通過InformationServer和Hadoop從DataStage調用Oozie工作流Oozie是Hadoop中的一個工作流計劃引擎Oozie提供了一個JavaAPI來調用Oozie工作流調用者是Oozie客戶端DS可充當Oozie客戶端使用OozieAPI,我們構建了一個Oozie調用者模塊該模塊是同步的成功執(zhí)行工作流時返回1發(fā)生錯誤時返回0作業(yè)調度程序有一個執(zhí)行命令階段Oozie調用者模塊從執(zhí)行命令階段執(zhí)行使用返回代碼在發(fā)生錯誤時放棄作業(yè)序列序列從DataStage調用Oozie工作流OozieInfoSphereStreams-InformationServer連接器1) 用戶希望向現有DataStage作業(yè)添加Streams分析2) 用戶希望向現有Streams應用添加DataStage處理3) 從頭創(chuàng)建一個DataStage作業(yè)和Streams應用。

這些整合可能具有以下數據流:? DataStage->Streams? DataStage->Streams->DataStage? Streams->DataStageInfoSphereStreams-Information聯邦整合(用于大數據)43分析和報告工具Web應用建模–查詢–交付搜索–分析–可視化VivisimoVelocityInfoSphereFederationHive

(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大數據聯邦解決方案的另一個企業(yè)數據來源聯邦整合(用于大數據)18分析和報告工具建模–查詢–新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”只需幾次單擊,便可在文件/數據庫與BigInsights之間移動數據滿足需求,以便:生成用于個人開發(fā)工作的沙盒用戶界面顯示了一些策略選項,

無需任何編碼即可將它們自動化。基于所選的策略和源系統(tǒng)功能來

利用InfoSphereDataStage和

InfoSphereDataReplication。整合的設計和操作元數據,用于

內置治理

用于大數據的InfoSphereDataClick:敏捷和可控的整合DB2/

ORACLEInfoSphereDataClickBigInsights分析應用數據倉庫轉換/復制分析存儲分析DS/

CDC新用戶以靈活、簡單的方式檢索數據的能力–“只需一次單擊”實時整合(用于大數據)45InfoSphere

數據復制應用程序事務日志高速雙向數據對實時信息的低延遲捕獲分析極大規(guī)模的移動信息每秒TB級數據,每天PB級數據。分析各種信息分析原生格式的各種信息–流音頻、視頻、空間等信息非擴散性的記錄捕獲從事務數據庫日志中讀取數據,將數據分發(fā)給任何目標–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS

消息隊列ETLHadoop系統(tǒng)流系統(tǒng)倉庫實時整合(用于大數據)20InfoSphere

數據復制應用46InfoSphereDataClick實時數據高性能傳遞JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數據倉庫數據及時性,動態(tài)的數據倉庫結合

ETL/ELT優(yōu)化批處理從源到目標更少的時間和處理即使禁止抽取,數據也可以獲取為轉換清洗ETL提供實時的數據降低數據集市的成本21InfoSphereDataClick實時數據高性471stClick2ndClick預選數據源和目標Tab頁上顯示的核對標志表明所需的配置完成復查配置

Execution!!!InfoSphereDataClick–點擊兩下完成數據整合221stClick2ndClick預選數據源和目標復查48頂級性能加速時間價值:

InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel?Xeon?E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel?Xeon?E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel?10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel?Xeon?E55202.27GHzStorageSpace:128TB*

*@4xcompressionratioNetworkCard:Intel?10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespeci

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論