大數(shù)據(jù)成功關(guān)鍵_第1頁(yè)
大數(shù)據(jù)成功關(guān)鍵_第2頁(yè)
大數(shù)據(jù)成功關(guān)鍵_第3頁(yè)
大數(shù)據(jù)成功關(guān)鍵_第4頁(yè)
大數(shù)據(jù)成功關(guān)鍵_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)成功關(guān)鍵大數(shù)據(jù)成功關(guān)鍵 - - 高效地實(shí)現(xiàn)大數(shù)據(jù)的移動(dòng)高效地實(shí)現(xiàn)大數(shù)據(jù)的移動(dòng)劉春霞IBM軟件部資深信息整合顧問3InfoSphere:維護(hù)信息供應(yīng)鏈信息治理信息治理治理治理質(zhì)量質(zhì)量安全和隱私安全和隱私生命周期生命周期標(biāo)準(zhǔn)標(biāo)準(zhǔn)事務(wù)和協(xié)作應(yīng)用事務(wù)和協(xié)作應(yīng)用業(yè)務(wù)分析應(yīng)用業(yè)務(wù)分析應(yīng)用外部信息源外部信息源分析分析整合整合管理管理多維數(shù)據(jù)集流流大數(shù)據(jù)大數(shù)據(jù)主數(shù)據(jù)主數(shù)據(jù)內(nèi)容內(nèi)容數(shù)據(jù)數(shù)據(jù)流信息流信息數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容分析內(nèi)容分析Thirst for Information可靠信息移可靠信息移動(dòng)動(dòng)的速度的速度 敏捷用戶想要快速地訪問數(shù)據(jù),幾分鐘內(nèi)和小時(shí)級(jí)內(nèi)(如自主的數(shù)據(jù)整合)對(duì)對(duì)分析的需求分析的需求兩者

2、都需要!兩者都需要! 權(quán)威性 在一個(gè)流程框架內(nèi)內(nèi)的可靠信息避免信息冗余需要敏捷和可靠的數(shù)據(jù)訪問任何數(shù)據(jù)到大數(shù)據(jù)任何數(shù)據(jù)到大數(shù)據(jù)大數(shù)據(jù)到任何數(shù)據(jù)大數(shù)據(jù)到任何數(shù)據(jù)大數(shù)據(jù)中心大數(shù)據(jù)中心批量數(shù)據(jù)整合(用于大數(shù)據(jù))任何數(shù)據(jù)ETL / ELTETL / ELTELT加載獲益加載獲益利用探索性分析方法最佳性能/最小批處理窗口和實(shí)時(shí)流數(shù)據(jù)提取獲益提取獲益從多種來源提取數(shù)據(jù):機(jī)器數(shù)據(jù)、社交數(shù)據(jù)、多結(jié)構(gòu)成熟的整合工具,更高的生產(chǎn)力數(shù)據(jù)中心獲益數(shù)據(jù)中心獲益以大數(shù)據(jù)形式產(chǎn)生和分析的數(shù)據(jù) 從不清除用于完成大數(shù)據(jù)運(yùn)行時(shí)內(nèi)的工作的圖形工具將現(xiàn)有的企業(yè)數(shù)據(jù)引入一個(gè)探索性分析平臺(tái)將社交數(shù)據(jù)和機(jī)器數(shù)據(jù)引入一個(gè)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)自動(dòng)

3、化一個(gè)低成本數(shù)據(jù)暫存區(qū)域的工具對(duì)數(shù)據(jù)的推送處理(不是其他方法)BigInsightsHadoopInfoSphere BigInsights 的批量數(shù)據(jù)整合集市集市 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)倉(cāng)庫(kù)倉(cāng)庫(kù)集市集市DataStage數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)FilesFiles文件文件并行并行寫入寫入DataStage子集子集并行并行讀取讀取細(xì)節(jié)和細(xì)節(jié)和摘要摘要與大數(shù)據(jù)來源交換信息將企業(yè)信息轉(zhuǎn)移到大數(shù)據(jù)來源,使它可包含在分析中獲取 Hadoop 的分析結(jié)果,并將它們應(yīng)用于其他 IT 解決方案并行性和規(guī)模對(duì) HDFS 的支持通過信息服務(wù)器并行引擎提供了大規(guī)??缮炜s性作業(yè)血統(tǒng)與大洞察來源/目標(biāo)步驟使用信息服務(wù)器中的擴(kuò)展性功能大

4、數(shù)據(jù)文件組件使用 BDFS 作為來源 BDFS 引入了新來源選項(xiàng) Namenode Cluster Host 和 Port BDFS 可并行讀取文件模式 BDFS 可使用 Readers 選項(xiàng)并行讀取單個(gè)文件BDFS 數(shù)據(jù)流程圖名稱節(jié)點(diǎn)名稱節(jié)點(diǎn)文件請(qǐng)求文件請(qǐng)求BDFS數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)節(jié)點(diǎn)BDFS數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)PXPXBDFS 使用多個(gè)讀取器流程并行化 HDFS 讀取InfoSphere DataStage使用 BDFS 作為目標(biāo) BDFS 引入了新的目標(biāo)選項(xiàng) Namenode Cluster Host 和 Port BDFS 通常寫入單個(gè)文件 BDFS 能夠并行寫入多個(gè)文件BDFS 示例 客戶情

5、緒傾向性分析作業(yè)可以通過分析電子郵件在 InfoSphere BigInsights 中執(zhí)行??蛻羟榫w傾向性摘要將被更新到倉(cāng)庫(kù)中。InfoSphere DataStage 作業(yè)將挑選信息并更新數(shù)據(jù)倉(cāng)庫(kù)(使用 SCD 階段的客戶維度)可執(zhí)行基于分類的電子郵件的風(fēng)險(xiǎn)識(shí)別??梢詫㈦娮余]件分類為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)。分析作業(yè)輸出分析作業(yè)輸出風(fēng)險(xiǎn)分類風(fēng)險(xiǎn)分類12BDFS:可擴(kuò)展性和性能Information Server Big data integrationDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(

6、R) CPU E7- 4870 2.40GHzStorage: 1TB BigInsights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 3.07GHzMemory: 48GBStorage: 4TB13Information Server Big data integration- 讀寫都具有近線性的可擴(kuò)展能力- 最高可達(dá)5.2 TB/小時(shí)- DataStage節(jié)點(diǎn)翻倍,處理效率翻倍直至磁盤資源全部占用BDFS:可擴(kuò)展性和性能平衡的優(yōu)化 從

7、DataStage 生成 Hadoop MapReduce 作業(yè) 使用 DataStage Design 流程生成 ETL 作業(yè) 使用 Balanced Optimization 將其編譯為在 BigInsights 上運(yùn)行。 將支持 完全下推 Hadoop 內(nèi)的所有處理(如果可能) 混合下推 內(nèi)部的一些處理和外部剩余處理,具體取決于來源和目標(biāo)15通過Information Server和Hadoop 數(shù)據(jù)文件系統(tǒng) (HDFS)的 整合,強(qiáng)化了IBM在大數(shù)據(jù)的領(lǐng)導(dǎo)地位通過 Job Sequencer 對(duì) Big Insights 和其他 MapReduce 作業(yè)進(jìn)行編程調(diào)用,結(jié)合 DataSt

8、age 和 Hadoop 實(shí)現(xiàn)端到端工作流。利用設(shè)計(jì)器用戶界面和標(biāo)準(zhǔn)階段結(jié)構(gòu)來生成 MapReduce 作業(yè),為用戶提供處理 BigData 來源的能力,可以使用 Hadoop 更高效地處理這些來源。實(shí)現(xiàn) InfoSphere DataStage 和 InfoSphere Streams 之間的直接數(shù)據(jù)流整合,結(jié)合兩個(gè)平臺(tái)的強(qiáng)大功能和應(yīng)用范圍通過所有用例提供豐富元數(shù)據(jù)支持。自動(dòng)化的大數(shù)據(jù)作業(yè)生成從 DataStage 調(diào)用 Oozie 工作流 Oozie 是 Hadoop 中的一個(gè)工作流計(jì)劃引擎 Oozie 提供了一個(gè) Java API 來調(diào)用 Oozie 工作流 調(diào)用者是 Oozie 客戶端

9、 DS 可充當(dāng) Oozie 客戶端 使用 Oozie API,我們構(gòu)建了一個(gè) Oozie 調(diào)用者模塊 該模塊是同步的 成功執(zhí)行工作流時(shí)返回 1 發(fā)生錯(cuò)誤時(shí)返回 0 作業(yè)調(diào)度程序有一個(gè)執(zhí)行命令階段 Oozie 調(diào)用者模塊從執(zhí)行命令階段執(zhí)行 使用返回代碼在發(fā)生錯(cuò)誤時(shí)放棄作業(yè)序列序列序列InfoSphere Streams-Information Server 連接器1) 用戶希望向現(xiàn)有 DataStage 作業(yè)添加 Streams 分析2) 用戶希望向現(xiàn)有 Streams 應(yīng)用添加 DataStage 處理3) 從頭創(chuàng)建一個(gè) DataStage 作業(yè)和 Streams 應(yīng)用。這些整合可能具有以下數(shù)

10、據(jù)流: DataStage - Streams DataStage - Streams - DataStage Streams - DataStage聯(lián)邦整合(用于大數(shù)據(jù))18分析和報(bào)告工具Web 應(yīng)用建模建模 查詢查詢 交付交付搜索搜索 分析分析 可視化可視化Vivisimo VelocityInfoSphere FederationHive(odbc)InfoSphere Database Federation 可能可能是是 IBM Vivisimo 等大數(shù)據(jù)聯(lián)邦解決方等大數(shù)據(jù)聯(lián)邦解決方案的另一個(gè)企業(yè)數(shù)據(jù)來源案的另一個(gè)企業(yè)數(shù)據(jù)來源新用戶新用戶以靈活靈活、簡(jiǎn)單的方式檢索數(shù)據(jù)的能力 “只需一次

11、單擊”只需幾次單擊,便可在文件/數(shù)據(jù)庫(kù)與 BigInsights 之間移動(dòng)數(shù)據(jù)滿足需求,以便:生成用于個(gè)人開發(fā)工作的沙盒用戶界面顯示了一些策略策略選項(xiàng),無需任何編碼即可將它們自動(dòng)化?;谒x的策略和源系統(tǒng)功能來利用 InfoSphere DataStage 和 InfoSphere Data Replication。整合的設(shè)計(jì)和操作元數(shù)據(jù),用于內(nèi)置治理內(nèi)置治理 用于大數(shù)據(jù)的 InfoSphere Data Click:敏捷和可控的整合DB2/ORACLEInfoSphere Data ClickBigInsights分析應(yīng)用分析應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)換轉(zhuǎn)換/復(fù)制復(fù)制分析存儲(chǔ)分析存儲(chǔ)分析分析DS

12、/CDC實(shí)時(shí)整合(用于大數(shù)據(jù))20InfoSphere數(shù)據(jù)復(fù)制數(shù)據(jù)復(fù)制應(yīng)用程序事務(wù)日志高速雙向數(shù)據(jù)高速雙向數(shù)據(jù)對(duì)實(shí)時(shí)信息的低延遲捕獲分析極大規(guī)模的移動(dòng)信息分析極大規(guī)模的移動(dòng)信息每秒 TB 級(jí)數(shù)據(jù),每天 PB 級(jí)數(shù)據(jù)。分析各種信息分析各種信息分析原生格式的各種信息 流音頻、視頻、空間等信息非擴(kuò)散性的記錄捕獲非擴(kuò)散性的記錄捕獲從事務(wù)數(shù)據(jù)庫(kù)日志中讀取數(shù)據(jù),將數(shù)據(jù)分發(fā)給任何目標(biāo) 包括 Big Data Streams、ETL for Warehouses 或 Big Insights RDBMS 消息隊(duì)列ETLHadoop 系統(tǒng)流系統(tǒng)倉(cāng)庫(kù)21InfoSphere Data Click 實(shí)時(shí)數(shù)據(jù)高性能傳

13、遞Journal LogRedo/Archive LogsSource EngineAnd MetadataTarget EngineAnd MetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)及時(shí)性, 動(dòng)態(tài)的數(shù)據(jù)倉(cāng)庫(kù)結(jié)合 ETL/ELT優(yōu)化批處理從源到目標(biāo)更少的時(shí)間和處理即使禁止抽取,數(shù)據(jù)也可以獲取為轉(zhuǎn)換清洗ETL提供實(shí)時(shí)的數(shù)據(jù)降低數(shù)據(jù)集市的成本221st Click2nd Click預(yù)選數(shù)據(jù)源和目標(biāo)Tab頁(yè)上顯示的核對(duì)標(biāo)志表明所需的配置完成復(fù)查配置 Execution!InfoSphere Data Click 點(diǎn)擊兩下完成數(shù)據(jù)整合23頂

14、級(jí)性能加速時(shí)間價(jià)值:Information Server高速的Netezza ConnectorInfoSphere Information Server (Intel Xeon E7-4870)OS: Red Hat EL 5.3 x86-64Processor Type: Intel Xeon E7- 4870, 40 cores/80 threadsProcessor Speed: 2.4GHZMemory Size: 1 TB RAMDisk Space: 2 TB total disk spaceNetwork Card: Intel10 Gigabit CX4 IBM Netezz

15、a 1000-12 Appliance (TwinFin-12)12 S-Blades96 CPU coresProcessor: Intel Xeon E5520 2.27GHz Storage Space: 128 TB* * 4x compression ratio Network Card: Intel10 Gigabit CX463 writer option enabled 10G EthernetNetezzaAll performance data was obtained in the specific operating environment and under the

16、conditions shown and is presented as an illustration only. Performance obtained in other operating environments may vary, and customers should conduct their own testing.卸載速度= 2.58 TB / hour加載速度= 2.38 TB / hour24大數(shù)據(jù)清洗(驗(yàn)證、充實(shí)和匹配)對(duì)傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)對(duì)傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的統(tǒng)一和整合訪問的統(tǒng)一和整合訪問驗(yàn)證、標(biāo)準(zhǔn)化、驗(yàn)證、標(biāo)準(zhǔn)化、充實(shí)和匹配數(shù)據(jù)充實(shí)和匹配數(shù)據(jù)值得信任的數(shù)值得信任的數(shù)

17、據(jù)存儲(chǔ)實(shí)現(xiàn)了據(jù)存儲(chǔ)實(shí)現(xiàn)了整體視圖整體視圖業(yè)務(wù)業(yè)務(wù)洞察洞察事務(wù)數(shù)據(jù)傳統(tǒng)應(yīng)用源社會(huì)網(wǎng)絡(luò)視頻和照片整合數(shù)據(jù)質(zhì)量倉(cāng)庫(kù)風(fēng)險(xiǎn)儀表板流計(jì)算Information Server 提供市場(chǎng)上最全面的提供市場(chǎng)上最全面的數(shù)據(jù)集成和數(shù)據(jù)管理解決方案數(shù)據(jù)集成和數(shù)據(jù)管理解決方案獨(dú)特優(yōu)勢(shì)獨(dú)特優(yōu)勢(shì)Business/IT collaboration on data quality objectives Automated business / IT collaboration Establish framework for metadata lineageUnderstand your data Includes automa

18、ted data discoveryCleanse and validate data Highest performance tools in the marketMonitor data quality Only solution offering real time / in-flight data validation and monitoringFlexibility SOA enabled Breadth of supported sources and targets優(yōu)點(diǎn)優(yōu)點(diǎn)Lowest Total Cost of Ownership (TCO) Enables shared services and centralized rule management Provides a sh

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論