版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大數(shù)據(jù)
PeopleDevicesSensors移動(dòng)互聯(lián)網(wǎng)Mobile
Internet物聯(lián)網(wǎng)InternetofThings1新量級(jí)、新處理模式、新企業(yè)智能大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabase1大數(shù)據(jù)要解決的問題
Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值大數(shù)據(jù)要解決的問題VolumeVarietyStream23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)3SocialMediaMachine/SensorD3大數(shù)據(jù)
帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量4大數(shù)據(jù)帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式44不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)510萬
GB10萬TB需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉庫計(jì)算更快
存儲(chǔ)更省10萬10萬需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉685%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile
7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,
scale-out不易處理時(shí)間過長(zhǎng),
time-to-value受限成本過高,
cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺85%7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),遺憾殘缺7每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存Storing
在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí)(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量8每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存在收8大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索9什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)WordcountHarryPorter
(哈利波特)432,442LordVoldemort
(佛地魔)134,209Dumbledore
(鄧不利多)72,982SeverusSnape
(石內(nèi)圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Word10什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)177.211什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)RDR_S12什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被瀏覽的網(wǎng)頁每筆網(wǎng)絡(luò)交易所經(jīng)歷的每個(gè)程序或系統(tǒng)…….BigFlatFileforfulltextsearch什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Seque13什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Signa14什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Strin15Etu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)處理的平臺(tái)解決方案企業(yè)的資料云
硬件與軟件一體
/儲(chǔ)存與運(yùn)算合一大數(shù)據(jù)
運(yùn)算與儲(chǔ)存,單一架構(gòu)解決EtuApplianceEtu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)1617傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算
+
分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存架構(gòu)計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)靠攏,高效專用存儲(chǔ)模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)Hadoop的特性17傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算+分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存17Hadoop不只是Hadoop18HIVE大數(shù)據(jù)
ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大數(shù)據(jù)App關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴(kuò)充性非線性線性關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量G19連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)Sqoop查詢與整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)20Hive簡(jiǎn)介由Facebook開發(fā)架構(gòu)于Hadoop之上,設(shè)計(jì)用來管理結(jié)構(gòu)化數(shù)據(jù)的中間件以MapReduce為執(zhí)行環(huán)境數(shù)據(jù)儲(chǔ)存于HDFS上Metadata儲(chǔ)存于RDMBS中Hive的設(shè)計(jì)原則采用類SQL語法擴(kuò)充性–Types,Functions,Formats,Scripts性能與平水?dāng)U展能力兼具Hive簡(jiǎn)介由Facebook開發(fā)21Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas22Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ23Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle24傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽日志大部份刪除ETL部份資料傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽25探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析
?促銷活動(dòng)分析
?電子報(bào)效益分析
?用戶瀏覽日志營(yíng)運(yùn)信息數(shù)據(jù)倉庫探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析?用戶瀏2627StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop企業(yè)的Hadoop應(yīng)用策略27StrictlyNDA-MicrosoftCon27應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCustomersWebLogsProductsHDFS應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCust28應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProductsHDFSSalesHistory應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC應(yīng)用三:
歷史數(shù)據(jù)與在線數(shù)據(jù)交互運(yùn)用RDBMSHDFSSales2008Sales2009應(yīng)用四:
利用Hadoop進(jìn)行數(shù)據(jù)匯總
RDBMSWebLogsHDFSWebLogSummary應(yīng)用四:利用Hadoop進(jìn)行數(shù)據(jù)匯總RDBMSWe應(yīng)用五:利用ODBC連結(jié)Excel&HiveExcelHiveAdd-in在線資料
:MSSQLServer歷史資料
:Hive應(yīng)用五:利用ODBC連結(jié)Excel&HiveEx其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommenderRecommendationEngine商品/內(nèi)容關(guān)聯(lián)性分析客戶行為相似性分析客戶海量量瀏覽數(shù)據(jù)客戶交易數(shù)據(jù)其他或第三方資料推薦清單其他應(yīng)用-EtuRecommender
建構(gòu)在Etu33其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)WebServerUserDBProductDBEtuRecommender商品瀏覽日志用戶數(shù)據(jù)產(chǎn)品目錄推薦結(jié)果API其他應(yīng)用-EtuRecommender
建構(gòu)在Etu34其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommender精準(zhǔn)推薦應(yīng)用系統(tǒng)個(gè)人化推薦清單個(gè)人化EDM個(gè)人化賬單百貨零售流通銀行連鎖媒體虛擬通路(在線)實(shí)體通路(線下)結(jié)賬點(diǎn)擊瀏覽搜尋交易購物車推薦清單的運(yùn)用不光只是在線服務(wù)其他應(yīng)用-EtuRecommender
建構(gòu)在Etu35客戶應(yīng)用案例需求上億個(gè)影像圖文件每個(gè)影像圖文件大小約10~20K須集中管理需滿足圖檔的實(shí)時(shí)調(diào)閱與查詢現(xiàn)狀以SANStorage來儲(chǔ)存與管理所有的影像圖文件每個(gè)影像文件以檔案目錄方式來管理以數(shù)據(jù)庫來存放每個(gè)圖像圖文件之特征值(meta-data)與文件路徑,供使用者查詢與搜索SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用
–海量小圖檔管理客戶應(yīng)用案例需求SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其36其他應(yīng)用
–海量小圖檔管理SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序大量的查詢與搜索造成SANStorage接口的效能瓶頸,響應(yīng)時(shí)間太久數(shù)據(jù)庫對(duì)上億條數(shù)據(jù)以上的查詢效能不佳無法支持全文搜索無法支撐大量的關(guān)連性計(jì)算與分析傳統(tǒng)Storage對(duì)儲(chǔ)存巨量小檔案并不合適每日新檔案的導(dǎo)入響應(yīng)時(shí)間太慢其他應(yīng)用–海量小圖檔管理SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程37KeyMetadataObjectFileIDFilename…….….….……….導(dǎo)入EtuAppliance運(yùn)用支巨量資料高平行讀寫和存儲(chǔ)之非關(guān)系數(shù)據(jù)庫,來儲(chǔ)存巨量小圖像圖檔及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作為提供其高可靠性的底層存儲(chǔ)支持圖像文件及其特征值導(dǎo)入應(yīng)用程序應(yīng)用程序應(yīng)用程序支持百億筆資料之高平行查詢其他應(yīng)用
–海量小圖檔管理KeyMetadataObjectFileIDFile38高可靠性線性擴(kuò)展(scale-out),輕易快速擴(kuò)容總持有成本低高并發(fā)與高吞吐率,處理、查詢百億條數(shù)據(jù)沒有問題支持并行計(jì)算框架,可滿足巨量數(shù)據(jù)全文搜索與進(jìn)階數(shù)據(jù)分析的需求巨量存儲(chǔ),提供PB級(jí)以上儲(chǔ)存能立運(yùn)用支持海量資料高平行讀寫和存儲(chǔ)之非關(guān)系形數(shù)據(jù)庫,來儲(chǔ)存巨量小圖像文件及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作提供其高可靠性的底層存儲(chǔ)支持SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用
–海量小圖檔管理高可靠性高并發(fā)與高吞吐率,處理、查詢百億條數(shù)據(jù)沒有問題運(yùn)用支39Hadoop平臺(tái)競(jìng)爭(zhēng)要素HadoopDisruptionVectorsSource:GigaOMPro,2012整合部署存取Hadoop平臺(tái)競(jìng)爭(zhēng)要素HadoopDisruption40延展:公有云等級(jí)的運(yùn)算架構(gòu)可靠:電信等級(jí)的系統(tǒng)質(zhì)量效能:企業(yè)等級(jí)的創(chuàng)新績(jī)效EtuAppliance簡(jiǎn)介
大數(shù)據(jù)
End-to-EndSolutioninaBox儲(chǔ)存與運(yùn)算一體,簡(jiǎn)化與優(yōu)化的優(yōu)勢(shì)機(jī)種:10分鐘內(nèi)可部署100+節(jié)點(diǎn)資料擷取能力1U勝過8U大數(shù)據(jù)
運(yùn)算處理最適化延展:公有云等級(jí)的運(yùn)算架構(gòu)EtuAppliance簡(jiǎn)介
41三種數(shù)據(jù)溫度的整合:Hot/Warm/ColdHotData在線結(jié)構(gòu)化數(shù)據(jù)在線半/非結(jié)構(gòu)化數(shù)據(jù)WarmData在線半/非結(jié)構(gòu)化數(shù)據(jù)ColdData脫機(jī)資料Hadoop-basedSolutionSAN/NAS/Scale-outNASOLTPOLAP三種數(shù)據(jù)溫度的整合:Hot/Warm/ColdHot4243軟硬件整合
管理維運(yùn)功能全自動(dòng)化部署不停機(jī)擴(kuò)充軟硬件全面優(yōu)化中央?yún)布到y(tǒng)管理中央?yún)布到y(tǒng)監(jiān)控完整的高可用性設(shè)計(jì)EtuAppliance主要功能43軟硬件整合管理維運(yùn)功能EtuAppliance主要44MasternodeWorkernodeWorkernodeWorkernodeWorkernodeSwitch(1Gbabove)藉由WorkerNode容易擴(kuò)充的能力可輕易滿足數(shù)據(jù)量成長(zhǎng)的需求最小package1臺(tái)MasterNode+2臺(tái)WorkerNodesEtuAppliance的部屬44MasternodeWorkernodeWorkerEtuAppliance軟件架構(gòu)Katta/LuceneMahoutHBaseHiveQLMapReduceDataProcessingLibHDFSPigDataStoreLayerDataProcessingLayerFlumeApplicationLayer(bySYSTEX)MonitoringLogManagementAccountManagementConfigurationManagementSchedulerHighAvailabilitySearchAPIDataSourceHiveSqoopEtuOSforHadoop(bySYSTEX)EtuAppliance軟件架構(gòu)Katta/Lucene45總結(jié)關(guān)系數(shù)據(jù)庫與Hadoop的連結(jié)是企業(yè)導(dǎo)入Hadoop的重要關(guān)鍵Sqoop及Hive提供企業(yè)延伸信息管理能力及于非結(jié)構(gòu)化信息關(guān)系數(shù)據(jù)庫與Hadoop皆為工具,更重要的是整體的解決方案精誠Etu團(tuán)隊(duì)是您整合SQL與Hadoop的最佳伙伴總結(jié)關(guān)系數(shù)據(jù)庫與Hadoop的連結(jié)是企業(yè)導(dǎo)入Hadoo大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大數(shù)據(jù)
PeopleDevicesSensors移動(dòng)互聯(lián)網(wǎng)Mobile
Internet物聯(lián)網(wǎng)InternetofThings47新量級(jí)、新處理模式、新企業(yè)智能大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabase47大數(shù)據(jù)要解決的問題
Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值大數(shù)據(jù)要解決的問題VolumeVarietyStream4849SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)3SocialMediaMachine/SensorD49大數(shù)據(jù)
帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量50大數(shù)據(jù)帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式450不同“看”數(shù)據(jù)的方式51可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)5110萬
GB10萬TB需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式52數(shù)據(jù)庫數(shù)據(jù)倉庫計(jì)算更快
存儲(chǔ)更省10萬10萬需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉5285%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile
53不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,
scale-out不易處理時(shí)間過長(zhǎng),
time-to-value受限成本過高,
cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺85%7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),遺憾殘缺53每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存Storing
在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí)(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量54每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存在收54大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索55什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)WordcountHarryPorter
(哈利波特)432,442LordVoldemort
(佛地魔)134,209Dumbledore
(鄧不利多)72,982SeverusSnape
(石內(nèi)圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Word56什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)177.257什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)RDR_S58什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被瀏覽的網(wǎng)頁每筆網(wǎng)絡(luò)交易所經(jīng)歷的每個(gè)程序或系統(tǒng)…….BigFlatFileforfulltextsearch什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Seque59什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Signa60什么是大數(shù)據(jù)處理(大數(shù)據(jù)
Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Strin61Etu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)處理的平臺(tái)解決方案企業(yè)的資料云
硬件與軟件一體
/儲(chǔ)存與運(yùn)算合一大數(shù)據(jù)
運(yùn)算與儲(chǔ)存,單一架構(gòu)解決EtuApplianceEtu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)6263傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算
+
分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存架構(gòu)計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)靠攏,高效專用存儲(chǔ)模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)Hadoop的特性17傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算+分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存63Hadoop不只是Hadoop64HIVE大數(shù)據(jù)
ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大數(shù)據(jù)App關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴(kuò)充性非線性線性關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量G65連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)Sqoop查詢與整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)66Hive簡(jiǎn)介由Facebook開發(fā)架構(gòu)于Hadoop之上,設(shè)計(jì)用來管理結(jié)構(gòu)化數(shù)據(jù)的中間件以MapReduce為執(zhí)行環(huán)境數(shù)據(jù)儲(chǔ)存于HDFS上Metadata儲(chǔ)存于RDMBS中Hive的設(shè)計(jì)原則采用類SQL語法擴(kuò)充性–Types,Functions,Formats,Scripts性能與平水?dāng)U展能力兼具Hive簡(jiǎn)介由Facebook開發(fā)67Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas68Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ69Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle70傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽日志大部份刪除ETL部份資料傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽71探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析
?促銷活動(dòng)分析
?電子報(bào)效益分析
?用戶瀏覽日志營(yíng)運(yùn)信息數(shù)據(jù)倉庫探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析?用戶瀏7273StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop企業(yè)的Hadoop應(yīng)用策略27StrictlyNDA-MicrosoftCon73應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCustomersWebLogsProductsHDFS應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCust74應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProductsHDFSSalesHistory應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC應(yīng)用三:
歷史數(shù)據(jù)與在線數(shù)據(jù)交互運(yùn)用RDBMSHDFSSales2008Sales2009應(yīng)用四:
利用Hadoop進(jìn)行數(shù)據(jù)匯總
RDBMSWebLogsHDFSWebLogSummary應(yīng)用四:利用Hadoop進(jìn)行數(shù)據(jù)匯總RDBMSWe應(yīng)用五:利用ODBC連結(jié)Excel&HiveExcelHiveAdd-in在線資料
:MSSQLServer歷史資料
:Hive應(yīng)用五:利用ODBC連結(jié)Excel&HiveEx其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommenderRecommendationEngine商品/內(nèi)容關(guān)聯(lián)性分析客戶行為相似性分析客戶海量量瀏覽數(shù)據(jù)客戶交易數(shù)據(jù)其他或第三方資料推薦清單其他應(yīng)用-EtuRecommender
建構(gòu)在Etu79其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)WebServerUserDBProductDBEtuRecommender商品瀏覽日志用戶數(shù)據(jù)產(chǎn)品目錄推薦結(jié)果API其他應(yīng)用-EtuRecommender
建構(gòu)在Etu80其他應(yīng)用-EtuRecommender
建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommender精準(zhǔn)推薦應(yīng)用系統(tǒng)個(gè)人化推薦清單個(gè)人化EDM個(gè)人化賬單百貨零售流通銀行連鎖媒體虛擬通路(在線)實(shí)體通路(線下)結(jié)賬點(diǎn)擊瀏覽搜尋交易購物車推薦清單的運(yùn)用不光只是在線服務(wù)其他應(yīng)用-EtuRecommender
建構(gòu)在Etu81客戶應(yīng)用案例需求上億個(gè)影像圖文件每個(gè)影像圖文件大小約10~20K須集中管理需滿足圖檔的實(shí)時(shí)調(diào)閱與查詢現(xiàn)狀以SANStorage來儲(chǔ)存與管理所有的影像圖文件每個(gè)影像文件以檔案目錄方式來管理以數(shù)據(jù)庫來存放每個(gè)圖像圖文件之特征值(meta-data)與文件路徑,供使用者查詢與搜索SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用
–海量小圖檔管理客戶應(yīng)用案例需求SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其82其他應(yīng)用
–海量小圖檔管理SANStorageDB應(yīng)用程序應(yīng)用程序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度購車環(huán)保補(bǔ)貼申請(qǐng)合同3篇
- 二零二五版電子商務(wù)支付平臺(tái)跨境支付合規(guī)審查合同3篇
- 二零二五年貨車駕駛員駕駛技能考核及評(píng)價(jià)合同3篇
- 二零二五版房產(chǎn)抵押合同變更及合同履行監(jiān)督協(xié)議6篇
- 二零二五版酒店物業(yè)管理安保保潔服務(wù)全面承包合同3篇
- 二零二五版高空作業(yè)安全協(xié)議書-高空雨棚安全檢測(cè)與維護(hù)合同3篇
- 二零二五年度空壓機(jī)租賃與能源管理優(yōu)化合同3篇
- 二零二五版人工智能企業(yè)股權(quán)整合與行業(yè)應(yīng)用開發(fā)合同3篇
- 二零二五年度會(huì)議禮品定制及贈(zèng)送服務(wù)合同范本3篇
- 二零二五年度特種防盜門制造與銷售承攬合同范本3篇
- 氣胸病人的護(hù)理幻燈片
- JTS-167-2-2009重力式碼頭設(shè)計(jì)與施工規(guī)范
- DBJ-T15-81-2022 建筑混凝土結(jié)構(gòu)耐火設(shè)計(jì)技術(shù)規(guī)程
- GB/T 22849-2024針織T恤衫
- 山東省淄博市2023-2024學(xué)年高二上學(xué)期教學(xué)質(zhì)量檢測(cè)化學(xué)試題
- 人工智能在電影與影視制作中的創(chuàng)新與效果提升
- 新生兒腸絞痛的課件
- 酒店民宿自媒體營(yíng)銷策劃
- 消除母嬰傳播培訓(xùn)課件
- 包裝過程質(zhì)量控制
- 通用電子嘉賓禮薄
評(píng)論
0/150
提交評(píng)論