大數(shù)據(jù)方案與案例 課件_第1頁
大數(shù)據(jù)方案與案例 課件_第2頁
大數(shù)據(jù)方案與案例 課件_第3頁
大數(shù)據(jù)方案與案例 課件_第4頁
大數(shù)據(jù)方案與案例 課件_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大數(shù)據(jù)

PeopleDevicesSensors移動(dòng)互聯(lián)網(wǎng)Mobile

Internet物聯(lián)網(wǎng)InternetofThings1新量級(jí)、新處理模式、新企業(yè)智能大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabase1大數(shù)據(jù)要解決的問題

Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值大數(shù)據(jù)要解決的問題VolumeVarietyStream23SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)3SocialMediaMachine/SensorD3大數(shù)據(jù)

帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量4大數(shù)據(jù)帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式44不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)510萬

GB10萬TB需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉庫計(jì)算更快

存儲(chǔ)更省10萬10萬需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉685%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,

scale-out不易處理時(shí)間過長(zhǎng),

time-to-value受限成本過高,

cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺85%7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),遺憾殘缺7每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存Storing

在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí)(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量8每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存在收8大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索9什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)WordcountHarryPorter

(哈利波特)432,442LordVoldemort

(佛地魔)134,209Dumbledore

(鄧不利多)72,982SeverusSnape

(石內(nèi)圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Word10什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)177.211什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)RDR_S12什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被瀏覽的網(wǎng)頁每筆網(wǎng)絡(luò)交易所經(jīng)歷的每個(gè)程序或系統(tǒng)…….BigFlatFileforfulltextsearch什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Seque13什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Signa14什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Strin15Etu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)處理的平臺(tái)解決方案企業(yè)的資料云

硬件與軟件一體

/儲(chǔ)存與運(yùn)算合一大數(shù)據(jù)

運(yùn)算與儲(chǔ)存,單一架構(gòu)解決EtuApplianceEtu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)1617傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算

+

分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存架構(gòu)計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)靠攏,高效專用存儲(chǔ)模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)Hadoop的特性17傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算+分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存17Hadoop不只是Hadoop18HIVE大數(shù)據(jù)

ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大數(shù)據(jù)App關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴(kuò)充性非線性線性關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量G19連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)Sqoop查詢與整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)20Hive簡(jiǎn)介由Facebook開發(fā)架構(gòu)于Hadoop之上,設(shè)計(jì)用來管理結(jié)構(gòu)化數(shù)據(jù)的中間件以MapReduce為執(zhí)行環(huán)境數(shù)據(jù)儲(chǔ)存于HDFS上Metadata儲(chǔ)存于RDMBS中Hive的設(shè)計(jì)原則采用類SQL語法擴(kuò)充性–Types,Functions,Formats,Scripts性能與平水?dāng)U展能力兼具Hive簡(jiǎn)介由Facebook開發(fā)21Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas22Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ23Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle24傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽日志大部份刪除ETL部份資料傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽25探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析

?促銷活動(dòng)分析

?電子報(bào)效益分析

?用戶瀏覽日志營(yíng)運(yùn)信息數(shù)據(jù)倉庫探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析?用戶瀏2627StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop企業(yè)的Hadoop應(yīng)用策略27StrictlyNDA-MicrosoftCon27應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCustomersWebLogsProductsHDFS應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCust28應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProductsHDFSSalesHistory應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC應(yīng)用三:

歷史數(shù)據(jù)與在線數(shù)據(jù)交互運(yùn)用RDBMSHDFSSales2008Sales2009應(yīng)用四:

利用Hadoop進(jìn)行數(shù)據(jù)匯總

RDBMSWebLogsHDFSWebLogSummary應(yīng)用四:利用Hadoop進(jìn)行數(shù)據(jù)匯總RDBMSWe應(yīng)用五:利用ODBC連結(jié)Excel&HiveExcelHiveAdd-in在線資料

:MSSQLServer歷史資料

:Hive應(yīng)用五:利用ODBC連結(jié)Excel&HiveEx其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommenderRecommendationEngine商品/內(nèi)容關(guān)聯(lián)性分析客戶行為相似性分析客戶海量量瀏覽數(shù)據(jù)客戶交易數(shù)據(jù)其他或第三方資料推薦清單其他應(yīng)用-EtuRecommender

建構(gòu)在Etu33其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)WebServerUserDBProductDBEtuRecommender商品瀏覽日志用戶數(shù)據(jù)產(chǎn)品目錄推薦結(jié)果API其他應(yīng)用-EtuRecommender

建構(gòu)在Etu34其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommender精準(zhǔn)推薦應(yīng)用系統(tǒng)個(gè)人化推薦清單個(gè)人化EDM個(gè)人化賬單百貨零售流通銀行連鎖媒體虛擬通路(在線)實(shí)體通路(線下)結(jié)賬點(diǎn)擊瀏覽搜尋交易購物車推薦清單的運(yùn)用不光只是在線服務(wù)其他應(yīng)用-EtuRecommender

建構(gòu)在Etu35客戶應(yīng)用案例需求上億個(gè)影像圖文件每個(gè)影像圖文件大小約10~20K須集中管理需滿足圖檔的實(shí)時(shí)調(diào)閱與查詢現(xiàn)狀以SANStorage來儲(chǔ)存與管理所有的影像圖文件每個(gè)影像文件以檔案目錄方式來管理以數(shù)據(jù)庫來存放每個(gè)圖像圖文件之特征值(meta-data)與文件路徑,供使用者查詢與搜索SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用

–海量小圖檔管理客戶應(yīng)用案例需求SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其36其他應(yīng)用

–海量小圖檔管理SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序大量的查詢與搜索造成SANStorage接口的效能瓶頸,響應(yīng)時(shí)間太久數(shù)據(jù)庫對(duì)上億條數(shù)據(jù)以上的查詢效能不佳無法支持全文搜索無法支撐大量的關(guān)連性計(jì)算與分析傳統(tǒng)Storage對(duì)儲(chǔ)存巨量小檔案并不合適每日新檔案的導(dǎo)入響應(yīng)時(shí)間太慢其他應(yīng)用–海量小圖檔管理SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程37KeyMetadataObjectFileIDFilename…….….….……….導(dǎo)入EtuAppliance運(yùn)用支巨量資料高平行讀寫和存儲(chǔ)之非關(guān)系數(shù)據(jù)庫,來儲(chǔ)存巨量小圖像圖檔及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作為提供其高可靠性的底層存儲(chǔ)支持圖像文件及其特征值導(dǎo)入應(yīng)用程序應(yīng)用程序應(yīng)用程序支持百億筆資料之高平行查詢其他應(yīng)用

–海量小圖檔管理KeyMetadataObjectFileIDFile38高可靠性線性擴(kuò)展(scale-out),輕易快速擴(kuò)容總持有成本低高并發(fā)與高吞吐率,處理、查詢百億條數(shù)據(jù)沒有問題支持并行計(jì)算框架,可滿足巨量數(shù)據(jù)全文搜索與進(jìn)階數(shù)據(jù)分析的需求巨量存儲(chǔ),提供PB級(jí)以上儲(chǔ)存能立運(yùn)用支持海量資料高平行讀寫和存儲(chǔ)之非關(guān)系形數(shù)據(jù)庫,來儲(chǔ)存巨量小圖像文件及其特征值,一次打通所有效能瓶頸利用內(nèi)建分布式文件系統(tǒng)作提供其高可靠性的底層存儲(chǔ)支持SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用

–海量小圖檔管理高可靠性高并發(fā)與高吞吐率,處理、查詢百億條數(shù)據(jù)沒有問題運(yùn)用支39Hadoop平臺(tái)競(jìng)爭(zhēng)要素HadoopDisruptionVectorsSource:GigaOMPro,2012整合部署存取Hadoop平臺(tái)競(jìng)爭(zhēng)要素HadoopDisruption40延展:公有云等級(jí)的運(yùn)算架構(gòu)可靠:電信等級(jí)的系統(tǒng)質(zhì)量效能:企業(yè)等級(jí)的創(chuàng)新績(jī)效EtuAppliance簡(jiǎn)介

大數(shù)據(jù)

End-to-EndSolutioninaBox儲(chǔ)存與運(yùn)算一體,簡(jiǎn)化與優(yōu)化的優(yōu)勢(shì)機(jī)種:10分鐘內(nèi)可部署100+節(jié)點(diǎn)資料擷取能力1U勝過8U大數(shù)據(jù)

運(yùn)算處理最適化延展:公有云等級(jí)的運(yùn)算架構(gòu)EtuAppliance簡(jiǎn)介

41三種數(shù)據(jù)溫度的整合:Hot/Warm/ColdHotData在線結(jié)構(gòu)化數(shù)據(jù)在線半/非結(jié)構(gòu)化數(shù)據(jù)WarmData在線半/非結(jié)構(gòu)化數(shù)據(jù)ColdData脫機(jī)資料Hadoop-basedSolutionSAN/NAS/Scale-outNASOLTPOLAP三種數(shù)據(jù)溫度的整合:Hot/Warm/ColdHot4243軟硬件整合

管理維運(yùn)功能全自動(dòng)化部署不停機(jī)擴(kuò)充軟硬件全面優(yōu)化中央?yún)布到y(tǒng)管理中央?yún)布到y(tǒng)監(jiān)控完整的高可用性設(shè)計(jì)EtuAppliance主要功能43軟硬件整合管理維運(yùn)功能EtuAppliance主要44MasternodeWorkernodeWorkernodeWorkernodeWorkernodeSwitch(1Gbabove)藉由WorkerNode容易擴(kuò)充的能力可輕易滿足數(shù)據(jù)量成長(zhǎng)的需求最小package1臺(tái)MasterNode+2臺(tái)WorkerNodesEtuAppliance的部屬44MasternodeWorkernodeWorkerEtuAppliance軟件架構(gòu)Katta/LuceneMahoutHBaseHiveQLMapReduceDataProcessingLibHDFSPigDataStoreLayerDataProcessingLayerFlumeApplicationLayer(bySYSTEX)MonitoringLogManagementAccountManagementConfigurationManagementSchedulerHighAvailabilitySearchAPIDataSourceHiveSqoopEtuOSforHadoop(bySYSTEX)EtuAppliance軟件架構(gòu)Katta/Lucene45總結(jié)關(guān)系數(shù)據(jù)庫與Hadoop的連結(jié)是企業(yè)導(dǎo)入Hadoop的重要關(guān)鍵Sqoop及Hive提供企業(yè)延伸信息管理能力及于非結(jié)構(gòu)化信息關(guān)系數(shù)據(jù)庫與Hadoop皆為工具,更重要的是整體的解決方案精誠Etu團(tuán)隊(duì)是您整合SQL與Hadoop的最佳伙伴總結(jié)關(guān)系數(shù)據(jù)庫與Hadoop的連結(jié)是企業(yè)導(dǎo)入Hadoo大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabaseSpreadsheetFileinrecordformatSemi-structuredXMLDocsLogsClick-streamEquipment/Device,RFIDtagUnstructuredWebPagesE-mailMultimediaInstantMessagesDocuments大數(shù)據(jù)

PeopleDevicesSensors移動(dòng)互聯(lián)網(wǎng)Mobile

Internet物聯(lián)網(wǎng)InternetofThings47新量級(jí)、新處理模式、新企業(yè)智能大數(shù)據(jù)(大數(shù)據(jù))時(shí)代來臨StructuredDatabase47大數(shù)據(jù)要解決的問題

Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)巨大的數(shù)據(jù)價(jià)值大數(shù)據(jù)要解決的問題VolumeVarietyStream4849SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)3SocialMediaMachine/SensorD49大數(shù)據(jù)

帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式不同的數(shù)據(jù)管理策略超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量50大數(shù)據(jù)帶來的挑戰(zhàn)不同“看”數(shù)據(jù)的方式450不同“看”數(shù)據(jù)的方式51可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)構(gòu)化數(shù)據(jù)85%DB/DW主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…不同“看”數(shù)據(jù)的方式5可視:結(jié)構(gòu)化資料15%未視:半/非結(jié)5110萬

GB10萬TB需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式52數(shù)據(jù)庫數(shù)據(jù)倉庫計(jì)算更快

存儲(chǔ)更省10萬10萬需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲(chǔ)存方式6數(shù)據(jù)庫數(shù)據(jù)倉5285%半/非結(jié)構(gòu)化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile

53不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),才發(fā)覺:架構(gòu)只能scale-up,

scale-out不易處理時(shí)間過長(zhǎng),

time-to-value受限成本過高,

cost-efficiency受限15%結(jié)構(gòu)化的DB/DW遺憾殘缺85%7不同的數(shù)據(jù)管理策略當(dāng)我們想要擴(kuò)充時(shí),遺憾殘缺53每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存Storing

在收數(shù)據(jù)的同時(shí)做必要的前置處理(pre-processing),并區(qū)分?jǐn)?shù)據(jù)處理的優(yōu)先等級(jí)(prioritizing)計(jì)算Processing如何有效的避免因硬件毀壞所導(dǎo)致的資料損毀管理Managing如何從中挖掘出所關(guān)注事件的pattern或behavior分析Analyzing超越企業(yè)現(xiàn)有IT的數(shù)據(jù)解決能量54每天幾百GB、幾TB的資料,且持續(xù)成長(zhǎng)中儲(chǔ)存在收54大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)的儲(chǔ)存與處理/運(yùn)算大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索55什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)WordcountHarryPorter

(哈利波特)432,442LordVoldemort

(佛地魔)134,209Dumbledore

(鄧不利多)72,982SeverusSnape

(石內(nèi)圤)28,252……...……………..Logfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Word56什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)177.257什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)RDR_S58什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)SequenceDe-Normalize0--[15/Nov/2011:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"http:///flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/2011:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/2011:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"http:///flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/20070223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被瀏覽的網(wǎng)頁每筆網(wǎng)絡(luò)交易所經(jīng)歷的每個(gè)程序或系統(tǒng)…….BigFlatFileforfulltextsearch什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Seque59什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Signa60什么是大數(shù)據(jù)處理(大數(shù)據(jù)

Processing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse什么是大數(shù)據(jù)處理(大數(shù)據(jù)Processing)Strin61Etu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)檢索數(shù)據(jù)分析數(shù)據(jù)展現(xiàn)分布式軟件架構(gòu)并行計(jì)算框架分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)大數(shù)據(jù)處理的平臺(tái)解決方案企業(yè)的資料云

硬件與軟件一體

/儲(chǔ)存與運(yùn)算合一大數(shù)據(jù)

運(yùn)算與儲(chǔ)存,單一架構(gòu)解決EtuApplianceEtu知意圖的大數(shù)據(jù)解決方案大數(shù)據(jù)儲(chǔ)存大數(shù)據(jù)處理數(shù)據(jù)分享數(shù)據(jù)6263傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算

+

分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存架構(gòu)計(jì)算與存儲(chǔ)一體,計(jì)算向數(shù)據(jù)靠攏,高效專用存儲(chǔ)模式為程序員屏蔽通性、并發(fā)、同步與一致性等問題任務(wù)之間無依賴(share-nothing),具有高系統(tǒng)延展性(scale-out)Hadoop的特性17傳統(tǒng)并行計(jì)算架構(gòu)并行計(jì)算+分布式存儲(chǔ)運(yùn)算儲(chǔ)存?zhèn)鹘y(tǒng)儲(chǔ)存63Hadoop不只是Hadoop64HIVE大數(shù)據(jù)

ApplicationsPig!ZooKeeperSQLRAWHadoop不只是Hadoop18HIVE大數(shù)據(jù)App關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量GB->TBTB->PB存取方式交互式與批次批次數(shù)據(jù)更新多次讀寫一次寫,多次讀數(shù)據(jù)結(jié)構(gòu)固定schema無schema資料一致性高(ACID)低擴(kuò)充性非線性線性關(guān)系數(shù)據(jù)庫vsHadoop關(guān)系數(shù)據(jù)庫Hadoop資料量G65連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)Sqoop查詢與整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)連結(jié)關(guān)系數(shù)據(jù)庫與Hadoop匯入與導(dǎo)出數(shù)據(jù)66Hive簡(jiǎn)介由Facebook開發(fā)架構(gòu)于Hadoop之上,設(shè)計(jì)用來管理結(jié)構(gòu)化數(shù)據(jù)的中間件以MapReduce為執(zhí)行環(huán)境數(shù)據(jù)儲(chǔ)存于HDFS上Metadata儲(chǔ)存于RDMBS中Hive的設(shè)計(jì)原則采用類SQL語法擴(kuò)充性–Types,Functions,Formats,Scripts性能與平水?dāng)U展能力兼具Hive簡(jiǎn)介由Facebook開發(fā)67Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJobHive–SQLlikeHadoopDatabas68Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasksSqoop–SQLtoHadoopJDBCJDBCJ69Sqoop支援的RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQLSqoop支援的RDMBSOracle70傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽日志大部份刪除ETL部份資料傳統(tǒng)的數(shù)據(jù)處理流程營(yíng)運(yùn)信息新用戶新訂單新產(chǎn)品數(shù)據(jù)倉庫用戶瀏覽71探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析

?促銷活動(dòng)分析

?電子報(bào)效益分析

?用戶瀏覽日志營(yíng)運(yùn)信息數(shù)據(jù)倉庫探索式的數(shù)據(jù)處理流程新用戶新訂單新產(chǎn)品廣告效益分析?用戶瀏7273StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非結(jié)構(gòu)化數(shù)據(jù)源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics結(jié)構(gòu)化數(shù)據(jù)源Hadoop企業(yè)的Hadoop應(yīng)用策略27StrictlyNDA-MicrosoftCon73應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCustomersWebLogsProductsHDFS應(yīng)用一:參照RDBMS中的數(shù)據(jù)表RDBMSCust74應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProductsHDFSSalesHistory應(yīng)用二:脫機(jī)數(shù)據(jù)分析RDBMSCustomersProdRDBMSHDFSSales2008Sales2009Sales2010Sales2008ODBC/JDBC應(yīng)用三:

歷史數(shù)據(jù)與在線數(shù)據(jù)交互運(yùn)用RDBMSHDFSSales2008Sales2009應(yīng)用四:

利用Hadoop進(jìn)行數(shù)據(jù)匯總

RDBMSWebLogsHDFSWebLogSummary應(yīng)用四:利用Hadoop進(jìn)行數(shù)據(jù)匯總RDBMSWe應(yīng)用五:利用ODBC連結(jié)Excel&HiveExcelHiveAdd-in在線資料

:MSSQLServer歷史資料

:Hive應(yīng)用五:利用ODBC連結(jié)Excel&HiveEx其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommenderRecommendationEngine商品/內(nèi)容關(guān)聯(lián)性分析客戶行為相似性分析客戶海量量瀏覽數(shù)據(jù)客戶交易數(shù)據(jù)其他或第三方資料推薦清單其他應(yīng)用-EtuRecommender

建構(gòu)在Etu79其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)WebServerUserDBProductDBEtuRecommender商品瀏覽日志用戶數(shù)據(jù)產(chǎn)品目錄推薦結(jié)果API其他應(yīng)用-EtuRecommender

建構(gòu)在Etu80其他應(yīng)用-EtuRecommender

建構(gòu)在EtuAppliance上的精準(zhǔn)推薦系統(tǒng)EtuRecommender精準(zhǔn)推薦應(yīng)用系統(tǒng)個(gè)人化推薦清單個(gè)人化EDM個(gè)人化賬單百貨零售流通銀行連鎖媒體虛擬通路(在線)實(shí)體通路(線下)結(jié)賬點(diǎn)擊瀏覽搜尋交易購物車推薦清單的運(yùn)用不光只是在線服務(wù)其他應(yīng)用-EtuRecommender

建構(gòu)在Etu81客戶應(yīng)用案例需求上億個(gè)影像圖文件每個(gè)影像圖文件大小約10~20K須集中管理需滿足圖檔的實(shí)時(shí)調(diào)閱與查詢現(xiàn)狀以SANStorage來儲(chǔ)存與管理所有的影像圖文件每個(gè)影像文件以檔案目錄方式來管理以數(shù)據(jù)庫來存放每個(gè)圖像圖文件之特征值(meta-data)與文件路徑,供使用者查詢與搜索SANStorageDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其他應(yīng)用

–海量小圖檔管理客戶應(yīng)用案例需求SANDB應(yīng)用程序應(yīng)用程序應(yīng)用程序應(yīng)用程序其82其他應(yīng)用

–海量小圖檔管理SANStorageDB應(yīng)用程序應(yīng)用程序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論