大數(shù)據(jù)應(yīng)用分析（Hadoop）課件

上傳人：1*** IP屬地：貴州上傳時間：2022-12-10 格式：PPTX 頁數(shù)：90 大?。?.16MB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩85頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于Hadoop的大數(shù)據(jù)應(yīng)用分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1IDC定義：為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值，而設(shè)計的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)定義及特點IDC定義：為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)大數(shù)據(jù)對系統(tǒng)的需求Highperformance–高并發(fā)讀寫的需求

高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求

類似SNS網(wǎng)站，海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

需要擁有快速橫向擴(kuò)展能力、提供7*24小時不間斷服務(wù)大數(shù)據(jù)對系統(tǒng)的需求商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計算是大數(shù)據(jù)的IT基礎(chǔ)，大數(shù)據(jù)須有云計算作為基礎(chǔ)架構(gòu)，才能高效運行通過大數(shù)據(jù)的業(yè)務(wù)需求，為云計算的落地找到了實際應(yīng)用大數(shù)據(jù)和云計算的關(guān)系大數(shù)據(jù)云計算商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各行業(yè)大數(shù)據(jù)市場規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大，四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求，潛在市場空間非?？捎^。2011年是中國大數(shù)據(jù)市場元年，一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出，部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年，將迎來大數(shù)據(jù)市場的飛速發(fā)展。2012年中國大數(shù)據(jù)市場規(guī)模達(dá)到4.7億元，2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍，到2016年，整個市場規(guī)模逼近百億。大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測，全球大數(shù)據(jù)市場2015年將達(dá)170億美元規(guī)模，市場發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù)，因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架，在由大量計算機(jī)組成的集群中運行海量數(shù)據(jù)的分布式計算，它可以讓應(yīng)用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱，主要是由分布式存儲（HDFS）、分布式計算（MapReduce）等組成。

優(yōu)點：可擴(kuò)展：不論是存儲的可擴(kuò)展還是計算的可擴(kuò)展都是Hadoop的設(shè)計根本。經(jīng)濟(jì)：框架可以運行在任何普通的PC上?？煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效：分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處理的模式，為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測，MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構(gòu)Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺，Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng)，由yahoo貢獻(xiàn)hive是基于Hadoop的一個工具，提供完整的sql查詢功能，可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行ZooKeeper：高效的，可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個開源的，基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點，并且設(shè)計用來部署在低廉的硬件上，適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運算MapReduceHDFSHBasePigChuKwaHivMapReduceMap：任務(wù)的分解Reduce：結(jié)果的匯總兩大核心設(shè)計HDFSNameNode：文件管理DataNode：文件存儲Client：文件獲取Hadoop核心設(shè)計MapReduce兩大核心設(shè)計HDFSHadoop核心設(shè)計HDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者，存儲文件系統(tǒng)的meta-data，主要負(fù)責(zé)管理文件系統(tǒng)的命名空間，集群配置信息，存儲塊的復(fù)制。DataNode

是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中，保存了文件塊的meta-data，同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

HDFS是一個高度容錯性的分布式文件系統(tǒng)，能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS——分布式文件系統(tǒng)NameNodeHDFS是一個高度HDFS具體操作文件寫入：1.Client向NameNode發(fā)起文件寫入的請求2.NameNode根據(jù)文件大小和文件塊配置情況，返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊，根據(jù)DataNode的地址信息，按順序?qū)懭氲矫恳粋€DataNode塊中。

文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

NameNode返回文件存儲的DataNode的信息。3.Client讀取文件信息。HDFS具體操作文件寫入：MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入，Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程)：第一階段：在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段：在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入，輸出不一定是在reduce端。MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集的并行運算。Map（映射）和Reduce（化簡），采用分而治之思想，先把任務(wù)分發(fā)到集群多個節(jié)點上，并行計算，然后再把計算結(jié)果合并，從而得到最終計算結(jié)果。多節(jié)點計算，所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯處理等，都由MapReduce框架完成，不需要編程人員關(guān)心這些內(nèi)容。MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase，是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng)；HBase位于結(jié)構(gòu)化存儲層，HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力，Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制；Pig和Hive還為HBase提供了高層語言支持，使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopD

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1Hadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時，往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎，許多公司都推出了各自版本的Hadoop，也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外，cloudera，IBM，ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持，這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)Hadoop主要開發(fā)廠商——CLOUDERA在Hadoop生態(tài)系統(tǒng)中，規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司，為合作伙伴提供Hadoop的商用解決方案，主要是包括支持，咨詢服務(wù)和培訓(xùn)。Cloudera的客戶中倒是有很多知名公司，如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。Hadoop主要開發(fā)廠商——CLOUDERA在HaHadoop主要開發(fā)廠商——Hortonworks

2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop，這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP)，包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。Hadoop主要開發(fā)廠商——Hortonworks201InfoSphereBigInsights是一個軟件平臺，旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析，如日志記錄、點擊流、社會媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出，甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)（SmartCloudEnterprise）基礎(chǔ)架構(gòu)，將BigInsights和BigSheets作為一項服務(wù)來提供。客戶不必購買支持性硬件，也不需要IT專門知識，就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱，客戶用30分鐘就能搭建起Hadoop集群，并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。Hadoop主要開發(fā)廠商——IBMInfoSphereBigInsights是Hadoop主要開發(fā)廠商——ORACLEOracle

BigData機(jī)與Oracle

Exadata數(shù)據(jù)庫云服務(wù)器以及新推出的Oracle

Exalytics商務(wù)智能云服務(wù)器，為客戶提供了一個端到端的大數(shù)據(jù)解決方案，從而為客戶在企業(yè)內(nèi)獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價值提供了所需要的一切條件。OracleBigData機(jī)是一款集成設(shè)計的系統(tǒng)，并且針對獲取、組織以及將非結(jié)構(gòu)化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫11g之中的整個流程進(jìn)行優(yōu)化。OracleBigData機(jī)包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器。Hadoop主要開發(fā)廠商——ORACLEOr

EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD，同時發(fā)布的還有一個名為HAWQ的技術(shù)，通過HAWQ能夠?qū)reenplum分析型數(shù)據(jù)庫與Hadoop分布式架構(gòu)進(jìn)行緊密地融合。PivotalHD對ApacheHadoop進(jìn)行了全面的改造，同其他一些Hadoop發(fā)行版相比，其最大的優(yōu)勢就是能夠與Greenplum數(shù)據(jù)庫進(jìn)行整合，PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)一步，同時將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個重要里程碑。Hadoop主要開發(fā)廠商——EMCEMC公司于2013年發(fā)布了自身的ApacheHa基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗，英特爾推出成熟的企業(yè)級Hadoop發(fā)行版，為企業(yè)和政府部門實現(xiàn)大數(shù)據(jù)應(yīng)用提供強(qiáng)有力的平臺支持。英特爾在Hadoop上的改進(jìn)和功能增強(qiáng)為用戶提供了一個高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應(yīng)用實施平臺，并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國推廣的兩年多時間里，已經(jīng)在電信行業(yè)、智能交通行業(yè)有多個成功應(yīng)用。Hadoop主要開發(fā)廠商——INTEL基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗，英特爾

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府（公共事業(yè)）交通金融醫(yī)療教育能源（電力/石油）縱軸契合度：

表示該用戶的IT應(yīng)用特點與大數(shù)據(jù)特性的契合程度；橫軸應(yīng)用可能性：表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性；注：

該位置為分析師訪談的綜合印象，為定性分析，圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度，在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢，可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)（電子商務(wù)）契合度流通零售制造大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府（公共事業(yè)）交通金融醫(yī)療金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——互聯(lián)網(wǎng)行業(yè)政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā)，使今天的用戶能夠使用多種設(shè)備、從不同位置、通過多種手段來接入互聯(lián)網(wǎng)，并在這一過程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來越豐富的在線應(yīng)用和服務(wù)，不斷激勵用戶創(chuàng)造和分享信息，尤其是社會化媒體業(yè)務(wù)，帶動圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個高滲透力的行業(yè)，正在與各垂直行業(yè)發(fā)生深度的融合，原本隱藏于先下的孤島信息，源源不斷的輸入到線上?；ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用，會首先帶動社會化媒體、電子商務(wù)的快速發(fā)展，其他的互聯(lián)網(wǎng)分支也會緊追其后，整個行業(yè)在大數(shù)據(jù)的推動下將會蓬勃發(fā)展?；ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)實時分析要求較高，例如廣告監(jiān)測、B2C業(yè)務(wù)，往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析，從而達(dá)到不影響用戶體驗和快速準(zhǔn)確營銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對大數(shù)據(jù)，會普遍感覺到實時分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題。互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問題網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā)，使今天的用戶能夠公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序，并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎，垂直商業(yè)搜索引擎。節(jié)點數(shù)：15臺機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置：8核CPU，16G內(nèi)存，1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析，同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點數(shù)：10-500個節(jié)點。周數(shù)據(jù)量：3000TBHADOOP在Facebook主要用于存儲內(nèi)部日志的拷貝，作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群：一個由1100臺節(jié)點組成的集群，包括8800核CPU（即每臺機(jī)器8核）,和12000TB的原始存儲(即每臺機(jī)器12T硬盤),一個有300臺節(jié)點組成的集群，包括2400核CPU（即每臺機(jī)器8核），和3000TB的原始存儲(即每臺機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項目：HIVEHADOOP在TWITTER使用HADOOP用于存儲微博數(shù)據(jù)，日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng)，存儲壓縮后的數(shù)據(jù)文件（LZO格式）HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索機(jī)器數(shù)：25000，CPU：8核集群機(jī)器數(shù)：

4000

個節(jié)點

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)Hadoop應(yīng)用公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序，并大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)金融行業(yè)大數(shù)據(jù)發(fā)展分析

IDC研究顯示，數(shù)據(jù)是重要資產(chǎn)的理念已經(jīng)在中國金融行業(yè)形成共識，數(shù)據(jù)的真正價值在于能夠洞察企業(yè)內(nèi)部規(guī)律，數(shù)據(jù)的洞察力成為金融企業(yè)的核心競爭力。在中國金融行業(yè)信息化建設(shè)中，與信息加工密切相關(guān)的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務(wù)系統(tǒng)建設(shè)、渠道建設(shè)和前置建設(shè)同等重要的領(lǐng)域。經(jīng)過多年的發(fā)展與積累，目前中國的大型商業(yè)銀行和保險公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級別，并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長。金融行業(yè)大數(shù)據(jù)需求背景從未來幾年看，金融行業(yè)在“十二五”時期面臨發(fā)展方式轉(zhuǎn)型的挑戰(zhàn)，轉(zhuǎn)型主要集中在三大方面：一，建立全面的風(fēng)險管理體制，向嚴(yán)監(jiān)管轉(zhuǎn)型；二，從粗放式管理向精細(xì)化管理轉(zhuǎn)型；三，從“利潤為中心”向“客戶為中心”轉(zhuǎn)型。大數(shù)據(jù)在加強(qiáng)風(fēng)險管控、精細(xì)化管理、服務(wù)創(chuàng)新等轉(zhuǎn)型中別具現(xiàn)實意義，是實現(xiàn)向信息化銀行轉(zhuǎn)型的重要推動力。金融行業(yè)應(yīng)首先在戰(zhàn)略層面對大數(shù)據(jù)進(jìn)行規(guī)劃，積極應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)，推進(jìn)并建立數(shù)據(jù)驅(qū)動型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析金融行業(yè)大數(shù)據(jù)發(fā)展分析IDC研究顯示，數(shù)據(jù)是重要資產(chǎn)摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途，包括詐騙檢驗、IT風(fēng)險管理和自助服務(wù)。150PB在線存儲數(shù)據(jù)、30,000個數(shù)據(jù)庫和35億個用戶登錄賬號。Hadoop能夠存儲大量非結(jié)構(gòu)化數(shù)據(jù)，允許公司收集和存儲Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個通用平臺，以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用HadooZions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了120多個不同類型的數(shù)據(jù)，包括交易日志，日志，欺詐警報，服務(wù)器日志，防火墻日志和IDS日志跨整個企業(yè)進(jìn)行數(shù)據(jù)挖掘，加快取證調(diào)查并提高欺詐偵測，以及整體安全性利用Hadoop來存儲所有數(shù)據(jù)，并對客戶交易和現(xiàn)貨異常進(jìn)行判斷，對可能存在欺詐行為提前預(yù)警的基于Hadoop的安全數(shù)據(jù)倉庫,迅速對來自各種源頭的惡意軟件威脅作出響應(yīng)并對抗它們美國地區(qū)性銀行ZionsBancorp(ZIONS)Zions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了132大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速：2008年發(fā)卡約500萬張，2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速：隨著業(yè)務(wù)的迅猛增長，業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合；可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率；通過從數(shù)據(jù)倉庫提取數(shù)據(jù)，改進(jìn)和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結(jié)合實時、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險管理部門現(xiàn)在可以每天評估客戶的行為，并決定對客戶的信用額度在同一天進(jìn)行調(diào)整；原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖，更有針對的進(jìn)行營銷。2011年，中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進(jìn)行了1286個宣傳活動，每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum中信銀行信用卡中心基于Hadoop的大數(shù)據(jù)應(yīng)用未來和基于Hadoop的PivotalHD相融合32大數(shù)據(jù)發(fā)卡量增長迅速：2008年發(fā)卡約500萬張，201大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展，運營商的網(wǎng)絡(luò)將會更加繁忙，用于監(jiān)測網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術(shù)，可以更好地滿足存儲需求；通過智能分析技術(shù)，能夠提高網(wǎng)絡(luò)維護(hù)的實時性，預(yù)測網(wǎng)絡(luò)流量峰值，預(yù)警異常流量，有效防止網(wǎng)絡(luò)堵塞和宕機(jī)，為網(wǎng)絡(luò)改造、優(yōu)化提供參考，從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量，提升用戶體驗。提升網(wǎng)絡(luò)服務(wù)質(zhì)量，增強(qiáng)管道智能化客戶洞察是指在企業(yè)或部門層面對客戶數(shù)據(jù)的全面掌握并在市場營銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法，電信運營商能夠整合來自市場部門、銷售部門、服務(wù)部門的數(shù)據(jù)，從各種不同的角度全面了解自己的客戶，對客戶形象進(jìn)行精準(zhǔn)刻畫，以尋找目標(biāo)客戶，制定有針對性的營銷計劃、產(chǎn)品組合或商業(yè)決策，提升客戶價值。判斷客戶對企業(yè)產(chǎn)品、服務(wù)的感知，有針對性地進(jìn)行改進(jìn)和完善。通過情感分析、語義分析等技術(shù)，可以針對客戶的喜好、情緒，進(jìn)行個性化的業(yè)務(wù)推薦更加精準(zhǔn)地洞察客戶需求，增強(qiáng)市場競爭力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國計民生的行業(yè)，都具有極大的信息化需求。目前，電信運營商針對智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案，但主要還是提供終端和通信管道，行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商，對于客戶的價值主要體現(xiàn)在網(wǎng)絡(luò)化、自動化等較低水平。而隨著社會、經(jīng)濟(jì)的發(fā)展，客戶及客戶的客戶對于智能化的要求將逐步強(qiáng)烈，因此運營商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中，幫助客戶通過數(shù)據(jù)采集、存儲和分析更好地進(jìn)行決策，將能極大提升信息化服務(wù)的價值升級行業(yè)信息化解決方案，提升客戶價值大數(shù)據(jù)也有大風(fēng)險，其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險。由于大量的數(shù)據(jù)產(chǎn)生、存儲和分析，數(shù)據(jù)保密和隱私問題將在未來幾年內(nèi)成為一個更大的問題，企業(yè)必須提供數(shù)據(jù)安全服務(wù)，在大數(shù)據(jù)市場建立差異化競爭優(yōu)勢電信行業(yè)大數(shù)據(jù)需求分析

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展，運營商的網(wǎng)絡(luò)將會更加繁中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用在中國移動“大云”產(chǎn)品總體架構(gòu)中，分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲和分析平臺，在技術(shù)路線方面，選擇數(shù)據(jù)倉庫與Hadoop混搭的方式，借鑒關(guān)系型數(shù)據(jù)倉庫在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力，同時也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細(xì)節(jié)，讓用戶在使用這些數(shù)據(jù)時盡量無感知；在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié)，盡量采用Hadoop與分布式ETL的方式，提高數(shù)據(jù)轉(zhuǎn)換效率，同時降低成本。

中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用在中國移動“大中國聯(lián)通已經(jīng)構(gòu)建了一個全國集中的一級架構(gòu)海量數(shù)據(jù)存儲和查詢系統(tǒng)：通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)，在集團(tuán)公司進(jìn)行統(tǒng)一部署，各個省分僅僅是做數(shù)據(jù)的采集，按照業(yè)務(wù)實時性將數(shù)據(jù)傳送到集團(tuán)公司，由集團(tuán)公司統(tǒng)一處理，全國所有用戶所有上網(wǎng)記錄數(shù)據(jù)都放北京數(shù)據(jù)中心里，在國內(nèi)電信行業(yè)當(dāng)中也是首創(chuàng)的方式。中國聯(lián)通成功將大數(shù)據(jù)和Hadoop技術(shù)引入到‘移動通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)’。截止到目前已經(jīng)部署了4.5PB的存儲空間。其中，4.5PB的存儲分布在300個數(shù)據(jù)節(jié)點上，即每個節(jié)點配備15TB的存儲空間。系統(tǒng)每天有能力處理700億條上網(wǎng)記錄。中國聯(lián)通基于Hadoop的大數(shù)據(jù)應(yīng)用中國聯(lián)通已經(jīng)構(gòu)建了一個全國集中的一級架構(gòu)海量數(shù)大數(shù)據(jù)行業(yè)應(yīng)用分析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)政府行業(yè)大數(shù)據(jù)需求分析1、加強(qiáng)統(tǒng)籌規(guī)劃，優(yōu)化大數(shù)據(jù)形成機(jī)制。強(qiáng)化對大數(shù)據(jù)建設(shè)工作的組織協(xié)調(diào)，打破地區(qū)和部門數(shù)據(jù)壁壘，實現(xiàn)數(shù)據(jù)資源聯(lián)合共建、廣泛共享。建立政府和社會聯(lián)動的大數(shù)據(jù)形成機(jī)制，以政府?dāng)?shù)據(jù)公開共享，推動公共數(shù)據(jù)資源的開發(fā)利用。

2、加強(qiáng)數(shù)據(jù)收集和信息感知，提高智慧城市感知水平。加強(qiáng)政府部門在管理和服務(wù)過程中對數(shù)據(jù)的主動采集，建立政府大數(shù)據(jù)庫。鼓勵制造業(yè)企業(yè)和商業(yè)機(jī)構(gòu)加強(qiáng)對生產(chǎn)經(jīng)營活動中的數(shù)據(jù)采集，形成覆蓋生產(chǎn)過程和商業(yè)各環(huán)節(jié)各流程的數(shù)據(jù)庫。推進(jìn)無線識別技術(shù)、傳感器、無線網(wǎng)絡(luò)、傳感網(wǎng)絡(luò)等新技術(shù)的廣泛應(yīng)用，提高數(shù)據(jù)采集的智能化水平。3、推進(jìn)大數(shù)據(jù)應(yīng)用，提高經(jīng)濟(jì)社會智慧化水平。推進(jìn)政務(wù)信息公開。推行政府網(wǎng)上辦事，收集分析挖掘社會政務(wù)服務(wù)需求，推進(jìn)公共服務(wù)個性化和政府決策智能化。支持公共服務(wù)機(jī)構(gòu)和商業(yè)機(jī)構(gòu)開放與社會民生密切相關(guān)的公共數(shù)據(jù)。推進(jìn)國民經(jīng)濟(jì)各行業(yè)和企業(yè)數(shù)據(jù)開發(fā)，發(fā)展商業(yè)智能。鼓勵開展服務(wù)大眾的大數(shù)據(jù)應(yīng)用，提升智慧生活品質(zhì)。政府行業(yè)大數(shù)據(jù)需求分析1、加強(qiáng)統(tǒng)籌規(guī)劃，優(yōu)化大數(shù)據(jù)形成機(jī)制。政府行業(yè)大數(shù)據(jù)應(yīng)用——智慧城市2013年1月29日，住房和城鄉(xiāng)建設(shè)部公布了首批９０個國家智慧城市試點名單，試點城市的公布標(biāo)志著我國智慧城市發(fā)展進(jìn)入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段，主要的應(yīng)用還處于對感知設(shè)備傳遞的信息進(jìn)行簡單處理的水平，充分認(rèn)識大數(shù)據(jù)對于智慧城市建設(shè)的關(guān)鍵作用，對于避免智慧城市建設(shè)中出現(xiàn)“重感知，輕智慧”的通病具有重要意義。

從智慧城市的體系結(jié)構(gòu)來看，由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù)，因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似，也可分為四層，分別為感知層、傳輸層、平臺層、應(yīng)用層。智慧城市相對于之前數(shù)字城市概念，最大的區(qū)別在于對感知層獲取的信息進(jìn)行了智慧的處理，因此也可以認(rèn)為智慧城市是數(shù)字城市的升級版。由城市數(shù)字化到城市智慧化，關(guān)鍵是要實現(xiàn)對數(shù)字信息的智慧處理，其核心是大數(shù)據(jù)處理技術(shù)。智慧城市政府行業(yè)大數(shù)據(jù)應(yīng)用——智慧城市2013年1月2大數(shù)據(jù)行業(yè)應(yīng)用分析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)醫(yī)療行業(yè)大數(shù)據(jù)需求分析醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACS影像、B超、病理分析等業(yè)務(wù)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。人體不同部位、不同?？朴跋竦臄?shù)據(jù)文件大小不一，PACS網(wǎng)絡(luò)存儲和傳輸要采取不同策略。面對大數(shù)據(jù)，醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機(jī)遇。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景非常多，右圖僅以臨床操作和研發(fā)為例，展示醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景。對于公共衛(wèi)生部門，可以通過過覆蓋全國的患者電子病歷數(shù)據(jù)庫，快速檢測傳染病，進(jìn)行全面的疫情監(jiān)測，并通過集成疾病監(jiān)測和響應(yīng)程序，快速進(jìn)行響應(yīng)。比較效果研究臨床操作臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度遠(yuǎn)程病人監(jiān)控研發(fā)預(yù)測建模提高臨床試驗設(shè)計的統(tǒng)計工具和算法疾病模式的分析醫(yī)療行業(yè)大數(shù)據(jù)需求分析醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACSCloudera正在與西奈山醫(yī)學(xué)院合作開發(fā)新的生物數(shù)據(jù)分析方法和系統(tǒng)。Cloudera還與FDA合作偵測多種藥物組合的副作用，與埃默里大學(xué)合作幫助病歷學(xué)家更準(zhǔn)確地分析醫(yī)療影像。Cloudera的客戶之一——Explorys的業(yè)務(wù)主要是聚合并分析醫(yī)療記錄，而英特爾和NextBio則合作使用Hadoop處理基因數(shù)據(jù)。Apixio利用Hadoop平臺開發(fā)了語義分析服務(wù)，可以對病人的健康提供醫(yī)生、護(hù)士、及其他相關(guān)人士的回答。Apixio試圖通過對醫(yī)療記錄進(jìn)行先進(jìn)的技術(shù)分析，與一個簡單的基于云計算的搜索引擎來幫助醫(yī)生迅速了解病人相關(guān)病史，挽救生命。醫(yī)療行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Cloudera正在與西奈山醫(yī)大數(shù)據(jù)行業(yè)應(yīng)用分析——能源行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——能源行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)能源行業(yè)大數(shù)據(jù)需求分析能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型眾多，不同類型數(shù)據(jù)包含的信息各具特點，綜合各種數(shù)據(jù)所包含的信息才能得出地下真實的地質(zhì)狀況。能源行業(yè)面臨的大數(shù)據(jù)問題能源行業(yè)企業(yè)對大數(shù)據(jù)產(chǎn)品和解決方案的需求集中體現(xiàn)在：可擴(kuò)展存儲、高帶寬、可處理不同格式數(shù)據(jù)的分析方案。能源行業(yè)大數(shù)據(jù)需求分析能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型能源行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Opower使用Hadoop來提升電力服務(wù)，盡量為用戶節(jié)省在資源方面的投入。Opower現(xiàn)在管理著30TB的信息，其中包括來自5000萬用戶（橫跨60個公共事業(yè)部）能源數(shù)據(jù)，氣象與人口方面的公共及私人數(shù)據(jù)，歷史信息，地理數(shù)據(jù)及其他。這些都是通過超過20個MySQL數(shù)據(jù)庫和一個Hadoop集群來存儲和處理的。采用Hadoop來對來自從海洋深處地震時產(chǎn)生的數(shù)據(jù)進(jìn)行排序和整理，其背后有可能意味著石油儲量。能源行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Opower使用Hado基于Hadoop的大數(shù)據(jù)應(yīng)用分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求

類似SNS網(wǎng)站，海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop，這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP)，包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。Hadoop主要開發(fā)廠商——Hortonworks201InfoSphereBigInsights是一個軟件平臺，旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析，如日志記錄、點擊流、社會媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出，甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)（SmartCloudEnterprise）基礎(chǔ)架構(gòu)，將BigInsights和BigSheets作為一項服務(wù)來提供?？蛻舨槐刭徺I支持性硬件，也不需要IT專門知識，就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱，客戶用30分鐘就能搭建起Hadoop集群，并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。Hadoop主要開發(fā)廠商——IBMInfoSphereBigInsights是Hadoop主要開發(fā)廠商——ORACLEOracle

BigData機(jī)與Oracle

Exadata數(shù)據(jù)庫云服務(wù)器以及新推出的Oracle

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

該位置為分析師訪談的綜合印象，為定性分析，圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度，在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢，可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)（電子商務(wù)）契合度流通零售制造大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府（公共事業(yè)）交通金融醫(yī)療金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——互聯(lián)網(wǎng)行業(yè)政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā)，使今天的用戶能夠使用多種設(shè)備、從不同位置、通過多種手段來接入互聯(lián)網(wǎng)，并在這一過程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來越豐富的在線應(yīng)用和服務(wù)，不斷激勵用戶創(chuàng)造和分享信息，尤其是社會化媒體業(yè)務(wù)，帶動圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個高滲透力的行業(yè)，正在與各垂直行業(yè)發(fā)生深度的融合，原本隱藏于先下的孤島信息，源源不斷的輸入到線上?；ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用，會首先帶動社會化媒體、電子商務(wù)的快速發(fā)展，其他的互聯(lián)網(wǎng)分支也會緊追其后，整個行業(yè)在大數(shù)據(jù)的推動下將會蓬勃發(fā)展?；ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)實時分析要求較高，例如廣告監(jiān)測、B2C業(yè)務(wù)，往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析，從而達(dá)到不影響用戶體驗和快速準(zhǔn)確營銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對大數(shù)據(jù)，會普遍感覺到實時分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題?；ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問題網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā)，使今天的用戶能夠公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序，并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎，垂直商業(yè)搜索引擎。節(jié)點數(shù)：15臺機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置：8核CPU，16G內(nèi)存，1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析，同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點數(shù)：10-500個節(jié)點。周數(shù)據(jù)量：3000TBHADOOP在Facebook主要用于存儲內(nèi)部日志的拷貝，作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群：一個由1100臺節(jié)點組成的集群，包括8800核CPU（即每臺機(jī)器8核）,和12000TB的原始存儲(即每臺機(jī)器12T硬盤),一個有300臺節(jié)點組成的集群，包括2400核CPU（即每臺機(jī)器8核），和3000TB的原始存儲(即每臺機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項目：HIVEHADOOP在TWITTER使用HADOOP用于存儲微博數(shù)據(jù)，日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng)，存儲壓縮后的數(shù)據(jù)文件（LZO格式）HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索機(jī)器數(shù)：25000，CPU：8核集群機(jī)器數(shù)：

4000

個節(jié)點

已經(jīng)開始使用HadooZions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了177大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速：2008年發(fā)卡約500萬張，2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速：隨著業(yè)務(wù)的迅猛增長，業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合；可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率；通過從數(shù)據(jù)倉庫提取數(shù)據(jù)，改進(jìn)和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結(jié)合實時、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險管理部門現(xiàn)在可以每天評估客戶的行為，并決定對客戶的信用額度在同一天進(jìn)行調(diào)整；原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖，更有針對的進(jìn)行營銷。2011年，中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進(jìn)行了1286個宣傳活動，每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum中信銀行信用卡中心基于Hadoop的大數(shù)據(jù)應(yīng)用未來和基于Hadoop的PivotalHD相融合32大數(shù)據(jù)發(fā)卡量增長迅速：2008年發(fā)卡約500萬張，201大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)

中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)應(yīng)用分析（Hadoop）課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)應(yīng)用分析（Hadoop）課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔