大數(shù)據(jù)應(yīng)用分析(Hadoop)課件_第1頁
大數(shù)據(jù)應(yīng)用分析(Hadoop)課件_第2頁
大數(shù)據(jù)應(yīng)用分析(Hadoop)課件_第3頁
大數(shù)據(jù)應(yīng)用分析(Hadoop)課件_第4頁
大數(shù)據(jù)應(yīng)用分析(Hadoop)課件_第5頁
已閱讀5頁,還剩85頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于Hadoop的大數(shù)據(jù)應(yīng)用分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)定義及特點IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)大數(shù)據(jù)對系統(tǒng)的需求Highperformance–高并發(fā)讀寫的需求

高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求

類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

需要擁有快速橫向擴(kuò)展能力、提供7*24小時不間斷服務(wù)大數(shù)據(jù)對系統(tǒng)的需求商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計算作為基礎(chǔ)架構(gòu),才能高效運行通過大數(shù)據(jù)的業(yè)務(wù)需求,為云計算的落地找到了實際應(yīng)用大數(shù)據(jù)和云計算的關(guān)系大數(shù)據(jù)云計算商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各行業(yè)大數(shù)據(jù)市場規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。2012年中國大數(shù)據(jù)市場規(guī)模達(dá)到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,整個市場規(guī)模逼近百億。大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測,全球大數(shù)據(jù)市場2015年將達(dá)170億美元規(guī)模,市場發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù),因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機(jī)組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應(yīng)用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。

優(yōu)點:可擴(kuò)展:不論是存儲的可擴(kuò)展還是計算的可擴(kuò)展都是Hadoop的設(shè)計根本。經(jīng)濟(jì):框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測,MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構(gòu)Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算MapReduceHDFSHBasePigChuKwaHivMapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設(shè)計MapReduce兩大核心設(shè)計HDFSHadoop核心設(shè)計HDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復(fù)制。DataNode

是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

HDFS是一個高度容錯性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS——分布式文件系統(tǒng)NameNodeHDFS是一個高度HDFS具體操作文件寫入:1.Client向NameNode發(fā)起文件寫入的請求2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。

文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

NameNode返回文件存儲的DataNode的信息。3.Client讀取文件信息。HDFS具體操作文件寫入:MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務(wù)分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,從而得到最終計算結(jié)果。多節(jié)點計算,所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結(jié)構(gòu)化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopD

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1Hadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)Hadoop主要開發(fā)廠商——CLOUDERA在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司,為合作伙伴提供Hadoop的商用解決方案,主要是包括支持,咨詢服務(wù)和培訓(xùn)。Cloudera的客戶中倒是有很多知名公司,如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。Hadoop主要開發(fā)廠商——CLOUDERA在HaHadoop主要開發(fā)廠商——Hortonworks

2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP),包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。Hadoop主要開發(fā)廠商——Hortonworks201InfoSphereBigInsights是一個軟件平臺,旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析,如日志記錄、點擊流、社會媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出,甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)(SmartCloudEnterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項服務(wù)來提供。客戶不必購買支持性硬件,也不需要IT專門知識,就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱,客戶用30分鐘就能搭建起Hadoop集群,并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。Hadoop主要開發(fā)廠商——IBMInfoSphereBigInsights是Hadoop主要開發(fā)廠商——ORACLEOracle

BigData機(jī)與Oracle

Exadata數(shù)據(jù)庫云服務(wù)器以及新推出的Oracle

Exalytics商務(wù)智能云服務(wù)器,為客戶提供了一個端到端的大數(shù)據(jù)解決方案,從而為客戶在企業(yè)內(nèi)獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價值提供了所需要的一切條件。OracleBigData機(jī)是一款集成設(shè)計的系統(tǒng),并且針對獲取、組織以及將非結(jié)構(gòu)化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫11g之中的整個流程進(jìn)行優(yōu)化。OracleBigData機(jī)包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器。Hadoop主要開發(fā)廠商——ORACLEOr

EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD,同時發(fā)布的還有一個名為HAWQ的技術(shù),通過HAWQ能夠?qū)reenplum分析型數(shù)據(jù)庫與Hadoop分布式架構(gòu)進(jìn)行緊密地融合。PivotalHD對ApacheHadoop進(jìn)行了全面的改造,同其他一些Hadoop發(fā)行版相比,其最大的優(yōu)勢就是能夠與Greenplum數(shù)據(jù)庫進(jìn)行整合,PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)一步,同時將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個重要里程碑。Hadoop主要開發(fā)廠商——EMCEMC公司于2013年發(fā)布了自身的ApacheHa基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗,英特爾推出成熟的企業(yè)級Hadoop發(fā)行版,為企業(yè)和政府部門實現(xiàn)大數(shù)據(jù)應(yīng)用提供強(qiáng)有力的平臺支持。英特爾在Hadoop上的改進(jìn)和功能增強(qiáng)為用戶提供了一個高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應(yīng)用實施平臺,并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國推廣的兩年多時間里,已經(jīng)在電信行業(yè)、智能交通行業(yè)有多個成功應(yīng)用。Hadoop主要開發(fā)廠商——INTEL基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗,英特爾

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:

表示該用戶的IT應(yīng)用特點與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:

該位置為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——互聯(lián)網(wǎng)行業(yè)政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā),使今天的用戶能夠使用多種設(shè)備、從不同位置、通過多種手段來接入互聯(lián)網(wǎng),并在這一過程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來越豐富的在線應(yīng)用和服務(wù),不斷激勵用戶創(chuàng)造和分享信息,尤其是社會化媒體業(yè)務(wù),帶動圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個高滲透力的行業(yè),正在與各垂直行業(yè)發(fā)生深度的融合,原本隱藏于先下的孤島信息,源源不斷的輸入到線上?;ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用,會首先帶動社會化媒體、電子商務(wù)的快速發(fā)展,其他的互聯(lián)網(wǎng)分支也會緊追其后,整個行業(yè)在大數(shù)據(jù)的推動下將會蓬勃發(fā)展?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)實時分析要求較高,例如廣告監(jiān)測、B2C業(yè)務(wù),往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗和快速準(zhǔn)確營銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對大數(shù)據(jù),會普遍感覺到實時分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題。互聯(lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問題網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā),使今天的用戶能夠公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點數(shù):15臺機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置:8核CPU,16G內(nèi)存,1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析,同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點數(shù):10-500個節(jié)點。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲內(nèi)部日志的拷貝,作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群:一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機(jī)器8核),和12000TB的原始存儲(即每臺機(jī)器12T硬盤),一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機(jī)器8核),和3000TB的原始存儲(即每臺機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項目:HIVEHADOOP在TWITTER使用HADOOP用于存儲微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索機(jī)器數(shù):25000,CPU:8核集群機(jī)器數(shù):

4000

個節(jié)點

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)Hadoop應(yīng)用公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)金融行業(yè)大數(shù)據(jù)發(fā)展分析

IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)的理念已經(jīng)在中國金融行業(yè)形成共識,數(shù)據(jù)的真正價值在于能夠洞察企業(yè)內(nèi)部規(guī)律,數(shù)據(jù)的洞察力成為金融企業(yè)的核心競爭力。在中國金融行業(yè)信息化建設(shè)中,與信息加工密切相關(guān)的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務(wù)系統(tǒng)建設(shè)、渠道建設(shè)和前置建設(shè)同等重要的領(lǐng)域。經(jīng)過多年的發(fā)展與積累,目前中國的大型商業(yè)銀行和保險公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級別,并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長。金融行業(yè)大數(shù)據(jù)需求背景從未來幾年看,金融行業(yè)在“十二五”時期面臨發(fā)展方式轉(zhuǎn)型的挑戰(zhàn),轉(zhuǎn)型主要集中在三大方面:一,建立全面的風(fēng)險管理體制,向嚴(yán)監(jiān)管轉(zhuǎn)型;二,從粗放式管理向精細(xì)化管理轉(zhuǎn)型;三,從“利潤為中心”向“客戶為中心”轉(zhuǎn)型。大數(shù)據(jù)在加強(qiáng)風(fēng)險管控、精細(xì)化管理、服務(wù)創(chuàng)新等轉(zhuǎn)型中別具現(xiàn)實意義,是實現(xiàn)向信息化銀行轉(zhuǎn)型的重要推動力。金融行業(yè)應(yīng)首先在戰(zhàn)略層面對大數(shù)據(jù)進(jìn)行規(guī)劃,積極應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn),推進(jìn)并建立數(shù)據(jù)驅(qū)動型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析金融行業(yè)大數(shù)據(jù)發(fā)展分析IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢驗、IT風(fēng)險管理和自助服務(wù)。150PB在線存儲數(shù)據(jù)、30,000個數(shù)據(jù)庫和35億個用戶登錄賬號。Hadoop能夠存儲大量非結(jié)構(gòu)化數(shù)據(jù),允許公司收集和存儲Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個通用平臺,以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用HadooZions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了120多個不同類型的數(shù)據(jù),包括交易日志,日志,欺詐警報,服務(wù)器日志,防火墻日志和IDS日志跨整個企業(yè)進(jìn)行數(shù)據(jù)挖掘,加快取證調(diào)查并提高欺詐偵測,以及整體安全性利用Hadoop來存儲所有數(shù)據(jù),并對客戶交易和現(xiàn)貨異常進(jìn)行判斷,對可能存在欺詐行為提前預(yù)警的基于Hadoop的安全數(shù)據(jù)倉庫,迅速對來自各種源頭的惡意軟件威脅作出響應(yīng)并對抗它們美國地區(qū)性銀行ZionsBancorp(ZIONS)Zions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了132大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速:隨著業(yè)務(wù)的迅猛增長,業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進(jìn)和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結(jié)合實時、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險管理部門現(xiàn)在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進(jìn)行營銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進(jìn)行了1286個宣傳活動,每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum中信銀行信用卡中心基于Hadoop的大數(shù)據(jù)應(yīng)用未來和基于Hadoop的PivotalHD相融合32大數(shù)據(jù)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,201大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡(luò)將會更加繁忙,用于監(jiān)測網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術(shù),可以更好地滿足存儲需求;通過智能分析技術(shù),能夠提高網(wǎng)絡(luò)維護(hù)的實時性,預(yù)測網(wǎng)絡(luò)流量峰值,預(yù)警異常流量,有效防止網(wǎng)絡(luò)堵塞和宕機(jī),為網(wǎng)絡(luò)改造、優(yōu)化提供參考,從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,提升用戶體驗。提升網(wǎng)絡(luò)服務(wù)質(zhì)量,增強(qiáng)管道智能化客戶洞察是指在企業(yè)或部門層面對客戶數(shù)據(jù)的全面掌握并在市場營銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運營商能夠整合來自市場部門、銷售部門、服務(wù)部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對客戶形象進(jìn)行精準(zhǔn)刻畫,以尋找目標(biāo)客戶,制定有針對性的營銷計劃、產(chǎn)品組合或商業(yè)決策,提升客戶價值。判斷客戶對企業(yè)產(chǎn)品、服務(wù)的感知,有針對性地進(jìn)行改進(jìn)和完善。通過情感分析、語義分析等技術(shù),可以針對客戶的喜好、情緒,進(jìn)行個性化的業(yè)務(wù)推薦更加精準(zhǔn)地洞察客戶需求,增強(qiáng)市場競爭力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國計民生的行業(yè),都具有極大的信息化需求。目前,電信運營商針對智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商,對于客戶的價值主要體現(xiàn)在網(wǎng)絡(luò)化、自動化等較低水平。而隨著社會、經(jīng)濟(jì)的發(fā)展,客戶及客戶的客戶對于智能化的要求將逐步強(qiáng)烈,因此運營商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲和分析更好地進(jìn)行決策,將能極大提升信息化服務(wù)的價值升級行業(yè)信息化解決方案,提升客戶價值大數(shù)據(jù)也有大風(fēng)險,其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險。由于大量的數(shù)據(jù)產(chǎn)生、存儲和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內(nèi)成為一個更大的問題,企業(yè)必須提供數(shù)據(jù)安全服務(wù),在大數(shù)據(jù)市場建立差異化競爭優(yōu)勢電信行業(yè)大數(shù)據(jù)需求分析

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡(luò)將會更加繁中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用在中國移動“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲和分析平臺,在技術(shù)路線方面,選擇數(shù)據(jù)倉庫與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉庫在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力,同時也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細(xì)節(jié),讓用戶在使用這些數(shù)據(jù)時盡量無感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時降低成本。

中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用在中國移動“大中國聯(lián)通已經(jīng)構(gòu)建了一個全國集中的一級架構(gòu)海量數(shù)據(jù)存儲和查詢系統(tǒng):通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng),在集團(tuán)公司進(jìn)行統(tǒng)一部署,各個省分僅僅是做數(shù)據(jù)的采集,按照業(yè)務(wù)實時性將數(shù)據(jù)傳送到集團(tuán)公司,由集團(tuán)公司統(tǒng)一處理,全國所有用戶所有上網(wǎng)記錄數(shù)據(jù)都放北京數(shù)據(jù)中心里,在國內(nèi)電信行業(yè)當(dāng)中也是首創(chuàng)的方式。中國聯(lián)通成功將大數(shù)據(jù)和Hadoop技術(shù)引入到‘移動通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)’。截止到目前已經(jīng)部署了4.5PB的存儲空間。其中,4.5PB的存儲分布在300個數(shù)據(jù)節(jié)點上,即每個節(jié)點配備15TB的存儲空間。系統(tǒng)每天有能力處理700億條上網(wǎng)記錄。中國聯(lián)通基于Hadoop的大數(shù)據(jù)應(yīng)用中國聯(lián)通已經(jīng)構(gòu)建了一個全國集中的一級架構(gòu)海量數(shù)大數(shù)據(jù)行業(yè)應(yīng)用分析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)政府行業(yè)大數(shù)據(jù)需求分析1、加強(qiáng)統(tǒng)籌規(guī)劃,優(yōu)化大數(shù)據(jù)形成機(jī)制。強(qiáng)化對大數(shù)據(jù)建設(shè)工作的組織協(xié)調(diào),打破地區(qū)和部門數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)資源聯(lián)合共建、廣泛共享。建立政府和社會聯(lián)動的大數(shù)據(jù)形成機(jī)制,以政府?dāng)?shù)據(jù)公開共享,推動公共數(shù)據(jù)資源的開發(fā)利用。

2、加強(qiáng)數(shù)據(jù)收集和信息感知,提高智慧城市感知水平。加強(qiáng)政府部門在管理和服務(wù)過程中對數(shù)據(jù)的主動采集,建立政府大數(shù)據(jù)庫。鼓勵制造業(yè)企業(yè)和商業(yè)機(jī)構(gòu)加強(qiáng)對生產(chǎn)經(jīng)營活動中的數(shù)據(jù)采集,形成覆蓋生產(chǎn)過程和商業(yè)各環(huán)節(jié)各流程的數(shù)據(jù)庫。推進(jìn)無線識別技術(shù)、傳感器、無線網(wǎng)絡(luò)、傳感網(wǎng)絡(luò)等新技術(shù)的廣泛應(yīng)用,提高數(shù)據(jù)采集的智能化水平。3、推進(jìn)大數(shù)據(jù)應(yīng)用,提高經(jīng)濟(jì)社會智慧化水平。推進(jìn)政務(wù)信息公開。推行政府網(wǎng)上辦事,收集分析挖掘社會政務(wù)服務(wù)需求,推進(jìn)公共服務(wù)個性化和政府決策智能化。支持公共服務(wù)機(jī)構(gòu)和商業(yè)機(jī)構(gòu)開放與社會民生密切相關(guān)的公共數(shù)據(jù)。推進(jìn)國民經(jīng)濟(jì)各行業(yè)和企業(yè)數(shù)據(jù)開發(fā),發(fā)展商業(yè)智能。鼓勵開展服務(wù)大眾的大數(shù)據(jù)應(yīng)用,提升智慧生活品質(zhì)。政府行業(yè)大數(shù)據(jù)需求分析1、加強(qiáng)統(tǒng)籌規(guī)劃,優(yōu)化大數(shù)據(jù)形成機(jī)制。政府行業(yè)大數(shù)據(jù)應(yīng)用——智慧城市2013年1月29日,住房和城鄉(xiāng)建設(shè)部公布了首批90個國家智慧城市試點名單,試點城市的公布標(biāo)志著我國智慧城市發(fā)展進(jìn)入規(guī)模推廣的階段。在目前智慧城市的發(fā)展階段,主要的應(yīng)用還處于對感知設(shè)備傳遞的信息進(jìn)行簡單處理的水平,充分認(rèn)識大數(shù)據(jù)對于智慧城市建設(shè)的關(guān)鍵作用,對于避免智慧城市建設(shè)中出現(xiàn)“重感知,輕智慧”的通病具有重要意義。

從智慧城市的體系結(jié)構(gòu)來看,由于智慧城市的基礎(chǔ)在于物聯(lián)網(wǎng)技術(shù),因此智慧城市體系架構(gòu)和物聯(lián)網(wǎng)的體系結(jié)構(gòu)相類似,也可分為四層,分別為感知層、傳輸層、平臺層、應(yīng)用層。智慧城市相對于之前數(shù)字城市概念,最大的區(qū)別在于對感知層獲取的信息進(jìn)行了智慧的處理,因此也可以認(rèn)為智慧城市是數(shù)字城市的升級版。由城市數(shù)字化到城市智慧化,關(guān)鍵是要實現(xiàn)對數(shù)字信息的智慧處理,其核心是大數(shù)據(jù)處理技術(shù)。智慧城市政府行業(yè)大數(shù)據(jù)應(yīng)用——智慧城市2013年1月2大數(shù)據(jù)行業(yè)應(yīng)用分析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——醫(yī)療行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)醫(yī)療行業(yè)大數(shù)據(jù)需求分析醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACS影像、B超、病理分析等業(yè)務(wù)所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。人體不同部位、不同??朴跋竦臄?shù)據(jù)文件大小不一,PACS網(wǎng)絡(luò)存儲和傳輸要采取不同策略。面對大數(shù)據(jù),醫(yī)療行業(yè)遇到前所未有的挑戰(zhàn)和機(jī)遇。醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景非常多,右圖僅以臨床操作和研發(fā)為例,展示醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用場景。對于公共衛(wèi)生部門,可以通過過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,進(jìn)行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測和響應(yīng)程序,快速進(jìn)行響應(yīng)。比較效果研究臨床操作臨床決策支持系統(tǒng)醫(yī)療數(shù)據(jù)透明度遠(yuǎn)程病人監(jiān)控研發(fā)預(yù)測建模提高臨床試驗設(shè)計的統(tǒng)計工具和算法疾病模式的分析醫(yī)療行業(yè)大數(shù)據(jù)需求分析醫(yī)療行業(yè)產(chǎn)生的數(shù)據(jù)量主要來自于PACSCloudera正在與西奈山醫(yī)學(xué)院合作開發(fā)新的生物數(shù)據(jù)分析方法和系統(tǒng)。Cloudera還與FDA合作偵測多種藥物組合的副作用,與埃默里大學(xué)合作幫助病歷學(xué)家更準(zhǔn)確地分析醫(yī)療影像。Cloudera的客戶之一——Explorys的業(yè)務(wù)主要是聚合并分析醫(yī)療記錄,而英特爾和NextBio則合作使用Hadoop處理基因數(shù)據(jù)。Apixio利用Hadoop平臺開發(fā)了語義分析服務(wù),可以對病人的健康提供醫(yī)生、護(hù)士、及其他相關(guān)人士的回答。Apixio試圖通過對醫(yī)療記錄進(jìn)行先進(jìn)的技術(shù)分析,與一個簡單的基于云計算的搜索引擎來幫助醫(yī)生迅速了解病人相關(guān)病史,挽救生命。醫(yī)療行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Cloudera正在與西奈山醫(yī)大數(shù)據(jù)行業(yè)應(yīng)用分析——能源行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——能源行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)能源行業(yè)大數(shù)據(jù)需求分析能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型眾多,不同類型數(shù)據(jù)包含的信息各具特點,綜合各種數(shù)據(jù)所包含的信息才能得出地下真實的地質(zhì)狀況。能源行業(yè)面臨的大數(shù)據(jù)問題能源行業(yè)企業(yè)對大數(shù)據(jù)產(chǎn)品和解決方案的需求集中體現(xiàn)在:可擴(kuò)展存儲、高帶寬、可處理不同格式數(shù)據(jù)的分析方案。能源行業(yè)大數(shù)據(jù)需求分析能源行業(yè)數(shù)據(jù)特征能源勘探開發(fā)數(shù)據(jù)的類型能源行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Opower使用Hadoop來提升電力服務(wù),盡量為用戶節(jié)省在資源方面的投入。Opower現(xiàn)在管理著30TB的信息,其中包括來自5000萬用戶(橫跨60個公共事業(yè)部)能源數(shù)據(jù),氣象與人口方面的公共及私人數(shù)據(jù),歷史信息,地理數(shù)據(jù)及其他。這些都是通過超過20個MySQL數(shù)據(jù)庫和一個Hadoop集群來存儲和處理的。采用Hadoop來對來自從海洋深處地震時產(chǎn)生的數(shù)據(jù)進(jìn)行排序和整理,其背后有可能意味著石油儲量。能源行業(yè)基于Hadoop的大數(shù)據(jù)應(yīng)用Opower使用Hado基于Hadoop的大數(shù)據(jù)應(yīng)用分析基于Hadoop的大數(shù)據(jù)應(yīng)用分析

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)。大數(shù)據(jù)定義及特點IDC定義:為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)大數(shù)據(jù)對系統(tǒng)的需求Highperformance–高并發(fā)讀寫的需求

高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲和訪問的需求

類似SNS網(wǎng)站,海量用戶信息的高效率實時存儲和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求

需要擁有快速橫向擴(kuò)展能力、提供7*24小時不間斷服務(wù)大數(shù)據(jù)對系統(tǒng)的需求商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計算作為基礎(chǔ)架構(gòu),才能高效運行通過大數(shù)據(jù)的業(yè)務(wù)需求,為云計算的落地找到了實際應(yīng)用大數(shù)據(jù)和云計算的關(guān)系大數(shù)據(jù)云計算商業(yè)模式驅(qū)動應(yīng)用需求驅(qū)動云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各行業(yè)大數(shù)據(jù)市場規(guī)模政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場空間非??捎^。2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。2012年中國大數(shù)據(jù)市場規(guī)模達(dá)到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,整個市場規(guī)模逼近百億。大數(shù)據(jù)市場分析12011年-2016年中國大數(shù)據(jù)市場規(guī)模2各

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)廠商分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測,全球大數(shù)據(jù)市場2015年將達(dá)170億美元規(guī)模,市場發(fā)展前景很大。而Hadoop作為新一代的架構(gòu)和技術(shù),因為有利于并行分布處理“大數(shù)據(jù)”而備受重視。ApacheHadoop是一個用java語言實現(xiàn)的軟件框架,在由大量計算機(jī)組成的集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應(yīng)用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。

優(yōu)點:可擴(kuò)展:不論是存儲的可擴(kuò)展還是計算的可擴(kuò)展都是Hadoop的設(shè)計根本。經(jīng)濟(jì):框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop據(jù)IDC的預(yù)測,MapReduceHDFSHBasePigChuKwaHiveZooKeeperHadoop體系架構(gòu)Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運行ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應(yīng)用程序MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算MapReduceHDFSHBasePigChuKwaHivMapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設(shè)計MapReduce兩大核心設(shè)計HDFSHadoop核心設(shè)計HDFS——分布式文件系統(tǒng)NameNode

可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復(fù)制。DataNode

是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。Client

就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。

HDFS是一個高度容錯性的分布式文件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS——分布式文件系統(tǒng)NameNodeHDFS是一個高度HDFS具體操作文件寫入:1.Client向NameNode發(fā)起文件寫入的請求2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3.Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。

文件讀?。?.

Client向NameNode發(fā)起文件讀取的請求2.

NameNode返回文件存儲的DataNode的信息。3.Client讀取文件信息。HDFS具體操作文件寫入:MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits,每個split對于一個map線程。2.Split中的數(shù)據(jù)作為Map的輸入,Map的輸出一定在Map端。3.Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內(nèi)存->排序->寫入磁盤->復(fù)制第二階段:在reduce端完成映射到reduce端分區(qū)->合并->排序4.Reduce的輸入到Reduce的輸出最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務(wù)分發(fā)到集群多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,從而得到最終計算結(jié)果。多節(jié)點計算,所涉及的任務(wù)調(diào)度、負(fù)載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。MapReduce——映射、化簡編程模型1.根據(jù)輸入數(shù)據(jù)的HBASE——分布式數(shù)據(jù)存儲HBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結(jié)構(gòu)化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計處理變的簡單。HBASE——分布式數(shù)據(jù)存儲HBase–HadoopD

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1Hadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracleHadoop主要開發(fā)廠商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)Hadoop主要開發(fā)廠商——CLOUDERA在Hadoop生態(tài)系統(tǒng)中,規(guī)模最大、知名度最高的公司則是Cloudera。2008年成立的Cloudera是最早將Hadoop商用的公司,為合作伙伴提供Hadoop的商用解決方案,主要是包括支持,咨詢服務(wù)和培訓(xùn)。Cloudera的客戶中倒是有很多知名公司,如AOL、哥倫比亞廣播公司、eBay、Expedia、摩根大通、Monsanto、諾基亞、RIM和迪士尼等。Cloudera企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器。Hadoop主要開發(fā)廠商——CLOUDERA在HaHadoop主要開發(fā)廠商——Hortonworks

2011年成立的Hortonworks是雅虎與硅谷風(fēng)投公司BenchmarkCapital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協(xié)助雅虎開發(fā)Hadoop,這些工程師貢獻(xiàn)了hadoop80%的代碼。Hortonworks的主打產(chǎn)品是HortonworksDataPlatform(HDP),包括穩(wěn)定版本的ApacheHadoop的所有關(guān)鍵組件。Hadoop主要開發(fā)廠商——Hortonworks201InfoSphereBigInsights是一個軟件平臺,旨在幫助企業(yè)從大量不同范圍的數(shù)據(jù)中挖掘商機(jī)并進(jìn)行分析,如日志記錄、點擊流、社會媒體數(shù)據(jù)、新聞?wù)?、電子傳感器輸出,甚至是一些事?wù)數(shù)據(jù)等。BigInsights包括ApacheHadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBMBigSheets。IBM通過其智慧云企業(yè)(SmartCloudEnterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項服務(wù)來提供??蛻舨槐刭徺I支持性硬件,也不需要IT專門知識,就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM稱,客戶用30分鐘就能搭建起Hadoop集群,并能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)移到集群里面。Hadoop主要開發(fā)廠商——IBMInfoSphereBigInsights是Hadoop主要開發(fā)廠商——ORACLEOracle

BigData機(jī)與Oracle

Exadata數(shù)據(jù)庫云服務(wù)器以及新推出的Oracle

Exalytics商務(wù)智能云服務(wù)器,為客戶提供了一個端到端的大數(shù)據(jù)解決方案,從而為客戶在企業(yè)內(nèi)獲取、組織、分析大數(shù)據(jù)以及最大限度地挖掘大數(shù)據(jù)的價值提供了所需要的一切條件。OracleBigData機(jī)是一款集成設(shè)計的系統(tǒng),并且針對獲取、組織以及將非結(jié)構(gòu)化數(shù)據(jù)加載到Oracle數(shù)據(jù)庫11g之中的整個流程進(jìn)行優(yōu)化。OracleBigData機(jī)包括開源ApacheHadoop、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器。Hadoop主要開發(fā)廠商——ORACLEOr

EMC公司于2013年發(fā)布了自身的ApacheHadoop發(fā)行版——PivotalHD,同時發(fā)布的還有一個名為HAWQ的技術(shù),通過HAWQ能夠?qū)reenplum分析型數(shù)據(jù)庫與Hadoop分布式架構(gòu)進(jìn)行緊密地融合。PivotalHD對ApacheHadoop進(jìn)行了全面的改造,同其他一些Hadoop發(fā)行版相比,其最大的優(yōu)勢就是能夠與Greenplum數(shù)據(jù)庫進(jìn)行整合,PivotalHD和HAWQ讓EMC在Hadoop領(lǐng)域更進(jìn)一步,同時將成為EMC大數(shù)據(jù)戰(zhàn)略中的一個重要里程碑。Hadoop主要開發(fā)廠商——EMCEMC公司于2013年發(fā)布了自身的ApacheHa基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗,英特爾推出成熟的企業(yè)級Hadoop發(fā)行版,為企業(yè)和政府部門實現(xiàn)大數(shù)據(jù)應(yīng)用提供強(qiáng)有力的平臺支持。英特爾在Hadoop上的改進(jìn)和功能增強(qiáng)為用戶提供了一個高性能、高穩(wěn)定性和可管理的大數(shù)據(jù)應(yīng)用實施平臺,并提供全面的專業(yè)支持。在Hadoop軟件的英特爾分發(fā)版在中國推廣的兩年多時間里,已經(jīng)在電信行業(yè)、智能交通行業(yè)有多個成功應(yīng)用。Hadoop主要開發(fā)廠商——INTEL基于在大數(shù)據(jù)領(lǐng)域的長期技術(shù)積累和應(yīng)用經(jīng)驗,英特爾

5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要

1.大數(shù)據(jù)背景介紹2.HADOOP體系架構(gòu)

3.基于HADOOP的大數(shù)據(jù)產(chǎn)品分析

4.基于HADOOP的大數(shù)據(jù)行業(yè)應(yīng)用分析5.東軟基于HADOOP的大數(shù)據(jù)應(yīng)用建議內(nèi)容提要1大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療教育能源(電力/石油)縱軸契合度:

表示該用戶的IT應(yīng)用特點與大數(shù)據(jù)特性的契合程度;橫軸應(yīng)用可能性:表示該用戶出于主客觀因素在短期內(nèi)投資大數(shù)據(jù)的可能性;注:

該位置為分析師訪談的綜合印象,為定性分析,圖中位置不代表具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行業(yè)用戶應(yīng)用特點與大數(shù)據(jù)技術(shù)有較高的契合度,在主客觀條件上也有較高的應(yīng)用可能性。值得關(guān)注行業(yè)用戶應(yīng)有特點與大數(shù)據(jù)的契合度及應(yīng)用可能性綜合較高適當(dāng)關(guān)注行業(yè)用戶兩個維度暫時都不具備優(yōu)勢,可適當(dāng)給予關(guān)注互聯(lián)網(wǎng)(電子商務(wù))契合度流通零售制造大數(shù)據(jù)應(yīng)用行業(yè)分析應(yīng)用可能性電信政府(公共事業(yè))交通金融醫(yī)療金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——互聯(lián)網(wǎng)行業(yè)政府行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā),使今天的用戶能夠使用多種設(shè)備、從不同位置、通過多種手段來接入互聯(lián)網(wǎng),并在這一過程中不斷創(chuàng)造新內(nèi)容在線應(yīng)用和服務(wù)越來越豐富的在線應(yīng)用和服務(wù),不斷激勵用戶創(chuàng)造和分享信息,尤其是社會化媒體業(yè)務(wù),帶動圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)飛速增長與各垂直行業(yè)的融合互聯(lián)網(wǎng)作為一個高滲透力的行業(yè),正在與各垂直行業(yè)發(fā)生深度的融合,原本隱藏于先下的孤島信息,源源不斷的輸入到線上?;ヂ?lián)網(wǎng)行業(yè)擁抱大數(shù)據(jù)的關(guān)鍵因素互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)的應(yīng)用,會首先帶動社會化媒體、電子商務(wù)的快速發(fā)展,其他的互聯(lián)網(wǎng)分支也會緊追其后,整個行業(yè)在大數(shù)據(jù)的推動下將會蓬勃發(fā)展?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)需求分析互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)實時分析要求較高,例如廣告監(jiān)測、B2C業(yè)務(wù),往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗和快速準(zhǔn)確營銷的目的。目前互聯(lián)網(wǎng)企業(yè)面對大數(shù)據(jù),會普遍感覺到實時分析能力差、海量數(shù)據(jù)處理效率低、缺少分析方法、分析軟件能力差等問題?;ヂ?lián)網(wǎng)行業(yè)大數(shù)據(jù)分析面臨的主要問題網(wǎng)絡(luò)終端設(shè)備網(wǎng)絡(luò)技術(shù)的升級和終端設(shè)備的爆發(fā),使今天的用戶能夠公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。節(jié)點數(shù):15臺機(jī)器的構(gòu)成的服務(wù)器集群服務(wù)器配置:8核CPU,16G內(nèi)存,1.4T硬盤容量HADOOP在百度HADOOP主要應(yīng)用日志分析,同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。節(jié)點數(shù):10-500個節(jié)點。周數(shù)據(jù)量:3000TBHADOOP在Facebook主要用于存儲內(nèi)部日志的拷貝,作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。主要使用了2個集群:一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機(jī)器8核),和12000TB的原始存儲(即每臺機(jī)器12T硬盤),一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機(jī)器8核),和3000TB的原始存儲(即每臺機(jī)器12T硬盤),由此基礎(chǔ)上開發(fā)了基于SQL語法的項目:HIVEHADOOP在TWITTER使用HADOOP用于存儲微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)使用基于HADOOP構(gòu)件的Cloudera'sCDH2系統(tǒng),存儲壓縮后的數(shù)據(jù)文件(LZO格式)HADOOP在雅虎主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索機(jī)器數(shù):25000,CPU:8核集群機(jī)器數(shù):

4000

個節(jié)點

(2*4cpuboxesw4*1TBdisk&16GBRAM)互聯(lián)網(wǎng)行業(yè)Hadoop應(yīng)用公司具體應(yīng)用HADOOP在阿里巴巴用于處理商業(yè)數(shù)據(jù)的排序,并大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——金融行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)金融行業(yè)大數(shù)據(jù)發(fā)展分析

IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)的理念已經(jīng)在中國金融行業(yè)形成共識,數(shù)據(jù)的真正價值在于能夠洞察企業(yè)內(nèi)部規(guī)律,數(shù)據(jù)的洞察力成為金融企業(yè)的核心競爭力。在中國金融行業(yè)信息化建設(shè)中,與信息加工密切相關(guān)的大數(shù)據(jù)管理正逐漸成為與核心業(yè)務(wù)系統(tǒng)建設(shè)、渠道建設(shè)和前置建設(shè)同等重要的領(lǐng)域。經(jīng)過多年的發(fā)展與積累,目前中國的大型商業(yè)銀行和保險公司的數(shù)據(jù)量已經(jīng)達(dá)到100TB以上級別,并且非結(jié)構(gòu)化數(shù)據(jù)量在迅速增長。金融行業(yè)大數(shù)據(jù)需求背景從未來幾年看,金融行業(yè)在“十二五”時期面臨發(fā)展方式轉(zhuǎn)型的挑戰(zhàn),轉(zhuǎn)型主要集中在三大方面:一,建立全面的風(fēng)險管理體制,向嚴(yán)監(jiān)管轉(zhuǎn)型;二,從粗放式管理向精細(xì)化管理轉(zhuǎn)型;三,從“利潤為中心”向“客戶為中心”轉(zhuǎn)型。大數(shù)據(jù)在加強(qiáng)風(fēng)險管控、精細(xì)化管理、服務(wù)創(chuàng)新等轉(zhuǎn)型中別具現(xiàn)實意義,是實現(xiàn)向信息化銀行轉(zhuǎn)型的重要推動力。金融行業(yè)應(yīng)首先在戰(zhàn)略層面對大數(shù)據(jù)進(jìn)行規(guī)劃,積極應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn),推進(jìn)并建立數(shù)據(jù)驅(qū)動型發(fā)展方式。金融行業(yè)大數(shù)據(jù)需求分析金融行業(yè)大數(shù)據(jù)發(fā)展分析IDC研究顯示,數(shù)據(jù)是重要資產(chǎn)摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用Hadoop技術(shù)以滿足日益增多的用途,包括詐騙檢驗、IT風(fēng)險管理和自助服務(wù)。150PB在線存儲數(shù)據(jù)、30,000個數(shù)據(jù)庫和35億個用戶登錄賬號。Hadoop能夠存儲大量非結(jié)構(gòu)化數(shù)據(jù),允許公司收集和存儲Web日志、交易數(shù)據(jù)和社交媒體數(shù)據(jù)。數(shù)據(jù)被匯集至一個通用平臺,以方便以客戶為中心的數(shù)據(jù)挖掘與數(shù)據(jù)分析工具的使用。摩根大通基于Hadoop的大數(shù)據(jù)應(yīng)用

已經(jīng)開始使用HadooZions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了120多個不同類型的數(shù)據(jù),包括交易日志,日志,欺詐警報,服務(wù)器日志,防火墻日志和IDS日志跨整個企業(yè)進(jìn)行數(shù)據(jù)挖掘,加快取證調(diào)查并提高欺詐偵測,以及整體安全性利用Hadoop來存儲所有數(shù)據(jù),并對客戶交易和現(xiàn)貨異常進(jìn)行判斷,對可能存在欺詐行為提前預(yù)警的基于Hadoop的安全數(shù)據(jù)倉庫,迅速對來自各種源頭的惡意軟件威脅作出響應(yīng)并對抗它們美國地區(qū)性銀行ZionsBancorp(ZIONS)Zions銀行基于Hadoop的大數(shù)據(jù)應(yīng)用

數(shù)據(jù)倉庫存儲了177大數(shù)據(jù)挑戰(zhàn)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,2010年增加了一倍。業(yè)務(wù)數(shù)據(jù)增長迅速:隨著業(yè)務(wù)的迅猛增長,業(yè)務(wù)數(shù)據(jù)規(guī)模也線性膨脹。數(shù)據(jù)存儲、系統(tǒng)維護(hù)、數(shù)據(jù)有效利用都面臨巨大壓力。需求可擴(kuò)展、高性能的數(shù)據(jù)倉庫解決方案能夠?qū)崿F(xiàn)業(yè)務(wù)數(shù)據(jù)的集中和整合;可以支持多樣化和復(fù)雜化數(shù)據(jù)分析提升信用卡中心的業(yè)務(wù)效率;通過從數(shù)據(jù)倉庫提取數(shù)據(jù),改進(jìn)和推動有針對性的營銷活動。采用大數(shù)據(jù)方案后價值體現(xiàn)實時的商業(yè)智能可以結(jié)合實時、歷史數(shù)據(jù)進(jìn)行全局分析,風(fēng)險管理部門現(xiàn)在可以每天評估客戶的行為,并決定對客戶的信用額度在同一天進(jìn)行調(diào)整;原有內(nèi)部系統(tǒng)、模型整體性能顯著提高秒級營銷Greenplum數(shù)據(jù)倉庫解決方案提供了統(tǒng)一的客戶視圖,更有針對的進(jìn)行營銷。2011年,中信銀行信用卡中心通過其數(shù)據(jù)庫營銷平臺進(jìn)行了1286個宣傳活動,每個營銷活動配置平均時間從2周縮短到2-3天。EMCGreen-plum中信銀行信用卡中心基于Hadoop的大數(shù)據(jù)應(yīng)用未來和基于Hadoop的PivotalHD相融合32大數(shù)據(jù)發(fā)卡量增長迅速:2008年發(fā)卡約500萬張,201大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)電信行業(yè)政府行業(yè)大數(shù)據(jù)行業(yè)應(yīng)用分析——電信行業(yè)金融行業(yè)互聯(lián)網(wǎng)醫(yī)療行業(yè)能源行業(yè)

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡(luò)將會更加繁忙,用于監(jiān)測網(wǎng)絡(luò)狀態(tài)的信令數(shù)據(jù)也會快速增長。通過大數(shù)據(jù)的海量分布式存儲技術(shù),可以更好地滿足存儲需求;通過智能分析技術(shù),能夠提高網(wǎng)絡(luò)維護(hù)的實時性,預(yù)測網(wǎng)絡(luò)流量峰值,預(yù)警異常流量,有效防止網(wǎng)絡(luò)堵塞和宕機(jī),為網(wǎng)絡(luò)改造、優(yōu)化提供參考,從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,提升用戶體驗。提升網(wǎng)絡(luò)服務(wù)質(zhì)量,增強(qiáng)管道智能化客戶洞察是指在企業(yè)或部門層面對客戶數(shù)據(jù)的全面掌握并在市場營銷、客戶聯(lián)系等環(huán)節(jié)的有效應(yīng)用。通過使用大數(shù)據(jù)分析、數(shù)據(jù)挖掘等工具和方法,電信運營商能夠整合來自市場部門、銷售部門、服務(wù)部門的數(shù)據(jù),從各種不同的角度全面了解自己的客戶,對客戶形象進(jìn)行精準(zhǔn)刻畫,以尋找目標(biāo)客戶,制定有針對性的營銷計劃、產(chǎn)品組合或商業(yè)決策,提升客戶價值。判斷客戶對企業(yè)產(chǎn)品、服務(wù)的感知,有針對性地進(jìn)行改進(jìn)和完善。通過情感分析、語義分析等技術(shù),可以針對客戶的喜好、情緒,進(jìn)行個性化的業(yè)務(wù)推薦更加精準(zhǔn)地洞察客戶需求,增強(qiáng)市場競爭力智慧城市的發(fā)展以及教育、醫(yī)療、交通、環(huán)境保護(hù)等關(guān)系到國計民生的行業(yè),都具有極大的信息化需求。目前,電信運營商針對智慧城市及行業(yè)信息化服務(wù)雖然能夠提供一攬子解決方案,但主要還是提供終端和通信管道,行業(yè)應(yīng)用軟件和系統(tǒng)集成尚需要整合外部的應(yīng)用軟件提供商,對于客戶的價值主要體現(xiàn)在網(wǎng)絡(luò)化、自動化等較低水平。而隨著社會、經(jīng)濟(jì)的發(fā)展,客戶及客戶的客戶對于智能化的要求將逐步強(qiáng)烈,因此運營商如能把大數(shù)據(jù)技術(shù)整合到行業(yè)信息化方案中,幫助客戶通過數(shù)據(jù)采集、存儲和分析更好地進(jìn)行決策,將能極大提升信息化服務(wù)的價值升級行業(yè)信息化解決方案,提升客戶價值大數(shù)據(jù)也有大風(fēng)險,其中之一就是客戶隱私泄露及數(shù)據(jù)安全風(fēng)險。由于大量的數(shù)據(jù)產(chǎn)生、存儲和分析,數(shù)據(jù)保密和隱私問題將在未來幾年內(nèi)成為一個更大的問題,企業(yè)必須提供數(shù)據(jù)安全服務(wù),在大數(shù)據(jù)市場建立差異化競爭優(yōu)勢電信行業(yè)大數(shù)據(jù)需求分析

隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,運營商的網(wǎng)絡(luò)將會更加繁中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用在中國移動“大云”產(chǎn)品總體架構(gòu)中,分析型PaaS產(chǎn)品底層基于Hadoop數(shù)據(jù)存儲和分析平臺,在技術(shù)路線方面,選擇數(shù)據(jù)倉庫與Hadoop混搭的方式,借鑒關(guān)系型數(shù)據(jù)倉庫在傳統(tǒng)應(yīng)用支持方面以及在復(fù)雜查詢和分析方面的快速響應(yīng)能力,同時也借鑒了Hadoop的非結(jié)構(gòu)化數(shù)據(jù)處理能力以及存儲的低成本。屏蔽Hadoop與數(shù)據(jù)倉庫的使用細(xì)節(jié),讓用戶在使用這些數(shù)據(jù)時盡量無感知;在數(shù)據(jù)的ETL采集預(yù)處理環(huán)節(jié),盡量采用Hadoop與分布式ETL的方式,提高數(shù)據(jù)轉(zhuǎn)換效率,同時降低成本。

中國移動基于Hadoop的大數(shù)據(jù)應(yīng)用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論