版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據解決方案Digital引言數據or數字?DataInformationTechnology“基于大數據思維和技術,可以挖掘蘊含在數據冰山下的巨大價值“ 計算社交數據傳感器數據文本網絡存儲提綱大數據背景知識大數據技術基礎大數據解決方案大數據方案建設及應用場景什么是大數據?所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業(yè)經營決策更積極目的的資訊維基百科大小超出常規(guī)的數據庫工具獲取、存儲、管理和分析能力的數據集 麥肯錫大數據是任何超過了一臺計算機處理能力的數據量亞馬遜指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新
2、處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產 百度百科多種數據并存(Variety)文本/圖片/視頻/文檔等數據量日益增長(Volume)DC最新數字宇宙研究報告表明,到2020年,全球數據使用量預計暴增44倍,達到40ZB要求數據實時性強(Velocity)海量數據的及時有效分析沙里淘金價值密度低(Value)單條數據并無太多價值,但龐大的數據量蘊含巨大財富大數據來自于對現(xiàn)實世界的測量、描述(Veracity)處理速度數據價值來源真實Bigger Than Bigger五個大V數據種類多數據規(guī)模大大數據開啟了一次重大的時代轉型。就像望遠鏡讓我們
3、能夠感受浩瀚宇宙,顯微鏡讓我們得以觀測絕妙微觀,大數據正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務的源泉。大數據帶來生活、工作和思維的變革更全:由獲取抽樣樣本,轉變?yōu)楂@取全體數據更雜:由關注精確性,轉變?yōu)榻邮芑祀s更好:由關注因果關系,轉變?yōu)殛P注相關關系更全:由獲取抽樣樣本,轉變?yōu)楂@取全體數據紙牌屋的誕生是Netflix從3000萬付費用戶的數據中總結收視習慣,并根據對用戶喜好的精準分析進行創(chuàng)作紙牌屋的數據庫包含了3000萬用戶的收視選擇、400萬條評論、300萬次主題搜索。最終,拍什么、誰來拍、誰來演、怎么播,都由數千萬觀眾的客觀喜好統(tǒng)計決定,由用戶需求決定生產。技術的進步使樣本=
4、總體成為可能,我們不再通過管中窺豹,而是通過“上帝視角”洞察藏匿在細節(jié)中的價值和真相Google利用網絡大數據預測流感Facebook、微信基于社交網絡數據實現(xiàn)精準營銷PASS更雜:由關注精確性,轉變?yōu)榻邮芑祀s注重語法規(guī)則,關注翻譯逐字逐句的精確性Candide項目失敗廣開言路,接受混雜通過基于質量參差不齊的數十億文檔的機器學習,獲得了最高質量的翻譯效果大數據基礎上的簡單算法比小數據基礎上的復雜算法更加有效更好:由關注因果關系,轉變?yōu)殛P注相關關系Before:“亞馬遜的聲音”20多名專業(yè)書評家團隊,向用戶推薦新書。Now:個性化推薦系統(tǒng),通過歷史書籍銷售信息,結合用戶搜索記錄、購物車甚至鼠標懸
5、停時間,挖掘產品、數據之間的相關性,即時推薦相關書籍給用戶?!拔覀儾⒉恢烙脩魹槭裁促I這些書,計算機也不知道,但我們相信如果系統(tǒng)運行良好,亞馬遜可以做到只會為用戶推薦一本書,而這本書就是用戶打算買的下一本”探尋事物的因果關系是人類的本性,但是大數據時代可以做某種程度的妥協(xié),可以只需要關注“是什么”,而忽略“為什么?”大數據的價值10000+研發(fā)工程師市場價值挖掘消費者需求探尋細分市場管理價值挖掘信息,清晰戰(zhàn)略優(yōu)化流程,減少內耗提升決策水平產品價值產品定制化、個性化快速迭代,響應需求服務價值推送貼身產品提升使用體驗提供更多、更佳、更優(yōu)惠選擇分析過去 預測未來 優(yōu)化決策大數據產業(yè)鏈H3CH3C提綱
6、大數據背景知識大數據技術基礎大數據解決方案大數據方案建設及應用場景12大表查詢慢數據間關系模糊計算節(jié)點擴展瓶頸數據結構多樣 數據來源廣泛 計算性能瓶頸存儲容量瓶頸服務級別要求越來越高Old SQL瓶頸半、非結構化數據難以處理數據采集困難數據幾何增長存儲節(jié)點擴展瓶頸數據清洗復雜系統(tǒng)響應慢數據吞吐能力低單表數據量激增分析方式單一分析結果展現(xiàn)不友好無即席查詢?yōu)槭裁葱枰髷祿夹g?數據交易決策分析基礎數據大數據技術架構元數據專題庫關聯(lián)庫全文庫媒體庫數據標準管理數據質量檢測數據操作監(jiān)控數據資源目錄數據安全管理數據價值評價數據采集數據清洗數據轉換數據歸并數據加載數據轉發(fā)數據源和采集數據資產管理數據價值變現(xiàn)
7、用戶畫像精準營銷輿情分析其它APP網絡服務器安全非結構化ERP應用CRMSCM其他數據物聯(lián)網MPP分布式數據庫集群Hadoop分布式集群數據處理平臺MPP分布式數據庫集群memoryCPUCPUdisksmemoryCPUCPUmemoryCPUCPUInterconnection NetworkShared storage:SAN,NAS數據傳統(tǒng)數據庫Shared Disk架構disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network數據數據分布策略Hash,Range,RandomMPP架構
8、橫向擴展最多192個節(jié)點MPP數據庫Shared Nothing架構MPP數據庫大規(guī)模并行計算統(tǒng)一接口層收到上層發(fā)送的查詢請求,根據指定的集群節(jié)點或經過負載均衡后選出的集群節(jié)點,將SQL發(fā)送至指定節(jié)點的GCluster層。收到請求的節(jié)點GCluster層負責對SQL進行詞法、語法檢查,進行查詢優(yōu)化,生成分布式執(zhí)行計劃,將生成的分布式執(zhí)行計劃發(fā)送至集群相關節(jié)點的GNode層進行執(zhí)行。GCWare層對各節(jié)點當前狀態(tài)進行監(jiān)控,保證分布式查詢計劃可以正確執(zhí)行。集群各節(jié)點GNode層對執(zhí)行計劃進行解析和執(zhí)行。涉及到數據在不同節(jié)點間的搬運、結果匯總等操作通過GCluster層進行統(tǒng)一調度,GCWare層在
9、各節(jié)點執(zhí)行過程中對節(jié)點狀態(tài)進行監(jiān)控,各節(jié)點將最終執(zhí)行結果發(fā)送至SQL發(fā)起節(jié)點進行匯總,再通過統(tǒng)一接口層返回給上層應用。MPP數據庫高可用性MPP ClusterdatabaseT1p2T1p1T1p3node1T1p2T1p1T1p3node3T1p2T1p1T1p3node2數據共3個副本Replicator/復制引擎一個safegroupMPP數據庫動態(tài)擴展能力MPPClusterdatabase 通過Safegroup 動態(tài)擴展集群節(jié)點 可以實際擴展到64x3個節(jié)點 每個節(jié)點可以處理10-20TB有效數據 每個節(jié)點同時提供計算和存儲能力 Gcware 負責新節(jié)點的數據同步Hadoop分布
10、式集群Hadoop的發(fā)展歷程2002Apache Nutch誕生2003-2004Google發(fā)表GFS和MapReduce論文2004-2006Doug Cutting基于Google論文實現(xiàn)了自己的NDFS和MapReduce2006Hadoop作為Lucene的子項目誕生。同年,Doug Cutting加入Yahoo2008成為Apache頂級項目2009至今YARN, HBase, Spark, Storm等各類新服務不斷加入實時計算內存計算分布式文件系統(tǒng)HDFS批處理MapReduce數據庫HBaseHivePig內存計算SparkSharkStreaming消息隊列Kafka流處理
11、Storm資源管理YARN離線計算Hadoop基于X86服務器本地的計算與存儲資源提供了分布式并行計算和低成本存儲,提供低時延、高并發(fā)的查詢功能,集群可以擴展到上千臺服務器。資源管理YARN:改進的YARN統(tǒng)一資源管理,在同一物理主機/虛擬主機和數據集上運行多種計算框架,包括離線計算、內存計算和實時計算,可以看做集群操作系統(tǒng)。分布式文件系統(tǒng)HDFS:分布式文件系統(tǒng),有較強的容錯性,可在x86平臺上運行,減少總體成本,可擴展,能構建大規(guī)模的應用離線計算: MapReduce是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段進行處理,適合數據密集型計算場景。內存計算:MapReduc
12、e計算框架不適合迭代計算和交互式計算,MapReduce是一種磁盤計算框架,而Spark則是一種內存計算框架,它將數據盡可能放到內存中以提高迭代應用和交互式應用的計算效率。實時計算:MapReduce也不適合進行流式計算、實時分析,比如廣告點擊計算等,而Storm則更擅長這種計算、它在實時性要遠遠好于MapReduce計算框架。 Hadoop分布式集群系統(tǒng)HDFS分布式文件系統(tǒng)HDFS設計理念大規(guī)模數據集橫向線性擴展硬件錯誤是常態(tài)復本冗余機制流式數據訪問批量讀而非隨機讀Master/Slave主從架構namenodedatanode批處理Map/ReduceMapReduce是一種并行計算的框
13、架提供并行計算能力,隨著節(jié)點數增加近似線性遞增兩個核心操作Map和Reduce分而治之的思想“我們統(tǒng)計一棟樓的人數,可以先數每一層的人數”內存計算SparkSpark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現(xiàn)的分布式計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的map reduce的算法Spark特點中間結果內存存儲合并任務流ite
14、r. 1iter. 2. . .InputHDFSreadHDFSwriteHDFSreadHDFSwriteiter. 1iter. 2. . .Input輕量級的調度框架和多線程計算模型,極低的調度和啟動開銷比Hadoop快10 x100 xStorm與HadoopHadoopStormStorm:流式處理框架,實時的Hadoop。在處理方式上Hadoop的MapReduce程序是一批一批進行處理的,等數據增長到一定的程度的時候,運行一個MapReduce任務,數據處理完成MapReduce任務結束。而在Storm中如果你運行了一個Topology程序,則該程序會一直處于運行狀態(tài),隨時處理
15、發(fā)送過來的數據,除非使用命令手動停止Topology程序。信息流處理連續(xù)計算分布式遠程程序調用數據庫HBase簡介Hbase是分布式面向列存的數據庫。Zookeeper:本身是分布式的應用程序協(xié)調服務,它可以是外部單獨的,HBase集群依賴該組件,將rs節(jié)點注冊于zk上,利用zk的高一致性保存系統(tǒng)表的信息等。Hbase Master:HBase集群運行在主機上進行管理調度的主進程(可配置backup master),如分配region,監(jiān)聽zk上region上下線失效情況等。Regionserver:運行在各個機器節(jié)點上,負責region(可以認為是連接真正數據的數據庫)的維護,處理真正的IO
16、請求。HDFS:Hadoop HDFS為HBase提供了高可靠性的底層存儲支持。YARN架構ClientClientClientResource Manager(全局資源管理者)Node ManagerMRApp MstrContainerMap TaskContainerNode ManagerSpark TaskContainerReduce TaskContainerNode ManagerSparkApp MstrContainerSpark TaskContainerRM:全局資源管理器NM:節(jié)點上的資源和任務管理器。A. 上報本節(jié)點信息;B. 處理來自Ma的Container啟動/
17、停止請求。Container:資源抽象,包括CPU、內存、磁盤、網絡等多維度資源。AM或Task運行在Container之中。AM:應用管理器(一個應用程序一個AM)。A. 為Task申請資源; B. 啟動停止Task、監(jiān)控Task執(zhí)行情況Client:提交作業(yè)提交作業(yè)上報節(jié)點狀態(tài)請求資源上報任務狀態(tài)提綱大數據背景知識大數據技術基礎大數據解決方案大數據方案建設及應用場景IT運維大數據應用安全大數據應用數據標準管理數據質量檢測數據資源監(jiān)測數據資源目錄元數據管理無線大數據應用工業(yè)4.0大數據應用教育大數據應用多并發(fā)ETL集中調度系統(tǒng)容錯報警機制數據交換系統(tǒng)網絡服務器安全非結構化ERP應用CRMSC
18、M其他數據物聯(lián)網ETL數據集成數據管理系統(tǒng) 大數據應用安裝布署運維監(jiān)控單點登錄用戶管理權限管理安全審計功能導航運維管理DataEngine大數據平臺用戶門戶MPP分布式數據庫集群Hadoop/Spark集群大數據解決方案DataEngine大數據架構兼容性好:基于開源Hadoop分布式計算框架,提供開放、兼容的大數據計算能力;硬件無關:支持物理機布署、虛擬機布署;支持獨立布署、云平臺布署;安裝便捷:支持一鍵式快速布署,幾分鐘即可完成集群創(chuàng)建;擴展性強:集群數量從幾臺到上千臺,并支持在線橫向擴展;方便運維:支持圖形化管理工具,運維管理簡單易用;兼容SQL:100兼容標準SQL92,包括Hadoo
19、p和MPPLinux操作系統(tǒng)X86服務器集群資源管理YARN任務調度Oozie安全管理Kerberos文件系統(tǒng)HDFS集群安裝布署消息隊列Kafka數據管理可視化數據挖掘離線計算MapReduceMPP數據庫HBase數據庫統(tǒng)一用戶管理自助服務Hive數據倉庫同步系統(tǒng)ZooKeeper內存計算Spark流計算Storm數據交換全文檢索工作流管理集群監(jiān)控管理大數據應用DataEngine大數據平臺統(tǒng)一安全管理SQL即席查詢DataEngine : Hadoop+32原生Hadoop是一套分布式計算框架,可以處理低價值密度半結構化、非結構化數據,不能處理高價值密度的關系型結構化數據。原生Hadoo
20、p是一個開源生態(tài)圈,商用化需要經過二次開發(fā),提高穩(wěn)定性、可靠性、安全性、易用性等,提供數據從ETL采集到可視化BI展示的端到端解決方案。隨著Hadoop的發(fā)展,用戶對Hadoop有了更高的期待,對云與大數據融合、大數據與安全融合、網絡對大數據支撐等提出了新的要求。開放兼容MPP數據庫自動安裝混合架構云平臺融合多業(yè)務高可靠H3C在Hadoop基礎上進行了大量優(yōu)化,并與H3C其他產品線高度融合,提供端到端的大數據解決方案?;陂_源Hadoop架構增強開發(fā),可以快速集成開源社區(qū)優(yōu)秀組件;提供標準API,兼容標準SQL,便于大數據應用開發(fā)、數據分析挖掘,為ISV提供良好開發(fā)接口;提供自助服務,統(tǒng)一用戶
21、管理、統(tǒng)一安全管理、工作流管理、數據管理、可視化數據挖掘以及BI等業(yè)務能力。優(yōu)化集群部署方式,提供自動安裝功能,支持分鐘級交付集群;集群規(guī)模靈活,集群主機可以從3臺到上千臺橫向擴展;支持圖形化管理工具,運維管理簡單易用。采用Hadoop+MPP混合架構,對結構化數據和非結構化數據差異化處理;解決Hadoop與MPP運維管理融合以及集群間高速通道的搭建,對上層提供統(tǒng)一服務??梢耘cH3Cloud集成,通過云平臺為大數據分配和管理計算資源,提供多租戶服務。提供管理節(jié)點HA、服務節(jié)點HA、數據多備份以及災備機制DataEngine_MPP分布式數據庫采用Shared Nothing 技術,具有如下技術
22、優(yōu)勢:列存儲、高效壓縮、智能索引、并行加載、數據安全組、橫向擴展。一鍵部署,分鐘級交付主節(jié)點:一鍵下發(fā)指令、自動安裝部署Hadoop集群MPP集群其他組件細顆粒度在線水平擴容管理節(jié)點Hadoop集群(3臺即可)MPP集群(4臺即可)其他組件可按1-2個節(jié)點為最小單位進行批量在線擴容動態(tài)擴展可視化運維安裝部署集群管理主機管理服務管理用戶管理告警監(jiān)控多維度監(jiān)控告警多維度監(jiān)控(節(jié)點、服務、組件)告警類型豐富(CPU、內存、硬盤)可自定義告警組自定義告警通知類型 (SNMP、EMAIL)BI展示提綱大數據背景知識大數據技術基礎大數據解決方案大數據方案建設及應用場景企業(yè)面臨的數據困境?業(yè)務現(xiàn)狀面臨挑戰(zhàn)價
23、值挑戰(zhàn)數據這么多,不知道怎么用不知道如何建立高效率高價值的數據分析體系數據團隊疲于變化的需求,卻得不到認可業(yè)務挑戰(zhàn)業(yè)務變化紛繁復雜,響應成本高需求突發(fā)性與實時性強,傳統(tǒng)工具無法解決技術與業(yè)務脫節(jié),只有少數人能夠領會利用數據技術挑戰(zhàn)傳統(tǒng)數據倉庫建設復雜,成本高ETL工作繁瑣,實施速度慢數據分析與數據挖掘技術門檻高無法應對未來大數據的沖擊業(yè)務需求變化多樣數據量爆發(fā)式增長數據部門疲于應對需求變化無法用好現(xiàn)有數據數據分析、挖掘體系不夠完善企業(yè)或單位沒有數據決策的意識企業(yè)大數據建設步驟三段論數據變現(xiàn)數據整合技術升級第一階段第二階段第三階段先有金剛鉆再攬瓷器活瓷器變金錢MPP分布式數據庫Hadoop結構化數據非結構化數據結構化數據半結構化/非結構化數據高價值密度數據低價值密度數據大數據應用用MPP處理PB級別的、高質量的結構化數據,同時為應用提供豐富的SQL支持能力用H
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東青年職業(yè)學院《數據結構和算法》2023-2024學年第一學期期末試卷
- 廣東女子職業(yè)技術學院《護理傳染學》2023-2024學年第一學期期末試卷
- 不斷進取-助推事業(yè)成功:年度工作總結與自我提升
- 2025年中國農業(yè)機械行業(yè)概述與產業(yè)鏈及發(fā)展歷程調研報告
- 《xx項目建議書》課件
- 【名師一號】2020-2021學年高中英語必修二-第二單元綜合測評
- 2021高考英語浙江義烏市課外訓練(9)及答案
- 湖北省黃石市陽新縣2024-2025學年八年級上學期數學期末考試題 含答案
- 《直腸癌術后的護理》課件
- 【名師一號】2020-2021學年高中英語(北師大版)必修1隨堂演練:期中測試
- 《五年級上冊科學蘇教版F》期末檢測
- 政府部門勞動合同范例
- 河南省平頂山市郟縣2023-2024學年八年級下學期期末測試英語試題
- 2024年遼寧經濟職業(yè)技術學院單招職業(yè)傾向性測試題庫附答案
- JT∕T 1477-2023 系列2集裝箱 角件
- 啟明計劃工信部青年人才
- 乙酸鈉?;钒踩畔⒖?、周知卡及MSDS-
- 人工造林項目與其他單位的協(xié)調配合
- 居家服侍老人協(xié)議書
- (高清版)DZT 0426-2023 固體礦產地質調查規(guī)范(1:50000)
- 2024年-(多附件條款版)個人汽車租賃給公司合同電子版
評論
0/150
提交評論