![大數(shù)據(jù)分析概述_第1頁](http://file4.renrendoc.com/view/b505a17539fa8192886c1a60d57c3507/b505a17539fa8192886c1a60d57c35071.gif)
![大數(shù)據(jù)分析概述_第2頁](http://file4.renrendoc.com/view/b505a17539fa8192886c1a60d57c3507/b505a17539fa8192886c1a60d57c35072.gif)
![大數(shù)據(jù)分析概述_第3頁](http://file4.renrendoc.com/view/b505a17539fa8192886c1a60d57c3507/b505a17539fa8192886c1a60d57c35073.gif)
![大數(shù)據(jù)分析概述_第4頁](http://file4.renrendoc.com/view/b505a17539fa8192886c1a60d57c3507/b505a17539fa8192886c1a60d57c35074.gif)
![大數(shù)據(jù)分析概述_第5頁](http://file4.renrendoc.com/view/b505a17539fa8192886c1a60d57c3507/b505a17539fa8192886c1a60d57c35075.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
——大數(shù)據(jù)引領(lǐng)我們走向數(shù)據(jù)智能化時代大數(shù)據(jù)分析2021/5/91大數(shù)據(jù)的定義理解2021/5/92什么是大數(shù)據(jù)大數(shù)據(jù)時代的背景1大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征2大數(shù)據(jù)的構(gòu)成32021/5/93大數(shù)據(jù)時代的背景
半個世紀(jì)以來,隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。2021/5/94全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…2021/5/95數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨…大數(shù)據(jù)時代的背景2021/5/9620世紀(jì)90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData。2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念。大數(shù)據(jù)時代的背景2021/5/97體量Volume多樣性Variety價值密度Value速度Velocity非結(jié)構(gòu)化數(shù)據(jù)的超大規(guī)模和增長占總數(shù)據(jù)量的80~90%比結(jié)構(gòu)化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構(gòu)和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關(guān)信息對未來趨勢與模式的可預(yù)測分析深度復(fù)雜分析(機器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。2021/5/98Value價值挖掘大數(shù)據(jù)的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價值密度低,是大數(shù)據(jù)的一個典型特征.2021/5/992010年海地地震,海地人散落在全國各地,援助人員為弄清該去哪里援助手忙腳亂。傳統(tǒng)上,他們只能通過飛往災(zāi)區(qū)上空來查找需要援助的人群。一些研究人員采取了一種不同的做法:他們開始跟蹤海地人所持手機內(nèi)部的SIM卡,由此判斷出手機持有人所處的位置和行動方向。正如一份聯(lián)合國(UN)報告所述,此舉幫助他們“準(zhǔn)確地分析出了逾60萬名海地人逃離太子港之后的目的地?!焙髞恚?dāng)海地爆發(fā)霍亂疫情時,同一批研究人員再次通過追蹤SIM卡把藥品投放到正確的地點,阻止了疫情的蔓延。2021/5/910Variety多樣性企業(yè)內(nèi)部的經(jīng)營交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來源.
文本/圖片/視頻等非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)能夠在不同的數(shù)據(jù)類型中,進(jìn)行交叉分析的技術(shù),是大數(shù)據(jù)的核心技術(shù)之一.語義分析技術(shù),圖文轉(zhuǎn)換技術(shù),模式識別技術(shù),地理信息技術(shù)等,都會在大數(shù)據(jù)分析時獲得應(yīng)用.2021/5/911非結(jié)構(gòu)化數(shù)據(jù)相對于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。2021/5/912Velocity速度1s是臨界點.對于大數(shù)據(jù)應(yīng)用而言,必須要在1秒鐘內(nèi)形成答案,否則處理結(jié)果就是過時和無效的.實時處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù),BI技術(shù)的關(guān)鍵差別之一.2021/5/913Volume數(shù)據(jù)量PB是大數(shù)據(jù)層次的臨界點.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB2021/5/914大數(shù)據(jù)不僅僅是“大”多大?PB級比大更重要的是數(shù)據(jù)的復(fù)雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值2021/5/915指數(shù)型增長的海量數(shù)據(jù)所有研究都表明,未來數(shù)年數(shù)據(jù)量會呈現(xiàn)指數(shù)增長。根據(jù)麥肯錫全球研究院(MGI)估計,全球企業(yè)2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數(shù)據(jù),而消費者在PC和筆記本等設(shè)備上存儲了超過6EB新數(shù)據(jù)。1EB數(shù)據(jù)相當(dāng)于美國國會圖書館中存儲的數(shù)據(jù)的4000多倍。事實上,我們?nèi)缃癞a(chǎn)生如此多的數(shù)據(jù),以至于根本不可能全部存儲下來。例如,醫(yī)療衛(wèi)生提供商會處理掉他們所產(chǎn)生的90%的數(shù)據(jù)(比如手術(shù)過程中產(chǎn)生的幾乎所有實時視頻圖像)。2021/5/916大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于各種網(wǎng)絡(luò)和社交媒體。它包括了呼叫詳細(xì)記錄、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、評價數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。大數(shù)據(jù)的構(gòu)成2021/5/917大數(shù)據(jù)的技術(shù)與應(yīng)用2021/5/918大數(shù)據(jù)怎么用大數(shù)據(jù)技術(shù)要解決的問題1大數(shù)據(jù)的技術(shù)與應(yīng)用大數(shù)據(jù)的相關(guān)技術(shù)2大數(shù)據(jù)的應(yīng)用實例32021/5/919Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型ValueVelocity快速的數(shù)據(jù)流轉(zhuǎn)發(fā)現(xiàn)數(shù)據(jù)價值大數(shù)據(jù)技術(shù)要解決的問題2021/5/920軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)
一樣,軟件是大數(shù)據(jù)的驅(qū)動力.軟件改變世界!2021/5/921大數(shù)據(jù)生態(tài):軟件是引擎2021/5/922大數(shù)據(jù)技術(shù)被設(shè)計用于在成本可承受的條件下,通過非??焖伲╲elocity)地采集、發(fā)現(xiàn)和分析,從大量(volumes)、多類別(variety)的數(shù)據(jù)中提取價值(value),將是IT領(lǐng)域新一代的技術(shù)與架構(gòu)。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結(jié)果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務(wù)的各個細(xì)節(jié)相融合。大數(shù)據(jù)技術(shù)要解決的問題2021/5/923技術(shù)領(lǐng)域的挑戰(zhàn)1、對現(xiàn)有數(shù)據(jù)庫管理技術(shù)的挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)庫部署不能處理數(shù)TB級別的數(shù)據(jù),也不能很好的支持高級別的數(shù)據(jù)分析。急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫的管理能力。如何構(gòu)建全球級的分布式數(shù)據(jù)庫(Globally-DistributedDatabase),可以擴(kuò)展到數(shù)百萬的機器,數(shù)已百計的數(shù)據(jù)中心,上萬億的行數(shù)據(jù)。2、經(jīng)典數(shù)據(jù)庫技術(shù)并沒有考慮數(shù)據(jù)的多類別(variety)SQL(結(jié)構(gòu)化數(shù)據(jù)查詢語言),在設(shè)計的一開始是沒有考慮非結(jié)構(gòu)化數(shù)據(jù)的。3、實時性的技術(shù)挑戰(zhàn):一般而言,像數(shù)據(jù)倉庫系統(tǒng)、BI應(yīng)用,對處理時間的要求并不高。因此這類應(yīng)用往往運行1、2天獲得結(jié)果依然可行的。但實時處理的要求,是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù)、BI技術(shù)的關(guān)鍵差別之一。網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心、運維的挑戰(zhàn):技術(shù)架構(gòu)的挑戰(zhàn):人們每天創(chuàng)建的數(shù)據(jù)量正呈爆炸式增長,但就數(shù)據(jù)保存來說,我們的技術(shù)改進(jìn)不大,而數(shù)據(jù)丟失的可能性卻不斷增加。如此龐大的數(shù)據(jù)量首先在存儲上就會是一個非常嚴(yán)重的問題,硬件的更新速度將是大數(shù)據(jù)發(fā)展的基石。2021/5/924分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù)統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標(biāo)簽云;關(guān)系圖等一些相關(guān)技術(shù)存儲結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲解決方案:Hadoop(MapReduce技術(shù))流計算(twitter的storm和yahoo!的S4)2021/5/925大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)2021/5/926數(shù)據(jù)眾包數(shù)據(jù)眾包是一種新的數(shù)據(jù)采集方式,由企業(yè)方通過平臺把數(shù)據(jù)采集任務(wù)外包給非特定的大眾網(wǎng)絡(luò)。2021/5/927大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理2021/5/928分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。2021/5/929分布式文件系統(tǒng)Google文件系統(tǒng)(GoogleFileSystem,GFS)是一個可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它運行于廉價的普通硬件上,將服務(wù)器故障視為正常現(xiàn)象,通過軟件的方式自動容錯,在保證系統(tǒng)可靠性和可用性的同時,大大減少了系統(tǒng)的成本。2021/5/930分布式文件系統(tǒng)GFS將整個系統(tǒng)分為三類角色:Client(客戶端)、Master(主服務(wù)器)、ChunkServer(數(shù)據(jù)塊服務(wù)器)。2021/5/931分布式文件系統(tǒng)Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上。2021/5/932分布式文件系統(tǒng)一個HDFS集群是由一個Namenode和一定數(shù)目的Datanodes組成。2021/5/933非關(guān)系型數(shù)據(jù)庫NoSQL關(guān)系型數(shù)據(jù)庫的局限性難以滿足高并發(fā)讀寫的需求難以滿足對海量數(shù)據(jù)高效率存儲和訪問的需求難以滿足對數(shù)據(jù)庫高可擴(kuò)展性和高可用性的需求NoSQL=2021/5/934非關(guān)系型數(shù)據(jù)庫NoSQLNoSQL數(shù)據(jù)存儲不需要固定的表結(jié)構(gòu),通常也不存在連接操作。在大數(shù)據(jù)存取上具備關(guān)系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。關(guān)系型數(shù)據(jù)庫中的表都是存儲一些格式化的數(shù)據(jù)結(jié)構(gòu),每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數(shù)據(jù)庫會為每個元組分配所有的字段。非關(guān)系型數(shù)據(jù)庫以鍵值對存儲,它的結(jié)構(gòu)不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結(jié)構(gòu),可以減少一些時間和空間的開銷。2021/5/935非關(guān)系型數(shù)據(jù)庫NoSQL2021/5/936非關(guān)系型數(shù)據(jù)庫NoSQLBigtable的設(shè)計目的是可靠地處理PB級別的數(shù)據(jù),并且能夠部署到上千臺機器上。Bigtable已經(jīng)在超過60個Google的產(chǎn)品和項目上得到了應(yīng)用,包括GoogleAnalytics、GoogleEarth等。2021/5/937非關(guān)系型數(shù)據(jù)庫NoSQLBigtable是一個鍵值(key-value)映射。鍵有三維,分別是行鍵(rowkey)、列鍵(columnkey)和時間戳(timestamp),行鍵和列鍵都是字節(jié)串,時間戳是64位整型;而值是一個字節(jié)串。可以用(row:string,column:string,time:int64)→string來表示一條鍵值對記錄。2021/5/938非關(guān)系型數(shù)據(jù)庫NoSQLBigtable是一個鍵值(key-value)映射。鍵有三維,分別是行鍵(rowkey)、列鍵(columnkey)和時間戳(timestamp),行鍵和列鍵都是字節(jié)串,時間戳是64位整型;而值是一個字節(jié)串??梢杂?row:string,column:string,time:int64)→string來表示一條鍵值對記錄。2021/5/939非關(guān)系型數(shù)據(jù)庫NoSQLDynamoDB是Amazon提供的共享式數(shù)據(jù)庫云服務(wù),可用性和擴(kuò)展性都很好,性能也不錯:讀寫訪問中99.9%的響應(yīng)時間都在300ms內(nèi)。DynamoDB通過服務(wù)器把所有的數(shù)據(jù)存儲在固態(tài)硬盤(SSD)上的三個不同的區(qū)域。如果有更高的傳輸需求,DynamoDB也可以在后臺添加更多的服務(wù)器。2021/5/940非關(guān)系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性。"ImageID"=1"Title"="flower""Tags"="flower","jasmine","white""Ratings"=3,4,2一個屬性是一個“名稱-值”對(name-valuepair),“名稱”必須是一個字符串,“值”可以是一個字符串、數(shù)字、字符串集合或數(shù)字集合。下面是關(guān)于屬性的一些實例:2021/5/941非關(guān)系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性(Attibute)。項目由屬性構(gòu)成。必須指定一個屬性作為主鍵,這個主鍵在DynamoDB表中唯一地標(biāo)識一個項目。除了主鍵是必須的,其他項目屬性是可選的。一個項目的屬性沒有順序關(guān)系。某個項目中的屬性和同一個表中的其他項目的屬性也沒有關(guān)系。項目被存儲在表中,表中的所有項目都具有相同的主鍵機制(primarykeyscheme)。每個項目都具備一個唯一的主鍵值。2021/5/942非關(guān)系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性(Attibute)。2021/5/943非關(guān)系型數(shù)據(jù)庫NoSQLDynamoDB并沒有DB的概念,目前單用戶最多能創(chuàng)建256個Table,同時DynamoDB提供了11個API接口操作表和項目。2021/5/944非關(guān)系型數(shù)據(jù)庫NoSQL2021/5/945非關(guān)系型數(shù)據(jù)庫NoSQLHBase–HadoopDatabase,是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable的能力,是Hadoop項目的子項目。Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存收件箱等簡單格式數(shù)據(jù),集GoogleBigTable的數(shù)據(jù)模型與AmazonDynamo的完全分布式的架構(gòu)于一身。Facebook于2008年將Cassandra開源,此后被Digg、Twitter等知名Web2.0網(wǎng)站所采納,成為了一種流行的分布式結(jié)構(gòu)化數(shù)據(jù)存儲方案。2021/5/946非關(guān)系型數(shù)據(jù)庫NoSQLMongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫,是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫的。它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,可以存儲比較復(fù)雜的數(shù)據(jù)類型。它支持的查詢語言非常強大,其語法有點類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。2021/5/947云計算和云存儲云計算(cloudcomputing),是分布式計算技術(shù)的一種,其最基本的概念,是透過網(wǎng)絡(luò)將龐大的計算處理程序自動分拆成無數(shù)個較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計算分析之后將處理結(jié)果回傳給用戶。透過這項技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi),達(dá)成處理數(shù)以千萬計甚至億計的信息,達(dá)到和“超級計算機”同樣強大效能的網(wǎng)絡(luò)服務(wù)。云計算是一種資源交付和使用模式,指通過網(wǎng)絡(luò)獲得應(yīng)用所需的資源(硬件、平臺、軟件)。提供資源的網(wǎng)絡(luò)被稱為“云”。2021/5/948白云下面數(shù)據(jù)跑藍(lán)藍(lán)的天上白云飄如果數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏,而云計算就是挖掘和利用寶藏的利器。沒有強大的計算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計算也只能是殺雞用的宰牛刀。云計算和云存儲2021/5/949云計算和云存儲云存儲是在云計算(cloudcomputing)概念上延伸和發(fā)展出來的一個新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。當(dāng)云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設(shè)備,那么云計算系統(tǒng)就轉(zhuǎn)變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。2021/5/950實時流處理傳統(tǒng)的分布式計算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實時流處理則是讓數(shù)據(jù)流動起來,數(shù)據(jù)從內(nèi)存中流過,截取需要的數(shù)據(jù),進(jìn)行實時分析計算。2021/5/951實時流處理傳統(tǒng)的分布式計算往往是先積累大量的數(shù)據(jù),再進(jìn)行數(shù)據(jù)拆分和聚合。而實時流處理則是讓數(shù)據(jù)流動起來,數(shù)據(jù)從內(nèi)存中流過,截取需要的數(shù)據(jù),進(jìn)行實時分析計算。2021/5/952大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理A/BTesting關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學(xué)習(xí)優(yōu)化空間分析社會網(wǎng)絡(luò)分析自然語言分析MapReduceR語言2021/5/953A/BTestingA/B測試是可用性測試的一個方法,其核心為:同時實驗兩個元素或版本(A和B),確定哪個更好。注冊按鈕由綠色改成紅色提高轉(zhuǎn)化率34%人性化的表格提高11%的轉(zhuǎn)化率。2021/5/954MapReduceMapReduce是Google提出的一個軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。它使編程人員在不了解分布式并行編程的情況下,能將自己的程序運行在分布式系統(tǒng)上。Map=映射Reduce=規(guī)約或化簡2021/5/9552021/5/956MapReduce2021/5/957R語言R語言是一種自由軟件編程語言與操作環(huán)境,主要用于統(tǒng)計分析、繪圖、數(shù)據(jù)挖掘。R語言擅長在Hadoop分布式文件系統(tǒng)中存儲的非結(jié)構(gòu)化數(shù)據(jù)上的分析。R現(xiàn)在還可以運行在HBase這種非關(guān)系型的數(shù)據(jù)庫以及面向列的分布式數(shù)據(jù)存儲之上。2021/5/958大數(shù)據(jù)的相關(guān)技術(shù)ETL數(shù)據(jù)眾包(CrowdSouring)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)分布式文件系統(tǒng)關(guān)系數(shù)據(jù)庫非關(guān)系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理A/BTesting關(guān)聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡(luò)預(yù)測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學(xué)習(xí)優(yōu)化空間分析社會網(wǎng)絡(luò)分析自然語言分析MapReduceR語言標(biāo)簽云(TagCloud)聚類圖(Clustergram)空間信息流(Spatialinformationflow)熱圖(Heatmap)2021/5/959標(biāo)簽云標(biāo)簽云(TagCloud)是一套相關(guān)的標(biāo)簽以及與此相應(yīng)的權(quán)重。權(quán)值影響標(biāo)簽的字體大小、顏色或其他視覺效果。典型的標(biāo)簽云有30至150個標(biāo)簽,用以表示一個網(wǎng)站中的內(nèi)容及其熱門程度。標(biāo)簽通常是超鏈接,指向分類頁面。2021/5/960標(biāo)簽云奧巴馬布什克林頓林肯2021/5/961標(biāo)簽云2021/5/962聚類圖聚類圖(Clustergram)是指用圖形方式展示聚類分析結(jié)果的技術(shù),可以有助于判斷簇數(shù)量不同時的聚類效果。2021/5/963空間信息流空間信息流(Spatialinformationflow)是展示信息空間狀態(tài)的一種可視化技術(shù)。2021/5/964熱圖熱圖(Heatmap)是一項數(shù)據(jù)展示技術(shù),將變量值用不同的顏色或高亮形式描繪出來??梢苑浅V庇^的呈現(xiàn)一些原本不易理解或表達(dá)的數(shù)據(jù),比如密度、頻率、溫度等。2021/5/965熱圖2021/5/966機遇與挑戰(zhàn)三2021/5/967大數(shù)據(jù)賦予我們洞察未來的能力機遇馬云成功預(yù)測2008年經(jīng)濟(jì)危機“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿(mào)易發(fā)生變化了?!蓖ǔ6裕I家在采購商品前,會比較多家供應(yīng)商的產(chǎn)品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因為數(shù)據(jù)樣本巨大,保證用戶行為模型的準(zhǔn)確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導(dǎo)致買盤的下降。人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉(zhuǎn)變,也是大數(shù)據(jù)作出的最大貢獻(xiàn)之一。——《大數(shù)據(jù)時代》2021/5/968挑戰(zhàn)諸多領(lǐng)域的問題亟待解決,最重要的是每個人的信息都被互聯(lián)網(wǎng)所記錄和保留了下來,并且進(jìn)行加工和利用,為人所用,而這正是我們所擔(dān)憂的信息安全隱患!更多的隱私、安全性問題:我們的隱私被二次利用了多少密碼和賬號是因為“社交網(wǎng)絡(luò)”流出去的?2011年4月索尼的系統(tǒng)漏洞導(dǎo)致7700萬用戶資料失竊2011年4月,iOS被發(fā)現(xiàn)會按照時間順序記錄用戶的位置坐標(biāo)信息2011年CSDN密碼泄露事件…眼下中國互聯(lián)網(wǎng)熱門的話題之一就是互聯(lián)網(wǎng)實名制問題,我愿意相信這是個好事。畢竟我們?nèi)绻髦脸鲎约旱纳矸荩ヂ?lián)網(wǎng)才能對我們的隱私給予更好保護(hù)。2021/5/969大數(shù)據(jù)的營銷案例一、未卜先知懷孕案例塔吉特:比父親更早知道女兒懷孕曾經(jīng)有一位男性顧
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 保潔工用工合同范本
- 2025年鞋扣業(yè)行業(yè)深度研究分析報告
- 2025年度建筑項目居間代理與咨詢一體化合同范本
- 2025年度包裝材料加工生產(chǎn)合同范本
- 2025年度農(nóng)業(yè)化肥農(nóng)藥智能化管理系統(tǒng)開發(fā)合同
- 2025年女裝褲子項目可行性研究報告
- 2025年同軸銅線行業(yè)深度研究分析報告
- 悉尼大學(xué)獎學(xué)金申請書
- 2025年度金融科技產(chǎn)品研發(fā)與推廣合作協(xié)議-@-1
- 2025年度環(huán)保節(jié)能產(chǎn)品研發(fā)與推廣合作協(xié)議
- 戰(zhàn)略管理與倫理
- 如何構(gòu)建高效課堂課件
- 虛擬化與云計算技術(shù)應(yīng)用實踐項目化教程 教案全套 第1-14周 虛擬化與云計算導(dǎo)論-騰訊云服務(wù)
- 甲基丙烯酸甲酯生產(chǎn)工藝畢業(yè)設(shè)計設(shè)備選型與布置模板
- 徐金桂行政法與行政訴訟法新講義
- 瀝青拌合設(shè)備結(jié)構(gòu)認(rèn)知
- 2023年北京高考政治真題試題及答案
- 復(fù)旦中華傳統(tǒng)體育課程講義05木蘭拳基本技術(shù)
- 北師大版五年級上冊數(shù)學(xué)教學(xué)課件第5課時 人民幣兌換
- 工程回訪記錄單
- 住房公積金投訴申請書
評論
0/150
提交評論