大數(shù)據(jù)分析技術介紹_第1頁
大數(shù)據(jù)分析技術介紹_第2頁
大數(shù)據(jù)分析技術介紹_第3頁
大數(shù)據(jù)分析技術介紹_第4頁
大數(shù)據(jù)分析技術介紹_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

——大數(shù)據(jù)引領我們走向數(shù)據(jù)智能化時代大數(shù)據(jù)分析技術介紹大數(shù)據(jù)的定義理解什么是大數(shù)據(jù)大數(shù)據(jù)時代的背景1大數(shù)據(jù)的定義理解大數(shù)據(jù)的“4V”特征2大數(shù)據(jù)的構成3大數(shù)據(jù)時代的背景

半個世紀以來,隨著計算機技術全面融入社會生活,信息爆炸已經(jīng)積累到了一個開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學影像、安全監(jiān)控、金融(銀行、股市、保險)、電信(通話、短信)都在瘋狂產生著數(shù)據(jù)。全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Youtube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC監(jiān)測,人類產生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產生的數(shù)據(jù)量相當于之前產生的全部數(shù)據(jù)量。數(shù)據(jù)結構日趨復雜大量新數(shù)據(jù)源的出現(xiàn)則導致了非結構化、半結構化數(shù)據(jù)爆發(fā)式的增長這些由我們創(chuàng)造的信息背后產生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇大數(shù)據(jù)時代正在來臨…大數(shù)據(jù)時代的背景20世紀90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData。2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念。大數(shù)據(jù)時代的背景體量Volume多樣性Variety價值密度Value速度Velocity非結構化數(shù)據(jù)的超大規(guī)模和增長占總數(shù)據(jù)量的80~90%比結構化數(shù)據(jù)增長快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉庫的10倍到50倍大數(shù)據(jù)的異構和多樣性很多不同形式(文本、圖像、視頻、機器數(shù)據(jù))無模式或者模式不明顯不連貫的語法或句義大量的不相關信息對未來趨勢與模式的可預測分析深度復雜分析(機器學習、人工智能Vs傳統(tǒng)商務智能(咨詢、報告等)實時分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)的4V特征“大量化(Volume)、多樣化(Variety)、快速化(Velocity)、價值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說,只有具備這些特點的數(shù)據(jù),才是大數(shù)據(jù)。Value價值挖掘大數(shù)據(jù)的價值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息.價值密度低,是大數(shù)據(jù)的一個典型特征.2010年海地地震,海地人散落在全國各地,援助人員為弄清該去哪里援助手忙腳亂。傳統(tǒng)上,他們只能通過飛往災區(qū)上空來查找需要援助的人群。一些研究人員采取了一種不同的做法:他們開始跟蹤海地人所持手機內部的SIM卡,由此判斷出手機持有人所處的位置和行動方向。正如一份聯(lián)合國(UN)報告所述,此舉幫助他們“準確地分析出了逾60萬名海地人逃離太子港之后的目的地?!焙髞?,當海地爆發(fā)霍亂疫情時,同一批研究人員再次通過追蹤SIM卡把藥品投放到正確的地點,阻止了疫情的蔓延。Variety多樣性企業(yè)內部的經(jīng)營交易信息;物聯(lián)網(wǎng)世界中商品,物流信息;互聯(lián)網(wǎng)世界中人與人交互信息,位置信息等是大數(shù)據(jù)的主要來源.

文本/圖片/視頻等非結構化/半結構化數(shù)據(jù)能夠在不同的數(shù)據(jù)類型中,進行交叉分析的技術,是大數(shù)據(jù)的核心技術之一.語義分析技術,圖文轉換技術,模式識別技術,地理信息技術等,都會在大數(shù)據(jù)分析時獲得應用.非結構化數(shù)據(jù)相對于結構化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結構化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。Velocity速度1s是臨界點.對于大數(shù)據(jù)應用而言,必須要在1秒鐘內形成答案,否則處理結果就是過時和無效的.實時處理的要求,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術,BI技術的關鍵差別之一.Volume數(shù)據(jù)量PB是大數(shù)據(jù)層次的臨界點.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB大數(shù)據(jù)不僅僅是“大”多大?PB級比大更重要的是數(shù)據(jù)的復雜性,有時甚至大數(shù)據(jù)中的小數(shù)據(jù)如一條微博就具有顛覆性的價值指數(shù)型增長的海量數(shù)據(jù)所有研究都表明,未來數(shù)年數(shù)據(jù)量會呈現(xiàn)指數(shù)增長。根據(jù)麥肯錫全球研究院(MGI)估計,全球企業(yè)2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數(shù)據(jù),而消費者在PC和筆記本等設備上存儲了超過6EB新數(shù)據(jù)。1EB數(shù)據(jù)相當于美國國會圖書館中存儲的數(shù)據(jù)的4000多倍。事實上,我們如今產生如此多的數(shù)據(jù),以至于根本不可能全部存儲下來。例如,醫(yī)療衛(wèi)生提供商會處理掉他們所產生的90%的數(shù)據(jù)(比如手術過程中產生的幾乎所有實時視頻圖像)。大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù)海量交易數(shù)據(jù):企業(yè)內部的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結構化的、通過關系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內的所有數(shù)據(jù)集海量交互數(shù)據(jù):源于各種網(wǎng)絡和社交媒體。它包括了呼叫詳細記錄、設備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、評價數(shù)據(jù)、科學信息、電子郵件等等。可以告訴我們未來會發(fā)生什么。大數(shù)據(jù)的構成大數(shù)據(jù)的技術與應用大數(shù)據(jù)怎么用大數(shù)據(jù)技術要解決的問題1大數(shù)據(jù)的技術與應用大數(shù)據(jù)的相關技術2大數(shù)據(jù)的應用實例3Volume海量的數(shù)據(jù)規(guī)模Variety多樣的數(shù)據(jù)類型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速的數(shù)據(jù)流轉發(fā)現(xiàn)數(shù)據(jù)價值大數(shù)據(jù)技術要解決的問題軟件是大數(shù)據(jù)的引擎和數(shù)據(jù)中心(DataCenter)

一樣,軟件是大數(shù)據(jù)的驅動力.軟件改變世界!大數(shù)據(jù)生態(tài):軟件是引擎大數(shù)據(jù)技術被設計用于在成本可承受的條件下,通過非??焖伲╲elocity)地采集、發(fā)現(xiàn)和分析,從大量(volumes)、多類別(variety)的數(shù)據(jù)中提取價值(value),將是IT領域新一代的技術與架構。企業(yè)用以分析的數(shù)據(jù)越全面,分析的結果就越接近于真實。大數(shù)據(jù)分析意味著企業(yè)能夠從這些新的數(shù)據(jù)中獲取新的洞察力,并將其與已知業(yè)務的各個細節(jié)相融合。大數(shù)據(jù)技術要解決的問題技術領域的挑戰(zhàn)1、對現(xiàn)有數(shù)據(jù)庫管理技術的挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)庫部署不能處理數(shù)TB級別的數(shù)據(jù),也不能很好的支持高級別的數(shù)據(jù)分析。急速膨脹的數(shù)據(jù)體量即將超越傳統(tǒng)數(shù)據(jù)庫的管理能力。如何構建全球級的分布式數(shù)據(jù)庫(Globally-DistributedDatabase),可以擴展到數(shù)百萬的機器,數(shù)已百計的數(shù)據(jù)中心,上萬億的行數(shù)據(jù)。2、經(jīng)典數(shù)據(jù)庫技術并沒有考慮數(shù)據(jù)的多類別(variety)SQL(結構化數(shù)據(jù)查詢語言),在設計的一開始是沒有考慮非結構化數(shù)據(jù)的。3、實時性的技術挑戰(zhàn):一般而言,像數(shù)據(jù)倉庫系統(tǒng)、BI應用,對處理時間的要求并不高。因此這類應用往往運行1、2天獲得結果依然可行的。但實時處理的要求,是區(qū)別大數(shù)據(jù)應用和傳統(tǒng)數(shù)據(jù)倉庫技術、BI技術的關鍵差別之一。網(wǎng)絡架構、數(shù)據(jù)中心、運維的挑戰(zhàn):技術架構的挑戰(zhàn):人們每天創(chuàng)建的數(shù)據(jù)量正呈爆炸式增長,但就數(shù)據(jù)保存來說,我們的技術改進不大,而數(shù)據(jù)丟失的可能性卻不斷增加。如此龐大的數(shù)據(jù)量首先在存儲上就會是一個非常嚴重的問題,硬件的更新速度將是大數(shù)據(jù)發(fā)展的基石。分析技術:數(shù)據(jù)處理:自然語言處理技術統(tǒng)計和分析:A/Btest;topN排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關聯(lián)規(guī)則分析;分類;聚類模型預測:預測模型;機器學習;建模仿真大數(shù)據(jù)技術:數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關系數(shù)據(jù)庫;NoSQL;SQL等基礎架構支持:云存儲;分布式文件系統(tǒng)等計算結果展現(xiàn):云計算;標簽云;關系圖等一些相關技術存儲結構化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結構化數(shù)據(jù)圖片、視頻、word、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結構化數(shù)據(jù)轉換為結構化存儲按照非結構化存儲解決方案:Hadoop(MapReduce技術)流計算(twitter的storm和yahoo!的S4)數(shù)據(jù)采集數(shù)據(jù)儲存數(shù)據(jù)管理數(shù)據(jù)分析與挖掘數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結果展示大數(shù)據(jù)的相關技術ETL數(shù)據(jù)眾包(CrowdSouring)數(shù)據(jù)眾包數(shù)據(jù)眾包是一種新的數(shù)據(jù)采集方式,由企業(yè)方通過平臺把數(shù)據(jù)采集任務外包給非特定的大眾網(wǎng)絡。數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結果展示大數(shù)據(jù)的相關技術ETL數(shù)據(jù)眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據(jù)分布式文件系統(tǒng)關系數(shù)據(jù)庫非關系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡與節(jié)點相連。分布式文件系統(tǒng)Google文件系統(tǒng)(GoogleFileSystem,GFS)是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。它運行于廉價的普通硬件上,將服務器故障視為正常現(xiàn)象,通過軟件的方式自動容錯,在保證系統(tǒng)可靠性和可用性的同時,大大減少了系統(tǒng)的成本。分布式文件系統(tǒng)GFS將整個系統(tǒng)分為三類角色:Client(客戶端)、Master(主服務器)、ChunkServer(數(shù)據(jù)塊服務器)。分布式文件系統(tǒng)Hadoop是一個分布式系統(tǒng)基礎架構,由Apache基金會開發(fā)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。分布式文件系統(tǒng)一個HDFS集群是由一個Namenode和一定數(shù)目的Datanodes組成。非關系型數(shù)據(jù)庫NoSQL關系型數(shù)據(jù)庫的局限性難以滿足高并發(fā)讀寫的需求難以滿足對海量數(shù)據(jù)高效率存儲和訪問的需求難以滿足對數(shù)據(jù)庫高可擴展性和高可用性的需求NoSQL=非關系型數(shù)據(jù)庫NoSQLNoSQL數(shù)據(jù)存儲不需要固定的表結構,通常也不存在連接操作。在大數(shù)據(jù)存取上具備關系型數(shù)據(jù)庫無法比擬的性能優(yōu)勢。關系型數(shù)據(jù)庫中的表都是存儲一些格式化的數(shù)據(jù)結構,每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數(shù)據(jù)庫會為每個元組分配所有的字段。非關系型數(shù)據(jù)庫以鍵值對存儲,它的結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據(jù)需要增加一些自己的鍵值對,這樣就不會局限于固定的結構,可以減少一些時間和空間的開銷。非關系型數(shù)據(jù)庫NoSQL非關系型數(shù)據(jù)庫NoSQLBigtable的設計目的是可靠地處理PB級別的數(shù)據(jù),并且能夠部署到上千臺機器上。Bigtable已經(jīng)在超過60個Google的產品和項目上得到了應用,包括GoogleAnalytics、GoogleEarth等。非關系型數(shù)據(jù)庫NoSQLBigtable是一個鍵值(key-value)映射。鍵有三維,分別是行鍵(rowkey)、列鍵(columnkey)和時間戳(timestamp),行鍵和列鍵都是字節(jié)串,時間戳是64位整型;而值是一個字節(jié)串。可以用(row:string,column:string,time:int64)→string來表示一條鍵值對記錄。非關系型數(shù)據(jù)庫NoSQLBigtable是一個鍵值(key-value)映射。鍵有三維,分別是行鍵(rowkey)、列鍵(columnkey)和時間戳(timestamp),行鍵和列鍵都是字節(jié)串,時間戳是64位整型;而值是一個字節(jié)串??梢杂?row:string,column:string,time:int64)→string來表示一條鍵值對記錄。非關系型數(shù)據(jù)庫NoSQLDynamoDB是Amazon提供的共享式數(shù)據(jù)庫云服務,可用性和擴展性都很好,性能也不錯:讀寫訪問中99.9%的響應時間都在300ms內。DynamoDB通過服務器把所有的數(shù)據(jù)存儲在固態(tài)硬盤(SSD)上的三個不同的區(qū)域。如果有更高的傳輸需求,DynamoDB也可以在后臺添加更多的服務器。非關系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性。"ImageID"=1"Title"="flower""Tags"="flower","jasmine","white""Ratings"=3,4,2一個屬性是一個“名稱-值”對(name-valuepair),“名稱”必須是一個字符串,“值”可以是一個字符串、數(shù)字、字符串集合或數(shù)字集合。下面是關于屬性的一些實例:非關系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性(Attibute)。項目由屬性構成。必須指定一個屬性作為主鍵,這個主鍵在DynamoDB表中唯一地標識一個項目。除了主鍵是必須的,其他項目屬性是可選的。一個項目的屬性沒有順序關系。某個項目中的屬性和同一個表中的其他項目的屬性也沒有關系。項目被存儲在表中,表中的所有項目都具有相同的主鍵機制(primarykeyscheme)。每個項目都具備一個唯一的主鍵值。非關系型數(shù)據(jù)庫NoSQLAmazonDynamoDB把數(shù)據(jù)組織成表的形式,表中包含了項目(item),每個項目包含1個或多個屬性(Attibute)。非關系型數(shù)據(jù)庫NoSQLDynamoDB并沒有DB的概念,目前單用戶最多能創(chuàng)建256個Table,同時DynamoDB提供了11個API接口操作表和項目。非關系型數(shù)據(jù)庫NoSQL非關系型數(shù)據(jù)庫NoSQLHBase–HadoopDatabase,是一個分布式的、面向列的開源數(shù)據(jù)庫,HBase在Hadoop之上提供了類似于Bigtable的能力,是Hadoop項目的子項目。Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存收件箱等簡單格式數(shù)據(jù),集GoogleBigTable的數(shù)據(jù)模型與AmazonDynamo的完全分布式的架構于一身。Facebook于2008年將Cassandra開源,此后被Digg、Twitter等知名Web2.0網(wǎng)站所采納,成為了一種流行的分布式結構化數(shù)據(jù)存儲方案。非關系型數(shù)據(jù)庫NoSQLMongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫,是一個介于關系數(shù)據(jù)庫和非關系數(shù)據(jù)庫之間的產品,是非關系數(shù)據(jù)庫當中功能最豐富,最像關系數(shù)據(jù)庫的。它支持的數(shù)據(jù)結構非常松散,可以存儲比較復雜的數(shù)據(jù)類型。它支持的查詢語言非常強大,其語法有點類似于面向對象的查詢語言,幾乎可以實現(xiàn)類似關系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。云計算和云存儲云計算(cloudcomputing),是分布式計算技術的一種,其最基本的概念,是透過網(wǎng)絡將龐大的計算處理程序自動分拆成無數(shù)個較小的子程序,再交由多部服務器所組成的龐大系統(tǒng)經(jīng)搜尋、計算分析之后將處理結果回傳給用戶。透過這項技術,網(wǎng)絡服務提供者可以在數(shù)秒之內,達成處理數(shù)以千萬計甚至億計的信息,達到和“超級計算機”同樣強大效能的網(wǎng)絡服務。云計算是一種資源交付和使用模式,指通過網(wǎng)絡獲得應用所需的資源(硬件、平臺、軟件)。提供資源的網(wǎng)絡被稱為“云”。白云下面數(shù)據(jù)跑藍藍的天上白云飄如果數(shù)據(jù)是財富,那么大數(shù)據(jù)就是寶藏,而云計算就是挖掘和利用寶藏的利器。沒有強大的計算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的積淀,云計算也只能是殺雞用的宰牛刀。云計算和云存儲云計算和云存儲云存儲是在云計算(cloudcomputing)概念上延伸和發(fā)展出來的一個新概念,是指通過集群應用、網(wǎng)格技術或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。當云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設備,那么云計算系統(tǒng)就轉變成為一個云存儲系統(tǒng),所以云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng)。實時流處理傳統(tǒng)的分布式計算往往是先積累大量的數(shù)據(jù),再進行數(shù)據(jù)拆分和聚合。而實時流處理則是讓數(shù)據(jù)流動起來,數(shù)據(jù)從內存中流過,截取需要的數(shù)據(jù),進行實時分析計算。實時流處理傳統(tǒng)的分布式計算往往是先積累大量的數(shù)據(jù),再進行數(shù)據(jù)拆分和聚合。而實時流處理則是讓數(shù)據(jù)流動起來,數(shù)據(jù)從內存中流過,截取需要的數(shù)據(jù),進行實時分析計算。數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結果展示大數(shù)據(jù)的相關技術ETL數(shù)據(jù)眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據(jù)分布式文件系統(tǒng)關系數(shù)據(jù)庫非關系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理A/BTesting關聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網(wǎng)絡分析自然語言分析MapReduceR語言A/BTestingA/B測試是可用性測試的一個方法,其核心為:同時實驗兩個元素或版本(A和B),確定哪個更好。注冊按鈕由綠色改成紅色提高轉化率34%人性化的表格提高11%的轉化率。MapReduceMapReduce是Google提出的一個軟件架構,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。它使編程人員在不了解分布式并行編程的情況下,能將自己的程序運行在分布式系統(tǒng)上。Map=映射Reduce=規(guī)約或化簡MapReduceR語言R語言是一種自由軟件編程語言與操作環(huán)境,主要用于統(tǒng)計分析、繪圖、數(shù)據(jù)挖掘。R語言擅長在Hadoop分布式文件系統(tǒng)中存儲的非結構化數(shù)據(jù)上的分析。R現(xiàn)在還可以運行在HBase這種非關系型的數(shù)據(jù)庫以及面向列的分布式數(shù)據(jù)存儲之上。數(shù)據(jù)采集數(shù)據(jù)儲存與管理數(shù)據(jù)分析與挖掘計算結果展示大數(shù)據(jù)的相關技術ETL數(shù)據(jù)眾包(CrowdSouring)結構化、非結構化和半結構化數(shù)據(jù)分布式文件系統(tǒng)關系數(shù)據(jù)庫非關系數(shù)據(jù)庫(NoSQL)數(shù)據(jù)倉庫云計算和云存儲實時流處理A/BTesting關聯(lián)規(guī)則分析分類聚類遺傳算法神經(jīng)網(wǎng)絡預測模型模式識別時間序列分析回歸分析系統(tǒng)仿真機器學習優(yōu)化空間分析社會網(wǎng)絡分析自然語言分析MapReduceR語言標簽云(TagCloud)聚類圖(Clustergram)空間信息流(Spatialinformationflow)熱圖(Heatmap)標簽云標簽云(TagCloud)是一套相關的標簽以及與此相應的權重。權值影響標簽的字體大小、顏色或其他視覺效果。典型的標簽云有30至150個標簽,用以表示一個網(wǎng)站中的內容及其熱門程度。標簽通常是超鏈接,指向分類頁面。標簽云奧巴馬布什克林頓林肯標簽云聚類圖聚類圖(Clustergram)是指用圖形方式展示聚類分析結果的技術,可以有助于判斷簇數(shù)量不同時的聚類效果??臻g信息流空間信息流(Spatialinformationflow)是展示信息空間狀態(tài)的一種可視化技術。熱圖熱圖(Heatmap)是一項數(shù)據(jù)展示技術,將變量值用不同的顏色或高亮形式描繪出來??梢苑浅V庇^的呈現(xiàn)一些原本不易理解或表達的數(shù)據(jù),比如密度、頻率、溫度等。熱圖機遇與挑戰(zhàn)三大數(shù)據(jù)賦予我們洞察未來的能力機遇馬云成功預測2008年經(jīng)濟危機“2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數(shù)據(jù);我們提前半年時間從詢盤上推斷出世界貿易發(fā)生變化了?!蓖ǔ6裕I家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網(wǎng)站統(tǒng)計數(shù)據(jù)中,就是查詢點擊的數(shù)量和購買點擊的數(shù)量會保持一個相對的數(shù)值,綜合各個維度的數(shù)據(jù)可建立用戶行為模型。因為數(shù)據(jù)樣本巨大,保證用戶行為模型的準確性。因此在這個案例中,詢盤數(shù)據(jù)的下降,自然導致買盤的下降。人類從依靠自身判斷做決定到依靠數(shù)據(jù)做決定的轉變,也是大數(shù)據(jù)作出的最大貢獻之一?!洞髷?shù)據(jù)時代》挑戰(zhàn)諸多領域的問題亟待解決,最重要的是每個人的信息都被互聯(lián)網(wǎng)所記錄和保留了下來,并且進行加工和利用,為人所用,而這正是我們所擔憂的信息安全隱患!更多的隱私、安全性問題:我們的隱私被二次利用了多少密碼和賬號是因為“社交網(wǎng)絡”流出去的?2011年4月索尼的系統(tǒng)漏洞導致7700萬用戶資料失竊2011年4月,iOS被發(fā)現(xiàn)會按照時間順序記錄用戶的位置坐標信息2011年CSDN密碼泄露事件…眼下中國互聯(lián)網(wǎng)熱門的話題之一就是互聯(lián)網(wǎng)實名制問題,我愿意相信這是個好事。畢竟我們如果明著亮出自己的身份,互聯(lián)網(wǎng)才能對我們的隱私給予更好保護。大數(shù)據(jù)的營銷案例一、未卜先知懷孕案例塔吉特:比父親更早知道女兒懷孕曾經(jīng)有一位男性顧客到一家塔吉特超市店中投訴,商店竟然給他還在讀書的女兒寄嬰兒用品的優(yōu)惠券。這家全美第二大零售商,會搞出如此大的烏龍?但經(jīng)過這位父親與女兒進一步溝通,才發(fā)現(xiàn)自己女兒真的已經(jīng)懷孕了。提問:為什么塔吉特能知道這個用戶懷孕了?必須有哪幾個關鍵環(huán)節(jié)A:用戶數(shù)據(jù)收集B:懷孕特征庫C:懷孕潛在用戶篩選塔吉特在和顧客溝通過程中采用了哪種營銷方式A:電子郵件B:直郵C:電話營銷D:數(shù)據(jù)庫營銷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論