大數(shù)據(jù)導(dǎo)論(南開(kāi)大學(xué)2021)_第1頁(yè)
大數(shù)據(jù)導(dǎo)論(南開(kāi)大學(xué)2021)_第2頁(yè)
大數(shù)據(jù)導(dǎo)論(南開(kāi)大學(xué)2021)_第3頁(yè)
大數(shù)據(jù)導(dǎo)論(南開(kāi)大學(xué)2021)_第4頁(yè)
大數(shù)據(jù)導(dǎo)論(南開(kāi)大學(xué)2021)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)導(dǎo)論》課程期末復(fù)習(xí)資料《大數(shù)據(jù)導(dǎo)論》(一)、單項(xiàng)選擇1.以下不是NoSQL數(shù)據(jù)庫(kù)的是(D)A.MongoDBB.HBaseC.CassandraD.DB22以下不是目前主流開(kāi)源分布式計(jì)算系統(tǒng)的是(A)A.AzureB.HadoopC.SparkD.Storm3.Apriori算法是一種(A)算法A.關(guān)聯(lián)規(guī)則B.聚類C.分類D.預(yù)測(cè)(二)、多項(xiàng)選擇1.大數(shù)據(jù)的特征包括(ABCD)A.體量大(Volume)B.多樣性(Variety)C.速度快(Velocity)D.價(jià)值高(Value)2.按照數(shù)據(jù)結(jié)構(gòu)分類,數(shù)據(jù)可分為(ABC)A.結(jié)構(gòu)化數(shù)據(jù)B.半結(jié)構(gòu)化數(shù)據(jù)C.非結(jié)構(gòu)化數(shù)據(jù)D.無(wú)結(jié)構(gòu)數(shù)據(jù)3.根據(jù)產(chǎn)生主體的不同,大數(shù)據(jù)可以分為(ABC)A.產(chǎn)量企業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)B.大量個(gè)人用戶產(chǎn)生的數(shù)據(jù)C.由巨量機(jī)器產(chǎn)生的數(shù)據(jù)D.科研數(shù)據(jù)4.根據(jù)作用方式不同,大數(shù)據(jù)可以分為(AC)A.交互數(shù)據(jù)B.社交數(shù)據(jù)C.交易數(shù)據(jù)D.個(gè)人數(shù)據(jù)5.Google分布式計(jì)算模型包括(ABC)A.GFSB.BigTableC.MapReduceD.RDD6.根據(jù)數(shù)據(jù)分析深度,可將數(shù)據(jù)分析分為(BCD)A.關(guān)聯(lián)性分析B.預(yù)測(cè)性分析C.規(guī)則性分析D.描述性分析7.根據(jù)數(shù)據(jù)分析的實(shí)時(shí)性,可將數(shù)據(jù)分析分為(AD)A.實(shí)時(shí)數(shù)據(jù)分析B.預(yù)測(cè)性分析C.規(guī)則性分析D.離線數(shù)據(jù)分析(一)、名詞解釋1.流處理和批處理批處理:“靜止數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”,先存儲(chǔ)后處理(Store-then-Process),先把信息存下來(lái),稍后一次性地處理掉;對(duì)于批量數(shù)據(jù),多采用批處理,批處理擅長(zhǎng)全時(shí)智能,但速度慢,需要批處理加速。流處理:“動(dòng)態(tài)數(shù)據(jù)”轉(zhuǎn)變?yōu)椤罢褂脭?shù)據(jù)”,直接處理(Straight-throughProcess),任務(wù)來(lái)一件做一件,信息來(lái)一點(diǎn)處理一點(diǎn),有的直接過(guò)濾掉,有的存起來(lái)。對(duì)于流數(shù)據(jù),多采用流處理,獲得實(shí)時(shí)智能,速度快。2.磁盤陣列磁盤陣列(RedundantArraysofIndependentDisks,RAID),全稱為“冗余的獨(dú)立磁盤陣列”。冗余是為了補(bǔ)救措施、保證可靠性而采取的一種方法,獨(dú)立是指磁盤陣列不在主機(jī)內(nèi)而是自成一個(gè)系統(tǒng)。磁盤陣列是由很多價(jià)格較便宜的磁盤,組合成一個(gè)容量巨大的磁盤組,利用個(gè)別磁盤提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤系統(tǒng)效能。RAID可以讓很多磁盤驅(qū)動(dòng)器同時(shí)傳輸數(shù)據(jù),在邏輯上又是一個(gè)磁盤驅(qū)動(dòng)器,故使用此技術(shù)可以達(dá)到單個(gè)磁盤幾倍、幾十倍甚至上百倍的速率。在很多RAID模式中都有較為完備的相互校驗(yàn)/恢復(fù)功能,大大提高了系統(tǒng)容錯(cuò)度和穩(wěn)定性。3.云存儲(chǔ)云存儲(chǔ)是在云計(jì)算(cloudcomputing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù)。它是云計(jì)算的重要組成部分,也是云計(jì)算的重要應(yīng)用之一。云存儲(chǔ)是指通過(guò)集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。4.NoSQLNoSQL(NotOnlySQL)泛指非關(guān)系型、分布式和不提供ACID的數(shù)據(jù)庫(kù)設(shè)計(jì)模式,它不是單純地反對(duì)關(guān)系型數(shù)據(jù)庫(kù),而是強(qiáng)調(diào)鍵值(Key-Value)存儲(chǔ)數(shù)據(jù)庫(kù)和文檔數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)。5.數(shù)據(jù)倉(cāng)庫(kù)WilliamH.Inmon在1992年出版BuildingtheDataWarehouse一書,第一次給出了數(shù)據(jù)倉(cāng)庫(kù)的清晰定義和操作性極強(qiáng)的指導(dǎo)意見(jiàn),真正拉開(kāi)了數(shù)據(jù)倉(cāng)庫(kù)得到大規(guī)模應(yīng)用的序幕。在該書中,將數(shù)據(jù)倉(cāng)庫(kù)定義為:“一個(gè)面向主題的(subjectoriented)、集成的(integrate),相對(duì)穩(wěn)定的(non-volatile)、反映歷史變化(timevariant)的數(shù)據(jù)集合,用于支持管理決策。6.云計(jì)算云計(jì)算(CloudComputing)是一種分布在大規(guī)模數(shù)據(jù)中心、能動(dòng)態(tài)的提供各種服務(wù)器資源以滿足科研、電子商務(wù)等領(lǐng)域需求的計(jì)算平臺(tái)。同時(shí),云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)絡(luò)計(jì)算的發(fā)展,是虛擬化、效用計(jì)算、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進(jìn)并躍升的結(jié)果。簡(jiǎn)單的說(shuō),云計(jì)算是基于互聯(lián)網(wǎng)相關(guān)服務(wù)的增加、使用和交付模式,通過(guò)互聯(lián)網(wǎng)來(lái)提供一般為虛擬化的動(dòng)態(tài)易擴(kuò)展資源。狹義云計(jì)算指IT基礎(chǔ)設(shè)施的交付和使用模式;廣義云計(jì)算指服務(wù)的交付和使用模式。兩種云計(jì)算均通過(guò)網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需服務(wù)。這種服務(wù)可以是IT和軟件、互聯(lián)網(wǎng)相關(guān),也可是其他服務(wù)。云計(jì)算的核心思想,是將大量用網(wǎng)絡(luò)連接的計(jì)算資源統(tǒng)一管理和調(diào)度,構(gòu)成一個(gè)計(jì)算資源池,向用戶按需服務(wù)。提供資源的網(wǎng)絡(luò)被稱為“云”?!霸啤敝械馁Y源在使用者看來(lái)是可以無(wú)限擴(kuò)展的,并且可以隨時(shí)獲取、按需使用、隨時(shí)擴(kuò)展、按使用付費(fèi)。7.RDDRDD彈性分布式數(shù)據(jù)集,簡(jiǎn)單來(lái)說(shuō),是一種自定義的可并行數(shù)據(jù)容器,可以存放任意類型的數(shù)據(jù)。彈性是指有容錯(cuò)的機(jī)制,若一個(gè)RDD分片去失,Spark可以根據(jù)粗粒度的日志數(shù)據(jù)更新記錄的信息(Spark中稱為“血統(tǒng)”)重構(gòu)它:分布式指的是能對(duì)其進(jìn)行并行的操作。除了這兩點(diǎn),它還能通過(guò)persist或者cache函數(shù)被緩存在內(nèi)存里或磁盤中,共享給其他計(jì)算機(jī),可以避免Hadoop那樣存取帶來(lái)的開(kāi)銷。8.大數(shù)據(jù)分析大數(shù)據(jù)分析是大數(shù)據(jù)理念與方法的核心,是指對(duì)海量增長(zhǎng)快速、內(nèi)容真實(shí)、類型多樣的數(shù)據(jù)進(jìn)行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過(guò)程。9.數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DataMining,DM)簡(jiǎn)單來(lái)說(shuō)就是在大量的數(shù)據(jù)中提取或挖掘信息,通過(guò)仔細(xì)分析來(lái)揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢(shì)和模式。10.關(guān)聯(lián)分析關(guān)聯(lián)分析(Associationanalysis)是從有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中,挖掘出隱藏的、事先不知道、但是有潛在關(guān)聯(lián)的信息或知識(shí)的過(guò)程,或稱關(guān)聯(lián)規(guī)則學(xué)習(xí)(Associationrulelearning)。11.分類分析分類(Classification)任務(wù)是在給定數(shù)據(jù)基礎(chǔ)上構(gòu)建分類模型,根據(jù)分類模型確定目標(biāo)對(duì)象屬于哪個(gè)預(yù)定義的目標(biāo)類別。構(gòu)建分類模型:通過(guò)分析已知訓(xùn)練樣本類別的數(shù)據(jù)集屬性,通過(guò)訓(xùn)練建立相應(yīng)分類模型,是監(jiān)督學(xué)習(xí)(supervisedlearning)過(guò)程,數(shù)據(jù)集被稱為訓(xùn)練數(shù)據(jù)集。使用模型分類:評(píng)估模型的分類預(yù)測(cè)準(zhǔn)確率,使用測(cè)試數(shù)據(jù)集進(jìn)行評(píng)估;當(dāng)準(zhǔn)確率可以接受時(shí),用分類模型對(duì)未知數(shù)據(jù)進(jìn)行分類。12.聚類分析聚類分析(Clusteranalysis)簡(jiǎn)稱聚類(Clustering),是把數(shù)據(jù)對(duì)象劃分成子集(類)的過(guò)程,每個(gè)子集稱為一個(gè)簇(Cluster),同一個(gè)簇中的數(shù)據(jù)之間存在最大相似性,不同簇之間的數(shù)據(jù)間存在最大的差異性。(二)、簡(jiǎn)答1.人類社會(huì)的數(shù)據(jù)產(chǎn)生方式經(jīng)歷了哪些階段?簡(jiǎn)述各階段的特點(diǎn)。人類歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如此海量的數(shù)據(jù),人類社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階段:運(yùn)營(yíng)式系統(tǒng)、用戶原創(chuàng)內(nèi)容階段、感知式系統(tǒng)階段。(1)運(yùn)營(yíng)式系統(tǒng):數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管理的復(fù)雜度大大降低,實(shí)際中數(shù)據(jù)庫(kù)大都為運(yùn)營(yíng)系統(tǒng)所采用,作為運(yùn)營(yíng)系統(tǒng)的數(shù)據(jù)管理子系統(tǒng),如超市的銷售記錄系統(tǒng)、銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療記錄等。人類社會(huì)數(shù)據(jù)量第一次大的飛躍正是建立在運(yùn)營(yíng)式系統(tǒng)廣泛使用數(shù)據(jù)庫(kù)開(kāi)始,這些數(shù)據(jù)規(guī)范、有秩序、強(qiáng)調(diào)數(shù)據(jù)的一致性,且這些數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的。(2)用戶原創(chuàng)內(nèi)容階段:互聯(lián)網(wǎng)的誕生促使人類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大的飛躍,但真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web2.0時(shí)代,其重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈;新型移動(dòng)設(shè)備出現(xiàn),易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使得人員在網(wǎng)上發(fā)現(xiàn)自己意見(jiàn)的途徑更為便捷數(shù)據(jù)結(jié)構(gòu)復(fù)雜,無(wú)秩序,不強(qiáng)調(diào)數(shù)據(jù)的一致性或只強(qiáng)調(diào)弱一致性,這些數(shù)據(jù)的產(chǎn)生方式是主動(dòng)的。(3)感知式系統(tǒng):人類社會(huì)數(shù)據(jù)量第三次大的飛躍最終導(dǎo)致了大數(shù)據(jù)的產(chǎn)生,這次飛躍的根本原因在于感知式系統(tǒng)的廣泛使用。微小帶著處理功能的傳感器設(shè)備廣泛布置于社會(huì)的各個(gè)角落,通過(guò)這些設(shè)備對(duì)整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控,這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生方式是自動(dòng)的,數(shù)據(jù)呈現(xiàn)多源異構(gòu)、分布廣泛、動(dòng)態(tài)演化等。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)三個(gè)階段,這些被動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來(lái)源。2.大數(shù)據(jù)處理的關(guān)鍵技術(shù)都有哪些?并做簡(jiǎn)要描述。大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要包括:數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算處理、數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化展示等。1).數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是大數(shù)據(jù)生命周期的第一個(gè)環(huán)節(jié),通過(guò)RFID射頻識(shí)別技術(shù)、傳感器、交互型社交網(wǎng)絡(luò)以及移動(dòng)互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。2).數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析和挖掘的基礎(chǔ),是將接收數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換、歸約等并最終加載到數(shù)據(jù)存儲(chǔ)的過(guò)程。3).數(shù)據(jù)存儲(chǔ),需要將采集到的數(shù)據(jù)進(jìn)行存儲(chǔ)管理,建立相應(yīng)的數(shù)據(jù)庫(kù)。4).數(shù)據(jù)計(jì)算處理。單臺(tái)計(jì)算機(jī)必然無(wú)法完成海量的數(shù)據(jù)處理工作,需要分布式架構(gòu)的計(jì)算平臺(tái)。5).數(shù)據(jù)分析與挖掘,是基于商業(yè)目的,有目的的進(jìn)行收集、整理、加工和分析數(shù)據(jù),提煉有價(jià)值信息的一個(gè)過(guò)程。6).大數(shù)據(jù)可視化技術(shù),可以提供更為清晰直觀的數(shù)據(jù)表現(xiàn)形式,將錯(cuò)綜復(fù)雜的數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系,通過(guò)圖片、映射關(guān)系或表格,以簡(jiǎn)單、友好、易用的圖形化、智能化的形式呈現(xiàn)給用戶,供其分析使用。3.簡(jiǎn)述網(wǎng)絡(luò)大數(shù)據(jù)的一般采集過(guò)程。大數(shù)據(jù)采集主要包括:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)采集和其他數(shù)據(jù)采集四種。網(wǎng)絡(luò)數(shù)據(jù)采集常用的是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。網(wǎng)絡(luò)大數(shù)據(jù)的一般采集過(guò)程:先在URL隊(duì)列中寫入一個(gè)或多個(gè)目標(biāo)鏈接作為爬蟲(chóng)爬取信息的起點(diǎn);爬蟲(chóng)從URL隊(duì)列中讀取鏈接,并訪問(wèn)該網(wǎng)站;從該網(wǎng)站爬取內(nèi)容;從網(wǎng)頁(yè)內(nèi)容中抽取出目標(biāo)數(shù)據(jù)和所有URL鏈接;從數(shù)據(jù)庫(kù)中讀取已經(jīng)抓取過(guò)內(nèi)容的網(wǎng)頁(yè)地址;過(guò)濾URL,將當(dāng)前隊(duì)列中的URL和已經(jīng)抓取過(guò)的URL進(jìn)行比較;如果該網(wǎng)頁(yè)地址沒(méi)有被抓取過(guò),則將該地址(SpiderURL)寫入數(shù)據(jù)庫(kù),并訪問(wèn)該網(wǎng)站;如果該地址已經(jīng)被抓取過(guò),則放棄對(duì)這個(gè)地址的抓取操作;獲取該地址的網(wǎng)頁(yè)內(nèi)容,并抽取出所需屬性的內(nèi)容值;將抽取的網(wǎng)頁(yè)內(nèi)容寫入數(shù)據(jù)庫(kù),并將抓取到的新鏈接加入U(xiǎn)RL隊(duì)列。4.解釋為什么要進(jìn)行數(shù)據(jù)預(yù)處理。高質(zhì)量的數(shù)據(jù)是能夠滿足應(yīng)用需求的數(shù)據(jù)。數(shù)據(jù)質(zhì)量涉及很多因素,包括準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性和可解釋性。1)不完整數(shù)據(jù)的出現(xiàn)可能有多種原因:重要的信息并非總是可以得到、用戶輸入時(shí)的遺漏、用戶理解錯(cuò)誤導(dǎo)致相關(guān)數(shù)據(jù)沒(méi)有記錄、設(shè)備故障導(dǎo)致的輸入缺失、記錄中不一致數(shù)據(jù)的刪除、記錄歷史或被修改的數(shù)據(jù)被忽略、缺失的數(shù)據(jù),特別是某些屬性缺失值的元組。2)不正確數(shù)據(jù)的出現(xiàn)原因有:收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為或計(jì)算機(jī)內(nèi)部錯(cuò)誤在數(shù)據(jù)輸入時(shí)出現(xiàn)、數(shù)據(jù)傳輸中的錯(cuò)誤也可能出現(xiàn)、出于個(gè)人隱私考慮,用戶故意向強(qiáng)制輸入字段輸入不正確的信息。3)不一致數(shù)據(jù),如命名約定或所用的數(shù)據(jù)代碼不一致、輸入字段(如日期)的格式不一致等。4)時(shí)效性:數(shù)據(jù)更新不及時(shí)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生負(fù)面影響。5)可信性反映了有多少數(shù)據(jù)是用戶信賴的。6)可解釋性反映了數(shù)據(jù)是否容易被理解。以上因素影響數(shù)據(jù)質(zhì)量,低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘效果,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。5.試給出幾種對(duì)數(shù)據(jù)缺失值的處理方法。對(duì)缺失值的處理一般是想方設(shè)法的把他補(bǔ)充上或者干脆棄之不用,一般的處理方法有以下幾種:(1)忽略元組。通常當(dāng)在缺少類標(biāo)號(hào)時(shí),通過(guò)這樣的方法來(lái)填補(bǔ)缺失值。除非元組有多個(gè)屬性缺少值,否則該方法的有效性不高,而且大量有價(jià)值的數(shù)據(jù)有可能被忽略。(2)人工填寫缺失值。由于用戶自己最了解關(guān)于自己的數(shù)據(jù),因此,這個(gè)方法產(chǎn)生數(shù)據(jù)偏離的問(wèn)題最小,但該方法十分費(fèi)時(shí),尤其是當(dāng)數(shù)據(jù)集很大、存在很多缺失值時(shí),靠人工填寫的方法不具備實(shí)際的可操作性。(3)使用一個(gè)全局常量填充缺失值。該方法是將缺失的屬性值用同一個(gè)常數(shù)進(jìn)行替換,如"Unkown”。這種方法雖然簡(jiǎn)單,但可用性較差。由于此方法大量采用同一屬性值,又可能會(huì)誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論,因此,也要謹(jǐn)慎使用。(4)使用屬性的中心度量(如均值或中位數(shù))填充缺失值:均值和中位數(shù)從不同角度反映了數(shù)據(jù)的某些統(tǒng)計(jì)特征,例如,對(duì)于對(duì)稱分布的數(shù)據(jù)而言,缺失的數(shù)據(jù)與均值的偏差期望是最小的,因此用均值補(bǔ)充缺失值可以在最大限度上控制人工添加的值對(duì)數(shù)據(jù)整體特征的影響。(5)使用與給定元組屬同一類的所有樣本的屬性均值或中位數(shù):例如,如果將顧客按信用風(fēng)險(xiǎn)分類,并假設(shè)顧客收入的數(shù)據(jù)分布是對(duì)稱的,則將具有相同信用風(fēng)險(xiǎn)顧客的平均收入替代數(shù)據(jù)庫(kù)列表中收入income列的缺失值;如果顧客收入的數(shù)據(jù)分布是傾斜的,則中位數(shù)是更好的選擇。(6)使用最可能的值填充缺失值??梢杂没貧w、使用貝葉斯形式化的基于推理的工具或決策樹(shù)歸納確定。例如,利用數(shù)據(jù)集中其他客戶顧客的屬性,可以構(gòu)造一棵決策樹(shù)來(lái)預(yù)測(cè)家庭月總收入的缺失值。6.大數(shù)據(jù)預(yù)處理技術(shù)都有哪些?并做簡(jiǎn)要描述。主流數(shù)據(jù)預(yù)處理技術(shù):數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約1.數(shù)據(jù)清洗。數(shù)據(jù)清洗過(guò)程主要包括數(shù)據(jù)的缺省值處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)不一致處理。2.數(shù)據(jù)集成。數(shù)據(jù)集成過(guò)程是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)合并存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中。其中數(shù)據(jù)源可以包含多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件。數(shù)據(jù)集成需要考慮諸多問(wèn)題,如數(shù)據(jù)集成中對(duì)象匹配問(wèn)題、冗余問(wèn)題和數(shù)據(jù)值的沖突檢測(cè)與處理問(wèn)題。3.數(shù)據(jù)變換。數(shù)據(jù)變換是把原始數(shù)據(jù)轉(zhuǎn)化為適合于數(shù)據(jù)挖掘的數(shù)據(jù)形式。數(shù)據(jù)轉(zhuǎn)換主要包括光滑、聚集、數(shù)據(jù)泛化、數(shù)據(jù)規(guī)范化和新屬性構(gòu)造。4.數(shù)據(jù)規(guī)約。數(shù)據(jù)歸約得到數(shù)據(jù)集的簡(jiǎn)化表示,它小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果。數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量保持?jǐn)?shù)據(jù)的原始狀態(tài)。有許多數(shù)據(jù)歸約策略,包括數(shù)據(jù)聚集(例如建立數(shù)據(jù)立方體)、屬性子集選擇(例如通過(guò)相關(guān)分析去掉不相關(guān)的屬性)、維度歸約(例如使用諸如最小長(zhǎng)度編碼或小波等編碼方案)和數(shù)據(jù)數(shù)值歸約(例如使用聚類或參數(shù)模型等較小的表示“替換"數(shù)據(jù))、數(shù)據(jù)離散化。7.簡(jiǎn)述數(shù)據(jù)集成過(guò)程應(yīng)考慮哪些問(wèn)題及如何解決。數(shù)據(jù)集成需要考慮諸多問(wèn)題,如數(shù)據(jù)集成中對(duì)象匹配問(wèn)題、冗余問(wèn)題和數(shù)據(jù)值的沖突檢測(cè)與處理問(wèn)題。(1)對(duì)象匹配:模式集成和對(duì)象匹配涉及到實(shí)體識(shí)別問(wèn)題。例如,如何才能確定一個(gè)數(shù)據(jù)庫(kù)中的customer_id和另一個(gè)數(shù)據(jù)庫(kù)中的cust_number指的是相同屬性?在集成期間,當(dāng)一個(gè)數(shù)據(jù)庫(kù)的屬性與另一個(gè)數(shù)據(jù)庫(kù)的屬性匹配時(shí),必須特別注意數(shù)據(jù)的結(jié)構(gòu)。這旨在確保源系統(tǒng)中的函數(shù)依賴和參照約束與目標(biāo)系統(tǒng)中的匹配。(2)冗余:一個(gè)屬性如果能由另一個(gè)或一組屬性導(dǎo)出,則這個(gè)屬性可能是冗余的。有些冗余可以被相關(guān)分析檢測(cè)到。對(duì)于數(shù)值屬性,可以使用相關(guān)系數(shù)(CorrelationCoefficient)和協(xié)方差(Covariance)來(lái)評(píng)估一個(gè)屬性的值如何隨另一個(gè)屬性變化。(3)數(shù)據(jù)值的沖突檢測(cè)與處理:對(duì)于來(lái)自同一個(gè)世界的某一實(shí)體,在不同的數(shù)據(jù)庫(kù)中可能有不同的屬性值。例如:某一表示長(zhǎng)度的屬性在不同數(shù)據(jù)庫(kù)中分別用“厘米”和“分米”表示。檢測(cè)到這類數(shù)據(jù)值沖突后,可以根據(jù)需要修改某一數(shù)據(jù)庫(kù)的屬性值以使來(lái)自不同的數(shù)據(jù)庫(kù)中但為同一實(shí)體的屬性值統(tǒng)一起來(lái)。8.簡(jiǎn)述大數(shù)據(jù)面臨存儲(chǔ)的問(wèn)題與挑戰(zhàn)。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)數(shù)量的不斷增長(zhǎng),以及分析數(shù)據(jù)來(lái)源的多樣化,之前的存儲(chǔ)系統(tǒng)設(shè)計(jì)已經(jīng)無(wú)法滿足大數(shù)據(jù)應(yīng)用的需求。對(duì)于大數(shù)據(jù)的存儲(chǔ),存在以下問(wèn)題和挑戰(zhàn):1.容量問(wèn)題:大數(shù)據(jù)通??蛇_(dá)到pb級(jí)的數(shù)據(jù)規(guī)模,因此大數(shù)據(jù)存儲(chǔ)系統(tǒng)需要達(dá)到相應(yīng)等級(jí)的擴(kuò)展能力。2.延遲問(wèn)題:大數(shù)據(jù)應(yīng)用還存在實(shí)時(shí)性的問(wèn)題,很多大數(shù)據(jù)應(yīng)用環(huán)境,如涉及網(wǎng)上交易或者金融類相關(guān)的應(yīng)用,都需要較高的每秒進(jìn)行讀寫操作的次數(shù)3.安全問(wèn)題:某些特殊行業(yè)的應(yīng)用,例如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等又都自己的安全標(biāo)準(zhǔn)和保密性需求4.成本問(wèn)題對(duì)于使用大數(shù)據(jù)環(huán)境的企業(yè),成本控制是關(guān)鍵問(wèn)題5.數(shù)據(jù)的積累,需要基于大數(shù)據(jù)的應(yīng)用要求較長(zhǎng)的數(shù)據(jù)保存時(shí)間,為了實(shí)現(xiàn)長(zhǎng)期的數(shù)據(jù)保存,需要存儲(chǔ)廠商開(kāi)發(fā)出能持續(xù)進(jìn)行數(shù)據(jù)一致性檢測(cè)、備份和容災(zāi)等保證長(zhǎng)期高可用性的技術(shù)6.靈活性大數(shù)據(jù)存儲(chǔ)系統(tǒng)的基礎(chǔ)設(shè)置規(guī)模龐大,保證存儲(chǔ)系統(tǒng)的靈活性和擴(kuò)展性是一大挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)的挑戰(zhàn),數(shù)據(jù)存儲(chǔ)領(lǐng)域的工作者通過(guò)不懈努力提升數(shù)據(jù)存儲(chǔ)系統(tǒng)的能力,主要提升有3個(gè)方面:提升系統(tǒng)的存儲(chǔ)容量、提升系統(tǒng)的吞吐量、系統(tǒng)的容錯(cuò)性等。9.簡(jiǎn)述傳統(tǒng)存儲(chǔ)系統(tǒng)架構(gòu)分類經(jīng)過(guò)多年發(fā)展,存儲(chǔ)系統(tǒng)架構(gòu)由早期的DAS(Direct-AttachedStorage,直連式存儲(chǔ))發(fā)展到NAS(Network-AttachedStorage,網(wǎng)絡(luò)附加存儲(chǔ))和SAN(StorageAreaNetwork,存儲(chǔ)區(qū)域網(wǎng)絡(luò)),現(xiàn)在已經(jīng)進(jìn)入到云存儲(chǔ)階段。1.直連式存儲(chǔ)(DirectAttachedStorage,DAS)是最早出現(xiàn)的最直接的擴(kuò)展數(shù)據(jù)存儲(chǔ)模式,即與普通的PC架構(gòu)一樣,存儲(chǔ)設(shè)備與主機(jī)系統(tǒng)直接相連,掛接在服務(wù)器內(nèi)部總線上。2.網(wǎng)絡(luò)附加存儲(chǔ)(NetworkAttachedStorage,NAS)是一種采用直接與網(wǎng)絡(luò)介質(zhì)相連的特殊設(shè)備實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的模式。3.存儲(chǔ)區(qū)域網(wǎng)絡(luò)(StorageAreaNetwork,SAN)指存儲(chǔ)設(shè)備相互連接并與服務(wù)器群相連而成網(wǎng)絡(luò),創(chuàng)造了存儲(chǔ)的網(wǎng)絡(luò)化。通過(guò)專用高速網(wǎng)將一個(gè)或多個(gè)網(wǎng)絡(luò)存儲(chǔ)設(shè)備和服務(wù)器連接起來(lái)的專用存儲(chǔ)系統(tǒng),數(shù)據(jù)處理服務(wù)器上的操作系統(tǒng)可以像訪問(wèn)本地盤數(shù)據(jù)一樣對(duì)這些存儲(chǔ)設(shè)備進(jìn)行高速訪問(wèn)。10.云存儲(chǔ)技術(shù)具有哪些特點(diǎn)?并加以解釋云存儲(chǔ)技術(shù)具有以下特點(diǎn)(1)可靠性。云存儲(chǔ)通過(guò)增加冗余度提高存儲(chǔ)的可靠性。但是增加可靠性受到可靠性原理、成本及性能等方面的制約,因此在在保證可靠性的同時(shí),提高系統(tǒng)的整體運(yùn)行效率是當(dāng)前一個(gè)亟待解決問(wèn)題。(2)可用性。企業(yè)需要全天候地為世界不同地區(qū)的用戶提供服務(wù)支持,因此可用性至關(guān)重要。對(duì)于云存儲(chǔ)平臺(tái),冗余的架構(gòu)部分可以減少停機(jī)風(fēng)險(xiǎn)。同時(shí),多路徑、控制器、不同的光纖網(wǎng)、RAID技術(shù)、端到端的架構(gòu)控制/監(jiān)控和成熟的變更管理過(guò)程等方案均可提高云存儲(chǔ)可用性。(3)安全性。云存儲(chǔ)服務(wù)間傳輸以及保存的數(shù)據(jù)都有被截取或篡改的隱患,因此當(dāng)服務(wù)通過(guò)云交付時(shí),數(shù)據(jù)分片混淆存儲(chǔ)和數(shù)據(jù)加密傳輸成為了實(shí)現(xiàn)用戶數(shù)據(jù)私密性和保證安全性的重要手段。(4)動(dòng)態(tài)伸縮性。指的是讀/寫性能和存儲(chǔ)容易的擴(kuò)展與縮減。一個(gè)設(shè)計(jì)優(yōu)良的云存儲(chǔ)系統(tǒng)可以在系統(tǒng)運(yùn)行過(guò)程中簡(jiǎn)單地通過(guò)添加或移除節(jié)點(diǎn)來(lái)自由擴(kuò)展和縮減,這些操作對(duì)用戶來(lái)說(shuō)是透明的。(5)低成本。云存儲(chǔ)可以降低企業(yè)級(jí)存儲(chǔ)成本,包括購(gòu)置存儲(chǔ)的成本、驅(qū)動(dòng)存儲(chǔ)的成本、修復(fù)存儲(chǔ)的成本及管理存儲(chǔ)的成本。11.云存儲(chǔ)架構(gòu)分哪些層次,各層實(shí)現(xiàn)了什么功能?云存儲(chǔ)是一個(gè)由網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、服務(wù)器、應(yīng)用軟件、公用訪問(wèn)接口、接入網(wǎng)和客戶端程序等組成的復(fù)雜系統(tǒng)。以存儲(chǔ)設(shè)備為核心,通過(guò)應(yīng)用軟件來(lái)對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)服務(wù)。云存儲(chǔ)的架構(gòu)由上而下可以分為訪問(wèn)層、應(yīng)用接口層、基礎(chǔ)管理層和存儲(chǔ)層。1)存儲(chǔ)層:云存儲(chǔ)的最基礎(chǔ)部分。云存儲(chǔ)中的存儲(chǔ)設(shè)備通常分布在不同地域且數(shù)量非常龐大,通過(guò)互聯(lián)網(wǎng)、廣域網(wǎng)或FC光纖通道網(wǎng)絡(luò)把各個(gè)存儲(chǔ)設(shè)備連接在一起。統(tǒng)一存儲(chǔ)設(shè)備管理系統(tǒng)在存儲(chǔ)設(shè)備的上一層,它能夠完成多鏈路冗余管理,存儲(chǔ)設(shè)備的邏輯虛擬化管理以及硬件設(shè)備的狀態(tài)監(jiān)控與故障維護(hù)。2)基礎(chǔ)管理層:云存儲(chǔ)最核心最難以實(shí)現(xiàn)的部分,基礎(chǔ)管理層的主要功能是使云存儲(chǔ)中多個(gè)存儲(chǔ)設(shè)備之間可以協(xié)同工作,以便對(duì)外提供同一種服務(wù),能夠提供更大、更好、更強(qiáng)的數(shù)據(jù)訪問(wèn)性能,它所采用的技術(shù)主要有集群系統(tǒng)、分布式文件系統(tǒng)和網(wǎng)格計(jì)算等。為了保證云存儲(chǔ)中的數(shù)據(jù)不會(huì)被未授權(quán)的用戶所訪問(wèn),它還提供了CDN內(nèi)容分發(fā)系統(tǒng)以及數(shù)據(jù)加密技術(shù)。同時(shí),為了確保云存儲(chǔ)中的數(shù)據(jù)不丟失以及云存儲(chǔ)自身的安全和穩(wěn)定,它還采取了各種數(shù)據(jù)備份、數(shù)據(jù)容災(zāi)技術(shù)和措施。3)應(yīng)用接口層:云存儲(chǔ)中靈活性最好的部分,根據(jù)實(shí)際業(yè)務(wù)類型的不同,不同的云存儲(chǔ)運(yùn)營(yíng)單位開(kāi)發(fā)的應(yīng)用服務(wù)接口及提供的應(yīng)用服務(wù)也不一樣。例如在線音樂(lè)播放應(yīng)用平臺(tái)、網(wǎng)絡(luò)硬盤應(yīng)用平臺(tái)、IPTV和視頻點(diǎn)播應(yīng)用平臺(tái)、遠(yuǎn)程教學(xué)應(yīng)用平臺(tái)等。4)訪問(wèn)層:用戶獲得云存儲(chǔ)系統(tǒng)的授權(quán)后,就可以通過(guò)標(biāo)準(zhǔn)的公用應(yīng)用接口進(jìn)行登錄并享受云存儲(chǔ)服務(wù)。云存儲(chǔ)提供的訪問(wèn)類型和訪問(wèn)手段會(huì)根據(jù)云存儲(chǔ)運(yùn)營(yíng)單位的不同而有所不同。12.存儲(chǔ)虛擬化技術(shù)有哪幾個(gè)實(shí)施層次,分別敘述這幾個(gè)層次的特點(diǎn)。根據(jù)不同的虛擬化實(shí)現(xiàn)位置,虛擬化還可以分為基于主機(jī)虛擬化、基于存儲(chǔ)設(shè)備虛擬化和基于存儲(chǔ)網(wǎng)絡(luò)虛擬化。1)基于主機(jī)虛擬化?;谥鳈C(jī)的虛擬化存儲(chǔ)的核心技術(shù)是,通過(guò)增加一個(gè)運(yùn)行在操作系統(tǒng)下的邏輯卷管理軟件將磁盤上的物理塊號(hào)映射成邏輯卷號(hào),從而把多個(gè)物理磁盤陣列映射成一個(gè)統(tǒng)一的虛擬邏輯塊,來(lái)進(jìn)行存儲(chǔ)虛擬化的控制和管理。2)基于存儲(chǔ)設(shè)備虛擬化。基于存儲(chǔ)設(shè)備虛擬化技術(shù)依賴于提供相關(guān)功能的存儲(chǔ)設(shè)備的陣列控制器模塊,常見(jiàn)于高端存儲(chǔ)設(shè)備,其主要應(yīng)用針對(duì)異構(gòu)的SAN存儲(chǔ)構(gòu)架。3)基于存儲(chǔ)網(wǎng)絡(luò)虛擬化?;诖鎯?chǔ)網(wǎng)絡(luò)虛擬化技術(shù)的核心是在存儲(chǔ)區(qū)域網(wǎng)中增加虛擬化引擎實(shí)現(xiàn)存儲(chǔ)資源的集中管理,其具體實(shí)施一般是通過(guò)具有虛擬化支持能力的路由器或交換機(jī)實(shí)現(xiàn)的。13.云存儲(chǔ)關(guān)鍵技術(shù)云存儲(chǔ)技術(shù)是多種技術(shù)的集合體,這些技術(shù)涉及硬件、軟件和網(wǎng)絡(luò)等計(jì)算機(jī)技術(shù)的各個(gè)方面,具有高可用性、高可靠性、高安全性和低成本等特征。1.存儲(chǔ)虛擬化。存儲(chǔ)虛擬化可以將系統(tǒng)中不同廠商、不同型號(hào)、不同通信技術(shù)、不同類型的存儲(chǔ)設(shè)備映射為一個(gè)統(tǒng)一的存儲(chǔ)資源池,屏蔽了存儲(chǔ)實(shí)體之間的物理位置及異構(gòu)特征,從而對(duì)這些存儲(chǔ)資源進(jìn)行統(tǒng)一分配管理。在虛擬化存儲(chǔ)環(huán)境中,服務(wù)器及應(yīng)用系統(tǒng)面對(duì)的都是物理設(shè)備的邏輯映像,且不會(huì)隨物理設(shè)備的改變而變化,實(shí)現(xiàn)了資源對(duì)系統(tǒng)管理員的透明性,在降低構(gòu)建存儲(chǔ)系統(tǒng)成本的同時(shí)使管理和維護(hù)資源變得容易。云存儲(chǔ)的虛擬化將存儲(chǔ)資源虛擬化為全局命名空間,并通過(guò)多租戶技術(shù)給使用者提供存儲(chǔ)資源,在此過(guò)程中,數(shù)據(jù)可以在存儲(chǔ)資源池中跨節(jié)點(diǎn)、跨數(shù)據(jù)中心流動(dòng)。根據(jù)不同的虛擬化實(shí)現(xiàn)位置,虛擬化還可以分為基于主機(jī)虛擬化、基于存儲(chǔ)設(shè)備虛擬化和基于存儲(chǔ)網(wǎng)絡(luò)虛擬化。2.分布式存儲(chǔ)。(1)分布式塊存儲(chǔ)。塊存儲(chǔ)就是服務(wù)器直接通過(guò)讀寫存儲(chǔ)空間中的一個(gè)或一段地址來(lái)存取數(shù)據(jù)。(2)分布式對(duì)象存儲(chǔ)。對(duì)象存儲(chǔ)是為海量數(shù)據(jù)提供Key-Value這種通過(guò)鍵值查找數(shù)據(jù)文件的存儲(chǔ)模式;對(duì)象存儲(chǔ)引入對(duì)象元數(shù)據(jù)來(lái)描述對(duì)象特征,對(duì)象元數(shù)據(jù)具有豐富的語(yǔ)義;引入容器概念作為存儲(chǔ)對(duì)象的集合。對(duì)象存儲(chǔ)系統(tǒng)底層基于分布式存儲(chǔ)系統(tǒng)來(lái)實(shí)現(xiàn)數(shù)據(jù)的存取,其存儲(chǔ)方式對(duì)外部應(yīng)用透明。這樣的存儲(chǔ)系統(tǒng)架構(gòu)具有高可擴(kuò)展性,支持?jǐn)?shù)據(jù)的并發(fā)讀寫,一般不支持?jǐn)?shù)據(jù)的隨機(jī)寫操作。(3)分布式文件系統(tǒng)。文件存儲(chǔ)系統(tǒng)可提供通用的文件訪問(wèn)接口,如POSIX、NFS、CIFS、FTP等,實(shí)現(xiàn)文件與目錄操作、文件訪問(wèn)、文件訪問(wèn)控制等功能。目前的分布式文件系統(tǒng)存儲(chǔ)的實(shí)現(xiàn)有軟硬件一體和軟硬件分離兩種方式。主要通過(guò)NAS虛擬化,或者基于x86硬件集群和分布式文件系統(tǒng)集成在一起,以實(shí)現(xiàn)海量非結(jié)構(gòu)化數(shù)據(jù)處理能力。3.數(shù)據(jù)縮減云存儲(chǔ)中的數(shù)據(jù)縮減技術(shù),滿足了海量信息爆炸式增長(zhǎng)趨勢(shì),一定程度上節(jié)約企業(yè)存儲(chǔ)成本,提高效率。(1)自動(dòng)精簡(jiǎn)配置。自動(dòng)精簡(jiǎn)配置技術(shù)是利用虛擬化方法減少物理存儲(chǔ)空間的分配,最大限度提升存儲(chǔ)空間利用率。(2)自動(dòng)存儲(chǔ)分層。自動(dòng)存儲(chǔ)分層(AutomatedStorageTier'AST)技術(shù)主要用來(lái)幫助數(shù)據(jù)中心最大限度地降低成本和復(fù)雜性。(3)重復(fù)數(shù)據(jù)刪除。“重復(fù)刪除”技術(shù)(De-duplication)作為一種數(shù)據(jù)縮減技術(shù)可對(duì)存儲(chǔ)容量進(jìn)行優(yōu)化。它通過(guò)刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),只保留其中一份,從而消除冗余數(shù)據(jù)。4.負(fù)載均衡。龐大的數(shù)據(jù)量必然會(huì)用來(lái)支持海量的請(qǐng)求,云存儲(chǔ)一個(gè)典型特點(diǎn)就是實(shí)現(xiàn)這些請(qǐng)求在系統(tǒng)內(nèi)部的負(fù)載均衡。在傳統(tǒng)的負(fù)載均衡中,處于網(wǎng)絡(luò)邊緣的設(shè)備將來(lái)自不同地址的請(qǐng)求均勻地、最優(yōu)化地發(fā)送到各個(gè)承載設(shè)備上。而在云存儲(chǔ)中,除了在網(wǎng)絡(luò)邊緣實(shí)現(xiàn)DNS動(dòng)態(tài)均勻解析的負(fù)載均衡設(shè)備,還有在系統(tǒng)內(nèi)部的負(fù)載均衡機(jī)制,即在節(jié)點(diǎn)資源之間的負(fù)載均衡。14.NoSQL普遍采用的技術(shù)NoSQL系統(tǒng)普遍采用的一些技術(shù)有以下幾種。(1)簡(jiǎn)單數(shù)據(jù)模型。不同于分布式數(shù)據(jù)庫(kù),大多數(shù)NoSQL系統(tǒng)采用更加簡(jiǎn)單的數(shù)據(jù)模型.(2)元數(shù)據(jù)和應(yīng)用數(shù)據(jù)的分離。NoSQL數(shù)據(jù)管理系統(tǒng)需要維護(hù)兩種數(shù)據(jù):元數(shù)據(jù)和應(yīng)用數(shù)據(jù)。元數(shù)據(jù)是用于系統(tǒng)管理的,如數(shù)據(jù)分區(qū)到集群中節(jié)點(diǎn)和副本的映射數(shù)據(jù)。應(yīng)用數(shù)據(jù)就是用戶存儲(chǔ)在系統(tǒng)中的商業(yè)數(shù)據(jù)。(3)弱一致性。NoSQL系統(tǒng)通過(guò)復(fù)制應(yīng)用數(shù)據(jù)來(lái)達(dá)到一致性。這種設(shè)計(jì)使得更新數(shù)據(jù)時(shí)副本同步的開(kāi)銷很大,為了減少這種同步開(kāi)銷,弱一致性模型如最終一致性和時(shí)間軸一致性得到廣泛應(yīng)用。15.請(qǐng)分析相比于關(guān)系型數(shù)據(jù)庫(kù),NoSQL數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的主要優(yōu)勢(shì)與劣勢(shì)。相對(duì)于關(guān)系型數(shù)據(jù)庫(kù),NoSQL數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的主要優(yōu)勢(shì)有以下幾方面。(1)避免不必要的復(fù)雜性。關(guān)系型數(shù)據(jù)庫(kù)提供各種各樣的特性和強(qiáng)一致性,但是許多特性只能在某些特定的應(yīng)用中使用,大部分功能很少被使用。NoSQL系統(tǒng)則提供較少的功能來(lái)提高性能。(2)高吞吐量。一些NoSQL數(shù)據(jù)系統(tǒng)的吞吐量比傳統(tǒng)關(guān)系數(shù)據(jù)管理系統(tǒng)要高很多,如Google使用MapReduce每天可處理20PB存儲(chǔ)在Bigtable中的數(shù)據(jù)。(3)高水平擴(kuò)展能力和低端硬件集群。NoSQL數(shù)據(jù)系統(tǒng)能夠很好地進(jìn)行水平擴(kuò)展,與關(guān)系型數(shù)據(jù)庫(kù)集群方法不同,這種擴(kuò)展不需要很大的代價(jià)。而基于低端硬件的設(shè)計(jì)理念為采用NoSQL數(shù)據(jù)系統(tǒng)的用戶節(jié)省了很多硬件上的開(kāi)銷。(4)避免了昂貴的對(duì)象-關(guān)系映射。許多NoSQL系統(tǒng)能夠存儲(chǔ)數(shù)據(jù)對(duì)象,這就避免了數(shù)據(jù)庫(kù)中關(guān)系模型和程序中對(duì)象模型相互轉(zhuǎn)化的代價(jià)。雖然NoSQL數(shù)據(jù)庫(kù)提供了高擴(kuò)展性和靈活性,但是它也有自己的缺點(diǎn),主要有以下幾方面.(1)數(shù)據(jù)模型和查詢語(yǔ)言未經(jīng)數(shù)學(xué)驗(yàn)證。SQL這種基于關(guān)系代數(shù)和關(guān)系演算的查詢結(jié)構(gòu)有著堅(jiān)實(shí)的數(shù)學(xué)保證,即使一個(gè)結(jié)構(gòu)化的查詢本身很復(fù)雜,但是它能夠獲取滿足條件的所有數(shù)據(jù).由于NoSQL系統(tǒng)都沒(méi)有使用SQL,而使用SQL的一些模型還未有完善的數(shù)學(xué)基礎(chǔ)。這也是NoSQL系統(tǒng)較為混亂的主要原因之一(2)不支持ACID特性。這為NoSQL帶來(lái)優(yōu)勢(shì)的同時(shí)也是其缺點(diǎn),畢竟事務(wù)在很多場(chǎng)合下還是需要的,ACID特性使系統(tǒng)在中斷的情況下也能夠保證在線事務(wù)能夠準(zhǔn)確執(zhí)行。(3)功能簡(jiǎn)單。大多數(shù)NoSQL系統(tǒng)提供的功能都比較簡(jiǎn)單,這就增加了應(yīng)用層的負(fù)擔(dān),例如,如果在應(yīng)用層實(shí)現(xiàn)ACID特性,那么編與代碼的程序員一定非常痛苦。(4)沒(méi)有統(tǒng)一的查詢模型。NOSQL系統(tǒng)一般提供不同查詢模型,這一定限度上增加了開(kāi)發(fā)者的負(fù)擔(dān)。16.數(shù)據(jù)倉(cāng)庫(kù)有哪些特點(diǎn)?并做簡(jiǎn)要描述。(1)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題組織的。數(shù)據(jù)倉(cāng)庫(kù)是按照面向主題的方式進(jìn)行數(shù)據(jù)組織的,也就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)作個(gè)完整、一致的描述,能有效地刻畫出分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)及數(shù)據(jù)間的聯(lián)系。這種數(shù)據(jù)組織方式更能適合較高層次的數(shù)據(jù)分析,便于發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的模式和規(guī)律。主題通常是在一個(gè)較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)宏觀分析領(lǐng)域。(2)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的。數(shù)據(jù)倉(cāng)庫(kù)中每一主題對(duì)應(yīng)的源數(shù)據(jù)在原有的各分散數(shù)據(jù)庫(kù)中可能是重復(fù)出現(xiàn)的、不一致的,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不能從原有的數(shù)據(jù)庫(kù)系統(tǒng)中直接得到。事務(wù)處理系統(tǒng)中的操作型數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)統(tǒng)一和綜合,演變?yōu)榉治鲂蛿?shù)據(jù)。(3)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是穩(wěn)定的。數(shù)據(jù)倉(cāng)庫(kù)中存放的是供分析決策用的歷史數(shù)據(jù),而不是聯(lián)機(jī)事務(wù)處理的當(dāng)前數(shù)據(jù),涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行數(shù)據(jù)的增、刪、改操作,業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之后極少或根本不再更新。如果對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行了修改,就失去了統(tǒng)計(jì)分析正確性的基礎(chǔ)一一數(shù)據(jù)的真實(shí)性。(4)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間不斷變化的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是永遠(yuǎn)不變的。數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)是隨時(shí)間變化的,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)需要不斷獲取聯(lián)機(jī)事務(wù)處理系統(tǒng)不同時(shí)刻的數(shù)據(jù),經(jīng)集成后追加到數(shù)據(jù)倉(cāng)庫(kù)中,因此數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的碼(鍵)都包含時(shí)間項(xiàng),以表明數(shù)據(jù)的歷史時(shí)期,并可在時(shí)間維度上對(duì)數(shù)據(jù)進(jìn)行分析。此外,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)也有時(shí)間期限,在新數(shù)據(jù)不斷進(jìn)入的同時(shí),過(guò)時(shí)的數(shù)據(jù)也要從數(shù)據(jù)倉(cāng)庫(kù)中排除出去。17.簡(jiǎn)述數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別。數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展起來(lái)的,數(shù)據(jù)倉(cāng)庫(kù)把數(shù)據(jù)從各個(gè)信息源中提取出來(lái)后,依照數(shù)據(jù)倉(cāng)庫(kù)使用的公共數(shù)據(jù)模型,進(jìn)行相應(yīng)變換后與倉(cāng)庫(kù)中現(xiàn)有數(shù)據(jù)集成在一起。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)可以被直接訪問(wèn),查詢和分析處理速度很快。數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)決定了它與傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)之間必然存在很大的差異。二者之間的區(qū)別主要體現(xiàn)在以下幾個(gè)方面。(1)數(shù)據(jù)庫(kù)中存儲(chǔ)的都是當(dāng)前使用的值,而數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都是一些歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。(2)數(shù)據(jù)庫(kù)的數(shù)據(jù)主要是面向業(yè)務(wù)操作程序的,可以重復(fù)處理,主要是用來(lái)進(jìn)行事務(wù)處理的。而數(shù)據(jù)倉(cāng)庫(kù)卻是面向主題,主要是用來(lái)分析應(yīng)用的。(3)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)是高度結(jié)構(gòu)化的,比較復(fù)雜,適用于操作計(jì)算。而數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)卻比較簡(jiǎn)單,適用于分析處理。(4)數(shù)據(jù)庫(kù)中的數(shù)據(jù)使用頻率是很高的。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)則不是很高。(5)通常對(duì)數(shù)據(jù)庫(kù)中事務(wù)的訪問(wèn),只需要訪問(wèn)少量的記錄數(shù)據(jù)。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)中事務(wù)的訪問(wèn)就可能需要訪問(wèn)大量的記錄。(6)對(duì)數(shù)據(jù)的響應(yīng)時(shí)間一般要求比較高,通常是以秒為單位。而對(duì)數(shù)據(jù)倉(cāng)庫(kù)的響應(yīng)時(shí)間要求則較低,通常比較長(zhǎng)。18.云計(jì)算有哪些特點(diǎn)?并做簡(jiǎn)要描述。云計(jì)算的特點(diǎn)如下:(1)超大規(guī)模。“云”具有相當(dāng)大的規(guī)模,Google云計(jì)算己經(jīng)擁有上百萬(wàn)臺(tái)服務(wù)器;Amazon、IBM、Microsoft、Yahoo等公司的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器;一般企業(yè)私有云則可擁有數(shù)百上千臺(tái)服務(wù)器。“云”能賦予用戶前所未有的計(jì)算能力。(2)高可靠性。分布式數(shù)據(jù)中心可將云端的用戶信息備份到地理上相互隔離的數(shù)據(jù)庫(kù)主機(jī)中,甚至連用戶自己也無(wú)法判斷信息的確切備份地點(diǎn)。該特點(diǎn)不僅提供了數(shù)據(jù)恢復(fù)的依據(jù),也使得網(wǎng)絡(luò)病毒和網(wǎng)絡(luò)黑客的攻擊因?yàn)槭ツ康男远兂赏絼?,大大提高系統(tǒng)的安全性和容災(zāi)能力。(3)虛擬化。云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。所請(qǐng)求的資源來(lái)自“云”,而非固定的有形的實(shí)體。應(yīng)用在“云”中某處運(yùn)行,但用戶無(wú)需了解,也不用擔(dān)心應(yīng)用運(yùn)行的具體位置。(4)高擴(kuò)展性。目前主流的云計(jì)算平臺(tái)均根據(jù)SPI架構(gòu),構(gòu)建在各層集成功能各異的軟硬件設(shè)備和中間件軟件。大量中間件軟件和設(shè)備提供針對(duì)該平臺(tái)的通用接口,允許用戶添加本層的擴(kuò)展設(shè)備。部分云與云之間提供對(duì)應(yīng)接口,允許用戶在不同云之間進(jìn)行數(shù)據(jù)遷移。類似功能更大程度上滿足了用戶需求,集成了計(jì)算資源,是未來(lái)云計(jì)算的發(fā)展方向之一(5)按需服務(wù)?!霸啤笔且粋€(gè)龐大的資源池,可以像自來(lái)水、電、煤氣那樣計(jì)費(fèi),并按需購(gòu)買。(6)極其廉價(jià)。“云”的特殊容錯(cuò)措施可以采用極其廉價(jià)的節(jié)點(diǎn)來(lái)構(gòu)成云。“云”的自動(dòng)化集中式管理,使大量企業(yè)無(wú)需負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢(shì)。19.簡(jiǎn)述云計(jì)算的體系架構(gòu)分層及每層的含義。云計(jì)算可以按需提供彈性資源,它的表現(xiàn)形式是一系列服務(wù)的集合。結(jié)合當(dāng)前云計(jì)算的應(yīng)用與研究,其體系架構(gòu)可分為核心服務(wù)、服務(wù)管理、用戶訪問(wèn)接口三層。1)核心服務(wù)層將硬件基礎(chǔ)設(shè)施、軟件運(yùn)行環(huán)境、應(yīng)用程序抽象成服務(wù),這些服務(wù)具有可靠性強(qiáng)、可用性高、規(guī)??缮炜s等特點(diǎn),滿足多樣化的應(yīng)用需求。2)服務(wù)管理層為核心服務(wù)提供支持,進(jìn)一步確保核心服務(wù)的可靠性、可用性與安全性。3)用戶訪問(wèn)接口層實(shí)現(xiàn)端到云的訪問(wèn)。20.簡(jiǎn)述云計(jì)算的核心服務(wù)模型。IaaS、PaaS、SaaS是云計(jì)算的三種服務(wù)模型?;A(chǔ)設(shè)施即服務(wù)(IaaS):消費(fèi)者通過(guò)Internet可以從完善的計(jì)算機(jī)基礎(chǔ)設(shè)施獲得服務(wù)。平臺(tái)即服務(wù)(PaaS):PaaS實(shí)際上是指將軟件研發(fā)的平臺(tái)作為一種服務(wù),以SaaS的模式提交給用戶。軟件即服務(wù)(SaaS):軟件即服務(wù)。它是一種通過(guò)Internet提供軟件的模式,用戶無(wú)需購(gòu)買軟件,而是向提供商租用基于Web的軟件,來(lái)管理企業(yè)經(jīng)營(yíng)活動(dòng)。21.試對(duì)MapReduce編程模型原理進(jìn)行描述。MapReduce編程模型結(jié)合用戶實(shí)現(xiàn)的Map和Reduce函數(shù),可完成大規(guī)模地并行化計(jì)算。MapReduce編程模型的原理是:用戶自定義的Map函數(shù)處理一個(gè)輸入的基于key-valuepair的集合,輸出中間基于key-valuepair的集合,MapReduce庫(kù)把中間所有具有相同key值的value值集合在一起后傳遞給Reduce函數(shù),用戶自定義的Reduce函數(shù)合并所有具有相同key值的value值,形成一個(gè)較小value值的集合。22.請(qǐng)寫出MapReduce程序的執(zhí)行過(guò)程。MapReduce執(zhí)行過(guò)程主要包括以下幾方面。(1)將輸入的海量數(shù)據(jù)切片分給不同的機(jī)器處理。(2)執(zhí)行Map任務(wù)的Worker將輸入數(shù)據(jù)解析成key-valuepair,用戶定義的Map函數(shù)把輸入的key-valuepair轉(zhuǎn)成中間形式的key-valuepair。(3)按照key值對(duì)中間形式的key-value進(jìn)行排序、聚合。(4)把不同的key值和相應(yīng)的value集分配給不同的機(jī)器,完成Reduce運(yùn)算。(5)輸出Reduce結(jié)果。23.簡(jiǎn)述HDFS集群的構(gòu)成及各部分的功能。一個(gè)HDFS集群由一個(gè)名字節(jié)點(diǎn)(NameNode)和若干個(gè)數(shù)據(jù)節(jié)點(diǎn)(DataNode)構(gòu)成。此外,還有與這兩個(gè)角色之間作為溝通橋梁的客戶端(Client)。名字節(jié)點(diǎn)是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間(Namespace)以及客戶端對(duì)文件的訪問(wèn)。集群中的數(shù)據(jù)節(jié)點(diǎn),一般是一個(gè)節(jié)點(diǎn)上有一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。HDFS對(duì)外公開(kāi)文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊(Block),這些塊存儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)上。名字節(jié)點(diǎn)執(zhí)行文件系統(tǒng)的名字空間操作,例如,打開(kāi)、關(guān)閉、重命名文件或目錄,它也負(fù)責(zé)確定數(shù)據(jù)塊到具體數(shù)據(jù)節(jié)點(diǎn)的映射。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請(qǐng)求,在名字節(jié)點(diǎn)的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。Client代表用戶通過(guò)與NameNode和DataNode來(lái)交互訪問(wèn)整個(gè)文件系統(tǒng)。因?yàn)镃lient提供了一些文件系統(tǒng)接口,所以在編寫程序的時(shí)候,不用知道DataNode和NameNode的內(nèi)部詳細(xì)情況,就可以編寫程序進(jìn)行操作,實(shí)現(xiàn)所需的功能。24.簡(jiǎn)述Spark對(duì)比Hadoop的優(yōu)勢(shì)Spark作為現(xiàn)今最流行的分布式云平臺(tái)技術(shù),對(duì)比Hadoop云平臺(tái)技術(shù)來(lái)說(shuō),可以總結(jié)出以下優(yōu)勢(shì)。(1)內(nèi)存管理中間結(jié)果。MapReduce作為Hadoop的核心編程模型,將處理后的中間結(jié)果輸出并存儲(chǔ)到磁盤上,依賴HDFS文件系統(tǒng)存儲(chǔ)每一個(gè)輸出的結(jié)果。spark運(yùn)用內(nèi)存緩存輸出的中間結(jié)果,便于提高中間結(jié)果再度使用的讀取效率。(2)優(yōu)化數(shù)據(jù)格式。Spark使用彈性分布式數(shù)據(jù)集(RDD),這是一種分布式內(nèi)存存儲(chǔ)結(jié)構(gòu),支持讀寫任意內(nèi)存位置,運(yùn)行時(shí)可以根據(jù)數(shù)據(jù)存放位置進(jìn)行任務(wù)的調(diào)度,提高任務(wù)調(diào)度焦慮,支持?jǐn)?shù)據(jù)批量轉(zhuǎn)換和創(chuàng)建相應(yīng)的RDD。(3)優(yōu)化執(zhí)行策略。Spark支持基于哈希函數(shù)的分布式聚合,不需要針對(duì)Shuffle進(jìn)行全量任務(wù)的排序,調(diào)度時(shí)使用DAG(有向無(wú)環(huán)圖),能夠在一定程度上減少M(fèi)apReduce在任務(wù)排序上花費(fèi)的大量時(shí)間,成為一個(gè)優(yōu)化的創(chuàng)新點(diǎn)。(4)提高任務(wù)調(diào)度速率。Spark啟動(dòng)任務(wù)采用事件驅(qū)動(dòng)模式,盡量復(fù)用線程,減少線程啟動(dòng)和切換的時(shí)間開(kāi)銷。Hadoop是以處理龐大數(shù)據(jù)為目的設(shè)計(jì)的,在處理略為小規(guī)模的數(shù)據(jù)會(huì)出現(xiàn)任務(wù)調(diào)度上時(shí)間開(kāi)銷的增加。(5)通用性強(qiáng)。spark支持多語(yǔ)言(Scala,Java,Python)編程,支持多種數(shù)據(jù)形式(流式計(jì)算、機(jī)器學(xué)習(xí)、圖計(jì)算)的計(jì)算處理,通用性強(qiáng)且一定程度上方便研究人員對(duì)平臺(tái)代碼的復(fù)用和重寫。25.簡(jiǎn)述大數(shù)據(jù)分析流程。1)發(fā)現(xiàn)和問(wèn)題定義。學(xué)習(xí)業(yè)務(wù)領(lǐng)域知識(shí),將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為分析挑戰(zhàn)。2)識(shí)別和設(shè)計(jì)數(shù)據(jù)需求。管理者根據(jù)決策和過(guò)程控制需求,提出對(duì)數(shù)據(jù)需求。3)收集和預(yù)處理數(shù)據(jù)。有目的收集數(shù)據(jù),數(shù)據(jù)預(yù)處理。4)分析數(shù)據(jù)及建立模型。將收集的數(shù)據(jù)通過(guò)加工、整理和分析將其轉(zhuǎn)化為信息。5)溝通結(jié)果及過(guò)程改進(jìn)。26.簡(jiǎn)述Apriori算法的核心思想。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,算法有兩個(gè)關(guān)鍵步驟:一是發(fā)現(xiàn)所有的頻繁項(xiàng)集;二是生成強(qiáng)關(guān)聯(lián)規(guī)則。Apriori算法的核心思想如下:對(duì)于給定的一個(gè)數(shù)據(jù)庫(kù)和最小支持度閾值,首先對(duì)其進(jìn)行掃描,找出所有的頻繁1-項(xiàng)集,該集合記作L1;然后得用L1找頻繁2-項(xiàng)集的集合L2,L2找L3,如此下去,直到不能再找到任何頻繁k-項(xiàng)集。最后在所有的頻繁集中提取出強(qiáng)規(guī)則,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則。27.簡(jiǎn)述數(shù)據(jù)可視化的流程和步驟。數(shù)據(jù)可視化是對(duì)數(shù)據(jù)的綜合運(yùn)用,其操作包括數(shù)據(jù)獲取、數(shù)據(jù)處理、可視化模式和可視化應(yīng)用4個(gè)步驟。1)數(shù)據(jù)獲取數(shù)據(jù)獲取的形式多種多樣,大致可以分為主動(dòng)式和被動(dòng)式兩種。主動(dòng)式獲取是以明確的數(shù)據(jù)需求為目的,利用相關(guān)技術(shù)手段主動(dòng)采集相關(guān)數(shù)據(jù),如衛(wèi)星影像、測(cè)繪工程等;被動(dòng)式獲取是以數(shù)據(jù)平臺(tái)為基礎(chǔ),由數(shù)據(jù)平臺(tái)的活動(dòng)者提供數(shù)據(jù)來(lái)源,如電子商務(wù)網(wǎng)站、網(wǎng)絡(luò)論壇等。2)數(shù)據(jù)處理數(shù)據(jù)處理是指對(duì)原始的數(shù)據(jù)進(jìn)行分析、預(yù)處理和計(jì)算等步驟。數(shù)據(jù)處理的目標(biāo)是保證數(shù)據(jù)的準(zhǔn)確性、可用性等。3)可視化模式可視化模式是數(shù)據(jù)的一種特殊展現(xiàn)形式,常見(jiàn)的可視化模式有標(biāo)簽云、序列分析、網(wǎng)絡(luò)結(jié)構(gòu)、電子地圖等。可視化模式的選取決定了可視化方案的雛形。4)可視化應(yīng)用可視化應(yīng)用主要根據(jù)用戶的主觀需求展開(kāi),最主要的應(yīng)用方式是用來(lái)觀察和展示,通過(guò)觀察和人腦分析進(jìn)行推理和認(rèn)知,輔助人們發(fā)現(xiàn)新知識(shí)或者得到新結(jié)論。可視化界面也可以幫助人們進(jìn)行人與數(shù)據(jù)的交互,輔助人們完成對(duì)數(shù)據(jù)的迭代計(jì)算,通過(guò)若干步,數(shù)據(jù)的計(jì)算實(shí)驗(yàn),生產(chǎn)系列化的可視化成果。28.請(qǐng)分析大數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì)。1.大數(shù)據(jù)從概念化走向價(jià)值化2.大數(shù)據(jù)安全與隱私越來(lái)越重要3.大數(shù)據(jù)分析與可視化成為熱點(diǎn)4.數(shù)據(jù)的商品化和數(shù)據(jù)共享的聯(lián)盟化5.深度學(xué)習(xí)與大數(shù)據(jù)性能成為支撐性的技術(shù)6.數(shù)據(jù)科學(xué)的興起7.大數(shù)據(jù)產(chǎn)業(yè)成為一種戰(zhàn)略性產(chǎn)業(yè)8.大數(shù)據(jù)生態(tài)環(huán)境逐步完善9.大數(shù)據(jù)處理架構(gòu)的多樣化模式并存19秋學(xué)期(1709、1803、1809、1903、1909)《大數(shù)據(jù)導(dǎo)論》在線作業(yè)-0002試卷總分:100得分:100一、單選題(共15道試題,共30分)1.用于描述相等時(shí)間間隔下連續(xù)數(shù)據(jù)隨時(shí)間變化趨勢(shì)的是()A.餅圖B.條形圖C.散點(diǎn)圖D.折線圖答案:D2.下列不屬于Google云計(jì)算平臺(tái)技術(shù)架構(gòu)的是()A.結(jié)構(gòu)化數(shù)據(jù)表BigTableB.彈性云計(jì)算EC2C.并行數(shù)據(jù)處理MapReduceD.分布式鎖Chubby答案:B3.用于描述數(shù)據(jù)分散情況的是()A.餅圖B.箱式圖C.折線圖D.分布圖答案:B4.SAN是一種()A.存儲(chǔ)設(shè)備B.光纖交換機(jī)C.專為數(shù)據(jù)存儲(chǔ)而設(shè)計(jì)構(gòu)建的網(wǎng)絡(luò)D.HBA答案:C5.IaaS是()的簡(jiǎn)稱A.軟件即服務(wù)B.硬件即服務(wù)C.平臺(tái)即服務(wù)D.基礎(chǔ)設(shè)施即服務(wù)答案:D6.醫(yī)療健康數(shù)據(jù)的基本情況不包括以下哪項(xiàng)?A.診療數(shù)據(jù)B.公共安全數(shù)據(jù)C.健康檔案數(shù)據(jù)D.個(gè)人健康管理數(shù)據(jù)答案:B7.數(shù)據(jù)清洗的方法不包括A.重復(fù)數(shù)據(jù)記錄處理B.缺失值處理C.噪聲數(shù)據(jù)清除D.一致性檢查答案:A8.下列哪個(gè)R語(yǔ)言擴(kuò)展包可以制作一系列的圖像并將它們串聯(lián)起來(lái)做成動(dòng)畫()A.networkB.ggplot2C.ggmapsD.animation答案:D9.基礎(chǔ)設(shè)施即服務(wù)的英文簡(jiǎn)稱是A.SaaSB.PaaSC.IaaS答案:C10.下面哪一項(xiàng)不是中國(guó)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)()。A.大數(shù)據(jù)技術(shù)創(chuàng)新取得明顯突破B.大數(shù)據(jù)應(yīng)用推動(dòng)勢(shì)頭良好C.大數(shù)據(jù)產(chǎn)業(yè)支撐薄弱D.信息化積累了豐富的數(shù)據(jù)資源答案:C11.()是MicrosoftOffice的核心組件A.WORDB.SQLC.PPTD.EXCEL答案:D12.數(shù)據(jù)產(chǎn)生方式變革中數(shù)據(jù)產(chǎn)生方式是自動(dòng)的主要是來(lái)自哪個(gè)階段()。A.運(yùn)營(yíng)式系統(tǒng)階段B.用戶原創(chuàng)內(nèi)容階段C.感知式系統(tǒng)階段答案:C13.PaaS是()的簡(jiǎn)稱A.軟件即服務(wù)B.硬件即服務(wù)C.平臺(tái)即服務(wù)D.基礎(chǔ)設(shè)施即服務(wù)答案:C14.下列不屬于商業(yè)大數(shù)據(jù)類型的是A.社交數(shù)據(jù)B.電子商務(wù)數(shù)據(jù)C.機(jī)器和傳感器數(shù)據(jù)D.傳統(tǒng)企業(yè)數(shù)據(jù)答案:C15.以下不是數(shù)據(jù)倉(cāng)庫(kù)基本特征的是()A.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是相對(duì)穩(wěn)定的B.數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是反映歷史變化的C.數(shù)據(jù)倉(cāng)庫(kù)是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論