大數(shù)據(jù)基礎 習題及答案 秦華偉_第1頁
大數(shù)據(jù)基礎 習題及答案 秦華偉_第2頁
大數(shù)據(jù)基礎 習題及答案 秦華偉_第3頁
大數(shù)據(jù)基礎 習題及答案 秦華偉_第4頁
大數(shù)據(jù)基礎 習題及答案 秦華偉_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)基礎》參考答案模塊一大數(shù)據(jù)概述一、選擇題(1)B (2)C (3)A二、簡答題1.簡述信息技術(shù)發(fā)展史上的三次信息化浪潮。答:在信息技術(shù)發(fā)展史上,有三次信息化浪潮。第一次信息化浪潮是以信息處理為核心的個人計算機時代,發(fā)生在1980年左右。第二次信息化浪潮是以信息傳輸為核心的互聯(lián)網(wǎng)時代,發(fā)生在1995年左右。第三次信息化浪潮就是現(xiàn)在以信息獲取為核心的大數(shù)據(jù)時代,在2010年前后興起。2.簡述大數(shù)據(jù)的5V特征。答:大數(shù)據(jù)的5V特征:Volumn(數(shù)據(jù)量大)、Variety(多樣性)、Velocity(速度快)、Value(價值密度低)、Veracity(真實性)。3.簡述數(shù)據(jù)產(chǎn)生方式變化的三個階段。答:人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了三個階段。第一個階段是運營式系統(tǒng)階段。這個階段最主要的特點是數(shù)據(jù)往往伴隨著一定的運營活動而產(chǎn)生并記錄在數(shù)據(jù)庫中。這種數(shù)據(jù)的產(chǎn)生方式是被動的。第二個階段是用戶原創(chuàng)內(nèi)容階段。Web2.0的重要標志就是用戶原創(chuàng)內(nèi)容。這類數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性增長。這個階段數(shù)據(jù)的產(chǎn)生方式是主動的。第三個階段是感知式系統(tǒng)階段。由于感知式系統(tǒng)的廣泛使用,會源源不斷的產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)生方式是自動的。4.舉例說明大數(shù)據(jù)的應用領(lǐng)域。答:大數(shù)據(jù)在應用領(lǐng)域非常廣泛,比如,電子商務領(lǐng)域的廣告推送、金融領(lǐng)域的貸款風險管控、醫(yī)療領(lǐng)域的電子病例系統(tǒng)、交通領(lǐng)域的智慧交通服務平臺、電信領(lǐng)域的客戶精準營銷、電子政務領(lǐng)域的公共信息平臺等。5.簡述大數(shù)據(jù)的處理流程。答:大數(shù)據(jù)處理流程一般分為五個步驟:數(shù)據(jù)采集、數(shù)據(jù)預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化。6.簡述大數(shù)據(jù)的四層堆棧式技術(shù)架構(gòu)。答:大數(shù)據(jù)的四層堆棧式技術(shù)架構(gòu),包括:基礎層、管理層、分析層、應用層?;A層涵蓋計算資源、內(nèi)存與存儲和網(wǎng)絡互聯(lián)等。管理層包括數(shù)據(jù)的存儲和管理,也涉及數(shù)據(jù)的計算。分析層提供基于統(tǒng)計學的數(shù)據(jù)挖掘和機器學習算法,用于分析和解釋數(shù)據(jù)集。應用層包括為企業(yè)和終端用戶提供服務的應用。7.簡述大數(shù)據(jù)的發(fā)展趨勢。答:(1)數(shù)據(jù)資源化(2)科學理論的突破(3)大數(shù)據(jù)在更多行業(yè)落地應用(4)數(shù)據(jù)將越來越開放(5)大數(shù)據(jù)安全越來越受重視(6)催生新的學科和崗位(7)大數(shù)據(jù)多方位改善我們的生活模塊二大數(shù)據(jù)思維一、選擇題(1)C (2)B (3)A (4)D (5)B 二、簡答題1.簡述大數(shù)據(jù)思維有哪些方面。答:大數(shù)據(jù)思維有數(shù)據(jù)核心思維、數(shù)據(jù)全樣思維、數(shù)據(jù)容錯思維和數(shù)據(jù)相關(guān)思維等。數(shù)據(jù)核心思維,是以數(shù)據(jù)為核心、數(shù)據(jù)驅(qū)動的思維方式。數(shù)據(jù)全樣思維,是指需要全部數(shù)據(jù)樣本而不是抽樣。數(shù)據(jù)容錯思維,是指更追求效率,而不是精確性。數(shù)據(jù)相關(guān)思維,是指關(guān)注相關(guān)性,而不是因果關(guān)系。2.舉例說明大數(shù)據(jù)思維的典型案例。略。3.分析谷歌流感趨勢預測所體現(xiàn)的大數(shù)據(jù)思維方式。答:谷歌通過分析人們在網(wǎng)上的搜索記錄預測冬季流感的傳播,利用海量數(shù)據(jù)進行預測。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成這項工作。谷歌預測流感趨勢,并不是依賴于對隨機抽樣的分析,而是分析了整個美國幾十億條互聯(lián)網(wǎng)檢索記錄而得到的結(jié)論。這個案例體現(xiàn)了數(shù)據(jù)全樣思維的運用。4.分析“啤酒與尿布”故事所蘊含的大數(shù)據(jù)思維方式。答:“啤酒與尿布”是沃爾瑪?shù)囊粋€經(jīng)典案例。,沃爾瑪研究人員在數(shù)據(jù)分析中發(fā)現(xiàn)跟尿布一起搭配購買最多的商品竟是啤酒。經(jīng)過調(diào)查,在美國有孩子的家庭中,太太們經(jīng)常囑咐丈夫們下班后為孩子買尿布,而丈夫們在買完尿布后常常會順便買點啤酒來犒勞自己。因此,啤酒和尿布銷量一起增長。搞清原因后,沃爾瑪?shù)墓ぷ魅藛T嘗試將啤酒和尿布擺在一起,不出意料,啤酒和尿布的銷售量雙雙增加,為商家?guī)砹舜罅康睦麧?。“啤酒與尿布”故事蘊含了數(shù)據(jù)相關(guān)思維。5.列舉自己生活實踐中的大數(shù)據(jù)思維案例。略。模塊三大數(shù)據(jù)支撐技術(shù)一、選擇題(1)A (2)B (3)B (4)B (5)C(6)A 二、簡答題1.大數(shù)據(jù)與云計算的關(guān)系是什么。答:云計算和大數(shù)據(jù)息息相關(guān),云計算是大數(shù)據(jù)的基礎,大數(shù)據(jù)的分析能力幫助云計算更好、更合理地利用資源。大數(shù)據(jù)離不開云計算,云計算的處理能力為大數(shù)據(jù)提供了彈性可拓展的基礎設備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、人工智能等新興計算形態(tài)興起,都將助力大數(shù)據(jù)變革,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。2.hadoop的優(yōu)勢有哪些?答:(1)高可靠性。Hadoop采用冗余數(shù)據(jù)存儲方式,當其中一個副本發(fā)生故障時,其他副本可以保證集群正常對外提供服務。(2)高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據(jù)并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。(3)高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。(4)高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務重新分配。(5)低成本。Hadoop可以使用廉價計算機搭建集群,從而大大降低了硬件成本,普通用戶也可以使用自己的個人計算機搭建和運行Hadoop。(6)多平臺運行。Hadoop能夠較好地運行在Linux平臺,用戶也可以在Windows和MacOS等平臺上搭建Hadoop。(7)支持多種編程語言。Hadoop帶有用Java語言編寫的框架,主要使用Java語言開發(fā)。用戶也可以使用其他語言(如C++、Python)開發(fā)Hadoop應用程序。3.列舉大數(shù)據(jù)目前的應用場景,思考其未來還可以應用在哪些方面。答:(1).Hadoop在互聯(lián)網(wǎng)領(lǐng)域的應用Yahoo將Hadoop技術(shù)應用在數(shù)據(jù)倉庫、反垃圾郵件系統(tǒng)、廣告系統(tǒng)、Web搜索、用戶行為分析及個性化推薦等方面。(2)Hadoop在通信領(lǐng)域的應用1)中國移動。中國移動的“大云”1.5版本產(chǎn)品的總體架構(gòu)中包括PaaS層和IaaS層,PaaS層是基于Hadoop構(gòu)建的,用于數(shù)據(jù)存儲和分析。2)中國電信。中國電信發(fā)布的大數(shù)據(jù)業(yè)務品牌“天翼大數(shù)據(jù)”推出了精準營銷、風險防控、區(qū)域洞察、咨詢報告四類數(shù)據(jù)型產(chǎn)品和大數(shù)據(jù)云平臺型產(chǎn)品。。3)中國聯(lián)通。中國聯(lián)通大數(shù)據(jù)產(chǎn)品體系包括征信產(chǎn)品、沃指數(shù)、精準營銷產(chǎn)品、用戶標簽、開放平臺和智慧足跡等。4.簡述HDFS和MapReduce的主要功能。答:HDFS是針對GFS的開源實現(xiàn),其冗余存儲的方式使得數(shù)據(jù)的安全性得到了保證。它支持廉價計算機搭建的服務器集群,從而獲得了海量數(shù)據(jù)的分布式存儲能力,這使得整個系統(tǒng)具備了高吞吐率、高容錯性和高擴展性。MapReduce是針對GoogleMapReduce的開源實現(xiàn),它是一種海量數(shù)據(jù)集的分布式并行計算編程模型。它可以將大作業(yè)拆分成小作業(yè)進行作業(yè)調(diào)度和容錯管理,適用于數(shù)據(jù)的批量處理。MapReduce將復雜的并行計算過程高度抽象為Map函數(shù)和Reduce函數(shù),這使得用戶開發(fā)并行應用程序時無需了解分布式系統(tǒng)的底層實現(xiàn)細節(jié),就可以完成海量數(shù)據(jù)的分布式并行計算工作三、實操題見教材實訓部分。模塊四大數(shù)據(jù)采集與預處理一、選擇題(1)C (2)D (3)D (4)B 二、簡答題1.大數(shù)據(jù)采集方法有哪幾大類?答:(1)數(shù)據(jù)庫采集(2)系統(tǒng)日志采集(3)感知設備數(shù)據(jù)采集(4)網(wǎng)絡數(shù)據(jù)采集2.簡述網(wǎng)絡爬蟲的工作原理及工作流程。答:網(wǎng)絡爬蟲是一種通過既定規(guī)則,自動獲取網(wǎng)頁信息的程序或腳本。爬蟲的目的在于將目標網(wǎng)頁的數(shù)據(jù)下載至本地,以便進行數(shù)據(jù)分析。爬蟲的工作流程:(1)發(fā)送請求。通過HTTP庫向目標站點發(fā)起請求,然后等待服務器響應。這個請求的過程就像用戶打開瀏覽器,在瀏覽器地址欄輸入網(wǎng)址“”,然后按“Enter”鍵。即瀏覽器作為客戶端向服務器端發(fā)送了一次請求。(2)獲取響應內(nèi)容。如果服務器能正常運行,用戶會得到一個響應,響應的內(nèi)容便是所要獲取的內(nèi)容,可能包括HTML、Json字符串、二進制數(shù)據(jù)(圖片、視頻等)等類型。(3)解析內(nèi)容。解析得到的內(nèi)容可能是HTML,可以使用正則表達式、網(wǎng)頁解析庫進行解析;也可能是Json,可以直接轉(zhuǎn)為Json對象解析;如果是二進制數(shù)據(jù),則可以保存起來或者進行進一步處理。(4)保存數(shù)據(jù)。保存數(shù)據(jù)的形式很多,可以保存為文本,也可以保存到數(shù)據(jù)庫,或者保存為特定的格式文件(如jpg、mp4格式)。3.大數(shù)據(jù)預處理包括哪些內(nèi)容?答:數(shù)據(jù)的預處理是指對采集的數(shù)據(jù)進行分類,或分組前所做的審核、篩選、排序等必要的處理。數(shù)據(jù)審核,可以分為準確性審核、適用性審核、及時性審核和一致性審核四個方面;數(shù)據(jù)篩選,對審核過程中發(fā)現(xiàn)的錯誤應盡可能予以糾正;數(shù)據(jù)排序,按照一定順序?qū)?shù)據(jù)進行排列。4.大數(shù)據(jù)預處理的方法有哪些?答:數(shù)據(jù)預處理方法主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約等。通過這些預處理方法,可以有效地清除冗余的數(shù)據(jù)、糾正錯誤的數(shù)據(jù)、完善不完整的數(shù)據(jù),從而篩選出有效的數(shù)據(jù),達到數(shù)據(jù)挖掘的目的。模塊五大數(shù)據(jù)分析與挖掘一、選擇題(1)D (2)A (3)A (4)C 二、簡答題1.典型的數(shù)據(jù)分析包括哪些步驟?答:典型的數(shù)據(jù)分析包含以下3個步驟:(1)探索性分析。剛?cè)〉玫臄?shù)據(jù)可能雜亂無章,看不出規(guī)律,可以通過作圖、制表、用各種形式的方程擬合、計算某些特征量等手段探索隱藏在數(shù)據(jù)中的規(guī)律。(2)模型選定分析。在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步分析從中挑選一定的模型。(3)推斷分析。通常使用數(shù)理統(tǒng)計方法推斷選定的模型或估計可靠程度和精確程度。2.常見的大數(shù)據(jù)分析工具有哪些?答:常見的大數(shù)據(jù)分析工具有:FineBI、Tableau、Smartbi、億信ABI、QuickBI等。3.大數(shù)據(jù)挖掘的定義是什么?答:大數(shù)據(jù)挖掘是指通過算法在大量的數(shù)據(jù)中搜索隱藏其中的有價值的信息的過程。大數(shù)據(jù)挖掘是一個決策支持過程,可以高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險。4.大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)有哪些?答:大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)主要有:分類、回歸分析、聚類分析、關(guān)聯(lián)規(guī)則、特征分析以及變化和偏差分析等。模塊五大數(shù)據(jù)分析與挖掘一、選擇題(1)D (2)A (3)A (4)C 二、簡答題1.典型的數(shù)據(jù)分析包括哪些步驟?答:典型的數(shù)據(jù)分析包含以下3個步驟:(1)探索性分析。剛?cè)〉玫臄?shù)據(jù)可能雜亂無章,看不出規(guī)律,可以通過作圖、制表、用各種形式的方程擬合、計算某些特征量等手段探索隱藏在數(shù)據(jù)中的規(guī)律。(2)模型選定分析。在探索性分析的基礎上提出一類或幾類可能的模型,然后通過進一步分析從中挑選一定的模型。(3)推斷分析。通常使用數(shù)理統(tǒng)計方法推斷選定的模型或估計可靠程度和精確程度。2.常見的大數(shù)據(jù)分析工具有哪些?答:常見的大數(shù)據(jù)分析工具有:FineBI、Tableau、Smartbi、億信ABI、QuickBI等。3.大數(shù)據(jù)挖掘的定義是什么?答:大數(shù)據(jù)挖掘是指通過算法在大量的數(shù)據(jù)中搜索隱藏其中的有價值的信息的過程。大數(shù)據(jù)挖掘是一個決策支持過程,可以高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險。4.大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)有哪些?答:大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)主要有:分類、回歸分析、聚類分析、關(guān)聯(lián)規(guī)則、特征分析以及變化和偏差分析等。第六章深度學習與人工智能1.談談你對深度學習的認識。答:深度學習(DeepLearning,DL)的概念源于人工神經(jīng)網(wǎng)絡的研究,是機器學習的一個新領(lǐng)域,旨在學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對解釋文字、圖像和聲音等數(shù)據(jù)有很大幫助。包含多隱藏層的多層感知器就是一種深度學習結(jié)構(gòu),通過多層處理,將初始的低層特征表示轉(zhuǎn)化為高層特征表示后,用簡單模型即可完成復雜的分類等學習任務。簡單地說,就是通過構(gòu)建的具有很多隱藏層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而提升分類或預測的準確性。2.常用的深度學習工具有哪些?答:常用的深度學習工具有TensorFlow、PyTorch、Keras等。3.人工智能與大數(shù)據(jù)的區(qū)別是什么?答:人工智能是一種計算形式,它允許機器執(zhí)行認知功能,支持人工智能的機器旨在分析和解釋數(shù)據(jù),然后根據(jù)這些解釋解決問題。通過機器學習,計算機會學習如何對某個輸入采取行動或做出反應,并在遇到相同問題時知道采取相同的行動,類似人類的做法。與人工智能相比,大數(shù)據(jù)是一種傳統(tǒng)計算模式。它不會根據(jù)結(jié)果采取行動,只是尋找結(jié)果。它定義了非常大的數(shù)據(jù)集或極其多樣的數(shù)據(jù)。大數(shù)據(jù)集中可以存在結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),分析數(shù)據(jù)之前需要進行預處理操作。人工智能與大數(shù)據(jù)在應用上也有差異。大數(shù)據(jù)的應用主要是通過對數(shù)據(jù)的對比分析來掌握和推演更優(yōu)方案。而人工智能的開發(fā)則是為了輔助和代替人類更快、更好地完成某些任務或做出決定。4.深度學習在生活中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論