大數(shù)據(jù)導(dǎo)論題庫習(xí)題試卷及答案_第1頁
大數(shù)據(jù)導(dǎo)論題庫習(xí)題試卷及答案_第2頁
大數(shù)據(jù)導(dǎo)論題庫習(xí)題試卷及答案_第3頁
大數(shù)據(jù)導(dǎo)論題庫習(xí)題試卷及答案_第4頁
大數(shù)據(jù)導(dǎo)論題庫習(xí)題試卷及答案_第5頁
已閱讀5頁,還剩57頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

《大數(shù)據(jù)導(dǎo)論》教材配套習(xí)題和答案

第1章大數(shù)據(jù)概述單選題下面關(guān)于數(shù)據(jù)的說法,錯誤的是:(B)數(shù)據(jù)的根本價值在于可以為人們找出答案數(shù)據(jù)的價值會因為不斷使用而削減數(shù)據(jù)的價值會因為不斷重組而產(chǎn)生更大的價值目前階段,數(shù)據(jù)的產(chǎn)生不以人的意志為轉(zhuǎn)移第3次信息化浪潮的標志是:(C)個人計算機的普及互聯(lián)網(wǎng)的普及云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的普及人工智能的普及物聯(lián)網(wǎng)的發(fā)展最終導(dǎo)致了人類社會數(shù)據(jù)量的第三次躍升,使得數(shù)據(jù)產(chǎn)生方式進入了:(D)手工創(chuàng)建階段運營式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段感知式系統(tǒng)階段英國的大數(shù)據(jù)發(fā)展戰(zhàn)略是:(D)A.穩(wěn)步實施“三步走”戰(zhàn)略,打造面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)B.通過發(fā)展創(chuàng)新性解決方案并應(yīng)用于實踐來促進大數(shù)據(jù)發(fā)展C.以大數(shù)據(jù)等技術(shù)為核心應(yīng)對第四次工業(yè)革命D.緊抓大數(shù)據(jù)產(chǎn)業(yè)機遇,應(yīng)對脫歐后的經(jīng)濟挑戰(zhàn)5.以下哪個不是大數(shù)據(jù)的“4V”特性:(D)數(shù)據(jù)量大數(shù)據(jù)類型繁多處理速度快價值密度高多選題數(shù)據(jù)的類型主要包括:(ABCD)文本圖片音頻視頻計算機系統(tǒng)中的數(shù)據(jù)組織形式主要有兩種,分別是:(AD)文件視頻音頻數(shù)據(jù)庫為了讓數(shù)據(jù)變得可用,需要對數(shù)據(jù)進行三個步驟的處理,分別是:(ACD)數(shù)據(jù)清洗數(shù)據(jù)抽樣數(shù)據(jù)管理數(shù)據(jù)分析信息科技為大數(shù)據(jù)時代提供技術(shù)支撐,主要體現(xiàn)在哪三個方面:(ABD)存儲設(shè)備容量不斷增加CPU處理能力大幅提升量子計算機全面普及網(wǎng)絡(luò)帶寬不斷增加5、人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了哪三個階段:(BCD)手工生產(chǎn)階段運營式系統(tǒng)階段用戶原創(chuàng)內(nèi)容階段感知式系統(tǒng)階段6、關(guān)于“大數(shù)據(jù)摩爾定律”,以下說法正確的是:(ABC)人類社會產(chǎn)生的數(shù)據(jù)一直都在以每年50%的速度增長人類社會的數(shù)據(jù)量大約每兩年就增加一倍人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量之和人類社會的數(shù)據(jù)量以每年10%的速度增長7、人類自古以來在科學(xué)研究上先后歷經(jīng)了哪幾種范式:(ABCD)實驗科學(xué)理論科學(xué)計算科學(xué)數(shù)據(jù)密集型科學(xué)8、大數(shù)據(jù)將會對社會發(fā)展產(chǎn)生深遠的影響,具體表現(xiàn)在以下哪幾個方面:(ABCD)大數(shù)據(jù)決策成為一種新的決策方式大數(shù)據(jù)成為提升國家治理能力的新途徑大數(shù)據(jù)應(yīng)用促進信息技術(shù)與各行業(yè)的深度融合大數(shù)據(jù)開發(fā)推動新技術(shù)和新應(yīng)用的不斷涌現(xiàn)9、大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟活動的集合。以下哪些屬于大數(shù)據(jù)產(chǎn)業(yè)的某個環(huán)節(jié)(ABCD):IT基礎(chǔ)設(shè)施層數(shù)據(jù)源層數(shù)據(jù)管理層數(shù)據(jù)分析層第2章大數(shù)據(jù)與其他新興技術(shù)之間的關(guān)系單選題早期的云計算產(chǎn)品AWS是由哪家企業(yè)提出的:(C)IBM微軟亞馬遜谷歌云計算包括3種類型。面向所有用戶提供服務(wù),只要是注冊付費的用戶都可以使用,這種云計算屬于:(A)公有云私有云混合云獨立云云計算包括3種類型。只為特定用戶提供服務(wù),比如大型企業(yè)出于安全考慮自建的云環(huán)境,只為企業(yè)內(nèi)部提供服務(wù),這種云計算屬于:(B)公有云私有云混合云獨立云以下關(guān)于大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的區(qū)別,描述錯誤的是:(C)大數(shù)據(jù)側(cè)重于對海量數(shù)據(jù)的存儲、處理與分析,從海量數(shù)據(jù)中發(fā)現(xiàn)價值,服務(wù)于生產(chǎn)和生活云計算本質(zhì)上旨在整合和優(yōu)化各種IT資源并通過網(wǎng)絡(luò)以服務(wù)的方式,廉價地提供給用戶云計算旨在從海量數(shù)據(jù)中發(fā)現(xiàn)價值,服務(wù)于生產(chǎn)和生活物聯(lián)網(wǎng)的發(fā)展目標是實現(xiàn)物物相連,應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心以下關(guān)于機器學(xué)習(xí),描述錯誤的是:(C)是一門涉及統(tǒng)計學(xué)、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡(luò)、優(yōu)化理論、計算機科學(xué)、腦科學(xué)等諸多領(lǐng)域的交叉學(xué)科研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能機器學(xué)習(xí)強調(diào)三個關(guān)鍵詞:算法、模型、訓(xùn)練基于數(shù)據(jù)的機器學(xué)習(xí)是現(xiàn)代智能技術(shù)中的重要方法之一6、以下關(guān)于知識圖譜,描述錯誤的是:(C)又稱為科學(xué)知識圖譜在圖書情報界稱為知識域可視化或知識領(lǐng)域映射地圖知識圖譜屬于密碼學(xué)研究范疇知識圖譜可用于反欺詐、不一致性驗證、組團欺詐等公共安全保障領(lǐng)域7、以下關(guān)于人機交互,描述錯誤的是:(B)人機交互是一門研究系統(tǒng)與用戶之間的交互關(guān)系的學(xué)科人機交互界面通常是指用戶不可見的部分系統(tǒng)可以是各種各樣的機器,也可以是計算機化的系統(tǒng)和軟件用戶通過人機交互界面與系統(tǒng)交流,并進行操作8、以下關(guān)于計算機視覺,描述錯誤的是:(D)計算機視覺是一門研究如何使機器“看”的科學(xué)是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量的機器視覺計算機視覺是一門綜合性的學(xué)科語音識別屬于計算機視覺的典型應(yīng)用9、關(guān)于大數(shù)據(jù)與區(qū)塊鏈的聯(lián)系,下面描述錯誤的是:(D)A.區(qū)塊鏈使大數(shù)據(jù)極大降低信用成本B.區(qū)塊鏈是構(gòu)建大數(shù)據(jù)時代的信任基石C.區(qū)塊鏈是促進大數(shù)據(jù)價值流通的管道D.區(qū)塊鏈會提升大數(shù)據(jù)的信用成本二、多選題傳統(tǒng)的IT資源獲取方式的主要缺點是:(ABC)初期成本高,建設(shè)周期長后期需要自己維護,使用成本高IT資源供應(yīng)量有限IT資源供應(yīng)量無限云計算的主要優(yōu)點是:(BCD)初期投入大,需要用戶自己維護初期零成本,瞬時可獲得后期免維護,使用成本低在供應(yīng)IT資源量方面“予取予求”云計算包括哪3種典型的服務(wù)模式:(ABD)IaaS(基礎(chǔ)設(shè)施即服務(wù))PaaS(平臺即服務(wù))MaaS(機器即服務(wù))SaaS(軟件即服務(wù))云計算包括哪3種類型:(ACD)公有云獨立云私有云混合云5、從技術(shù)架構(gòu)上看,物聯(lián)網(wǎng)主要包括哪幾層:(ABCD)感知層網(wǎng)絡(luò)層處理層應(yīng)用層以下關(guān)于大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)的聯(lián)系,描述正確的是:(ABCD)從整體上看,大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)這三者是相輔相成的大數(shù)據(jù)根植于云計算,大數(shù)據(jù)分析的很多技術(shù)都來自于云計算大數(shù)據(jù)為云計算提供了“用武之地”物聯(lián)網(wǎng)需要借助于云計算和大數(shù)據(jù)技術(shù),實現(xiàn)物聯(lián)網(wǎng)大數(shù)據(jù)的存儲、分析和處理以下關(guān)于大數(shù)據(jù)與人工智能的聯(lián)系,描述正確的是:(ABCD)人工智能需要數(shù)據(jù)來建立其智能,特別是機器學(xué)習(xí)人工智能應(yīng)用的數(shù)據(jù)越多,其獲得的結(jié)果就越準確大數(shù)據(jù)為人工智能提供了海量的數(shù)據(jù),使得人工智能技術(shù)有了長足的發(fā)展大數(shù)據(jù)技術(shù)為人工智能提供了強大的存儲能力和計算能力7、下面關(guān)于比特幣和區(qū)塊鏈之間關(guān)系的描述,正確的是:(BC)A.比特幣和區(qū)塊鏈沒有任何關(guān)系B.區(qū)塊鏈是比特幣的底層技術(shù)C.比特幣是區(qū)塊鏈的一種應(yīng)用D.比特幣是比區(qū)塊鏈更先進的一種技術(shù)8、比特幣要解決的兩個核心問題是:(AD)A.防篡改B.防丟失C.防貶值D.去中心化記賬9、在比特幣區(qū)塊鏈中關(guān)于如何爭奪記賬權(quán)的問題,下面描述正確的是:(ABCD)A.采用的是POW機制,也就是“工作量證明機制”B.記賬節(jié)點通過計算數(shù)學(xué)題,來爭奪記賬權(quán)C.對于數(shù)學(xué)公式的計算,除了從零開始遍歷隨機數(shù)碰運氣以外,沒有其他辦法D.解題的過程,又叫“挖礦”,記賬節(jié)點被稱為礦工。誰先解對,誰就獲得記賬權(quán)10、區(qū)塊鏈的三要素是:(ABC)A.交易B.區(qū)塊C.鏈D.比特幣第3章大數(shù)據(jù)基礎(chǔ)知識單選題1、下面關(guān)于大數(shù)據(jù)安全問題,描述錯誤的是:(D)大數(shù)據(jù)的價值并不單純地來源于它的用途,而更多地源自其二次利用對大數(shù)據(jù)的收集、處理、保存不當,會加劇數(shù)據(jù)信息泄露的風險大數(shù)據(jù)成為國家之間博弈的新戰(zhàn)場大數(shù)據(jù)對于國家安全沒有產(chǎn)生影響2、下面關(guān)于棱鏡門事件描述錯誤的是:(C)棱鏡計劃(PRISM)是一項由美國國家安全局(NSA)自2007年起開始實施的絕密電子監(jiān)聽計劃在該計劃中,美國國家安全局和聯(lián)邦調(diào)查局利用平臺和技術(shù)上的優(yōu)勢,開展全球范圍內(nèi)的監(jiān)聽活動該計劃的目的是為了促進世界和平與發(fā)展該計劃對全世界重點地區(qū)、部門、公司甚至個人進行布控3、下面關(guān)于手機軟件采集個人信息的描述錯誤的是:(C)在我們的日常生活中,部分手機APP往往會“私自竊密”有的APP在提供服務(wù)時,采取特殊方式來獲得用戶授權(quán),這本質(zhì)上仍屬“未經(jīng)同意”在微信朋友圈廣泛傳播的各種測試小程序是安全的,不會竊取用戶個人信息手機APP過度采集個人信息呈現(xiàn)普遍趨勢,最突出的是在非必要的情況下獲取位置信息和訪問聯(lián)系人權(quán)限4、下面描述錯誤的是:(D)A.“探針盒子”就是一款自動收集用戶隱私的產(chǎn)品B.許多顧客在使用WiFi之后會收到大量的廣告信息,甚至自己的手機號碼也會被當做信息進行多次買賣C.在免費上網(wǎng)的背后,其實也存在著不小的信息安全風險,或許一不小心,就落入了電腦黑客們設(shè)計的WiFi陷阱之中D.免費WIFI都是安全的,可以放心使用5、下面關(guān)于機械思維的核心思想,描述錯誤的是:(B)世界變化的規(guī)律是確定的世界變化的規(guī)律是無法確定的規(guī)律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚這些規(guī)律應(yīng)該是放之四海而皆準的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實踐6、我們在使用智能手機進行導(dǎo)航來避開城市擁堵路段時,體現(xiàn)了哪種大數(shù)據(jù)思維方式:(A)我為人人,人人為我全樣而非抽樣效率而非精確相關(guān)而非因果谷歌采用搜索引擎大數(shù)據(jù)進行流感趨勢預(yù)測,體現(xiàn)了哪種大數(shù)據(jù)思維方式:(B)我為人人,人人為我全樣而非抽樣效率而非精確相關(guān)而非因果8、“啤酒與尿布”的故事,體現(xiàn)了哪種大數(shù)據(jù)思維方式:(D)我為人人,人人為我全樣而非抽樣效率而非精確相關(guān)而非因果9、大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效,體現(xiàn)了哪種大數(shù)據(jù)思維方式:(A)以數(shù)據(jù)為中心全樣而非抽樣效率而非精確相關(guān)而非因果10、迪士尼MagicBand手環(huán),體現(xiàn)了哪種大數(shù)據(jù)思維方式:(A)我為人人,人人為我全樣而非抽樣效率而非精確相關(guān)而非因果11、下面關(guān)于大數(shù)據(jù)倫理的描述,錯誤的是:(D)大數(shù)據(jù)倫理屬于科技倫理的范疇大數(shù)據(jù)倫理問題是指由于大數(shù)據(jù)技術(shù)的產(chǎn)生和使用而引發(fā)的社會問題作為一種新的技術(shù),大數(shù)據(jù)技術(shù)像其他所有技術(shù)一樣,其本身是無所謂好壞的,而它的“善”與“惡”全然在于對大數(shù)據(jù)技術(shù)的使用者大數(shù)據(jù)技術(shù)本身就存在“善”和“惡”的區(qū)分12、現(xiàn)在的互聯(lián)網(wǎng),基于大數(shù)據(jù)和人工智能的推薦應(yīng)用越來越多,越來越深入,我們一直被“喂食著”經(jīng)過智能化篩選推薦的信息,久而久之,會導(dǎo)致什么問題:(A)信息繭房問題隱形偏差問題大數(shù)據(jù)殺熟問題隱私泄露問題下面哪一個不屬于大數(shù)據(jù)倫理問題:(D)隱私泄露問題數(shù)據(jù)安全問題數(shù)字鴻溝問題數(shù)據(jù)冗余問題14、下面關(guān)于政府數(shù)據(jù)孤島描述錯誤的是:(D)有些政府部門錯誤地將數(shù)據(jù)資源等同于一般資源,認為占有就是財富,熱衷于搜集,但不愿共享有些部門只盯著自己的數(shù)據(jù)服務(wù)系統(tǒng),結(jié)果因為數(shù)據(jù)標準、系統(tǒng)接口等技術(shù)原因,無法與外單位、外部門聯(lián)通有些地方,對大數(shù)據(jù)缺乏頂層設(shè)計,導(dǎo)致各條線、各部門固有的本位主義作祟,壁壘林立,數(shù)據(jù)無法流動即使涉及到工作機密、商業(yè)機密,政府也應(yīng)該毫不保留地共享數(shù)據(jù)15、關(guān)于推進數(shù)據(jù)共享開放的描述,錯誤的是:(D)要改變政府職能部門“數(shù)據(jù)孤島”現(xiàn)象,立足于數(shù)據(jù)資源的共享互換,設(shè)定相對明確的數(shù)據(jù)標準,實現(xiàn)部門之間的數(shù)據(jù)對接與共享要使不同省區(qū)市之間的數(shù)據(jù)實現(xiàn)對接與共享,解決數(shù)據(jù)“畫地為牢”的問題,實現(xiàn)數(shù)據(jù)共享共用在企業(yè)內(nèi)部,破除“數(shù)據(jù)孤島”,推進數(shù)據(jù)融合不同企業(yè)之間,為了保護各自商業(yè)利益,不宜實現(xiàn)數(shù)據(jù)共享16、下面關(guān)于數(shù)據(jù)權(quán)的描述,錯誤的是:(D)數(shù)據(jù)權(quán)的概念發(fā)起于英國,主要將其視為信息社會的一項基本公民權(quán)利數(shù)據(jù)權(quán)包括兩個方面:數(shù)據(jù)主權(quán)和數(shù)據(jù)權(quán)利數(shù)據(jù)主權(quán)的主體是國家,是一個國家獨立自主對本國數(shù)據(jù)進行管理和利用的權(quán)力數(shù)據(jù)主權(quán)的主體是公民,是相對應(yīng)于公民數(shù)據(jù)采集義務(wù)而形成的對數(shù)據(jù)利用的權(quán)利17、下面關(guān)于政府信息公開與政府數(shù)據(jù)開放的描述,錯誤的是:(B)政府信息公開與政府數(shù)據(jù)開放是一對既相互區(qū)別又相互聯(lián)系的概念信息是沒有經(jīng)過任何加工與解讀的原始記錄,沒有明確的含義,而數(shù)據(jù)則是經(jīng)過加工處理并被賦予一定含義的政府信息公開主要是為了對公眾知情權(quán)的滿足而出現(xiàn)的政府數(shù)據(jù)開放強調(diào)的是數(shù)據(jù)的再利用,公眾可以分享數(shù)據(jù)利用創(chuàng)造的經(jīng)濟和社會價值18、關(guān)于公民的隱私權(quán),下面描述錯誤的是:(A)修改權(quán)是隱私權(quán)利人具有的依法了解自身信息資料是否被行政主體利用的權(quán)利支配權(quán)是隱私權(quán)利人的基本權(quán)利之一,隱私權(quán)利人對自己的個人信息的收集、儲存、傳播、使用、開放等享有支配權(quán)保障權(quán)是指公民有權(quán)要求政府在數(shù)據(jù)開放的過程中保障涉及其個人隱私的信息資料不被開放、不被濫用和不被泄露救濟權(quán)是公民在自身的合法權(quán)益受到侵害時,按照法定程序采取法律手段維護自身權(quán)益的權(quán)利19、關(guān)于大數(shù)據(jù)交易在發(fā)展過程中遇到的問題,下面描述錯誤的是:(D)互聯(lián)網(wǎng)數(shù)據(jù)馬太效應(yīng)顯現(xiàn)市場信用體系缺失、監(jiān)管有待加強大數(shù)據(jù)交易規(guī)則和標準缺乏數(shù)據(jù)質(zhì)量評價與估值定價已經(jīng)很完善20、目前大數(shù)據(jù)交易市場上存在很多種定價機制,但是不包括以下哪項:(D)平臺預(yù)定價自動計價拍賣式定價隨機性定價21、我國首家大數(shù)據(jù)交易所是:(A)貴陽大數(shù)據(jù)交易所上海數(shù)據(jù)交易中心華東江蘇大數(shù)據(jù)交易中心浙江大數(shù)據(jù)交易中心二、多選題1、傳統(tǒng)的數(shù)據(jù)安全的威脅主要包括:(ABC)計算機病毒黑客攻擊數(shù)據(jù)信息存儲介質(zhì)的損壞數(shù)據(jù)復(fù)制2、大數(shù)據(jù)安全表現(xiàn)出與傳統(tǒng)數(shù)據(jù)安全不同的特征,具體來說包括哪幾個方面:(ABCD)大數(shù)據(jù)成為網(wǎng)絡(luò)攻擊的顯著目標大數(shù)據(jù)加大隱私泄露風險大數(shù)據(jù)技術(shù)被應(yīng)用到攻擊手段中大數(shù)據(jù)成為高級可持續(xù)攻擊(APT)的載體3、舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是思維方式的3種轉(zhuǎn)變,具體包括:(ABC)全樣而非抽樣效率而非精確相關(guān)而非因果務(wù)實而非務(wù)虛4、下面關(guān)于搜索引擎“點擊模型”的描述正確的是:(ABCD)隨著數(shù)據(jù)量的積累,點擊模型對搜索結(jié)果排名的預(yù)測越來越準確,它的重要性也越來越大點擊模型的準確性取決于數(shù)據(jù)量的大小一個搜索引擎使用的時間越長,數(shù)據(jù)的積累就越充分,對于長尾搜索就做得越準確當整個搜索行業(yè)都意識到點擊數(shù)據(jù)的重要性后,這個市場上的競爭就從技術(shù)競爭變成了數(shù)據(jù)競爭5、下面關(guān)于隱私泄露問題的描述,正確的是:(ABCD)大數(shù)據(jù)時代下的隱私與傳統(tǒng)隱私的最大區(qū)別在于隱私的數(shù)據(jù)化,即隱私主要以“個人數(shù)據(jù)”的形式出現(xiàn)用戶在使用搜索引擎時,搜索引擎可以精確地刻畫出該用戶的“數(shù)字肖像”通過數(shù)據(jù)預(yù)測,可以預(yù)測個體“未來的隱私”“數(shù)據(jù)痕跡”往往永遠無法徹底消除,會被永久保留記錄6、下面關(guān)于數(shù)字鴻溝問題的描述,正確的是:(ACD)數(shù)字鴻溝被認為是信息時代的“馬太效應(yīng)”,即先進技術(shù)的成果不能為人公正分享,于是造成“富者越富、窮者越窮”的情況數(shù)字鴻溝因為大數(shù)據(jù)技術(shù)的誕生而趨向彌合數(shù)字鴻溝是一個涉及公平公正的問題在我國,東中西部地區(qū)、城鄉(xiāng)之間等都可以明顯感受到數(shù)字鴻溝的存在7、下面關(guān)于數(shù)據(jù)獨裁的描述,正確的是:(ABCD)所謂的“數(shù)據(jù)獨裁”是指在大數(shù)據(jù)時代,由于數(shù)據(jù)量的爆炸式增長,導(dǎo)致做出判斷和選擇的難度徒增,迫使人們必須完全依賴數(shù)據(jù)的預(yù)測和結(jié)論才能做出最終的決策從某個角度來講,數(shù)據(jù)獨裁就是讓數(shù)據(jù)統(tǒng)治人類,使人類徹底走向唯數(shù)據(jù)主義數(shù)據(jù)獨裁最終將導(dǎo)致人類思維被“空心化”,進而是創(chuàng)新意識的喪失數(shù)據(jù)獨裁還可能使人們喪失了人的自主意識、反思和批判的能力,最終淪為數(shù)據(jù)的奴隸因數(shù)據(jù)而產(chǎn)生的壟斷問題,主要包括哪幾種類型:(ABCD)數(shù)據(jù)可能造成進入壁壘或擴張壁壘擁有大數(shù)據(jù)形成市場支配地位并濫用因數(shù)據(jù)產(chǎn)品而形成市場支配地位并濫用涉及數(shù)據(jù)方面的壟斷協(xié)議9、企業(yè)數(shù)據(jù)孤島產(chǎn)生的原因主要包括哪兩個方面:(AB)以功能為標準的部門劃分導(dǎo)致數(shù)據(jù)孤島不同類型、不同版本的信息化管理系統(tǒng)導(dǎo)致數(shù)據(jù)孤島機構(gòu)設(shè)置不合理各個部門責權(quán)利不清晰10、消除數(shù)據(jù)孤島對于政府具有哪些重要的意義:(ABCD)有助于提升資源利用率有助于推動政府轉(zhuǎn)型有助于提高行政效率有助于促進跨部門合作11、消除數(shù)據(jù)孤島對于企業(yè)具有哪些重要的意義:(ABC)有助于企業(yè)做出有利于生產(chǎn)要素組合優(yōu)化的決策,使企業(yè)能夠合理配置資源,實現(xiàn)企業(yè)利益最大化有利于企業(yè)獲得更好的經(jīng)營發(fā)展能力企業(yè)信息的增多可以增加做出正確選擇的能力,從而提高經(jīng)濟效率不利于企業(yè)長遠的發(fā)展12、實現(xiàn)數(shù)據(jù)共享,在政府層面面臨的挑戰(zhàn)包括:(ABCD)不愿共享開放不敢共享開放不會共享開放數(shù)據(jù)中心共享開放作用不強實現(xiàn)數(shù)據(jù)共享,在企業(yè)層面面臨的挑戰(zhàn)包括:(ABC)系統(tǒng)孤島挑戰(zhàn)組織架構(gòu)挑戰(zhàn)數(shù)據(jù)合作挑戰(zhàn)利潤風險挑戰(zhàn)14、關(guān)于政府數(shù)據(jù)開放的意義,下面描述正確的是:(ABC)政府開放數(shù)據(jù)有利于促進開放透明政府的形成政府開放數(shù)據(jù)有利于創(chuàng)新創(chuàng)業(yè)和經(jīng)濟增長政府開放數(shù)據(jù)有利于社會治理創(chuàng)新政府開放數(shù)據(jù)將會對政府正常運作產(chǎn)生威脅15、目前進行數(shù)據(jù)交易的形式主要包括哪幾種:(ABC)大數(shù)據(jù)交易公司數(shù)據(jù)交易所API模式PPT模式16、大數(shù)據(jù)交易平臺的類型主要包括哪兩種:(AD)綜合數(shù)據(jù)服務(wù)平臺實時數(shù)據(jù)交易平時零散數(shù)據(jù)交易平臺第三方數(shù)據(jù)交易平臺17、交易數(shù)據(jù)的來源主要包括哪些:(ABCD)政府公開數(shù)據(jù)企業(yè)內(nèi)部數(shù)據(jù)數(shù)據(jù)供應(yīng)方數(shù)據(jù)網(wǎng)頁爬蟲數(shù)據(jù)18、交易產(chǎn)品的類型主要包括哪幾種:(ABCD)API數(shù)據(jù)包云服務(wù)解決方案19、大數(shù)據(jù)交易平臺的運營模式主要包括哪兩種:(BC)具有交易實時顯示功能的交易平臺兼具中介和數(shù)據(jù)處理加工功能的交易平臺只具備中介功能的交易平臺只具備數(shù)據(jù)處理加工功能的交易平臺20、可以從哪些維度評價數(shù)據(jù)價值:(ABCD)數(shù)據(jù)樣本量數(shù)據(jù)品種數(shù)據(jù)完整性數(shù)據(jù)實時性第4章大數(shù)據(jù)應(yīng)用一、單選題1、下面關(guān)于推薦系統(tǒng)的描述錯誤的是:(D)推薦系統(tǒng)是自動聯(lián)系用戶和物品的一種工具和搜索引擎相比,推薦系統(tǒng)通過研究用戶的興趣偏好,進行個性化計算推薦系統(tǒng)可發(fā)現(xiàn)用戶的興趣點,幫助用戶從海量信息中去發(fā)掘自己潛在的需求推薦系統(tǒng)是一種只能通過專家進行人工推薦的系統(tǒng)2、以下推薦方法中,哪一個是基于內(nèi)容的推薦:(C)由資深的專業(yè)人士來進行物品的篩選和推薦基于統(tǒng)計信息進行推薦通過機器學(xué)習(xí)的方法去描述內(nèi)容的特征,并基于內(nèi)容的特征來發(fā)現(xiàn)與之相似的內(nèi)容對多種推薦算法進行有機組合,然后給出推薦結(jié)果3、以下哪項不屬于大數(shù)據(jù)在城市管理中的應(yīng)用:(D)智能交通環(huán)保監(jiān)測城市規(guī)劃比賽預(yù)測4、以下哪項不屬于大數(shù)據(jù)在零售領(lǐng)域的應(yīng)用:(A)大數(shù)據(jù)征信發(fā)現(xiàn)關(guān)聯(lián)購物行為客戶群體劃分供應(yīng)鏈管理二、多選題1、一個完整的推薦系統(tǒng)通常包括哪3個組成模塊:(ABC)用戶建模模塊推薦對象建模模塊推薦算法模塊可視化模塊2、智慧醫(yī)療具有哪些優(yōu)點:(ABCD)促進優(yōu)質(zhì)醫(yī)療資源的共享避免患者重復(fù)檢查促進醫(yī)療智能化有助于實現(xiàn)全民免費醫(yī)療3、下面關(guān)于智能物流的描述,正確的是:ABCD又稱智慧物流,是利用智能化技術(shù),使物流系統(tǒng)能模仿人的智能,具有思維、感知、學(xué)習(xí)、推理判斷和自行解決物流中某些問題的能力可以幫助實現(xiàn)物流資源優(yōu)化調(diào)度和有效配置,并且提升物流系統(tǒng)效率智能物流概念源自2010年IBM發(fā)布的研究報告《智慧的未來供應(yīng)鏈》智能物流概念經(jīng)歷了自動化、信息化、網(wǎng)絡(luò)化3個發(fā)展階段4、智能物流具有哪幾個方面的重要作用:(ABC)提高物流的信息化和智能化水平降低物流成本和提高物流效率提高物流活動的一體化提高了物流的復(fù)雜性5、大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用主要包括:(ABCD)高頻交易市場情緒分析信貸風險分析大數(shù)據(jù)征信6、大數(shù)據(jù)在餐飲行業(yè)的應(yīng)用主要包括:(ABCD)大數(shù)據(jù)驅(qū)動的團購模式利用大數(shù)據(jù)為用戶推薦消費內(nèi)容利用大數(shù)據(jù)調(diào)整線下門店布局利用大數(shù)據(jù)控制店內(nèi)人流量第5章數(shù)據(jù)采集與預(yù)處理單選題以下哪個步驟不屬于數(shù)據(jù)的采集與預(yù)處理:(D)利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù),抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中利用日志采集工具把實時采集的數(shù)據(jù)作為流計算系統(tǒng)的輸入,進行實時處理分析利用網(wǎng)頁爬蟲程序到互聯(lián)網(wǎng)網(wǎng)站中爬取數(shù)據(jù)D、對分析結(jié)果進行可視化呈現(xiàn),幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)以下哪項不屬于數(shù)據(jù)清洗的內(nèi)容:(B)一致性檢查精確度校驗無效值和缺失值的處理成對刪除3、以下哪個不是Flume的核心組件:(A)A.數(shù)據(jù)塊(Block)B.數(shù)據(jù)源(Source)C.數(shù)據(jù)通道(Channel)D.數(shù)據(jù)槽(Sink)6、下面關(guān)于網(wǎng)絡(luò)爬蟲的描述錯誤的是:(D)A.網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序B.為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分C.爬蟲從一個或若干個初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件D.網(wǎng)絡(luò)爬蟲的行為和人們訪問網(wǎng)站的行為是完全不同的7、下面關(guān)于網(wǎng)絡(luò)爬蟲的描述正確的是:(D)A.網(wǎng)絡(luò)爬蟲由控制節(jié)點、爬蟲節(jié)點和資源庫構(gòu)成B.網(wǎng)絡(luò)爬蟲中可以有多個控制節(jié)點,每個控制節(jié)點下可以有多個爬蟲節(jié)點C.控制節(jié)點之間可以互相通信,控制節(jié)點和其下的各爬蟲節(jié)點之間也可以進行互相通信D.屬于同一個控制節(jié)點下的各爬蟲節(jié)點間不可以互相通信8、以下哪個不是Scrapy體系架構(gòu)的組成部分:(C)A.Scrapy引擎(Engine)B.爬蟲(Spiders)C.支持者(Support)D.下載器(Downloader)9、下面關(guān)于反爬機制描述錯誤的是:(D)A.簡單低級的網(wǎng)絡(luò)爬蟲,數(shù)據(jù)采集速度快,偽裝度低,如果沒有反爬機制,它們可以很快地抓取大量數(shù)據(jù),甚至因為請求過多,造成網(wǎng)站服務(wù)器不能正常工作,影響了企業(yè)的業(yè)務(wù)開展B.反爬機制也是一把雙刃劍,一方面可以保護企業(yè)網(wǎng)站和網(wǎng)站數(shù)據(jù),但是,另一方面,如果反爬機制過于嚴格,可能會誤傷到真正的用戶請求C.如果既要和“網(wǎng)絡(luò)爬蟲”死磕,又要保證很低的誤傷率,那么又會增加網(wǎng)站研發(fā)的成本D.反爬機制不利于信息的自由流通,不利于網(wǎng)站發(fā)展,應(yīng)該堅決取消10、假設(shè)有一個數(shù)據(jù)集X={4,8,15,21,21,24,25,28,34},這里采用基于平均值的等高分箱方法對其進行平滑處理,則分箱處理結(jié)果是:(B)A.{8,8,8,22,22,22,29,29,29}B.{9,9,9,22,22,22,29,29,29}C.{9,9,9,21,21,21,29,29,29}D.{9,9,9,22,22,22,28,28,28}11、假設(shè)屬性的最大值和最小值分別是87000元和11000元,現(xiàn)在需要利用Min-Max規(guī)范化方法,將“顧客收入”屬性的值映射到0~1的范圍內(nèi),則“顧客收入”屬性的值為72400元時,對應(yīng)的轉(zhuǎn)換結(jié)果是:(A)A.0.808B.0.837C.0.769D.0.98712、假設(shè)A班級的平均分是80,標準差是10,A考了90分;B班的平均分是400,標準差是100,B考了600分。采用Z-Score規(guī)范化以后,二者誰的成績更加優(yōu)秀:(B)A.A的成績更為優(yōu)秀B.B的成績更為優(yōu)秀C.二者一樣優(yōu)秀D.無法比較13、假設(shè)屬性的取值范圍是-957~924,當屬性的值為426時,采用小數(shù)定標規(guī)范化方法對應(yīng)的轉(zhuǎn)換結(jié)果是:(C)A.0.421B.0.433C.0.426D.0.489二、多選題1、數(shù)據(jù)采集的三大要點是:(ABC)全面性多維性高效性D.精確性2、數(shù)據(jù)采集的主要數(shù)據(jù)源包括:(ABCD)傳感器數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)日志文件企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)3、需要清洗的數(shù)據(jù)的主要類型包括:(ACD)殘缺數(shù)據(jù)干凈數(shù)據(jù)錯誤數(shù)據(jù)重復(fù)數(shù)據(jù)4、典型的數(shù)據(jù)采集方法包括:(ABCD)A.系統(tǒng)日志采集B.分布式消息訂閱分發(fā)C.ETLD.網(wǎng)絡(luò)數(shù)據(jù)采集5、Kafka的架構(gòu)包括哪些組件:(ABCD)A.話題(Topic)B.生產(chǎn)者(Producer)C.服務(wù)代理(Broker)D.消費者(Consumer)6、網(wǎng)絡(luò)爬蟲的類型主要包括:()A.通用網(wǎng)絡(luò)爬蟲B.聚焦網(wǎng)絡(luò)爬蟲C.增量式網(wǎng)絡(luò)爬蟲D.深層網(wǎng)絡(luò)爬蟲7、常見的數(shù)據(jù)轉(zhuǎn)換策略包括:(ABCD)A.平滑處理B.聚集處理C.數(shù)據(jù)泛化處理D.規(guī)范化處理8、常用的規(guī)范化處理方法包括:(ABD)A.Min-Max規(guī)范化B.Z-Score規(guī)范化C.曲面規(guī)范化D.小數(shù)定標規(guī)范化9、數(shù)據(jù)脫敏的主要原則包括:(ABCD)A.保持原有數(shù)據(jù)特征B.保持數(shù)據(jù)之間的一致性C.保持業(yè)務(wù)規(guī)則的關(guān)聯(lián)性D.多次脫敏之間的數(shù)據(jù)一致性10、數(shù)據(jù)脫敏的方法主要包括:(ABCD)A.數(shù)據(jù)替換B.無效化C.隨機化D.偏移和取整第6章數(shù)據(jù)存儲與管理單選題1、以下哪項不屬于傳統(tǒng)的數(shù)據(jù)存儲和管理技術(shù):(A)NoSQL數(shù)據(jù)庫文件系統(tǒng)關(guān)系數(shù)據(jù)庫數(shù)據(jù)倉庫2、以下關(guān)于分布式文件系統(tǒng),描述錯誤的是:(B)是一種通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機上進行分布式存儲的文件系統(tǒng)所有的分布式文件系統(tǒng)的設(shè)計都是采用“客戶機/服務(wù)器”(Client/Server)模式谷歌開發(fā)了分布式文件系統(tǒng)GFSHadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)是針對GFS的開源實現(xiàn)3、以下描述錯誤的是:(D)傳統(tǒng)的關(guān)系數(shù)據(jù)庫可以較好地支持結(jié)構(gòu)化數(shù)據(jù)存儲和管理Web2.0的迅猛發(fā)展以及大數(shù)據(jù)時代的到來,使關(guān)系數(shù)據(jù)庫的發(fā)展越來越力不從心傳統(tǒng)的關(guān)系數(shù)據(jù)庫由于數(shù)據(jù)模型不靈活、水平擴展能力較差等局限性,已經(jīng)無法滿足各種類型的非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模存儲需求傳統(tǒng)關(guān)系數(shù)據(jù)庫引以為豪的一些關(guān)鍵特性,如事務(wù)機制和支持復(fù)雜查詢,在Web2.0時代成為不可或缺的核心特性4、以下關(guān)于NoSQL數(shù)據(jù)庫描述錯誤的是:(C)NoSQL是一種不同于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設(shè)計方式,是對非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱NoSQL所采用的數(shù)據(jù)模型并非傳統(tǒng)關(guān)系數(shù)據(jù)庫的關(guān)系模型,而是類似鍵/值、列族、文檔等非關(guān)系模型NoSQL數(shù)據(jù)庫有固定的表結(jié)構(gòu),通常存在較多連接操作D、與關(guān)系數(shù)據(jù)庫相比,NoSQL具有靈活的水平可擴展性,可以支持海量數(shù)據(jù)存儲5、在數(shù)據(jù)庫的發(fā)展歷史上,先后出現(xiàn)過多種數(shù)據(jù)庫類型,但是,不包括:(B)A.網(wǎng)狀數(shù)據(jù)庫B.球形數(shù)據(jù)庫C.層次數(shù)據(jù)庫D.關(guān)系數(shù)據(jù)庫6、下面關(guān)于關(guān)系數(shù)據(jù)庫特點的描述,錯誤的是:(D)A.采用表格的儲存方式,數(shù)據(jù)以行和列的方式進行存儲,要讀取和查詢都十分方便B.為了規(guī)范化數(shù)據(jù)、減少重復(fù)數(shù)據(jù)以及充分利用好存儲空間,把數(shù)據(jù)按照最小關(guān)系表的形式進行存儲C.由于關(guān)系數(shù)據(jù)庫將數(shù)據(jù)存儲在數(shù)據(jù)表中,數(shù)據(jù)操作的瓶頸出現(xiàn)在多張數(shù)據(jù)表的操作中,而且數(shù)據(jù)表越多這個問題越嚴重D.關(guān)系數(shù)據(jù)庫采用非結(jié)構(gòu)化查詢語言來對數(shù)據(jù)庫進行查詢7、下面關(guān)于NewSQL數(shù)據(jù)庫的描述,錯誤的是:(B)A.NewSQL數(shù)據(jù)庫保持了傳統(tǒng)數(shù)據(jù)庫支持ACID和SQL等特性B.不同的NewSQL數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu)基本相同C.都支持關(guān)系數(shù)據(jù)模型D.都使用SQL作為其主要的接口8、下面關(guān)于Hadoop的描述錯誤的是:(C)A.Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架B.作為并行分布式計算平臺,Hadoop采用分布式存儲和分布式處理兩大核心技術(shù),能夠高效地處理PB級數(shù)據(jù)C.Hadoop只支持Java編程語言D.Hadoop可以高效穩(wěn)定地運行在廉價的計算機集群上,可以擴展到數(shù)以千計的計算機節(jié)點上9、下面哪個不是Hadoop生態(tài)系統(tǒng)的組件:(B)A.HDFSB.SQLServerC.MapReduceD.HBase10、下面組件哪個是負責在Hadoop和關(guān)系數(shù)據(jù)庫之間實現(xiàn)數(shù)據(jù)導(dǎo)入導(dǎo)出的:(C)A.MySQLB.HDFSC.SqoopD.Flume11、下面組件哪個是負責分布式資源調(diào)度與管理的:(A)A.YARNB.FlumeC.ZookeeperD.Kafka12、下面組件哪個是數(shù)據(jù)挖掘庫:(B)A.ZookeeperB.MahoutC.MySQLD.HBase13、下面組件哪個是負責日志收集的:(D)A.AmbariB.ZookeeperC.HDFSD.Flume14、下面組件哪個是負責Hadoop集群的安裝、部署、配置和管理的:(C)A.KafkaB.YARNC.AmbariD.Flume15、下列哪一項不屬于NoSQL的四大類型:(D)A.文檔數(shù)據(jù)庫B.圖數(shù)據(jù)庫C.列族數(shù)據(jù)庫D.時間戳數(shù)據(jù)庫16、下列關(guān)于鍵值數(shù)據(jù)庫的描述,哪一項是錯誤的:(D)A.擴展性好,靈活性好B.大量寫操作時性能高C.無法存儲結(jié)構(gòu)化信息D.條件查詢效率高17、下列關(guān)于列族數(shù)據(jù)庫的描述,哪一項是錯誤的:(A)A.查找速度慢,可擴展性差B.功能較少,大都不支持強事務(wù)一致性C.容易進行分布式擴展D.復(fù)雜性低18、關(guān)于文檔數(shù)據(jù)庫的說法,下列哪一項是錯誤的:(A)A數(shù)據(jù)是規(guī)則的B.性能好(高并發(fā))C.缺乏統(tǒng)一的查詢語法D.復(fù)雜性低19、下列關(guān)于云數(shù)據(jù)庫的描述,哪個是錯誤的?(C)A.云數(shù)據(jù)庫是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫B.云數(shù)據(jù)庫是在云計算的大背景下發(fā)展起來的一種新興的共享基礎(chǔ)架構(gòu)的方法C.云數(shù)據(jù)庫價格不菲,維護費用極其昂貴D.云數(shù)據(jù)庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發(fā)等特點20、下列哪一個不屬于云數(shù)據(jù)庫產(chǎn)品?(A)A.本地安裝MySQLB.阿里云RDSC.OracleCloudD.百度云數(shù)據(jù)庫21、下面哪一項不是云數(shù)據(jù)庫的特性?(B)A.動態(tài)可擴展B.高成本C.易用性D.大規(guī)模并行處理22、下列關(guān)于BigTable的描述,哪個是錯誤的?(A)A.爬蟲持續(xù)不斷地抓取新頁面,這些頁面每隔一段時間地存儲到BigTable里B.BigTable是一個分布式存儲系統(tǒng)C.BigTable起初用于解決典型的互聯(lián)網(wǎng)搜索問題D.網(wǎng)絡(luò)搜索應(yīng)用查詢建立好的索引,從BigTable得到網(wǎng)頁多選題1、數(shù)據(jù)倉庫的特性包括:(ABCD)面向主題的集成的相對穩(wěn)定的反映歷史變化的2、NoSQL數(shù)據(jù)庫具有以下幾個特點:(ABC)靈活的可擴展性靈活的數(shù)據(jù)模型與云計算緊密融合數(shù)據(jù)模型比較死板3、一個典型的數(shù)據(jù)倉庫系統(tǒng)通常包含哪幾個組成部分:(ABCD)A.數(shù)據(jù)源B.數(shù)據(jù)存儲和管理C.OLAP服務(wù)器D.前端工具和應(yīng)用4、下面關(guān)于并行數(shù)據(jù)庫的描述正確的是:(ABD)A.并行數(shù)據(jù)庫是指那些在無共享的體系結(jié)構(gòu)中進行數(shù)據(jù)操作的數(shù)據(jù)庫系統(tǒng)B.大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語句查詢C.并行數(shù)據(jù)庫系統(tǒng)具有較好的彈性D.并行數(shù)據(jù)庫的另一個問題就是系統(tǒng)的容錯性較差5、Hadoop的特性主要包括:(ABC)A.高可靠性B.高可擴展性C.高容錯性D.成本高6、HDFS要實現(xiàn)哪些設(shè)計目標:(BCD)A.復(fù)雜的文件模型B.兼容廉價的硬件設(shè)備C.流數(shù)據(jù)讀寫D.強大的跨平臺兼容性7、HDFS的局限性包括:(ACD)A.不適合低延遲數(shù)據(jù)訪問B.無法用于大規(guī)模數(shù)據(jù)存儲C.無法高效存儲大量小文件D.不支持多用戶寫入及任意修改文件8、下面關(guān)于HDFS的體系結(jié)構(gòu)描述正確的是:(ABC)A.HDFS采用了主從(Master/Slave)結(jié)構(gòu)模型,一個HDFS集群包括一個名稱節(jié)點和若干個數(shù)據(jù)節(jié)點B.名稱節(jié)點作為中心服務(wù)器,負責管理文件系統(tǒng)的命名空間及客戶端對文件的訪問C.集群中的數(shù)據(jù)節(jié)點一般是一個節(jié)點運行一個數(shù)據(jù)節(jié)點進程,負責處理文件系統(tǒng)客戶端的讀/寫請求D.名稱節(jié)點會周期性地向數(shù)據(jù)節(jié)點發(fā)送“心跳”信息,報告自己的狀態(tài)9、 下列關(guān)于文檔數(shù)據(jù)庫的描述,哪些是正確的?(AD)A.性能好(高并發(fā)),靈活性高B.具備統(tǒng)一的查詢語法C.文檔數(shù)據(jù)庫支持文檔間的事務(wù)D.復(fù)雜性低,數(shù)據(jù)結(jié)構(gòu)靈活10、下列關(guān)于圖數(shù)據(jù)庫的描述,哪些是正確的?(ABCD)A.專門用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)B.比較適合于社交網(wǎng)絡(luò)、模式識別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題C.靈活性高,支持復(fù)雜的圖算法D.復(fù)雜性高,只能支持一定的數(shù)據(jù)規(guī)模11、下列關(guān)于數(shù)據(jù)模型的描述,哪些是正確的?(ABCD)A.HBase采用表來組織數(shù)據(jù),表由行和列組成,列劃分為若干個列族B.每個HBase表都由若干行組成,每個行由行鍵(rowkey)來標識C.列族里的數(shù)據(jù)通過列限定符(或列)來定位D.每個單元格都保存著同一份數(shù)據(jù)的多個版本,這些版本采用時間戳進行索引12、HBase的系統(tǒng)架構(gòu)包括哪幾個組成部分:(ABCD)A.客戶端B.Zookeeper服務(wù)器C.Master主服務(wù)器D.Region服務(wù)器13、下面關(guān)于GoogleSpanner的描述正確的是:(ABCD)A.Spanner是一個可擴展的、全球分布式的數(shù)據(jù)庫B.在最高抽象層面,Spanner就是一個數(shù)據(jù)庫,把數(shù)據(jù)分片存儲在許多Paxos狀態(tài)機上,這些機器位于遍布全球的數(shù)據(jù)中心內(nèi)C.隨著數(shù)據(jù)的變化和服務(wù)器的變化,Spanner會自動把數(shù)據(jù)進行重新分片,從而有效應(yīng)對負載變化和處理失敗D.Spanner被設(shè)計成可以擴展到幾百萬個機器節(jié)點,跨越成百上千個數(shù)據(jù)中心,具備幾萬億數(shù)據(jù)庫行的規(guī)模第7章數(shù)據(jù)處理與分析一、單選題1、下面描述錯誤的是:(C)A.數(shù)據(jù)分析可以分為廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析B.廣義的數(shù)據(jù)分析就包括狹義的數(shù)據(jù)分析和數(shù)據(jù)挖掘。C.數(shù)據(jù)挖掘就是指狹義的數(shù)據(jù)分析D.數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中挖掘出未知的、且有價值的信息和知識的過程2、下面描述錯誤的是:(A)A.數(shù)據(jù)挖掘的目標明確,先做假設(shè),然后通過數(shù)據(jù)分析來驗證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論B.數(shù)據(jù)挖掘的重點在尋找未知的模式與規(guī)律C.數(shù)據(jù)分析一般都是得到一個指標統(tǒng)計量結(jié)果,如總和、平均值等D.數(shù)據(jù)挖掘則是輸出模型或規(guī)則,并且可相應(yīng)得到模型得分或標簽3、下面關(guān)于機器學(xué)習(xí)和數(shù)據(jù)挖掘的描述錯誤的是:(D)A.機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科B.數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。C.數(shù)據(jù)挖掘可以視為機器學(xué)習(xí)與數(shù)據(jù)庫的交叉D.數(shù)據(jù)挖掘是機器學(xué)習(xí)的底層技術(shù)4、以下哪個不是典型的分類方法:(C)A.決策樹B.樸素貝葉斯C.K-MeansD.人工神經(jīng)網(wǎng)絡(luò)5、以下哪個不是聚類方法:(D)A.GMMB.LDAC.DBSCAND.TPLINK6、聚類分析的常見應(yīng)用場景不包括:(A)A.發(fā)現(xiàn)關(guān)聯(lián)購買行為B.目標用戶的群體分類C.不同產(chǎn)品的價值組合D.探測發(fā)現(xiàn)離群點和異常值7、下面關(guān)于回歸分析的描述錯誤的是:(C)A.是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法B.回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析C.按照因變量的多少,可分為線性回歸分析和非線性回歸分析D.在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù)8、下面關(guān)于協(xié)同過濾算法的描述錯誤的是:(D)A.基于用戶的協(xié)同過濾算法(簡稱UserCF算法)是推薦系統(tǒng)中最古老的算法,可以說,UserCF的誕生標志著推薦系統(tǒng)的誕生B.基于物品的協(xié)同過濾算法(簡稱ItemCF算法)是目前業(yè)界應(yīng)用最多的算法C.基于模型的協(xié)同過濾算法(ModelCF)是通過已經(jīng)觀察到的所有用戶給產(chǎn)品的打分,來推斷每個用戶的喜好并向用戶推薦適合的產(chǎn)品D.UserCF算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品。9、下面屬于批處理技術(shù)的是:(A)A. MapReduceB. StormC. SparkStreamingD. GraphX10、下面屬于流計算技術(shù)的是:(C)A. SparkMLLibB. GraphXC. S4D. Hive11、下面屬于圖計算技術(shù)的是:(A)A. PregelB. DremelC. ImpalaD. DStream12、下面屬于查詢分析計算技術(shù)的是:(C)A. SparkStreamingB. StormC. HiveD. Pregel13、下列關(guān)于流計算的說法,哪項是錯誤的?(D)A.實時獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實時分析處理,獲得有價值的信息B.流計算秉承一個基本理念,即數(shù)據(jù)的價值隨著時間的流逝而降低C.對于一個流計算系統(tǒng)來說,它應(yīng)該支持TB級甚至是PB級的數(shù)據(jù)規(guī)模D.流計算只需要保證較低的延遲時間,即只達到秒級別即可處理一切問題14.下列關(guān)于數(shù)據(jù)處理流程,說法有誤的是?(D)A.在傳統(tǒng)的數(shù)據(jù)處理流程中,存儲的數(shù)據(jù)是舊的B.在傳統(tǒng)的數(shù)據(jù)處理流程中,需要用戶主動發(fā)出查詢來獲取結(jié)果C.傳統(tǒng)的數(shù)據(jù)處理流程,需要先采集數(shù)據(jù)并存儲在關(guān)系數(shù)據(jù)庫等數(shù)據(jù)管理系統(tǒng)中D.流計算的處理流程一般包含三個階段:數(shù)據(jù)實時采集、數(shù)據(jù)批量計算、實時查詢服務(wù)15、下面哪個屬于圖數(shù)據(jù)庫:(A)A.Neo4jB.MySQLC.HBaseD.Oracle16、下列關(guān)于MapReduce模型的描述,錯誤的是哪一項?(D)A.MapReduce采用“分而治之”策略B.MapReduce設(shè)計的一個理念就是“計算向數(shù)據(jù)靠攏”C.MapReduce框架采用了Master/Slave架構(gòu)D.MapReduce應(yīng)用程序只能用Java來寫17、關(guān)于數(shù)據(jù)倉庫Impala的描述錯誤的是:(D)A.Impala作為開源大數(shù)據(jù)分析引擎,支持實時計算,它提供了與Hive類似的功能,并在性能上比Hive高出3~30倍B.Impala是由Cloudera公司開發(fā)的查詢系統(tǒng)C.Impala提供了SQL語義,能查詢存儲在Hadoop的HDFS和HBase上的PB級別海量數(shù)據(jù)D.Impala最初是參照MySQL系統(tǒng)進行設(shè)計的18、下面關(guān)于Spark和Hadoop的關(guān)系,描述錯誤的是:(D)A.Spark和Hadoop一樣,既包含了存儲的組件,也包含了計算的組件B.Spark作為計算框架,只能解決數(shù)據(jù)計算問題,無法解決數(shù)據(jù)存儲問題C.Spark只是取代了Hadoop生態(tài)系統(tǒng)中的計算框架MapReduce,而Hadoop中的其他組件依然在企業(yè)大數(shù)據(jù)系統(tǒng)中發(fā)揮著重要的作用D.越來越多的企業(yè)放棄MapReduce,轉(zhuǎn)而使用Spark開發(fā)企業(yè)應(yīng)用19、以下哪個不是Spark的生態(tài)系統(tǒng)的組件:(C)A.SparkStreamingB.StructuredStreamingC.ZookeeperD.GraphX20、以下哪個組件是Spark中的機器學(xué)習(xí)算法庫:(A)A.MLlibB.SparkCoreC.MachineLeaningD.SparkSQL21、以下哪個組件是Spark中用于結(jié)構(gòu)化數(shù)據(jù)處理的組件:(A)A.SparkSQLB.SparkCoreC.SparkStreamingD.StructuredStreaming22、Shark與SparkSQL的關(guān)系是:(B)A.二者沒有任何關(guān)系B.Shark是SparkSQL的前身C.SparkSQL是Shark的前身D.二者是一個軟件的兩個不同名稱,本質(zhì)上是一個東西23、下面關(guān)于TensorFlow和TensorFlowOnSpark的描述錯誤的是:(B)A.TensorFlow是一個采用數(shù)據(jù)流圖(DataFlowGraph)、用于數(shù)值計算的開源軟件庫B.TensorFlow是一個開源的、基于Java的機器學(xué)習(xí)框架C.TensorFlowOnSpark項目是由Yahoo開源的一個軟件包,能將TensorFlow與Spark結(jié)合在一起使用D.TensorFlowOnSpark為ApacheHadoop和ApacheSpark集群帶來可擴展的深度學(xué)習(xí)功能24、以下哪個不是Storm的特點:(D)A.可擴展性B.可靠的消息處理C.支持各種編程語言D.復(fù)雜的API25、下面關(guān)于SparkStreaming和Storm的描述錯誤的是:(A)A.SparkStreaming可以實現(xiàn)毫秒級的流計算B.Storm可以實現(xiàn)毫秒級響應(yīng)C.SparkStreaming構(gòu)建在SparkCore之上D.SparkStreaming可以同時兼容批量和實時數(shù)據(jù)處理的邏輯和算法26、下面關(guān)于Flink的描述錯誤的是:(C)A.Flink是一個針對流數(shù)據(jù)和批數(shù)據(jù)的分布式計算框架B.Flink的設(shè)計思想主要來源于Hadoop、MPP數(shù)據(jù)庫、流計算系統(tǒng)等C.Flink主要是由Python代碼實現(xiàn)的D.Flink所要處理的主要場景是流數(shù)據(jù),批數(shù)據(jù)只是流數(shù)據(jù)的一個特例而已二、多選題1、數(shù)據(jù)分析主要實現(xiàn)哪三大作用:(BCD)A.誤差分析B.現(xiàn)狀分析C.原因分析D.預(yù)測分析2、數(shù)據(jù)挖掘主要側(cè)重解決哪幾類問題:(ABCD)A.分類B.聚類C.關(guān)聯(lián)D.預(yù)測3、下面關(guān)于數(shù)據(jù)分析與數(shù)據(jù)處理的描述,正確的是:(ACD)A.數(shù)據(jù)分析過程通常會伴隨著發(fā)生數(shù)據(jù)處理(或者說伴隨著大量數(shù)據(jù)計算)B.數(shù)據(jù)分析和數(shù)據(jù)處理不存在緊密的關(guān)聯(lián)關(guān)系C.二者是融合在一起的,很難割裂開來D.當用戶在進行數(shù)據(jù)分析的時候,底層的計算機系統(tǒng)會根據(jù)數(shù)據(jù)分析任務(wù)的要求,使用程序進行大量的數(shù)據(jù)處理4、下面關(guān)于大數(shù)據(jù)處理與分析的描述,正確的是:(ABCD)A.在理論層面,數(shù)據(jù)分析需要統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)據(jù)挖掘等知識B.在技術(shù)層面,包括單機分析工具(比如SPSS、SAS等)或單機編程語言(比如Python、R),以及大數(shù)據(jù)處理與分析技術(shù)(比如MapReduce、Spark、Hive等)C.在大數(shù)據(jù)時代到來之前,數(shù)據(jù)分析主要以小規(guī)模的抽樣數(shù)據(jù)為主,一般使用單機分析工具(比如SPSS和SAS)或者單機編程(比如Python、R)的方式來實現(xiàn)分析程序D.到了大數(shù)據(jù)時代,數(shù)據(jù)量爆炸式地增長,數(shù)據(jù)分析就需要采用分布式實現(xiàn)技術(shù),比如使用MapReduce、Spark或Flink編寫分布式分析程序,借助于集群的多臺機器進行并行數(shù)據(jù)處理分析5、常見的關(guān)聯(lián)規(guī)則挖掘算法包括:(BC)A.MP-Growth算法B.FP-Growth算法C.Apriori算法D.Bpriori算法6、協(xié)同過濾主要包括:(ABC)A.基于用戶的協(xié)同過濾B.基于物品的協(xié)同過濾C.基于模型的協(xié)同過濾D.基于分類的協(xié)同過濾7、大數(shù)據(jù)處理分析技術(shù)主要包括哪幾種類型:(ABCD)A.批處理計算B.流計算C.圖計算D.查詢分析計算A.局部計算B.中間計算C.D.柵欄同步9、下面關(guān)于MapReduce工作流程的描述,正確的是:(ABD)A.一個大的MapReduce作業(yè),會被拆分成許多個Map任務(wù)在多臺機器上并行執(zhí)行B.每個Map任務(wù)通常運行在數(shù)據(jù)存儲的節(jié)點上C.當Map任務(wù)結(jié)束后,會生成以<key,value-list>形式表示的許多中間結(jié)果D.Reduce任務(wù)會對中間結(jié)果進行匯總計算得到最后結(jié)果10、Hadoop的MapReduce的缺點包括:(ABC)A.表達能力有限B.磁盤IO開銷大C.延遲高D.中間結(jié)果多11、Hive底層所依賴的計算引擎可以是:(BCD)A.FlinkB.MapReduceC.TezD.Spark12、下面關(guān)于Hive的描述正確的是:(ABCD)A.Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對存儲在Hadoop文件中的數(shù)據(jù)集進行數(shù)據(jù)整理、特殊查詢和分析處理B.Hive的學(xué)習(xí)門檻比較低,因為它提供了類似于關(guān)系數(shù)據(jù)庫SQL語言的查詢語言——HiveQLC.當采用MapReduce作為執(zhí)行引擎時,Hive可以通過HiveQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,Hive自身可以將HiveQL語句快速轉(zhuǎn)換成MapReduce任務(wù)進行運行D.Hive在某種程度上可以看作是用戶編程接口,其本身并不存儲和處理數(shù)據(jù)13、關(guān)于Hive與Hadoop生態(tài)系統(tǒng)中其他組件的關(guān)系,下面描述正確的是:(ABC)A.HDFS作為高可靠的底層存儲,用來存儲海量數(shù)據(jù)B.MapReduce對這些海量數(shù)據(jù)進行批處理,實現(xiàn)高性能計算C.用HiveQL語句編寫的處理邏輯,最終都要轉(zhuǎn)化為MapReduce任務(wù)來運行D.Hive的目標是取代HBase14、Hive的系統(tǒng)架構(gòu)主要包括哪幾個模塊:(BCD)A.探查模塊B.驅(qū)動模塊C.元數(shù)據(jù)存儲模塊D.用戶接口模塊15、關(guān)于數(shù)據(jù)倉庫Impala的描述正確的是:(BC)A.Impala是由Oracle公司開發(fā)的查詢系統(tǒng)B.與Hive類似,Impala也可以直接與HDFS和HBase進行交互C.Impala采用了與商用MPP并行關(guān)系數(shù)據(jù)庫類似的分布式查詢引擎,可以直接從HDFS或者HBase中用SQL語句查詢數(shù)據(jù),而不需要把SQL語句轉(zhuǎn)化成MapReduce任務(wù)來執(zhí)行D.Impala和Hive采用了不同的SQL語法、ODBC驅(qū)動程序和用戶接口16、Spark的特點主要包括:(ABC)A.運行速度快B.容易使用C.通用性D.運行模式單一17、Spark相對于MapReduce的優(yōu)點包括:(ABD)A.Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數(shù)據(jù)集操作類型,編程模型比MapReduce更靈活B.Spark提供了內(nèi)存計算,中間結(jié)果直接放到內(nèi)存中,帶來了更高的迭代運算效率C.Spark同時提供了存儲功能,而MapReduce不支持存儲D.Spark基于DAG的任務(wù)調(diào)度執(zhí)行機制,要優(yōu)于MapReduce的迭代執(zhí)行機制18、不同的計算框架統(tǒng)一運行在YARN中,可以帶來哪些好處:(BCD)A.減少了所使用的編程語言的種類B.計算資源按需伸縮C.不用負載應(yīng)用混搭,集群利用率高D.共享底層存儲,避免數(shù)據(jù)跨集群遷移19、在實際應(yīng)用中,大數(shù)據(jù)處理主要包括哪幾種類型:(ABC)A.復(fù)雜的批量數(shù)據(jù)處理:時間跨度通常在數(shù)十分鐘到數(shù)小時之間B.基于歷史數(shù)據(jù)的交互式查詢:時間跨度通常在數(shù)十秒到數(shù)分鐘之間C.基于實時數(shù)據(jù)流的數(shù)據(jù)處理:時間跨度通常在數(shù)百毫秒到數(shù)秒之間D.基于歷史數(shù)據(jù)的流查詢:時間跨度在數(shù)十秒到數(shù)分鐘之間20、下面關(guān)于Spark的運行架構(gòu)的描述,正確的是:(ABD)A.Spark運行架構(gòu)包括ClusterManager、WorkerNode、DriverProgram和ExecutorB.Spark集群資源管理器可以是Spark自帶的資源管理器,也可以是YARN或Mesos等資源管理框架C.Spark采用“P2P架構(gòu)”D.Spark利用多線程來執(zhí)行具體的任務(wù)21下面關(guān)于RDD的描述正確的是:(ABC)A.一個RDD就是一個分布式對象集合B.一個RDD本質(zhì)上是一個只讀的分區(qū)記錄集合C.RDD提供了一組豐富的操作以支持常見的數(shù)據(jù)運算,分為“行動”(Action)和“轉(zhuǎn)換”(Transformation)兩種類型D.RDD不適合對于數(shù)據(jù)集中元素執(zhí)行相同操作的批處理式應(yīng)用,而比較適合用于需要異步、細粒度狀態(tài)的應(yīng)用22、Spark的集群部署方式包括:(ABC)A.SparkonMesos模式B.SparkonYARN模式C.SparkonKubernetes模式D.Local模式23、下面關(guān)于SparkSQL的描述正確的是:(ACD)A.SparkSQL在Hive兼容層面僅依賴HiveQL解析和Hive元數(shù)據(jù)B.SparkSQL目前支持Scala、Java編程語言,暫時不支持Python語言C.SparkSQL執(zhí)行計劃生成和優(yōu)化都由Catalyst(函數(shù)式關(guān)系查詢優(yōu)化框架)負責D.SparkSQL增加了DataFrame(即帶有Schema信息的RDD),使用戶可以在SparkSQL中執(zhí)行SQL語句24、下面關(guān)于SparkStreaming的描述正確的是:(ABCD)A.SparkStreaming是構(gòu)建在SparkCore上的實時計算框架,它擴展了Spark處理大規(guī)模流式數(shù)據(jù)的能力B.SparkStreaming可結(jié)合批處理和交互查詢,適合一些需要對歷史數(shù)據(jù)和實時數(shù)據(jù)進行結(jié)合分析的應(yīng)用場景C.SparkStreaming可整合多種輸入數(shù)據(jù)源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字D.SparkStreaming實際上是以一系列微小批處理來模擬流計算25、StructuredStreaming包括哪兩種處理模型:(AD)A.微批處理B.高階處理C.分層處理D.持續(xù)處理26、關(guān)于StructuredStreaming、SparkSQL、SparkStreaming,下面描述正確的是:(ACD)A.StructuredStreaming處理的數(shù)據(jù)跟SparkStreaming一樣,也是源源不斷的數(shù)據(jù)流B.SparkStreaming采用的數(shù)據(jù)抽象是DataFrame,StructuredStreaming采用的數(shù)據(jù)抽象是DStreamC.StructuredStreaming可以使用SparkSQL的DataFrame/Dataset來處理數(shù)據(jù)流D.SparkSQL只能處理靜態(tài)的數(shù)據(jù),而StructuredStreaming可以處理結(jié)構(gòu)化的數(shù)據(jù)流27、SparkMLlib主要提供了哪幾個方面的工具:(ABCD)A.算法工具B.特征化工具C.流水線D.實用工具28、下面關(guān)于Storm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論