大數(shù)據(jù)理論考試(習(xí)題卷15)_第1頁
大數(shù)據(jù)理論考試(習(xí)題卷15)_第2頁
大數(shù)據(jù)理論考試(習(xí)題卷15)_第3頁
大數(shù)據(jù)理論考試(習(xí)題卷15)_第4頁
大數(shù)據(jù)理論考試(習(xí)題卷15)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷15)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:單項(xiàng)選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.下列刪除列表中最后一個元素的函數(shù)是A)delB)popC)removeD)cut答案:B解析:[單選題]2.下列選項(xiàng)中,正確定義了一個字典的是()A)a=[?a?,1,?b?,2,?c?,3]B)b=(?a?,1,?b?,2,?c?,3)C)c={?a?,1,?b?,2,?c?,3}D)d={?a?:1,?b?:2,?c?:3}答案:D解析:[單選題]3.下列關(guān)于MapReduce說法不正確的是()。A)MapReduce是一種計(jì)算框架B)MapReduce來源于google的學(xué)術(shù)論文C)MapReduce程序只能用java語言編寫D)MapReduce隱藏了并行計(jì)算的細(xì)節(jié),方便使用答案:C解析:MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。[單選題]4.在Python中,函數(shù)()。A)不可以嵌套定義B)不可以嵌套調(diào)用C)不可以遞歸調(diào)用D)以上答案都不正確答案:D解析:python可以嵌套定義、嵌套調(diào)用和遞歸調(diào)用[單選題]5.隨機(jī)森林中的隨機(jī)是()的意思。A)隨便構(gòu)建樹模B)隨機(jī)選擇一個樹模型C)隨機(jī)選擇多個樹模型D)在構(gòu)建每個樹模型時(shí)隨機(jī)選擇樣本和特答案:D解析:隨機(jī)森林里的隨機(jī)包含的意思是:樣本隨機(jī)、特征隨機(jī)、參數(shù)隨機(jī)、模型隨機(jī)(ID3,C4.5)。[單選題]6.以下不能創(chuàng)建一個字典的語句是A)dic1={}B)dic2={123:345}C)dic3={[1,2,3]:'ustc'}D)dic3={(1,2,3):'ustc'}答案:C解析:[單選題]7.()在劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合中選擇一個最優(yōu)屬性。A)AdaBoostB)RFC)BaggingD)傳統(tǒng)決策樹答案:D解析:傳統(tǒng)決策樹在選擇劃分屬性時(shí),是在當(dāng)前節(jié)點(diǎn)的屬性集合中選擇一個最優(yōu)屬性進(jìn)行劃分。[單選題]8.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是()。A)數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);B)數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;C)數(shù)據(jù)倉庫的開發(fā)是一個不斷循環(huán)的過程,是啟發(fā)式的開發(fā);D)在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式答案:A解析:數(shù)據(jù)倉庫開發(fā)要從需求出發(fā)。[單選題]9.下列哪個不是RDD的緩存方法()A)persist()B)略C)che()Memory()D)以上答案都正答案:C解析:RDD的緩存方法包括persist和cache,其中cache方法默認(rèn)存儲到內(nèi)存中。[單選題]10.二值圖像中的分支點(diǎn)的連接數(shù)為()。A)0B)1C)2D)3答案:D解析:二值圖像中連接數(shù)為0的像素為孤立點(diǎn)或內(nèi)點(diǎn)。連接數(shù)為1的像素為端點(diǎn)或邊界點(diǎn)。連接數(shù)為2的像素為連接點(diǎn)。連接數(shù)為3的像素為分支點(diǎn)。[單選題]11.下列屬于無監(jiān)督學(xué)習(xí)的是()。A)K-meansB)SVMC)最大熵D)CRF答案:A解析:K-means是一個將數(shù)據(jù)集中在某些方面相似的數(shù)據(jù)成員進(jìn)行分類組織的過程,這是一個典型聚類算法,聚類就是一種發(fā)現(xiàn)這種內(nèi)在結(jié)構(gòu)的技術(shù),該類算法被稱為無監(jiān)督學(xué)習(xí)。[單選題]12.以下關(guān)于圖像中的噪聲的特性說法錯誤的是()。A)具有隨機(jī)性B)具有規(guī)律性C)具有疊加性D)具有疊加答案:B解析:噪聲是干擾和妨礙人類認(rèn)知和理解信息的重要因素,而圖像噪聲則是圖像中干擾和妨礙人類認(rèn)識和理解圖像信息的重要因素。由于噪聲本身具有不可預(yù)測性,可以將它當(dāng)做一種隨機(jī)誤差(這種誤差只有通過概率統(tǒng)計(jì)的方法來識別)。因此,圖像噪聲可以視為一種多維隨機(jī)過程,可以選擇隨機(jī)過程的概率分布函數(shù)和概率密度函數(shù)來作為對圖像噪聲進(jìn)行描述的方法。[單選題]13.下面關(guān)于Hive架構(gòu)描述不正確的是()A)Hive中QL是HiveSQL,方便用戶完成數(shù)據(jù)讀寫B(tài))HiveSerDe是Serializer和Deserializer的縮寫,用于序列化和反序列化數(shù)據(jù),即讀寫數(shù)據(jù)C)HiveMetaStore用戶管理Hive的元數(shù)據(jù)D)HiveMetaStore對外暴露ThriftAPI,用于元數(shù)據(jù)的修答案:A解析:[單選題]14.例如Hive建表語句中storedas的作用是指定表的格式,下列不屬于Hive表的常見格式的是()createtableifnotexiststextfile_table(ueseridSTRING,movieidSTRING,ratingSTRING,tsSTRING)rowformateddelimatedfieldsterminatedby'\t'storedastextfile;A)PigTableB)ORCC)PARQUETD)TEXTFIL答案:A解析:[單選題]15.()是以樣本統(tǒng)計(jì)量作為未知總體參數(shù)的估計(jì)量,并通過對樣本單位的實(shí)際觀察取得樣本數(shù)據(jù),計(jì)算樣本統(tǒng)計(jì)量的取值作為被估計(jì)參數(shù)的估計(jì)值A(chǔ))參數(shù)估計(jì)B)邏輯分析C)方差分析D)回歸分析答案:A解析:參數(shù)估計(jì),是統(tǒng)計(jì)推斷的一種。根據(jù)從總體中抽取的隨機(jī)樣本來估計(jì)總體分布中未知參數(shù)的過程。[單選題]16.常見的圖像預(yù)處理方法不包括()。A)圖像降噪B)圖像增強(qiáng)C)圖像尺寸歸一化D)圖像標(biāo)答案:D解析:圖像預(yù)處理的主要目的是消除圖像中無關(guān)的信息,恢復(fù)有用的真實(shí)信息,主要包括去噪、對比度增強(qiáng)。圖像尺寸歸一化也是為了增強(qiáng)對比度。圖像標(biāo)注是圖像處理方法。[單選題]17.Redis中String數(shù)據(jù)類型不含以下哪種操作?A)mgetB)sizeC)strlenD)appen答案:B解析:[單選題]18.在大數(shù)據(jù)計(jì)算服務(wù)的數(shù)據(jù)倉庫中的訂單表fact_order,建表語句如下:createtablefact_order(order_iD、string,order_amtdouble,order_dtstring)partitioneD、by(dtstring);此表中的數(shù)據(jù)是從ods_order加工而來,ods_order建表語句如下:createtableods_order(order_iD、string,order_amtbigint,order_dtstring);ods_order中有一條記錄數(shù)據(jù)值是order_iD、order_amtorder_dt000110020160301運(yùn)行SQL語句將數(shù)據(jù)從ods_order加載到fact_order中:insertoverwritetablefact_orderpartition(dt=?20160301?)select*fromods_order;對此語句的執(zhí)行結(jié)果描述正確的是:()。A)提交SQL時(shí)會報(bào)語法錯誤B)語句可以執(zhí)行,order_amt的值會被自動的轉(zhuǎn)為double類型C)語句可以執(zhí)行,但是這條數(shù)據(jù)會被當(dāng)作臟數(shù)據(jù)丟棄D)目標(biāo)表與源表中的數(shù)據(jù)類型不一致,執(zhí)行出錯答案:B解析:[單選題]19.多層前饋神經(jīng)網(wǎng)絡(luò)描述錯誤的是:(__)。A)輸出層與輸入層之間包含隱含層,且隱含層和輸出層都擁有激活函數(shù)的神經(jīng)元B)神經(jīng)元之間存在同層連接以及跨層連接C)輸入層僅僅是接收輸入,不進(jìn)行函數(shù)處理D)每層神經(jīng)元上一層與下一層全互答案:B解析:多層前饋神經(jīng)網(wǎng)絡(luò)的特點(diǎn):1.每層神經(jīng)元與下一層神經(jīng)元之間完全互連2.神經(jīng)元之間不存在同層連接3.神經(jīng)元之間不存在跨層連接[單選題]20.下列哪些不是目前機(jī)器學(xué)習(xí)所面臨的問題是()。A)測試集的規(guī)模B)維度災(zāi)難C)特征工程D)過擬答案:A解析:目前,機(jī)器學(xué)習(xí)領(lǐng)域所面臨的主要挑戰(zhàn)包括過擬合(Overfiting)、度災(zāi)難(CurseofDimensionality)、特征工程(FeatureEngineering)、算法的可擴(kuò)展性(Scalability)和模型集成。[單選題]21.在IBMPASS中,聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和()四種。A)系統(tǒng)聚類B)兩步聚類C)模型聚類D)其它聚類答案:B解析:在IBMPASS中,聚類算法分為分層聚類、Kohonennetwork、K平均值聚類和兩步聚類四種。[單選題]22.從行為目的與思維方式看,下列哪個屬于描述統(tǒng)計(jì)方法()。A)線性回歸B)參數(shù)估計(jì)C)相關(guān)分析D)主成分分析答案:C解析:描述性統(tǒng)計(jì),是指運(yùn)用制表和分類,圖形以及計(jì)算概括性數(shù)據(jù)來描述數(shù)據(jù)特征的各項(xiàng)活動。描述性統(tǒng)計(jì)分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)性描述,主要包括數(shù)據(jù)的頻數(shù)分析、集中趨勢分析、離散程度分析、分布、相關(guān)以及一些基本的統(tǒng)計(jì)圖形。[單選題]23.考慮值集{1、2、3、4、5、90},其截?cái)嗑?p=20%)是()A)2B)3C)3.5D)5答案:C解析:[單選題]24.以等可能性為基礎(chǔ)的概率是()A)古典概率B)經(jīng)驗(yàn)概率C)試驗(yàn)概率D)主觀概率答案:A解析:關(guān)于古典概率是以這樣的假設(shè)為基礎(chǔ)的,即隨機(jī)現(xiàn)象所能發(fā)生的事件是有限的、互不相容的,而且每個基本事件發(fā)生的可能性相等。根據(jù)大量的、重復(fù)的統(tǒng)計(jì)試驗(yàn)結(jié)果計(jì)算隨機(jī)事件中各種可能發(fā)生結(jié)果的概率,稱為試驗(yàn)概率或頻率概率。主觀概率,是指建立在過去的經(jīng)驗(yàn)與判斷的基礎(chǔ)上,根據(jù)對未來事態(tài)發(fā)展的預(yù)測和歷史統(tǒng)計(jì)資料的研究確定的概率。反映的只是一種主觀可能性。[單選題]25.假如使用一個較復(fù)雜的回歸模型來擬合樣本數(shù)據(jù),使用Ridge回歸,調(diào)試正則化參數(shù)λ,來降低模型復(fù)雜度。若λ較大時(shí),關(guān)于偏差(bias)和方差(variance),下列說法正確的是()A)若λ較大時(shí),偏差減小,方差減小B)若λ較大時(shí),偏差減小,方差增大C)若λ較大時(shí),偏差增大,方差減小D)若λ較大時(shí),偏差增大,方差增答案:C解析:λ較小,偏差減小,方差增大,容易發(fā)生過擬合;λ較大:偏差增大,方差減小,容易發(fā)生欠擬合。[單選題]26.下列核函數(shù)特性描述錯誤的是()。A)只要一個對稱函數(shù)所對應(yīng)的核矩陣半正定,就能稱為核函數(shù);B)核函數(shù)選擇作為支持向量機(jī)的最大變數(shù);C)核函數(shù)將影響支持向量機(jī)的性能;D)核函數(shù)是一種降維模型答案:D解析:以RBF的核函數(shù)為例,它是通過徑向基核函數(shù)可以把原始數(shù)據(jù)投影到更高維的空間里去,從而增加數(shù)據(jù)可分的概率,是從低維到高維,并不是降維。[單選題]27.若A與B是任意的兩個事件,且P(AB)=P(A)·P(B),則可稱事件A與B()。A)等價(jià)B)互不相容C)相互獨(dú)立D)相互對答案:C解析:若A與B為互斥事件,則有概率加法公式P(A+B)=P(A)+P(B),若A與B不為互斥事件,則有公式P(A+B)=P(A)+P(B)-P(AB);若A與B為相互獨(dú)立事件,則有概率乘法公式P(AB)=p(A)P(B)[單選題]28.關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)中重要地位說法中,下列不正確的是()。A)視覺是人類獲得信息的最主要途徑B)數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)C)數(shù)據(jù)可視化處理結(jié)果的解讀對用戶知識水平的要求較高D)可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率答案:C解析:視覺是人類獲得信息的最主要途徑,超過50%的人腦功能用于視覺信息的處理。數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)。數(shù)據(jù)可視化處理結(jié)果的解讀對用戶知識水平的要求較低??梢暬軌驇椭藗兲岣呃斫馀c處理數(shù)據(jù)的效率。[單選題]29.以下聚合函數(shù)求最大值的是()A)AVGB)SUMC)MAXD)COUN答案:C解析:[單選題]30.以下有關(guān)計(jì)算機(jī)編程語言說法錯誤的是()。A)編程語言是用于書寫計(jì)算機(jī)程序的語言;B)計(jì)算機(jī)語言可分為機(jī)器語言、匯編語言、高級語言;C)計(jì)算機(jī)能識別和執(zhí)行所有編程語言寫的程序;D)C/C++、pascal、javpython都屬于高級編程語言;答案:C解析:只有機(jī)器語言才能被計(jì)算機(jī)直接識別,Python等高級語言源程序,不能直接運(yùn)行,必須翻譯成機(jī)器語言才能執(zhí)行。[單選題]31.jieba分詞包含的分詞模式有()。A)精確模式B)全模式C)搜索引擎模式D)以上答案都正答案:D解析:jieba中文分詞支持的三種分詞模式包括(1)精確模式:試圖將句子最精確地切開,適合文本分析;(2)全模式:把句子中所有的可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義問題;(3)搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。[單選題]32.下面關(guān)于查看Hive表信息描述正確的是()A)DESC查看表的描述是以建表語句的形式展示的B)SHOWCREATETABLE查看表的描述是以表格的形式展示的C)使用DESC查看表table1:DESCtable1;D)SHOWCREATETABLE可以查看表的數(shù)答案:C解析:[單選題]33.詞袋模型中的文本向量每個元素表示該詞的()。A)頻率B)順序C)含義D)語義關(guān)答案:A解析:詞袋模型是最基礎(chǔ)的文本表示模型,就是把每一篇文章看成一袋子單詞,并忽略每個詞出現(xiàn)的順序。每篇文章可以表示成一個長向量,向量中的每一維代表一個單詞,而該維對應(yīng)的權(quán)重代表這個詞在文章中的重要程度,重要程度是由頻率來衡量的。[單選題]34.從數(shù)據(jù)到智慧的轉(zhuǎn)換依次遞進(jìn)過程是()。A)數(shù)據(jù)、知識、信息、理解、智慧B)數(shù)據(jù)、信息、理解、知識、智慧C)數(shù)據(jù)、信息、知識、理解、智慧D)數(shù)據(jù)、理解、信息、知識、智慧答案:C解析:DIKW金字塔(DIKWPyramid)模型揭示了數(shù)據(jù)(Data)與信息(Information)、知識(Knowledge)、智慧(Wisdom)之間的區(qū)別與聯(lián)系,自底向上分別為數(shù)據(jù)、信息、知識、智慧。[單選題]35.()是人們從(多條)信息中發(fā)現(xiàn)的共性規(guī)律、模式、模型、理論和方法等。A)信息B)知識C)理解D)智慧答案:B解析:知識上人們從數(shù)據(jù)、信息中發(fā)現(xiàn)的,在數(shù)據(jù)/信息中存在的共性規(guī)律、認(rèn)識、經(jīng)驗(yàn)與常識。通常根據(jù)能否清晰地表述和有效的轉(zhuǎn)移,將知識分為兩種:顯性知識(ExplicitKnowledge)和隱性知識(TacitKnowledge)。[單選題]36.從連續(xù)圖像到數(shù)字圖像需要()。A)圖像灰度級設(shè)定B)圖像分辨率設(shè)定C)確定圖像的存儲空間D)采樣和量答案:D解析:數(shù)字圖像又稱離散圖像,連續(xù)圖像到數(shù)字圖像需要離散化,離散化是通過采樣和量化實(shí)現(xiàn)的。[單選題]37.圖像灰度方差說明了圖像的哪一個屬性()。A)平均灰度B)圖像對比度C)圖像整體亮度D)圖像細(xì)答案:B解析:方差反應(yīng)圖像的高頻部分的大?。蝗绻麍D片對比度小,那方差就小;如果圖片對比度很大,那方差就大;方差=每個像素點(diǎn)的灰度值減去圖像平均灰度值的平方和除以總的像素個數(shù)[單選題]38.Spark的集群管理模式不包含()。A)Standalone模式B)Message模式C)YARN模式D)Mesos模式答案:B解析:Spark的集群管理主要有三種,分別為Standalone模式、YARN模式和Mesos模式。[單選題]39.關(guān)于可視分析學(xué),下列說法錯誤的是()。A)可視分析學(xué)比較典型的模型是D.Keim等(2008年)提出的數(shù)據(jù)分析模型。B)數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識,而不僅僅停留在數(shù)據(jù)可視化化呈現(xiàn)層次之上。C)可視分析學(xué)流程強(qiáng)調(diào)可視化分析與自動化建模之間的相互作用。D)數(shù)據(jù)映射和數(shù)據(jù)挖掘是數(shù)據(jù)可視化的兩個重要支撐技術(shù)。答案:A解析:歐洲學(xué)者DanielKeim等人提出了可視化分析學(xué)的標(biāo)準(zhǔn)流程,數(shù)據(jù)可視化分析流程中的核心要素包括四個方面:數(shù)據(jù)表示與轉(zhuǎn)換、數(shù)據(jù)的可視化呈現(xiàn)、用戶交互、分析推理。[單選題]40.scipy中包含對隨機(jī)變量計(jì)算期望和方差等函數(shù)的模塊是()。A)statsB)cdfC)sfD)rvs答案:A解析:stats是scipy的統(tǒng)計(jì)模塊,包含期望方差等計(jì)算。[單選題]41.隨機(jī)試驗(yàn)所有可能出現(xiàn)的結(jié)果,稱為()A)基本事件B)樣本C)全部事件D)樣本空間答案:D解析:隨機(jī)試驗(yàn)中的每一個可能出現(xiàn)的試驗(yàn)結(jié)果稱為這個試驗(yàn)的一個樣本點(diǎn)。全體樣本點(diǎn)組成的集合,即隨機(jī)試驗(yàn)的所有可能出現(xiàn)的結(jié)果稱為這個試驗(yàn)的樣本空間。[單選題]42.下列哪項(xiàng)通常是集群的最主要瓶頸()。A)CPUB)網(wǎng)絡(luò)C)磁盤IOD)內(nèi)存答案:C解析:磁盤I/O是不可擴(kuò)充的,其他的可以擴(kuò)充。[單選題]43.一個分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等的工具是()。A)FlumeB)ZookeeperC)StormD)Sparkstreaming答案:B解析:Zoopkeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。[單選題]44.以下關(guān)于圖像的平滑處理錯誤的說法是()。A)圖像的平滑處理是指在盡量保留原有信息的情況下,過濾掉圖像內(nèi)部的噪音B)圖像平滑處理會對圖像中與周圍像素點(diǎn)的像素值差異較大的像素點(diǎn)進(jìn)行處理,將其值調(diào)整為周圍像素點(diǎn)像素值的近似值C)講過平滑處理后圖像質(zhì)量會下降D)以上答案都正答案:C解析:圖像的平滑處理不會損壞圖像的輪廓及邊緣等重要信息,使得圖像清晰視覺效果好。[單選題]45.下列屬于卷積網(wǎng)絡(luò)類型分類的是(__)。A)普通卷積B)擴(kuò)張卷積C)轉(zhuǎn)置卷積D)以上答案都正答案:D解析:卷積神經(jīng)網(wǎng)絡(luò)四種卷積類型:普通卷積,擴(kuò)張卷積,轉(zhuǎn)置卷積,可分離卷積。[單選題]46.在plt中通常的lw參數(shù)代表的作用是()。A)線條的風(fēng)格B)文字的顏色C)線條的寬度D)線條的透明度答案:C解析:linewidth,線條寬度。[單選題]47.安裝DWS時(shí),建議的數(shù)據(jù)盤類型為:A)RAID1B)RAID0C)RAID5D)RAID1答案:C解析:[單選題]48.以下描述中不屬于?規(guī)整數(shù)據(jù)(TidyData)?三個基本原則的是()。A)每一類觀察單元構(gòu)成一個關(guān)系(表)B)每個觀察占且僅占一行C)每個變量占且僅占一列D)每個觀察占且僅占一個關(guān)系(表)答案:D解析:tidyData原則分為:每列代表一個單獨(dú)變量、每行代表單個觀察值、每種觀察形成一個表格。[單選題]49.Google三駕馬車是Hadoop等分布式系統(tǒng)的基石,其中論文()不屬于三駕馬車之一A)GFSB)MapReduceC)OpenTSDBD)BigTabl答案:C解析:[單選題]50.關(guān)于以下深度學(xué)習(xí)框架描述正確的是(__)。A)Tensorflow是一款使用C++語言開發(fā)的開源數(shù)學(xué)計(jì)算軟件B)Caffe對于卷積網(wǎng)絡(luò)的支持特別好,同時(shí)提供的C++接口,也提供了matlab接口和python接口C)PyTorch的前身便是Torch,其底層和Torch框架一樣,但是使用Python重新寫了很多內(nèi)容D)以上答案都正答案:D解析:深度學(xué)習(xí)基礎(chǔ)知識。[單選題]51.以下代碼的輸出結(jié)果為()。ImportnumpyasnpA=np.array([[30,65,70],[80,95,10],[50,90,60]])Print(np.median(a,axis=1))A)[[306570][809510][509060]]B)65.0C)[50.90.60.]D)[65.80.60.]答案:D解析:每行求中位數(shù)。[單選題]52.以下字符串表示plot線條顏色、點(diǎn)的形狀和類型為紅色五角星點(diǎn)短虛線的是()。A)'bs-'B)'go-.'C)'r+-.'D)'r*-.'答案:D解析:'r'代表紅色,'*'代表五角星。'-.'代表點(diǎn)短虛線。[單選題]53.關(guān)于Datanode的描述錯誤的是()。A)Datanode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求B)Datanode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C)集群中的Datanode一般是一個節(jié)點(diǎn)一個D)文件的副本系數(shù)由tanode儲存答案:D解析:文件副本的數(shù)目稱為文件的副本系數(shù),這個信息是由Namenode保存的。[單選題]54.以下可以作為文本分類準(zhǔn)則的是()。A)預(yù)測準(zhǔn)確率B)魯棒性C)可擴(kuò)展性D)以上答案都正答案:D解析:文本分類準(zhǔn)則包含預(yù)測準(zhǔn)確性,魯棒性和可擴(kuò)展性。[單選題]55.下列關(guān)于GaussDB200的數(shù)據(jù)類型轉(zhuǎn)換說法正確的是()?A)如果需要保留空字符串時(shí),需要新建兼容性為Postgres的數(shù)據(jù)庫。B)不同數(shù)據(jù)類型比較或轉(zhuǎn)換時(shí),使用強(qiáng)制類型轉(zhuǎn)換,以防隱式類型轉(zhuǎn)換結(jié)果與預(yù)期不符。C)在ORACLE兼容模式下,在導(dǎo)入數(shù)據(jù)時(shí),空字符串會自動過濾。D)在查詢中,對常量不需要顯式指定數(shù)據(jù)類型答案:B解析:[單選題]56.以下()不是NoSQL數(shù)據(jù)庫。A)MongoDBB)BigTableC)HBaseD)Access答案:D解析:NoSQL是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲系統(tǒng)。典型的NoSQL產(chǎn)品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其開源系統(tǒng)HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。[單選題]57.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()等處理的過程。A)更正B)刪除C)補(bǔ)充錄入D)以上答案都正確答案:D解析:數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。[單選題]58.()模塊是python標(biāo)準(zhǔn)庫中最常用的模塊之一。通過它可以獲取命令行參數(shù),從而實(shí)現(xiàn)從程序外部向程序內(nèi)部傳遞參數(shù)的功能,也可以獲取程序路徑和當(dāng)前系統(tǒng)平臺等信息。A)sysB)platformC)mathD)time答案:A解析:sys模塊用來獲取命令行參數(shù),從而實(shí)現(xiàn)從程序外部向程序內(nèi)部傳遞參數(shù)的功能,也可以獲取程序路徑和當(dāng)前系統(tǒng)平臺等信息。[單選題]59.以下關(guān)于traintestsplit函數(shù)的說法正確的是()。A)train_test_split能夠?qū)?shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集B)train_test_split的輸入只能是一個數(shù)組C)train_test_split每次的劃分結(jié)果不同,無法解決D)train_test_split函數(shù)可以自行決定訓(xùn)練集和測試集的占比答案:D解析:train_test_split將輸入分為訓(xùn)練集和測試集,可以同時(shí)傳入特征數(shù)組和標(biāo)簽數(shù)組。若想要獲得同樣的劃分結(jié)果,可通過randomstate參數(shù)設(shè)置相同的隨機(jī)種子。[單選題]60.數(shù)據(jù)變換的策略包括()。A)平滑處理、特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、離散化B)平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化C)平滑處理、特征構(gòu)造、聚集、審計(jì)、離散化D)特征構(gòu)造、聚集、標(biāo)準(zhǔn)化、審計(jì)、離散化答案:A解析:數(shù)據(jù)變換的策略不包括審計(jì)。[單選題]61.()是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制軟件,能夠?qū)崿F(xiàn)大量數(shù)據(jù)的實(shí)時(shí)捕捉、變換和投遞。A)NosqlB)ETLC)OGGD)Hive答案:C解析:Nosql非關(guān)系型數(shù)據(jù)庫;ETL數(shù)據(jù)導(dǎo)入(抽取、轉(zhuǎn)換、加載);HiveHadoop的一個數(shù)據(jù)倉庫工具。[單選題]62.()采用概率模型來表達(dá)聚類原型。A)k均值算法B)學(xué)習(xí)向量量化C)高斯混合聚類D)密度聚答案:C解析:高斯混合聚類采用概率模型來表達(dá)聚類原型。[單選題]63.在空間維度上刻畫數(shù)據(jù)連續(xù)性是數(shù)據(jù)的()特點(diǎn)。A)可關(guān)聯(lián)性B)可溯源性C)可理解性D)可復(fù)制性答案:A解析:數(shù)據(jù)連續(xù)性理論是指由數(shù)據(jù)的可關(guān)聯(lián)性、可溯源性、可理解性及其內(nèi)在聯(lián)系組成的一整套數(shù)據(jù)保護(hù)措施,其目的是保障數(shù)據(jù)的可用性、可信性和可控性,降低數(shù)據(jù)的失用、失信和失控的風(fēng)險(xiǎn):1)可關(guān)聯(lián)性是在空間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是不同數(shù)據(jù)對象之間的連續(xù)性。它是保障數(shù)據(jù)可用性的重要前提,代表了數(shù)據(jù)是否具備支持開放關(guān)聯(lián)和跨域存取的能力,進(jìn)而避免數(shù)據(jù)資源的碎片化。因此,研究數(shù)據(jù)可關(guān)聯(lián)性的意義在于降低數(shù)據(jù)的?失用?風(fēng)險(xiǎn)。2)可溯源性是在時(shí)間維度上刻畫數(shù)據(jù)連續(xù)性,代表的是同一個數(shù)據(jù)對象的歷史版本之間的連續(xù)性。它是保障數(shù)據(jù)可信性的重要前提,代表了數(shù)據(jù)是否具備支持證據(jù)鏈管理、可信度評估以及預(yù)測分析的能力。因此,研究數(shù)據(jù)可溯源性的意義在于降低數(shù)據(jù)的?失信?風(fēng)險(xiǎn);3)可理解性是在內(nèi)容維度上刻畫數(shù)據(jù)連續(xù)性,代表的是數(shù)據(jù)與其產(chǎn)生、管理和維護(hù)的主體(包括人與計(jì)算機(jī))之間的連續(xù)性。它是降低數(shù)據(jù)的可控性的重要前提,代表了數(shù)據(jù)是否具備自描述和自包含信息。因此,研究數(shù)據(jù)可理解性的意義在于降低數(shù)據(jù)的?失控?風(fēng)險(xiǎn)。[單選題]64.卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層(Convolutionallayer)由若干卷積單元組成,每個卷積單元的參數(shù)都是通過反向傳播算法最佳化得到,其作用是(__)。A)增強(qiáng)圖像B)簡化圖像C)特征提取D)圖像處理答案:C解析:卷積層(Convolutionallayer),卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干卷積單元組成,每個卷積單元的參數(shù)都是通過反向傳播算法最佳化得到的。卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級的特征如邊緣、線條和角等層級,更多層的網(wǎng)路能從低級特征中迭代提取更復(fù)雜的特征。第2部分:多項(xiàng)選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.隨機(jī)森林在做數(shù)據(jù)處理方面有什么優(yōu)勢()。A)不需要做缺失值處理B)不需要處理噪音C)不需要做特征選擇D)不需要平衡數(shù)據(jù)集答案:ACD解析:理論上隨機(jī)森林不會產(chǎn)生過擬合現(xiàn)象,但噪聲是不能忽略的,增加樹雖然能夠減小過擬合,但樹的數(shù)目不可能無限增加,沒有辦法完全消除過擬合。[多選題]66.下列關(guān)于EM算法描述正確的是(__)。A)EM算法是常用的估計(jì)參數(shù)隱變量的利器B)EM算法即是期望最大化算法C)EM算法常被用來學(xué)習(xí)高斯混合模型的參數(shù)D)EM算法是一種迭代式的方法答案:ABCD解析:EM算法即是期望最大化算法,是迭代式的方法,是估計(jì)參數(shù)隱變量的利器,常被用來學(xué)習(xí)高斯混合模型的參數(shù)。[多選題]67.下列哪些是情感分析的應(yīng)用場景()。A)數(shù)據(jù)挖掘B)信息檢索C)文本分詞D)市場營答案:ABD解析:情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應(yīng)用場景。[多選題]68.Hadoop的優(yōu)點(diǎn)包括()。A)可靠的B)高效的C)可伸縮的D)低成本答案:ABCD解析:Hadoop的優(yōu)點(diǎn)包括可靠性、高效性、可伸縮性和成本低。[多選題]69.關(guān)于神經(jīng)網(wǎng)絡(luò),下列說法正確的是()A)增加網(wǎng)絡(luò)層數(shù),可能會增加測試集分類錯誤率B)增加網(wǎng)絡(luò)層數(shù),一定會增加訓(xùn)練集分類錯誤率C)減少網(wǎng)絡(luò)層數(shù),可能會減少測試集分類錯誤率D)減少網(wǎng)絡(luò)層數(shù),一定會減少訓(xùn)練集分類錯誤率答案:AC解析:增加網(wǎng)絡(luò)層數(shù)可能造成訓(xùn)練誤差和測試誤差減小,但神經(jīng)網(wǎng)絡(luò)層數(shù)過多容易造成過擬合,訓(xùn)練誤差小,但是測試誤差很大。[多選題]70.數(shù)據(jù)管理指對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行()等一系列管理活動,并通過改善和提高組織的管理水平是的數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。A)識別B)度量C)監(jiān)控D)預(yù)警答案:ABCD解析:數(shù)據(jù)管理是指對數(shù)據(jù)進(jìn)行識別,度量,監(jiān)控以及預(yù)警的一系列管理活動。[多選題]71.下列哪些指標(biāo)可以用來評估線性回歸模型()()A)R-SquaredB)AdjustedR-SquaredC)FStatisticsD)RMSE/MSE/MAE答案:ABCD解析:R-Squared、AdjustedR-Squared、FStatistics和RMSE/MSE/MAE指標(biāo)均可以評估線性回歸模型。[多選題]72.處理圖像平滑處理的濾波有()。A)盒式濾波B)均值濾波C)高斯濾波D)中值濾答案:ABCD解析:處理圖像平滑處理的濾波包含盒式濾波,均值濾波,高斯濾波和中值濾波等。[多選題]73.長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)三個門是哪些()A)進(jìn)化門B)輸出門C)輸入門D)遺忘門答案:BCD解析:LSTM擁有三個門(輸入門,遺忘門,輸出門),來保護(hù)和控制細(xì)胞狀態(tài)。[多選題]74.我們希望減少數(shù)據(jù)集中的特征數(shù)量。你可以采取以下哪一個步驟來減少特征()。A)使用正向選擇法(ForwardSelection)B)使用反向消除法(ckwardElimination)C)逐步選擇消除法(Stepwise)D)計(jì)算不同特征之間的相關(guān)系數(shù),刪去相關(guān)系數(shù)高的特征之答案:ABCD解析:正向選擇(ForwardSelection)是首先選擇一個特征,每個特征都試一遍,選擇對模型準(zhǔn)確率提升最高的那個特征;然后再在這個特征基礎(chǔ)上添加另外一個特征,方法類似,直到模型準(zhǔn)確率不再提示為止。反向消除(BackwardElimination)是首先包含了所有的特征,然后嘗試刪除每個特征,最終刪掉對模型準(zhǔn)確率提升最高的一個特征(因?yàn)閯h除這個特征,模型準(zhǔn)確率反而增加了,說明是無用特征)。如此類推,直到刪除特征并不能提升模型為止。相對于ForwardSelection,BackwardElimination的優(yōu)點(diǎn)在于其允許一些低貢獻(xiàn)值的特征能夠進(jìn)到模型中去(有時(shí)候低貢獻(xiàn)值的特征能在組合中有更大的貢獻(xiàn)值,而ForwardSelection忽略了這種組合的可能性),因此BackwardElimination能夠避免受一兩個占主導(dǎo)地位的特征的干擾。另外還有一種特征選擇方法是Stepwise,該方法結(jié)合上述兩者的方法,新加入一個特征之后,再嘗試刪去一個特征,直至達(dá)到某個預(yù)設(shè)的標(biāo)準(zhǔn)。這種方法的缺點(diǎn)是,預(yù)設(shè)的標(biāo)準(zhǔn)不好定,而且容易陷入到過擬合當(dāng)中。除此之外,也可以使用基于相關(guān)性的特征選擇,可以去除多重線性特征。[多選題]75.下列跟人工智能場景相關(guān)的是()。A)圖像識別B)人臉識別C)語音識別D)語義分答案:ABCD解析:人工智能的概念很廣義,圖像識別,人臉識別,語音識別,語義分析都屬于人工智能的應(yīng)用場景。[多選題]76.機(jī)器學(xué)習(xí)的三個關(guān)鍵組成要素是()。A)任務(wù)TB)性能指標(biāo)PC)目標(biāo)函數(shù)VD)經(jīng)驗(yàn)來源答案:ABD解析:機(jī)器學(xué)習(xí)的三個關(guān)鍵組成要素是任務(wù)T、性能指標(biāo)P、經(jīng)驗(yàn)來源E。[多選題]77.無master架構(gòu)的MPP數(shù)據(jù)庫的優(yōu)勢在于哪些方面:A)所有服務(wù)節(jié)點(diǎn)對等B)可以通過任意服務(wù)節(jié)點(diǎn)查詢和加載數(shù)據(jù)C)無單點(diǎn)風(fēng)險(xiǎn)D)無性能瓶答案:ABC解析:[多選題]78.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題。Flume的主要設(shè)計(jì)目的和特征是()。A)高可靠性B)可拓展C)管理復(fù)雜D)不支持用戶自定義答案:AB解析:Flume的主要設(shè)計(jì)目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用戶自定義。[多選題]79.關(guān)于HDFS集群中的DataNode的描述不正確的是()。A)DataNode之間都是獨(dú)立的,相互之間不會有通信B)存儲客戶端上傳的數(shù)據(jù)的數(shù)據(jù)塊C)一個D.taNode上存儲的所有數(shù)據(jù)塊可以有相同的D)響應(yīng)客戶端的所有讀寫數(shù)據(jù)請求,為客戶端的存儲和讀取數(shù)據(jù)提供支撐答案:AC解析:DataNode之間是要進(jìn)行通信的,因?yàn)閿?shù)據(jù)上傳的時(shí)候就是第一個副本節(jié)點(diǎn)和第二個副本節(jié)點(diǎn)建立連接傳輸數(shù)據(jù),而不是客戶端和第二個副本建立連接傳送,A錯;DataNode是真正為HDFS集群存儲數(shù)據(jù)的,HDFS集群的數(shù)據(jù)存儲策略是分散+冗余的策略,由此可以看出,一個節(jié)點(diǎn)上,如果存儲了兩個一樣的數(shù)據(jù)塊,這樣的冗余是沒有任何意義的,所以一個節(jié)點(diǎn)上是不會存儲一個數(shù)據(jù)塊的多個副本的,C錯;[多選題]80.Apriori算法的計(jì)算復(fù)雜度受__(ABCD)?__影響。A)支持度閥值B)項(xiàng)數(shù)(維度)C)事務(wù)數(shù)D)事務(wù)平均寬度答案:ABCD解析:三、[多選題]81.神經(jīng)網(wǎng)絡(luò)模型(NeuralNetwork)因受人類大腦的啟發(fā)而得名。神經(jīng)網(wǎng)絡(luò)由許多神經(jīng)元(Neuron)組成,每個神經(jīng)元接受一個輸入,對輸入進(jìn)行處理后給出一個輸出。請問下列關(guān)于神經(jīng)元的描述中,哪一項(xiàng)是正確的(__)。A)每個神經(jīng)元有一個輸入和一個輸出B)每個神經(jīng)元有多個輸入和一個輸出C)每個神經(jīng)元有一個輸入和多個輸出D)每個神經(jīng)元有多個輸入和多個輸答案:ABCD解析:每個神經(jīng)元可以有一個或多個輸入,和一個或多個輸出。[多選題]82.聚類性能度量的指標(biāo)主要分為外部指標(biāo)和內(nèi)部指標(biāo),其中屬于內(nèi)部指標(biāo)的是()。A)Jaccard指數(shù)B)FM指數(shù)C)DB指數(shù)D)Dunn指數(shù)答案:CD解析:常用的聚類性能度量內(nèi)部指標(biāo):DB指數(shù),Du皿nr丑l指數(shù)。[多選題]83.下面哪些是Spark的組件()。A)SparkStreamingB)MLibC)GraphXD)SparkR答案:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論