![大數(shù)據(jù)理論考試(習(xí)題卷3)_第1頁](http://file4.renrendoc.com/view10/M01/32/00/wKhkGWW9plyAeghIAAFfTcPgnlI561.jpg)
![大數(shù)據(jù)理論考試(習(xí)題卷3)_第2頁](http://file4.renrendoc.com/view10/M01/32/00/wKhkGWW9plyAeghIAAFfTcPgnlI5612.jpg)
![大數(shù)據(jù)理論考試(習(xí)題卷3)_第3頁](http://file4.renrendoc.com/view10/M01/32/00/wKhkGWW9plyAeghIAAFfTcPgnlI5613.jpg)
![大數(shù)據(jù)理論考試(習(xí)題卷3)_第4頁](http://file4.renrendoc.com/view10/M01/32/00/wKhkGWW9plyAeghIAAFfTcPgnlI5614.jpg)
![大數(shù)據(jù)理論考試(習(xí)題卷3)_第5頁](http://file4.renrendoc.com/view10/M01/32/00/wKhkGWW9plyAeghIAAFfTcPgnlI5615.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:單項(xiàng)選擇題,共64題,每題只有一個正確答案,多選或少選均不得分。[單選題]1.ZooKeeper的特點(diǎn)描述錯誤的是()。A)復(fù)雜性B)自我復(fù)制C)順序訪問D)高速讀取答案:A解析:ZooKeeper的設(shè)計目標(biāo)和特點(diǎn)包括簡單性、自我復(fù)制、順序訪問和高速讀取。[單選題]2.二維圖像可用二維函數(shù)表示,下列說法正確地是()。A)表示點(diǎn)的灰度值B)對于模擬圖像來講,是離散函數(shù)C)x,y不是平面的二維坐標(biāo)D)以上答案都不正答案:A解析:二維函數(shù)值表示像素點(diǎn)的灰度值。模擬圖像的二維函數(shù)是連續(xù)的,數(shù)字圖像的是離散的。x,y是平面二維坐標(biāo),表示的是圖像的橫縱方向。[單選題]3.下列哪個組件不屬于Hive架構(gòu)()A)MySQLB)TaskManagerC)HDFSD)Clien答案:B解析:[單選題]4.概率模型的訓(xùn)練過程就是()過程。A)分類B)聚類C)參數(shù)估計D)參數(shù)選答案:C解析:概率模型的訓(xùn)練過程就是參數(shù)估計的過程。[單選題]5.執(zhí)行一個job,如果這個job的輸出路徑已經(jīng)存在,那么程序會()A)覆蓋這個輸出路徑B)拋出警告,但是能夠繼續(xù)執(zhí)行C)拋出一個異常,然后退出D)創(chuàng)建一個新的輸出路徑答案:C解析:MapReduce編程模型中的輸出目錄必須是不存在的目錄。否則程序拋出異常,并且退出運(yùn)行。[單選題]6.下面()屬于SVM應(yīng)用。A)文本和超文本分類B)圖像分類C)新文章聚類D)以上均是答案:D解析:SVM可用于分類與回歸,文本和超文本分類、圖像分類、新文章聚類均屬于SVM的應(yīng)用。[單選題]7.下面哪個操作肯定是寬依賴A)mapB)flatMapC)reduceByKeyD)sampl答案:C解析:[單選題]8.scipy.stats模塊中隨機(jī)變量的概率密度函數(shù)是()。A)statsB)fitC)pdfD)ppf答案:C解析:pdf是概率密度函數(shù)(probabilitydensityfunction)。[單選題]9.數(shù)據(jù)預(yù)處理方法不包括()。A)數(shù)據(jù)清洗:去噪聲和無關(guān)數(shù)據(jù)B)數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存在一個一致的數(shù)據(jù)存儲中C)數(shù)據(jù)變換:把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式D)數(shù)據(jù)轉(zhuǎn)化:把連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)答案:D解析:數(shù)據(jù)轉(zhuǎn)化多為將字符型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。例如將性別【男,女】分別轉(zhuǎn)換為【0,1】。[單選題]10.在HDFS中()是文件系統(tǒng)的工作節(jié)點(diǎn)。A)DataNodeB)ClientC)NameNodeD)Flume答案:A解析:數(shù)據(jù)節(jié)點(diǎn)(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的存儲和讀取,會根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲的塊的列表。每個數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會被保存在各自節(jié)點(diǎn)本地Linux文件系統(tǒng)中。[單選題]11.數(shù)據(jù)科學(xué)基本原則中,?基于數(shù)據(jù)的智能?的主要特點(diǎn)是()。A)數(shù)據(jù)簡單、但算法簡單B)數(shù)據(jù)復(fù)雜、但算法簡單C)數(shù)據(jù)簡單、但算法復(fù)雜D)數(shù)據(jù)復(fù)雜、但算法復(fù)雜答案:B解析:數(shù)據(jù)科學(xué)對?智能的實(shí)現(xiàn)方式?有了新的認(rèn)識--從?基于算法的智能?到?基于數(shù)據(jù)的智能?的過渡。?基于數(shù)據(jù)的智能?的重要特點(diǎn)是?數(shù)據(jù)復(fù)雜,但算法簡單?。[單選題]12.一幅數(shù)字圖像是:()A)一個觀測系統(tǒng)B)一個有許多像素排列而成的實(shí)體C)一個2-D數(shù)組中的元素D)一個3-D空間的場景答案:B解析:[單選題]13.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)?()A)頻繁模式挖掘B)分類和預(yù)測C)數(shù)據(jù)預(yù)處理D)數(shù)據(jù)流挖掘答案:C解析:[單選題]14.Spark比mapreduce快的原因不包括()A)park基于內(nèi)存迭代,而MapReduce基于磁盤迭代B)AG計算模型相比MapReduce更有效率C)park是粗粒度的資源調(diào)度,而MR是細(xì)粒度的資源調(diào)度。D)park支持交互式處理,MapReduce善于處理流計算。答案:D解析:A、B、C是Spark比mapreduce快的原因。MapReduce不善于處理除批處理計算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。[單選題]15.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。A)PigB)HbaseC)HiveD)MapReduce答案:C解析:Hive是構(gòu)建在hadoop上的數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,可以用來進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),并提供簡單的SQL查詢功能。[單選題]16.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。A)一B)二C)三D)四答案:B解析:留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個集合作為訓(xùn)練集,另一個作為測試集T。[單選題]17.在MaxComputeSQL中,concat('a',null,'b')的執(zhí)行結(jié)果是:()。A)aB)anullbC)abD)null答案:D解析:[單選題]18.下列哪個不是stats模塊中的功能()。A)連續(xù)性分布B)線性方程求解C)離散型分布D)核密度估計答案:B解析:stats模塊包含了隨機(jī)變量樣本抽取、84個連續(xù)性分布、12個離散型分布、分布的密度分布函數(shù)、核密度估計、分布構(gòu)造、分布檢驗(yàn)等功能,但不包括線性方程求解。[單選題]19.關(guān)于Apriori算法的原理中敘述錯誤的是()。A)riori算法通常使用先驗(yàn)知識或者假設(shè)B)如果某個項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的C)如果一個項(xiàng)集是非頻繁集,那么它的所有超集也是非頻繁的Apriori算法不可以用來發(fā)現(xiàn)頻繁D)Apriori算法不可以用來發(fā)現(xiàn)頻繁集答案:D解析:Apriori算法可以用來發(fā)現(xiàn)頻繁集。[單選題]20.Spark的劣勢()A)運(yùn)算速度快B)業(yè)務(wù)實(shí)現(xiàn)需要較少代碼C)提供很多現(xiàn)成函數(shù)D)需要更多機(jī)器內(nèi)答案:D解析:Spark采用的是內(nèi)存計算模式,需要的內(nèi)存較多[單選題]21.()是指理解挖掘項(xiàng)目的目標(biāo)業(yè)務(wù)需求。A)業(yè)務(wù)理解B)數(shù)據(jù)理解C)數(shù)據(jù)準(zhǔn)備D)數(shù)據(jù)建模答案:A解析:根據(jù)CRISP-DM(cross-industrystandardprocessfordatamining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型,業(yè)務(wù)理解是指從業(yè)務(wù)的角度了解項(xiàng)目的要求和最終目的是什么,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。[單選題]22.()是指對于數(shù)據(jù)局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)之一。A)魯棒性B)穩(wěn)定性C)可靠性D)耐抗性答案:D解析:耐抗性(Resistance)為探索性數(shù)據(jù)分析的四個指標(biāo)之一,是指對于數(shù)據(jù)的局部不良行為的非敏感性,它是探索性分析追求的主要目標(biāo)之一。對于具有耐抗性的分析結(jié)果,當(dāng)數(shù)據(jù)的一小部分被新的數(shù)據(jù)代替時,即使它們與原來的數(shù)值差別很大,分析結(jié)果也只會有輕微的改變。[單選題]23.(假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN))在二分類問題中,當(dāng)測試集的正例和負(fù)例數(shù)量不均衡時,以下評價方案哪個是相對不合理的()。A)curacy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲線下面答案:A解析:測試集正例和負(fù)例數(shù)量不均衡,那么假設(shè)正例數(shù)量很少占10%,負(fù)例數(shù)量占大部分90%。而且算法能正確識別所有負(fù)例,但正例只有一半能正確判別。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。雖然Accuracy很高,precision是100%,但正例recall只有50%。[單選題]24.()將觀測值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計結(jié)果為非對稱分布時,經(jīng)常使用它。A)眾數(shù)B)標(biāo)準(zhǔn)差C)中位數(shù)D)均值答案:C解析:中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。[單選題]25.a=[1,2,3.4,5],切片時如果要取[2,3.4],正確的選項(xiàng)是()。A)a[1:4]B)a[-2:]C)a[1:-1]D)a[::2]答案:C解析:此題應(yīng)注意是'3.4'而不是'3,4',有以下取法:a[1:3]、a[1:-1][單選題]26.下列縮進(jìn)格式描述不正確的是()。A)縮進(jìn)指在代碼行前面添加空格或Tab;B)在Python程序中,縮進(jìn)不是任意的;C)縮進(jìn)可以使程序更有層次感、更有結(jié)構(gòu)感,從而是程序更易讀。D)平級的語句行(代碼塊)的縮進(jìn)可以不相同。答案:D解析:Python強(qiáng)制縮進(jìn),平級的語句行與代碼塊的縮進(jìn)必須相同。[單選題]27.數(shù)據(jù)科學(xué)家可能會同時使用多個算法(模型)進(jìn)行預(yù)測,并且最后把這些算法的結(jié)果集成起來進(jìn)行最后的預(yù)測(集成學(xué)習(xí)),以下對集成學(xué)習(xí)說法正確的是()。A)單個模型之間具有高相關(guān)性B)單個模型之間具有低相關(guān)性C)在集成學(xué)習(xí)中使用?平均權(quán)重?而不是?投票?會比較好D)單個模型都是用的一個算法答案:B解析:集成學(xué)習(xí)就是組合這里的多個弱監(jiān)督模型以期得到一個更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個弱模型得到了錯誤的預(yù)測,其他的弱模型也可以將錯誤糾正回來。某一個弱模型要有一定的?準(zhǔn)確性?,即學(xué)習(xí)器不能太壞,并且要有多樣性,即個體學(xué)習(xí)器間具有差異。集成中即可包含同種類型的弱模型,也可包含不同類型的弱模型。[單選題]28.對于線性回歸模型,包括附加變量在內(nèi),以下的可能正確的是()。1)R-Squared和AdjustedR-squared都是遞增的2)R-Squared是常量的,AdjustedR-squared是遞增的3)R-Squared是遞減的,AdjustedR-squared也是遞減的4)R-Squared是遞減的,AdjustedR-squared是遞增的A)1和2B)1和3C)2和4D)以上都不是答案:D解析:R-squared不能決定系數(shù)估計和預(yù)測偏差。每次在模型中加入預(yù)測器,R-squared遞增或不變。[單選題]29.圖像平滑會造成()。A)圖像邊緣模糊化B)圖像邊緣清晰化C)無影響D)以上答案都不正答案:A解析:為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實(shí)際上是低通濾波,平滑過程會導(dǎo)致圖像邊緣模糊化。[單選題]30.下列不能作為數(shù)據(jù)科學(xué)數(shù)據(jù)源的是()。A)醫(yī)院里的病歷、檢查、診斷等與健康相關(guān)的數(shù)據(jù)B)物聯(lián)網(wǎng)中涉及到設(shè)備運(yùn)行情況的日志數(shù)據(jù)C)金融領(lǐng)域客戶的借款記錄以及信用情況D)個人電腦中用于備忘的日記答案:D解析:數(shù)據(jù)科學(xué)數(shù)據(jù)源的前提條件是數(shù)據(jù)需要具備:規(guī)律性、周期性等特征,個人電腦中用于備忘的日記一般不具備規(guī)律性。[單選題]31.隨機(jī)森林等樹狀算法通過哪個模塊進(jìn)行調(diào)用()。A)dummyB)ensembleC)treeD)experimental答案:B解析:sklearn.ensemble模塊包含了很多集成學(xué)習(xí)的算法,包括隨機(jī)森林、Adaboost、GBDT等。[單選題]32.假設(shè)我們擁有一個已完成訓(xùn)練的、用來解決車輛檢測問題的深度神經(jīng)網(wǎng)絡(luò)模型,訓(xùn)練所用的數(shù)據(jù)集由汽車和卡車的照片構(gòu)成,而訓(xùn)練目標(biāo)是檢測出每種車輛的名稱(車輛共有10種類型)。現(xiàn)在想要使用這個模型來解決另外一個問題,問題數(shù)據(jù)集中僅包含一種車(福特野馬)而目標(biāo)變?yōu)槎ㄎ卉囕v在照片中的位置()。A)除去神經(jīng)網(wǎng)絡(luò)中的最后一層,凍結(jié)所有層然后重新訓(xùn)練B)對神經(jīng)網(wǎng)絡(luò)中的最后幾層進(jìn)行微調(diào),同時將最后一層(分類層)更改為回歸層C)使用新的數(shù)據(jù)集重新訓(xùn)練模型D)所有答案均不答案:B解析:由于神經(jīng)網(wǎng)絡(luò)淺層網(wǎng)絡(luò)主要提取圖像的低維特征,對于相近領(lǐng)域進(jìn)行遷移學(xué)習(xí)時,這些低維特征相同,因此只需要對最后幾層進(jìn)行微調(diào),而檢測位置相當(dāng)于回歸任務(wù)。[單選題]33.關(guān)于數(shù)據(jù)相關(guān)性,以下說法錯誤的是()。A)關(guān)性體現(xiàn)了大數(shù)據(jù)的靈魂B)關(guān)性思維實(shí)現(xiàn)了從?為什么?到?是什么?的思維轉(zhuǎn)變C)關(guān)性關(guān)注事物的因果關(guān)系D)關(guān)性關(guān)注事物的相關(guān)關(guān)系答案:C解析:相關(guān)性,是指兩個變量的關(guān)聯(lián)程度,可以有正相關(guān)、負(fù)相關(guān)、不相關(guān)。[單選題]34.下列說法錯誤的是()A)生產(chǎn)者和消費(fèi)者面向的都是一個topicB)生產(chǎn)者發(fā)送數(shù)據(jù)的對象是leaderC)當(dāng)集群中的某個節(jié)點(diǎn)發(fā)生故障時,Replica上的partition數(shù)據(jù)不會丟失D)partition是一個沒有順序的隊(duì)答案:D解析:[單選題]35.直方圖均衡化適用于增強(qiáng)直方圖呈()分布的圖像。A)尖峰B)波形C)隨機(jī)D)高答案:A解析:直方圖均衡化適用于增強(qiáng)直方圖呈尖峰分布的圖像。[單選題]36.Hadoop-2.6.5集群中的HDFS的默認(rèn)的數(shù)據(jù)塊的大小是()A)32MB)64MC)128MD)256M答案:C解析:[單選題]37.下面關(guān)于HiveSQL創(chuàng)建表時描述正確的是()A)LIKE允許復(fù)制表結(jié)構(gòu)和表數(shù)據(jù)B)COMMENT可以為表與字段增加描述,必須有,不加會報錯C)ROWFORMAT設(shè)置行數(shù)據(jù)壓縮格式D)如果相同名字的表已經(jīng)存在,則建表拋出異答案:D解析:[單選題]38.在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達(dá)到了()。A)貝葉斯錯誤率B)漸進(jìn)錯誤率C)最優(yōu)值D)上答案:A解析:在k近鄰學(xué)習(xí)算法中,隨著k的增加,上界將逐漸降低,當(dāng)k區(qū)域無窮大時,上界和下界碰到一起,k近鄰法就達(dá)到了貝葉斯錯誤率。[單選題]39.關(guān)于數(shù)據(jù)服務(wù)中,app說法正確的是:()。A)一個用戶只能創(chuàng)建一個APPB)一個APP只能申請一個API的權(quán)限C)一個用戶可以創(chuàng)建多個APP,一個APP可以申請多個API的權(quán)限D(zhuǎn))一個API只能被一個APP使答案:C解析:[單選題]40.下列對于sigmoid函數(shù)的說法,錯誤的是()A)存在梯度爆炸的問題B)不是關(guān)于原點(diǎn)對稱C)計算exp比較耗時D)存在梯度消失的問答案:A解析:對于sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網(wǎng)絡(luò)層增加,梯度消失比梯度爆炸更容易發(fā)生的多。[單選題]41.Hadoop中,Reducer的三個階段是__。A)Shuffle-Sort-ReduceB)Shuffle-Reduce-SortC)Reduce-Shuffle-SortD)Sort-Shuffle-Reduce答案:A解析:Reducer主要分為三個步驟Shuffle洗牌、Sort排序和Reduce[單選題]42.你正在訓(xùn)練一個RNN網(wǎng)絡(luò),你發(fā)現(xiàn)你的權(quán)重與激活值都是NaN,下列選項(xiàng)中,哪一個是導(dǎo)致這個問題的最有可能的原因()A)梯度消失B)梯度爆炸C)ReLU函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大了D)Sigmoid函數(shù)作為激活函數(shù)g(.),在計算g(z)時,z的數(shù)值過大答案:B解析:訓(xùn)練過程中出現(xiàn)梯度爆炸會伴隨一些細(xì)微的信號,如:1、模型無法從訓(xùn)練數(shù)據(jù)中獲得更新(如低損失)。2、模型不穩(wěn)定,導(dǎo)致更新過程中的損失出現(xiàn)顯著變化。3、訓(xùn)練過程中,模型損失變成NaN。[單選題]43.銳化(高通)濾波器的作用()。A)能消減或削弱傅立葉空間的低頻分量,但不影響高頻分量B)能消減或削弱傅立葉空間的高頻分量,但不影響低頻分量C)對傅立葉空間的低、高頻分量均有削弱或削除作用D)對傅立葉空間的低、高頻分量均有增強(qiáng)作答案:A解析:高通濾波與低通濾波正好相反,是頻域圖像的高頻部分通過而抑制低頻部分。在圖像中圖像的邊緣對應(yīng)高頻分量,因此高通濾波的效果是圖像銳化。[單選題]44.考慮某個具體問題時,你可能只有少量數(shù)據(jù)來解決這個問題。不過幸運(yùn)的是你有一個類似問題已經(jīng)預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)??梢杂孟旅婺姆N方法來利用這個預(yù)先訓(xùn)練好的網(wǎng)絡(luò)()A)把除了最后一層外所有的層都凍住,重新訓(xùn)練最后一層B)對新數(shù)據(jù)重新訓(xùn)練整個模型C)只對最后幾層進(jìn)行調(diào)參(finetune)D)對每一層模型進(jìn)行評估,選擇其中的少數(shù)來答案:C解析:如果有個預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),就相當(dāng)于網(wǎng)絡(luò)各參數(shù)有個很靠譜的先驗(yàn)代替隨機(jī)初始化。若新的少量數(shù)據(jù)來自于先前訓(xùn)練數(shù)據(jù)(或者先前訓(xùn)練數(shù)據(jù)量很好地描述了數(shù)據(jù)分布,而新數(shù)據(jù)采樣自完全相同的分布),則凍結(jié)前面所有層而重新訓(xùn)練最后一層即可;但一般情況下,新數(shù)據(jù)分布跟先前訓(xùn)練集分布有所偏差,所以先驗(yàn)網(wǎng)絡(luò)不足以完全擬合新數(shù)據(jù)時,可以凍結(jié)大部分前層網(wǎng)絡(luò),只對最后幾層進(jìn)行訓(xùn)練調(diào)參(這也稱之為finetune)。[單選題]45.視覺通道表現(xiàn)力評價指標(biāo)不包括()。A)精確性B)可辨認(rèn)性C)可分離性D)可轉(zhuǎn)換性答案:D解析:在數(shù)據(jù)來源和目標(biāo)用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺突出性。[單選題]46.假設(shè)你在卷積神經(jīng)網(wǎng)絡(luò)的第一層中有5個卷積核,每個卷積核尺寸為7×7,具有零填充且步幅為1。該層的輸入圖片的維度是224×224×3。那么該層輸出的維度是多少()A)217x217x3B)217x217x8C)218x218x5D)220x220x答案:C解析:如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為(n-f+1)x(n-f+1),注意f一般為奇數(shù)。若考慮存在填充和步幅,用s表示stride長度,p表示padding長度,如果原始圖片尺寸為nxn,filter尺寸為fxf,則卷積后的圖片尺寸為:[(n+2p-f)/s+1]x[(n+2p-f)/s+1](中括號內(nèi)向下取整).此例中,n=224,p=0,f=7,s=1,因此,該層輸出的尺寸為218x218.輸出的第三個維度由濾波器的個數(shù)決定,即為5。[單選題]47.下面那種情況不會觸發(fā)ConsumerRebalance操作()A)某個消費(fèi)者崩潰B)某個生產(chǎn)者崩潰C)消費(fèi)者消費(fèi)的多個topic中某個topic被刪除D)新增消費(fèi)答案:B解析:[單選題]48.采用模板[-1,1]主要檢測()方向的邊緣A)水平B)45°C)垂直D)135°答案:C解析:[單選題]49.假設(shè)我們已經(jīng)在ImageNet數(shù)據(jù)集(物體識別)上訓(xùn)練好了一個卷積神經(jīng)網(wǎng)絡(luò)。然后給這張卷積神經(jīng)網(wǎng)絡(luò)輸入一張全白的圖片。對于這個輸入的輸出結(jié)果為任何種類的物體的可能性都是一樣的,對嗎()。A)對的B)不知道C)看情況D)不答案:D解析:不對,神經(jīng)網(wǎng)絡(luò)對于未知的數(shù)據(jù)不是均勻預(yù)測的,會對莫一種或多種類別存在偏向。[單選題]50.對于一個圖像識別問題(在一張照片里找出一只貓),下面哪種神經(jīng)網(wǎng)絡(luò)可以更好地解決這個問題()A)循環(huán)神經(jīng)網(wǎng)絡(luò)B)感知機(jī)C)多層感知機(jī)D)卷積神經(jīng)網(wǎng)答案:D解析:卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像特征,且具有平移不變性.循環(huán)神經(jīng)網(wǎng)絡(luò)適合語言類數(shù)據(jù)。[單選題]51.字符串的strip方法的作用是()A)刪除字符串頭尾指定的字符B)刪除字符串末尾的指定字符C)刪除字符串頭部的指定字符D)通過指定分隔符對字符串切片答案:A解析:[單選題]52.sklearn庫中對數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化主要依靠()模塊。A)neighbors模塊B)preprocessing模塊C)pipeline模塊D)datasets模塊答案:B解析:sklearn.preprocessing模塊包括縮放,居中,歸一化,二值化和插補(bǔ)方法,主要是對數(shù)據(jù)進(jìn)行預(yù)處理和規(guī)范化。[單選題]53.通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為()。A)組合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:通過聚集多個分類器的預(yù)測來提高分類準(zhǔn)確率的技術(shù)稱為組合。[單選題]54.建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的()。A)基礎(chǔ)B)前提C)核心D)條件答案:C解析:建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的核心。[單選題]55.請把下劃處的代碼補(bǔ)充完整:______intostudent(s_name)______(?王大軍?);A)update,valuesB)insert,valueC)insert,valuesD)delete,lik答案:C解析:[單選題]56.為提高計算性能,Spark中Transformation操作采用的是()計算模式。A)活性B)惰性C)實(shí)時D)非實(shí)時答案:B解析:Spark的所有Trandformation操作采取的是?惰性計算模式?[單選題]57.以下關(guān)于Hadoop中MapReduce說法正確的是()。A)可以沒有reduce任務(wù)B)Reducer輸入為隨機(jī)輸入C)shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能D)一個reducer只能從一個map復(fù)制所需要的partition答案:A解析:MapReduce中的reduce并不是必須存在的。[單選題]58.檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于()的離群點(diǎn)檢測。A)統(tǒng)計方法B)鄰近度C)密度D)機(jī)器學(xué)習(xí)技術(shù)答案:A解析:檢測一元正態(tài)分布中的離群點(diǎn),屬于異常檢測中的基于統(tǒng)計的離群點(diǎn)檢測。[單選題]59.在MaxComputeSQL中,對兩個double類型的時間進(jìn)行比較,正確的做法是:()。A)使用關(guān)系運(yùn)算符B)使用關(guān)系運(yùn)算符"!=?C)使用關(guān)系運(yùn)算符?<>?D)使用兩個double類型相減,然后取絕對值的方式進(jìn)行答案:D解析:[單選題]60.K-means++算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。那么算法流程為()。1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個點(diǎn)作為第一個聚類中心2.對于數(shù)據(jù)集中的每一個點(diǎn)x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3直到k個聚類中心被選出來5.利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法A)2.5.4.3.1B)1.5.4.2.3C)1.2.3.4.5D)4.3.2.1.答案:C解析:k-means++算法基本流程為:1.從輸入的數(shù)據(jù)點(diǎn)集合中隨機(jī)選擇一個點(diǎn)作為第一個聚類中心2.對于數(shù)據(jù)集中的每一個點(diǎn)x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)3.選擇一個新的數(shù)據(jù)點(diǎn)作為新的聚類中心,選擇的原則是:D(x)較大的點(diǎn),被選取作為聚類中心的概率較大4.重復(fù)2和3直到k個聚類中心被選出來5.利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法[單選題]61.下列哪種機(jī)器學(xué)習(xí)算法不需要?dú)w一化處理()A)DecisionTreeB.SVMC.KmeansD.LogisticRegressioB)C)KmeansD)LogisticRegressio答案:A解析:DecisionTree屬于概率模型,不需要?dú)w一化處理;SVM、Kmeans和LogisticRegression之類的最優(yōu)化問題需要?dú)w一化處理。[單選題]62.()是表現(xiàn)數(shù)據(jù)分布對稱性的指標(biāo)。A)斜率B)偏斜度C)偏度D)偏離答案:B解析:偏斜度是對統(tǒng)計數(shù)據(jù)分布偏斜方向及程度的度量。在偏態(tài)分布中,當(dāng)偏斜度為正值時,分布正偏,即眾數(shù)位于算術(shù)平均數(shù)的左側(cè);當(dāng)偏斜度為負(fù)值時,分布負(fù)偏,即眾數(shù)位于算術(shù)平均數(shù)的右側(cè)。[單選題]63.圖像的形態(tài)學(xué)處理方法包括()。A)圖像增強(qiáng)B)圖像銳化C)圖像分割D)腐蝕答案:D解析:圖像的形態(tài)學(xué)處理方法最常用的幾種操作:腐蝕、膨脹、開操作、閉操作、形態(tài)學(xué)濾波、形態(tài)學(xué)梯度、頂帽、黑帽以及測地腐蝕、測地膨脹。[單選題]64.HBase使用一個()節(jié)點(diǎn)協(xié)調(diào)管理一個或多個regionserver從屬機(jī)。A)namenode;B)datanode;C)jobtracker;D)master;答案:D解析:Hbase中由一個Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個或多個RegionServer從屬機(jī)第2部分:多項(xiàng)選擇題,共22題,每題至少兩個正確答案,多選或少選均不得分。[多選題]65.下列的函數(shù)轉(zhuǎn)換哪一個是正確的(語法正確):A)int("abcdef")ValueErrorB)float(''')SyntaxErrorC)bool((3,',"))SyntaxErrorD)str(')SyntaxError答案:BD解析:[多選題]66.DWS支持的事務(wù)隔離級別有:A)READUNCOMMITTED(讀未提交)B)READCOMMITTED(讀提交)C)REPEATABLEREAD(可重復(fù)讀)D)SERIALIZABLE(序列化答案:BC解析:[多選題]67.大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)提供的是海量數(shù)據(jù)的存儲和計算能力,和我們熟悉的關(guān)系型數(shù)據(jù)庫存在較大的差別。以下說法中正確的是:()。A)不支持事務(wù)B)不支持deleteC)不支持索引D)不支持壓縮答案:ABC解析:[多選題]68.下列關(guān)于RNN、LSTM、GRU說法正確的是(__)。A)RNN引入了循環(huán)的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的變體D)RNN、LSTM、GRU是同一神經(jīng)網(wǎng)絡(luò)的不同說法,沒有區(qū)答案:ABCD解析:RNN:循環(huán)神經(jīng)網(wǎng)絡(luò),是非線性動態(tài)系統(tǒng),將序列映射到序列;LSTM:LSTM通過刻意的設(shè)計來避免長期依賴問題。記住長期的信息在實(shí)踐中是LSTM的默認(rèn)行為,而非需要付出很大代價才能獲得的能力;GRU:LSTM有很多變體,其中較大改動的是GatedRecurrentUnit(GRU),它將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài),和其他一些改動。最終的模型比標(biāo)準(zhǔn)的LSTM模型要簡單。效果和LSTM差不多,但是參數(shù)少了1/3,不容易過擬合。[多選題]69.下面是Python的特點(diǎn)和優(yōu)點(diǎn)是()。A)解釋性B)動態(tài)特性C)面向?qū)ο驞)語法簡潔答案:ABCD解析:Python的特點(diǎn)和優(yōu)點(diǎn)是基于面向?qū)ο笤O(shè)計,代碼解釋性強(qiáng),使用動態(tài)特性、語法簡潔。[多選題]70.關(guān)于Hive的說法正確的是()。A)Hive是基于Hadoop的數(shù)據(jù)倉庫工具B)Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C)最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題D)Hive的主要應(yīng)用場景是離線分析答案:ABD解析:Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS,BigTable,MapReduce。[多選題]71.下列哪些是傳統(tǒng)RDBMS的缺點(diǎn)()A)表結(jié)構(gòu)schema擴(kuò)展不方便B)全文搜索功能較弱C)大數(shù)據(jù)場景下I/O較高D)存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱答案:ABCD解析:傳統(tǒng)RDBMS的缺點(diǎn)包括表結(jié)構(gòu)schema擴(kuò)展不方便、全文搜索功能較弱、大數(shù)據(jù)場景下I/O較高、存儲和處理復(fù)雜關(guān)系型數(shù)據(jù)功能較弱。[多選題]72.以下關(guān)于HTML標(biāo)簽嵌套規(guī)則的說法,正確的是()。A)塊元素可以包含內(nèi)聯(lián)元素或某些塊元素,但內(nèi)聯(lián)元素也可以包含塊元素B)HTML標(biāo)簽包括塊級元素和內(nèi)嵌元素C)內(nèi)嵌元素一般用在網(wǎng)站內(nèi)容之中的某些細(xì)節(jié)或部位,用以?強(qiáng)調(diào)區(qū)分樣式上標(biāo)下標(biāo)錨點(diǎn)?等,通常包括:aabbrbbrfontiimginputkbdlabelqsselectsmallspansubttuvar等D)其中塊級元素一般用來搭建網(wǎng)絡(luò)架構(gòu)布局承載內(nèi)容,通常包括的標(biāo)簽有:addressdirdivdldtddformh1~h6hrisindexmenunoframesnoscriptolppretableul等答案:BCD解析:塊元素可以包含內(nèi)聯(lián)元素或某些塊元素,但內(nèi)聯(lián)元素卻不能包含塊元素,它只能包含其他的內(nèi)聯(lián)元素。[多選題]73.DWS提供的用于數(shù)倉遷移的工具包括以下哪些:A)DBSB)GDSC)MigrationToolD)TransferToo答案:BC解析:[多選題]74.HIS表色系的三屬性包含:()。A)色調(diào)B)色飽和度C)亮度D)色答案:ABC解析:HIS表色系包含色調(diào),色飽和度和亮度。[多選題]75.神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)可以分為()和隨機(jī)型網(wǎng)絡(luò)等。A)前向型B)后向型C)反饋型D)自組織競爭答案:ACD解析:神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)有前向型、反饋型、自組織競爭型和隨機(jī)型網(wǎng)絡(luò)等。[多選題]76.Spark容錯性的方式有哪些()。A)數(shù)據(jù)檢查點(diǎn);B)存儲原始數(shù)據(jù);C)記錄數(shù)據(jù)的更新;D)自建數(shù)據(jù)版本;答案:AC解析:Spark容錯性有兩種方式數(shù)據(jù)檢查點(diǎn)和記錄數(shù)據(jù)的更新。[多選題]77.關(guān)于數(shù)據(jù)流轉(zhuǎn)和應(yīng)用,以下說法正確的是()。A)數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確??勺匪?、可復(fù)查B)前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實(shí)、完整C)前序環(huán)節(jié)應(yīng)及時傳遞到后序環(huán)節(jié)D)前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致答案:ABCD解析:數(shù)據(jù)流轉(zhuǎn)和應(yīng)用主要包括可追溯、復(fù)查,數(shù)據(jù)真實(shí)、完整,環(huán)節(jié)銜接完整,環(huán)節(jié)銜接數(shù)據(jù)一致。[多選題]78.DGI定義的數(shù)據(jù)治理任務(wù)包括()。A)數(shù)據(jù)質(zhì)量的評估B)主動定義或序化規(guī)則C)為數(shù)據(jù)利益相關(guān)者提供持續(xù)跨職能的保護(hù)與服務(wù)D)應(yīng)對并解決因不遵守規(guī)則而產(chǎn)生的問題答案:BCD解析:DGI(TheDataGover略ceInstitute)認(rèn)為數(shù)據(jù)治理是對數(shù)據(jù)相關(guān)的決策及數(shù)據(jù)使用權(quán)限控制的活動。它是一個信息處理過程中根據(jù)模型來執(zhí)行的決策權(quán)和承擔(dān)責(zé)任的系統(tǒng),規(guī)定了誰可以在什么情況下對哪些信息做怎樣的處理。[多選題]79.下面哪些是循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式(__)。A)多輸出B)單輸出C)同步多輸出D)異步多輸答案:ABD解析:循環(huán)神經(jīng)網(wǎng)絡(luò)是遞歸的,不可能同步多輸出。[多選題]80.在假設(shè)檢驗(yàn)中,當(dāng)原假設(shè)為?偽?,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A)α錯誤B)β錯誤C)取偽錯誤D)棄真錯誤答案:BC解析:α錯誤(棄真錯誤):當(dāng)原假設(shè)為真時,但我們錯誤地認(rèn)為?原假設(shè)是不成立的?,進(jìn)而導(dǎo)致拒絕這個正確假設(shè);β錯誤(取偽錯誤):當(dāng)原假設(shè)為假時,但我們錯誤地認(rèn)為?原假設(shè)是成立的?,進(jìn)而導(dǎo)致接受此錯誤假設(shè)[多選題]81.在大數(shù)據(jù)計算服務(wù)(MaxCompute,原ODPS)SQL中可以用邏輯運(yùn)算連接多個條件,以下邏輯運(yùn)算結(jié)果正確的有:()。A)TrueorNULL=TrueB)FalseORFalse=FalseC)TrueANDFalse=FalseD)TrueANDTrue=True答案:ABCD解析:[多選題]82.關(guān)于Python組合數(shù)據(jù)類型,以下選項(xiàng)中描述正確的是()。A)Python的str,tuple和list類型都屬于序列類型B)Python組合數(shù)據(jù)類型能夠?qū)⒍鄠€同類型或不同類型的數(shù)據(jù)組織起來,通過單一的表示使數(shù)據(jù)操作更有序更容易C)組合數(shù)據(jù)類型可以分為3類:序列類型,集合類型和映射類型D)序列類型是二維元素向量,元素之間存在先后關(guān)系,通過序號訪問答案:ABC解析:序列類型是一維元素向量。[多選題]83.關(guān)于Python語言的特點(diǎn),以下選項(xiàng)描述不正確的是()。A)Python語言不支持面向?qū)ο驜)Python語言是解釋型語言C)Python語言是編譯型語言D)Python語言是非跨平臺語言答案:ACD解析:Python語言是面向?qū)ο蟮慕忉屝驼Z言,可跨平臺使用。[多選題]84.下面有關(guān)HTML敘述正確的是()。A)一個HTML文件可以用記事本來編輯B)HTML的意思是超文本標(biāo)記語言C)一個HTML文件必須是一個以htm或html為擴(kuò)展名的文件D)HTML區(qū)分大小寫,如寫成<B>是錯誤的答案:ABC解析:在HTML文件是不區(qū)分大小寫的。[多選題]85.關(guān)于分析學(xué)習(xí)和歸納學(xué)習(xí)的比較,說法正確的是()。A)歸納學(xué)習(xí)擬合數(shù)據(jù)假設(shè),分析學(xué)習(xí)擬合領(lǐng)域理論的假設(shè)B)歸納學(xué)習(xí)論證方式為統(tǒng)計推理,分析學(xué)習(xí)為演繹推理C)歸納學(xué)習(xí)不需要隱式的先驗(yàn)知識D)訓(xùn)練數(shù)據(jù)不足時歸納學(xué)習(xí)可能會失敗答案:ABCD解析:分析學(xué)習(xí)是相對于歸納學(xué)習(xí)的一種提法,其特點(diǎn)是使用先驗(yàn)知識來分析或解釋每個訓(xùn)練樣本,以推理出樣本的哪些特征與目標(biāo)函數(shù)相關(guān)或不相關(guān)。因此,這些解釋能使機(jī)器學(xué)習(xí)系統(tǒng)比單獨(dú)依靠數(shù)據(jù)進(jìn)行泛化有更高的精度。分析學(xué)習(xí)使用先驗(yàn)知識來減小待搜索假設(shè)空間的復(fù)雜度,減小了樣本
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個人的抵押借款合同標(biāo)準(zhǔn)版本(2篇)
- 2025年二手房購房協(xié)議參考模板(2篇)
- 2025年人離婚協(xié)議例文(4篇)
- 2025年中介租賃合同(三篇)
- 湖南咖啡廳裝修合同范本
- 廢鋼煉鋼輔料運(yùn)輸合同
- 住宅用地居間協(xié)議范本
- 城市商業(yè)廣場裝修合同
- 家具公司送貨安裝合同
- 婚慶策劃居間代理合同范本
- 蔬菜采購項(xiàng)目投標(biāo)書
- 肩周炎康復(fù)護(hù)理
- 2022年安徽管子文化旅游集團(tuán)有限公司招聘筆試試題及答案解析
- SAPPM設(shè)備管理解決方案
- Q-HN-1-0000.08.004《風(fēng)力發(fā)電場電能質(zhì)量監(jiān)督技術(shù)標(biāo)準(zhǔn)》
- 宗教與社會課件
- 3人-機(jī)-環(huán)-管理本質(zhì)安全化措施課件
- 生殖醫(yī)學(xué)中心建設(shè)驗(yàn)收標(biāo)準(zhǔn)分析-講座課件PPT
- 慶陽煤炭資源開發(fā)調(diào)研報告
- 橋博常見問題
- 貴州省電梯日常維護(hù)保養(yǎng)合同范本
評論
0/150
提交評論