大數(shù)據(jù)題庫-綜合練習試題_第1頁
大數(shù)據(jù)題庫-綜合練習試題_第2頁
大數(shù)據(jù)題庫-綜合練習試題_第3頁
大數(shù)據(jù)題庫-綜合練習試題_第4頁
大數(shù)據(jù)題庫-綜合練習試題_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第頁大數(shù)據(jù)題庫-綜合練習試題1.下列關于循環(huán)神經(jīng)網(wǎng)絡設計的敘述錯誤的是()A、能處理可變長度的序列B、基于圖展開思想C、基于參數(shù)共享思想D、循環(huán)神經(jīng)網(wǎng)絡不可應用于圖像數(shù)據(jù)【正確答案】:D2.標準BP算法的目標是使訓練集上的()最小A、累積方差B、累積誤差C、累積協(xié)方差D、累積偏差【正確答案】:B3.特征工程的目的是()。A、找到最合適的算法B、得到最好的輸入數(shù)據(jù)C、減低模型復雜度D、加快計算速度【正確答案】:B解析:

特征工程的目的是篩選出更好的特征,獲取更好的訓練數(shù)據(jù)。4.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:

為了發(fā)現(xiàn)Worker故障,Master周期性進行Ping操作。5.變量的不確定性越大,相對應信息熵的變化是()。A、熵變小B、熵變大C、不變D、以上答案都不正確【正確答案】:B解析:

信息熵(informationentropy)是度量樣本集合純度最常用的一種指標,信息熵越大,變量的不確定性越大。6.在著名管理學家Thomas·H.Davernport在《哈佛商業(yè)論壇》上發(fā)表的題為《第三代分析學(Analytics3.0)》的經(jīng)典論文中,Analytics3.0時代是指()。A、商務智能時代B、大數(shù)據(jù)時代C、數(shù)據(jù)富足供給時代D、數(shù)據(jù)智能時代【正確答案】:C解析:

Analytics3.0的名稱為數(shù)據(jù)富足供給時代(Data-enrichedOfferings)。與Analytics2.0不同的是,Analytics3.0中數(shù)據(jù)分析更為專業(yè)化,從技術實現(xiàn)和常用工具角度看,Analytics3.0將采用更為專業(yè)的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大數(shù)據(jù)分析技術。同時,數(shù)據(jù)分析工作也由專業(yè)從事數(shù)據(jù)分析的數(shù)據(jù)科學家-首席分析師完成,數(shù)據(jù)科學家的類型將得到進一步細化。7.下列關于詞袋模型的說法錯誤的是()A、詞袋模型使用一個多重集對文本中出現(xiàn)的單詞進行編碼B、詞袋模型不考慮詞語原本在句子中的順序C、詞袋模型可以應用于文檔分類和檢索,同時受到編碼信息的限制D、詞袋模型產(chǎn)生的靈感來源于包含類似單詞的文檔經(jīng)常有相似的含義【正確答案】:C8.下列不屬于可視化視覺下的數(shù)據(jù)類型的是()。A、定類數(shù)據(jù)B、定序數(shù)據(jù)C、定寬數(shù)據(jù)D、定比數(shù)據(jù)【正確答案】:C解析:

從可視化處理視角看,可以將數(shù)據(jù)分為定類數(shù)據(jù)、定序數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)4個類型,并采用不同的視覺映射方法。在可視化領域,對數(shù)據(jù)進行分類分析是由于不同類型的數(shù)據(jù)可支持的操作類型不同。9.通常落伍者是影響MapReduce總執(zhí)行時間的主要影響因素之一,為此MapReduce采用()機制來解決。A、分布式計算B、惰性計算C、推測性執(zhí)行的任務備份D、先進先出【正確答案】:C解析:

MapReduce采用推測性執(zhí)行的任務備份機制,當作業(yè)中大多數(shù)的任務都已經(jīng)完成時,系統(tǒng)在幾個空閑的節(jié)點上調度執(zhí)行剩余任務的備份,并在多個Worker上同時進行相同的剩余任務。10.下列項目中:①水平翻轉(Horizontalflipping);②隨機裁剪(Randomcropping);③隨機放縮(Randomscaling);④顏色抖動(Colorjittering);⑤隨機平移(Randomtranslation);⑥隨機剪切(Randomshearing),在圖像識別任務中使用的數(shù)據(jù)擴增技術(dataaugmentationtechnique)有()A、①③⑤⑥B、①②④C、②③④⑤⑥D、所有項目【正確答案】:D解析:

水平翻轉、隨機裁剪、隨機放縮、顏色抖動、隨機平移和隨機剪切都是在圖像識別任務中使用的數(shù)據(jù)擴增技術。11.下列關于Sigmoid函數(shù)的說法錯誤的是()A、存在梯度爆炸的問題B、不是關于原點對稱C、計算exp比較耗時D、存在梯度消失的問題【正確答案】:A解析:

解析:對于Sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近0,因此隨著網(wǎng)絡層增加,梯度消失比梯度爆炸更容易發(fā)生得多。12.當訓練集特征非常多,而實例非常少的時候,可以采用()。A、sigmoid核的支持向量機B、不帶核的支持向量機C、高斯核的支持向量機D、多項式核的支持向量機【正確答案】:B解析:

當不采用非常復雜的函數(shù),或者當我們的訓練集特征非常多但是實例非常少的時候,可以采用不帶核函數(shù)的支持向量機。13.著名的C4.5決策樹算法使用()來選擇最優(yōu)劃分屬性。A、信息增益B、增益率C、基尼指數(shù)D、均值【正確答案】:B14.()不屬于聚類性能度量外部指標。A、Jaccard系數(shù)B、FM系數(shù)C、Rand指數(shù)DB指數(shù)【正確答案】:D解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM指數(shù)、Rand指數(shù);聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。15.考慮某個具體問題時可能只有少量數(shù)據(jù),但如果有一個類似問題已經(jīng)預先訓練好的神經(jīng)網(wǎng)絡,則可以有很靠譜的先驗??梢岳眠@個預先訓練好的網(wǎng)絡的方法是()A、把除了最后一層外所有的層都凍住,重新訓練最后一層B、對新數(shù)據(jù)重新訓練整個模型C、只對最后幾層進行訓練調參(finetune)D、對每一層模型進行評估,選擇其中的少數(shù)來用【正確答案】:C解析:

解析:如果有個預先訓練好的神經(jīng)網(wǎng)絡,就相當于網(wǎng)絡各參數(shù)有個很靠譜的先驗代替隨機初始化。若新的少量數(shù)據(jù)來自先前訓練數(shù)據(jù)(或者先前訓練數(shù)據(jù)量很好地描述了數(shù)據(jù)分布,而新數(shù)據(jù)采樣自完全相同的分布),則凍結前面所有層而重新訓練最后一層即可。但一般情況下,新數(shù)據(jù)分布跟先前訓練集分布有所偏差,所以先驗網(wǎng)絡不足以完全擬合新數(shù)據(jù)時,可以凍結大部分前層網(wǎng)絡,只對最后幾層進行訓練調參(finetune)。16.與其他觀測值的差別較大,以至于懷疑它是由不同的機制產(chǎn)生的觀測值是()。A、邊界點B、質心C、離群點D、核心點【正確答案】:C解析:

離群點(outlier)是指數(shù)值中遠離數(shù)值的一般水平的極端大值和極端小值。17.圖像中虛假輪廓的出現(xiàn)就其本質而言是()A、圖像的灰度級數(shù)不夠多而造成的B、圖像的空間分辨率不夠高而造成的C、圖像的灰度級數(shù)過多而造成的D、圖像的空間分辨率過高而造成的【正確答案】:A解析:

圖像中的虛假輪廓最易在平滑區(qū)域內產(chǎn)生。平滑區(qū)域內灰度應緩慢變化,但當圖像的灰度級數(shù)不夠多時會產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質而言是圖像的灰度級數(shù)不夠多而造成的,選A。18.概率模型的訓練過程就是()過程。A、分類B、聚類C、參數(shù)估計D、參數(shù)選擇【正確答案】:C19.數(shù)據(jù)科學中,人們開始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的信息丟失現(xiàn)象,進而數(shù)據(jù)處理范式變?yōu)椋ǎ?。A、從產(chǎn)品在先,數(shù)據(jù)在后范式轉向數(shù)據(jù)在先,產(chǎn)品在后范式或無模式B、從模式在先,產(chǎn)品在后范式轉向產(chǎn)品在先,模式在后范式或無模式C、從數(shù)據(jù)在先,模式在后范式或無模式轉向模式在先,數(shù)據(jù)在后范式D、從模式在先,數(shù)據(jù)在后范式轉向數(shù)據(jù)在先,模式在后范式或無模式【正確答案】:D解析:

傳統(tǒng)關系數(shù)據(jù)庫中,先定義模式,然后嚴格按照模式要求存儲數(shù)據(jù);當需要調整模式時,不僅需要數(shù)據(jù)結構,而且還需要修改上層應用程序。然而,NoSQL技術則采用了非常簡單的Key-Value等模式在后(SchemaLater)和無模式(Schemaless)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應能力。當然,模式在后(SchemaLater)和無模式(Schemaless)也會帶來新問題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。20.留出法直接將數(shù)據(jù)集劃分為()個互斥的集合。A、一B、二C、三D、四【正確答案】:B解析:

留出法(hold-out)直接將數(shù)據(jù)集D劃分為兩個互斥的集合,其中一個集合作為訓練集,另一個作為測試集T。21.有反饋連接的架構是()A、循環(huán)神經(jīng)網(wǎng)絡B、卷積神經(jīng)網(wǎng)絡C、受限玻爾茲曼機D、以上都不是【正確答案】:A解析:

解析:循環(huán)神經(jīng)網(wǎng)絡(RNN)的本質特征是在處理單元之間既有內部的反饋連接又有前饋連接。從系統(tǒng)觀點看,它是一個反饋動力系統(tǒng),在計算過程中體現(xiàn)過程動態(tài)特性,比前饋神經(jīng)網(wǎng)絡具有更強的動態(tài)行為和計算能力。22.2003年,Tableau在斯坦福大學誕生,它起源于一種改變數(shù)據(jù)使用方式的新技術,即()A、VizQL語言B、SQL語言C、XSQL語言D、NewSQL語言【正確答案】:A解析:

VizQL是一種可視化查詢語言,可將拖放動作轉化為數(shù)據(jù)查詢,然后以可視化的形式表達數(shù)據(jù),是Tableau的起源。23.下列業(yè)務場景中,不能直接使用Reducer充當Combiner的是()。A、sum求和B、max求最大值C、count求計數(shù)D、avg求平均【正確答案】:D解析:

求平均需要對全部數(shù)據(jù)進行計算而非部分數(shù)據(jù),在不更改業(yè)務邏輯的情況,使用Reducer充當Combiner,最終會造成業(yè)務結果不正確。24.在線性回歸問題中,用R2來衡量擬合的好壞。關于在線性回歸模型中增加特征值并再訓練同一模型,下列說法正確的是()。A、如果R2上升,則該變量是顯著的B、如果R2下降,則該變量不顯著C、R2不能完全反映變量重要性,不能就此得出正確結論D、以上答案都不正確【正確答案】:C解析:

R2不能完全表示變量顯著性,因為每次加入一個特征值,R2都會上升或維持不變。但在調整R2的情況下這也有誤(如果特征值顯著的話,調整R2會上升)。25.AGNES是一種采用()策略的層次聚類算法。A、自頂向下B、自底向上C、自左至右D、自右至左【正確答案】:B26.SparkJob默認的調度模式是()。A、FIFOB、FAIRC、無D、運行時指定【正確答案】:A解析:

默認情況下Spark的調度模式是FIFO(先進先出)。27.下列關于數(shù)據(jù)倉庫隨時間變化的描述不正確的是()。A、數(shù)據(jù)倉庫隨時間的變化不斷增加新的數(shù)據(jù)內容B、捕捉到的新數(shù)據(jù)會覆蓋原來的快照C、數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內容D、數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間的變化不斷地進行重新綜合【正確答案】:C解析:

一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。28.()用于對RDD中的數(shù)據(jù)進行計算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:

算子是Spark中定義的函數(shù),用于對RDD中的數(shù)據(jù)進行操作、轉換和計算。29.一篇文章中某些名詞的TF-IDF值比較大,則說明()A、這些名詞對這篇文章的區(qū)分度比較高B、這些名詞對這篇文章的區(qū)分度比較低C、不能說明什么D、以上答案都不正確【正確答案】:A解析:

TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。名詞的TF-IDF值越大說明這些名詞對這篇文章的區(qū)分度越高。30.建立在相關關系分析法基礎上的預測是大數(shù)據(jù)的()。A、基礎B、前提C、核心D、條件【正確答案】:C解析:

略。31.隨機森林中的隨機是指()。A、隨便構建樹模B、隨機選擇一個樹模型C、隨機選擇多個樹模型D、在構建每個樹模型時隨機選擇樣本和特征【正確答案】:D解析:

隨機森林里的隨機包含的意思是樣本隨機、特征隨機、參數(shù)隨機、模型隨機(ID3,C4.5)。32.線性模型中的權重w可以看做各個屬性x的()。A、正則化系數(shù)B、對最終決策結果的貢獻度C、高維映射D、取值【正確答案】:B33.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:

窄依賴定義。34.下列具體任務中不屬于情感分析的具體任務是哪項()A、情感分類B、觀點抽取C、觀點問答D、段落匹配【正確答案】:D解析:

情感分析又稱意見挖掘、傾向性分析等,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,包括情感分類、觀點抽取、觀點問答等,沒有段落匹配。35.下列不屬于數(shù)據(jù)科學與統(tǒng)計學區(qū)別的是(A、數(shù)據(jù)科學中的數(shù)據(jù)不僅僅是數(shù)值B、數(shù)據(jù)科學關注的不僅僅是“單一學科”問題,超出了數(shù)學、統(tǒng)計學、計算機科學等單一學科的范疇C、數(shù)據(jù)科學不僅僅是理論研究,也不是純領域實務知識,它關注和強調的是二者的結合D、數(shù)據(jù)科學和統(tǒng)計學中的計算一樣,僅僅是加減乘除【正確答案】:D解析:

數(shù)據(jù)科學中的計算并不僅僅是加/減/乘/除等數(shù)學計算,而是包括數(shù)據(jù)的查詢、挖掘、洞見、分析、可視化等更多類型的計算。36.基于詞的N元文法模型,其最后的粗分結果集合大?。ǎ㎞A、大于B、大于等于C、小于D、小于等于【正確答案】:B解析:

基于N-最短路徑分詞算法,其基本思想是根據(jù)詞典,找出字串中所有可能的詞,構造詞語切分有向無環(huán)圖。每個詞對應圖中的一條有向邊,并賦給相應的邊長(權值)。然后針對該切分圖,在起點到終點的所有路徑中,求出長度并按嚴格升序排列(任何兩個不同位置上的值一定不等,下同)依次為第1,第2,…,第i,…,第N的路徑集合作為相應的粗分結果集。如果兩條或兩條以上路徑長度相等,那么他們的長度并列第i,都要列入粗分結果集,而且不影響其他路徑的排列序號,最后的粗分結果集合大小大于等于N。37.將觀測值分為相同數(shù)目的兩部分,當統(tǒng)計結果為非對稱分布時經(jīng)常使用的是()。A、眾數(shù)B、標準差C、中位數(shù)D、均值【正確答案】:C解析:

中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值。38.下列關于新舊MapReduccAPI的描述錯誤的是()。A、新API放在org.apachB、hadoop.mapreduce包中,而舊API則是放在org.apachC、hadoop.mapred中D、新AP1傾向于使用接口方式,而舊API傾向于使用抽象類E、新API使用Configuration,而舊API使用JobConf來傳遞配置信息F、新API可以使用Job對象來提交作業(yè)【正確答案】:B解析:

在新API中,原來的大量接口都被改成了抽象類。所以使用新API編寫MapReduce程序時,都是由實現(xiàn)接口變成抽象類,因此B錯。39.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。40.()表達了在當前任務上任何學習算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。A、偏差B、方差C、噪聲D、泛化誤差【正確答案】:C解析:

泛化誤差可分解為偏差、方差與噪聲之和。偏差度量了學習算法的期望預測與真實結果的偏離程度,即刻畫了學習算法本身的擬合能力;方差度量了同樣大小的訓練集的變動所導致的學習性能的變化,即刻畫了數(shù)據(jù)擾動所造成的影響;噪聲則表達了在當前任務上任何學習算法所能達到的期望泛化誤差的F界,即刻畫了學習問題本身的難度。41.因子分析把每個原始變量分解為()兩部分因素。A、公共因子和特殊因子B、特殊因子和相關因子C、相關因子和獨立因子D、獨立因子和公共因子【正確答案】:A解析:

因子分析把每個原始變量分解為公共因子和特殊因子兩部分因素。42.下列不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動經(jīng)濟轉型發(fā)展的新動力B、大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會增加經(jīng)濟發(fā)展的成本【正確答案】:D解析:

大數(shù)據(jù)可以促進經(jīng)濟的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)決策、降低運營成本、精準市場的營銷方面都能發(fā)揮作用,進一步提升企業(yè)競爭力。43.()算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項目集的算法。A、FP-growthB、EClatC、聚類D、Apdori【正確答案】:D解析:

Apdori算法是一種最有影響的挖掘關聯(lián)規(guī)則頻繁項目集的算法。44.過濾式特征選擇、包裹式特征選擇與學習器的關系分別是()。A、相關,相關B、相關,不相關C、不相關,相關D、不相關,不相關【正確答案】:C解析:

過濾式特征選擇先對數(shù)據(jù)集進行特征選擇,然后再訓練學習器,特征選擇過程與后續(xù)學習器無關。包裹式特征選擇把最終將要使用的學習器的性能作為特征子集的評價準則。45.下列關于文本分類的說法不正確的是()。A、文本分類是指按照預先定義的主題類別,由計算機自動地為文檔集合中的每個文檔確定一個類別B、文本分類系統(tǒng)大致可分為基于知識工程的分類系統(tǒng)和基于機器學習的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構建,該模型考慮了文本詞語的行文順序D、構建文本的向量形式可以歸結為文本的特征選擇與特征權重計算兩個步驟【正確答案】:C解析:

詞袋模型沒有考慮文本詞語的原本行文順序。46.隨機森林是在()上的一個擴展變體。A、BoostingB、AdasBoostC、RFD、Bagging【正確答案】:D47.()不是專門用于可視化時間空間數(shù)據(jù)的技術A、等高線圖B、餅圖C、曲面圖D、矢量場圖【正確答案】:B解析:

解析:餅圖可用于可視化多維度數(shù)據(jù),如電網(wǎng)財務開支,并不是專門用于可視化時間空間數(shù)據(jù)的技術。48.決策樹中的葉結點對應于()。A、屬性B、樣本C、決策結果D、標簽值【正確答案】:C49.Spark的特點不包括()。A、速度快B、通用性C、易用性D、單一操作性【正確答案】:D解析:

Spark是一個快速、通用和易于使用的計算平臺。50.語音識別的應用場景包括()A、語音轉文本B、語音合成C、人機交互D、以上答案都正確【正確答案】:D解析:

語音識別應用包含語音轉文本,音合成和人機交互等。51.在神經(jīng)網(wǎng)絡中引入了非線性的是()A、隨機梯度下降B、修正線性單元(ReLU)C、卷積函數(shù)D、以上答案都不正確【正確答案】:B解析:

解析:ReLU是目前最常用的激勵函數(shù),增加了神經(jīng)網(wǎng)絡模型的非線性。52.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的(不可恢復,如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。A、暫時隔離B、暫時刪除C、永久刪除D、不做處理【正確答案】:C解析:

數(shù)據(jù)銷毀環(huán)節(jié)的安全技術措施有通過軟件或物理方式保障磁盤中存儲數(shù)據(jù)的永刪除、不可恢復,如數(shù)據(jù)銷毀軟件、硬盤消磁機、硬盤粉碎機等。53.Sigmoid函數(shù)作為神經(jīng)元激活函數(shù)的特點是()A、連續(xù)但不光滑B、不連續(xù)但光滑C、連續(xù)且光滑D、不連續(xù)且不光滑【正確答案】:C54.輸入圖像為37x37,經(jīng)過第一層卷積(thenumberoffilteters=25,kemelsizesize=5x5,,paddingvalid,strid)與池化層maxpooling(kemelsimelsize=3x3,,padding=valid),輸出特征圖rde=l大小為()A、10x10B、11x11C、12x12D、13x13【正確答案】:B解析:

解析:(37-5+1)/3=11。55.為了降低MapRcduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段的輸出進行處理。A、sort()B、combiner()C、join()D、gather()【正確答案】:B解析:

為了降低數(shù)據(jù)傳遞量,采用combiner()函數(shù)對map()函數(shù)的數(shù)據(jù)結果進行合并處理。56.下列關于描述性分析與探索性分析的描述正確的是()。A、描述性分析是相對于驗證性分析的一種提法B、探索性分析是驗證性分析的基礎C、探索性分析是相對于驗證性分析的一種提法D、探索性分析是數(shù)據(jù)分析的第一步【正確答案】:C解析:

描述性分析與探索性分析兩者的區(qū)別:

(1)描述性分析(DescriptiveAnalytics)是相對于診斷性分析、預測性分析和規(guī)范性分析的一種提法,主要指的是對一組數(shù)據(jù)的各種統(tǒng)計特征(如平均數(shù)、標準差、中位數(shù)、頻數(shù)分布、正態(tài)或偏態(tài)程度等)進行分析,以便描述測量樣本的各種特征及其所對應總體的特征。

(2)探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是相對于驗證性分析的一種提法,主要指的是指在盡量少的先驗假定下,對已有的數(shù)據(jù)(特別是調查或觀察得來的原始數(shù)據(jù))進行探索,并通過作圖、制表、方程擬合、計算特征量等較為簡單的方法,探索數(shù)據(jù)的結構和規(guī)律的一種數(shù)據(jù)分析方法。57.在支持向量機中,()允許支持向量機在一些樣本上出錯。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:B解析:

在支持向量機中,軟間隔允許支持向量機在一些樣本上出錯。58.如果自變量X和因變量Y之間存在高度的非線性和復雜關系,那么樹模型很可能優(yōu)于經(jīng)典回歸方法。則以上說法()。A、正確B、錯誤C、無法確定D、模型效果差別不大【正確答案】:A解析:

當數(shù)據(jù)非線性時,經(jīng)典回歸模型泛化能力不強,而基于樹的模型通常表現(xiàn)更好。59.診斷性分析主要采取的分析方法是()。A、關聯(lián)分析法和因果分析法B、關聯(lián)分析法和分類分析法C、關聯(lián)分析法和運籌學D、因果分析法和分類分析法【正確答案】:A解析:

診斷性分析主要關注過去,回答為什么發(fā)生,主要采用關聯(lián)分析法和因果分析60.圖像平滑會造成()A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確【正確答案】:A解析:

為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實際上是低通濾波,平滑過程會導致圖像邊緣模糊化。61.下列關于KNN算法的過程:①計算訓練樣本和測試樣本中每個樣本點的距離(常見的距離度量有歐式距離、馬氏距離等);②對上面所有的距離進行排序;③選前k個最小距離的樣本;④根據(jù)這k個樣本的標簽進行投票,得到最后的分類類別。正確的排序為()。A、①③②④B、②④①③C、①②③④D、①②④③【正確答案】:C62.二值圖像中的分支點的連接數(shù)為()A、0B、1C、2D、3【正確答案】:D解析:

二值圖像中連接數(shù)為0的像素為孤立點或內點。連接數(shù)為1的像素為端點或邊界點。連接數(shù)為2的像素為連接點。連接數(shù)為3的像素為分支點。63.通常來說,()能夠用來預測連續(xù)因變量。A、線性回歸B、邏輯回歸C、線性回歸和邏輯回歸D、以上答案都不正確【正確答案】:A解析:

邏輯回歸被用來處理分類問題。64..卷積神經(jīng)網(wǎng)絡(convolutionalneuralnetwork,CNN)是一種專門用來處理具有類似()的數(shù)據(jù)的神經(jīng)網(wǎng)絡。A、網(wǎng)格結構B、數(shù)組結構C、序列結構D、表格結構【正確答案】:A65.當訓練樣本近似線性可分時,()。A、通過硬間隔最大化,學習一個非線性支持向量機B、通過軟間隔最大化,學習一個線性支持向量機C、通過硬間隔最大化,學習一個線性支持向量機D、通過軟間隔最大化,學習一個非線性支持向量機【正確答案】:B66.下列關于TF-IDF說法正確的是()A、該值與特征項在文檔中出現(xiàn)的頻率成反比B、該值與特征項在文檔中出現(xiàn)的頻率成正比C、該值與在整個語料庫中出現(xiàn)該特征項的文檔庫成正比D、該值與特征項在文檔中出現(xiàn)的頻率無關【正確答案】:B解析:

TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術。TF是詞頻(TermFrequency)意思,IDF是逆文本頻率指數(shù)(InverseDocumentFrequency)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度意思。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。A中應是成正比,C中應是成反比,B正確。67.下列描述中不屬于數(shù)據(jù)治理內容的是()。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責的定義D、獲得更多的數(shù)據(jù)【正確答案】:D解析:

獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。68.()情況下,LDA會失敗。A、如果有辨識性的信息不是平均值,而是數(shù)據(jù)的方差B、如果有辨識性的信息是平均值,而不是數(shù)據(jù)方差C、如果有辨識性的信息是數(shù)據(jù)的均值和方差D、以上答案都不正確【正確答案】:A解析:

LDA的思想是投影后類內方差最小、類間方差最大。69.令N為數(shù)據(jù)集的大小[注:設訓練樣本((x1,yi),N即訓練樣本個數(shù)],d是輸入空間的維數(shù)(注:d即向量x,的維數(shù))。則硬間隔SVM問題的原始形式[即在不等式約束最小化(1/2)ww]在沒有轉化為拉格朗日對偶問題之前是()。A、一個含N個變量的二次規(guī)劃問題B、一個含N+1個變量的二次規(guī)劃問題C、一個含d個變量的二次規(guī)劃問題D、一個含d+1個變量的二次規(guī)劃問題【正確答案】:D解析:

欲找到具有最大間隔的劃分超平面,也就是要找到能滿足題中不等式約束的參數(shù)w和b,是一個含d+1個變量的二次規(guī)劃問題。70.下面色彩空間中,最接近人的視覺系統(tǒng)的特點的是哪個()A、RGB空間B、CMY空間CMYK空間D、HSI空間【正確答案】:D解析:

HSI反映了人的視覺系統(tǒng)感知彩色的方式,以色調、飽和度和亮度三種基本特征量來感知顏色,最接近人的視覺系統(tǒng)特征。71.線性判別分析在二分類問題上也稱為()。A、線性回歸B、對數(shù)幾率回歸C、Fisher判別分析D、主成分分析【正確答案】:C解析:

線性判別分析在二分類問題上也稱為Fisher判別分析。72.下列關于RBM的說法錯誤的是()A、學習過程很快B、RBM訓練可以看作對一個深層BP網(wǎng)絡的網(wǎng)絡權值參數(shù)的初始化C、RBM不用人工選擇特征D、RBM有標簽樣本集【正確答案】:A解析:

解析:RBM學習率更新相比DBN速度較慢。73.()是指為最小化總體風險,只需在每個樣本上選擇能使特定條件風險最小的類別標記。A、支持向量機B、間隔最大化C、線性分類器D、貝葉斯判定準則【正確答案】:D74.下列關于Boosting的說法錯誤的是()。A、Boosting方法的主要思想是迭代式學習B、訓練基分類器時采用并行的方式C、測試時,根據(jù)各層分類器的結果的加權得到最終結果D、基分類器層層疊加,每一層在訓練時,對前一層基分類器分錯的樣本給予更高的權值【正確答案】:B解析:

Boosing訓練基分類器時只能采用順序的方式,Bagging訓練基分類器時采用并行的方式。75.采樣分析的精確性隨著采樣隨機性的增加而(),但與樣本數(shù)量的增加關系不大。A、降低B、不變C、提高D、無關【正確答案】:C解析:

采樣分析的精確性隨著采樣隨機性的增加而提高,但與樣本數(shù)量的增加關系不大。當樣本數(shù)量達到某個值后,我們從新個體上得到的信息會越來越少。76.()計算框架源自--種分布式計算模型,其輸入和輸出值均為鍵值對結構。A、MahoutB、MapReduceC、SparkD、Sqoop【正確答案】:B解析:

MapReduce定義。77.機器學習訓練時,Mini-Batch的大小優(yōu)選為2的冪,如256或512。它背后的原因是()。A、Mini-Batch為偶數(shù)的時候,梯度下降算法訓練的更快B、Mini-Batch設為2的冪,是為了符合CPU、GPU的內存要求,利于并行化處理C、不使用偶數(shù)時,損失函數(shù)是不穩(wěn)定的D、以上答案都不正確【正確答案】:B78.假負率是指()。A、正樣本預測結果數(shù)/正樣本實際數(shù)B、被預測為負的正樣本結果數(shù)/正樣本實際數(shù)C、被預測為正的負樣本結果數(shù)/負樣本實際數(shù)D、負樣本預測結果數(shù)/負樣本實際數(shù)【正確答案】:B79.關系云的一個重要功能是提供()。A、數(shù)據(jù)庫即服務B、虛擬服務C、彈性計算D、按需服務【正確答案】:A解析:

關系云的一個重要功能是提供數(shù)據(jù)庫即服務(DatabaseasaService),用戶無須在本機安裝數(shù)據(jù)庫管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務提供商提供的數(shù)據(jù)庫服務。80.()算法是分類算法。A、DBSCANB、C4.5C、K-meansD、EM【正確答案】:B解析:

C4.5是分類算法;DBSCAN、K-means、EM是聚類算法。81.()不是長短時記憶神經(jīng)網(wǎng)絡三個門中的一個門A、輸入門B、輸出門C、遺忘門D、進化門【正確答案】:D解析:

解析:長短時記憶神經(jīng)網(wǎng)絡(LSTM)增加了三個門用來控制信息傳遞和最后的結果計算,三個門分別為遺忘門、輸入門、輸出門。82.下列說法錯誤的是()。A、當目標函數(shù)是凸函數(shù)時,梯度下降算法的解一般就是全局最優(yōu)解B、進行PCA降維時,需要計算協(xié)方差矩陣C、沿負梯度的方向一定是最優(yōu)的方向D、利用拉格朗日函數(shù)能解帶約束的優(yōu)化問題【正確答案】:C解析:

沿負梯度的方向是函數(shù)值減少最快的方向但不一定就是最優(yōu)方向。83.隨機森林與Bagging中基學習器多樣性的區(qū)別是()。A、都來自樣本擾動B、都來自屬性擾動C、來自樣本擾動和屬性擾動D、多樣本集結合【正確答案】:C解析:

Bagging中基學習器的多樣性僅來自樣本擾動(自助采樣),隨機森林中基學習器的多樣性不僅來自樣本擾動,還來自屬性擾動。84.數(shù)據(jù)的原始內容及其備份數(shù)據(jù)是數(shù)據(jù)產(chǎn)品研發(fā)的()。A、零次數(shù)據(jù)B、一次數(shù)據(jù)C、二次數(shù)據(jù)D、采集數(shù)據(jù)【正確答案】:A解析:

零次數(shù)據(jù)是數(shù)據(jù)的原始內容及其備份數(shù)據(jù),如各種感知儀器設備中直接生成的數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質量問題。85.假設一個線性回歸模型完美適合訓練數(shù)據(jù)(訓練誤差為0),則下列說法正確的是()。A、測試集誤差一直為0B、測試集誤差可能為0C、測試集誤差不會為0D、以上都不對【正確答案】:B解析:

假如測試數(shù)據(jù)里面沒有噪聲數(shù)據(jù),則測試誤差有可能為0。或者說,如果測試數(shù)據(jù)能夠完美表征訓練數(shù)據(jù)集,則測試誤差即可為0,但測試數(shù)據(jù)不會總這樣。86.下列關于可視化方法體系的說法不正確的是()。A、通常采用視覺圖形元素和視覺通道兩個維度進行視覺編碼B、常用的共性方法有統(tǒng)計圖表、圖論方法、視覺隱喻和圖形符號學等C、領域方法在所屬領域內其可視化的信度和效果往往低于基礎方法的直接應用D、視覺編碼為其他數(shù)據(jù)可視化方法提供了方法學基礎【正確答案】:C解析:

領域方法在所屬領域內其可視化的信度和效果高于基礎方法的直接應用。87.下列能夠直觀顯示出學習器在樣本總體上的查全率、查準率的是()。A、ROC曲線B、誤差曲線C、方差曲線D、P-R曲線【正確答案】:D88.為了允許支持向量機在一些樣本上出錯,引入()的概念。A、軟間隔B、硬間隔C、間隔D、誤差【正確答案】:A89.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。90.Spark核心層主要關注的問題是().A、存儲B、計算C、傳輸D、連接【正確答案】:B解析:

Spark核心層定義,Spark核心層主要關注計算問題。91.RDD中的數(shù)據(jù)被()在集群中,使得任務可以并行執(zhí)行。A、順序存儲B、連續(xù)存儲C、分塊存儲D、分區(qū)存儲【正確答案】:D解析:

RDD為分區(qū)存儲。92.以下現(xiàn)象不能直接通過低通濾波器解決的是()A、低分辨率文本圖像中出現(xiàn)的字符斷裂問題B、指紋圖像中的去污染問題C、人臉圖像中需要美容的去皺紋問題D、遙感圖像中的掃描線濾除問題【正確答案】:B93.進行主成分分析的前提條件是各變量間()。A、高度相關B、低度相關C、相互獨立D、完全相關【正確答案】:B94.下列說法中:①一個機器學習模型,如果有較高準確率,總是說明這個分類器是好的;②如果增加模型復雜度,那么模型的測試錯誤率總是會降低;③如果增加模型復雜度,那么模型的訓練錯誤率總是會降低。正確的是()。)A、①B、②C、③D、①③【正確答案】:B解析:

如果增加模型復雜度,那么模型的測試錯誤率總是會降低,訓練錯誤率可能降低,也可能增高。95.MapReduce計算框架的輸入數(shù)據(jù)結構是()。A、kcy-valucB、input-outputC、map-reduceD、key-column【正確答案】:A解析:

MapReduce計算框架的輸入是鍵值對,即key-value。96.下列不屬于數(shù)據(jù)預處理方法的是()。A、數(shù)據(jù)清洗B、數(shù)據(jù)集成C、數(shù)據(jù)變換D、數(shù)據(jù)統(tǒng)計【正確答案】:D解析:

數(shù)據(jù)統(tǒng)計并非為數(shù)據(jù)預處理的常見內容。97.()的主要目標是提供可擴展的機器學習算法及其實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn),如聚類、分類、推薦過濾、頻繁子項挖掘等。98.下列基本活動中不屬于數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要特別注意的是()。A、創(chuàng)造性設計B、數(shù)據(jù)洞見C、虛擬化D、個性化描述【正確答案】:D解析:

數(shù)據(jù)產(chǎn)品開發(fā)工作之中需要注意有創(chuàng)造性設計、數(shù)據(jù)洞見、虛擬化等基本活動。99.下列關于PCA的說法中:①我們須在使用PCA前標準化數(shù)據(jù);②我們應該選擇使得模型有最大variance的主成分;③我們應該選擇使得模型有最小variance的主成分;④我們可以使用PCA在低維度上做數(shù)據(jù)可視化。正確的是()。A、①②④B、②④C、③④D、①③【正確答案】:A解析:

須在使用PCA前標準化數(shù)據(jù),應選擇使得模型有最大variance的主成分,PCA在低維度上做數(shù)據(jù)可視化。100.二維圖像可用二維函數(shù)表示,下列說法正確地是()A、二維函數(shù)值表示點的灰度值B、對于模擬圖像來講,是離散函數(shù)C、x,y不是平面的二維坐標D、以上答案都不正確【正確答案】:A解析:

二維函數(shù)值表示像素點的灰度值。模擬圖像的二維函數(shù)是連續(xù)的,數(shù)字圖像的是離散的。(x,y)是平面二維坐標,表示的是圖像的橫縱方向。1.下列關于深度學習的實質及其與淺層學習區(qū)別的說法正確的有()A、深度學習強調模型深度B、深度學習突出特征學習的重要性:特征變換+非人工C、沒有區(qū)別D、以上答案都不正確【正確答案】:AB解析:

解析:深度模型是手段,特征學習是目的。2.Spark的技術架構可以分為()。A、資源管理層B、Spark核心層C、應用層D、服務層【正確答案】:ABD解析:

Spark的技術架構可以分為資源管理層、Spark核心層和服務層三層。3.下列關于L1和L2范數(shù)的描述正確的有()。)A、L1范數(shù)為x向量各個元素絕對值之和B、L2范數(shù)為x向量各個元素平方和的1/2次方,L2范數(shù)又稱Euclidean范數(shù)或Frobenius范數(shù)C、L1范數(shù)可以使權值稀疏,方便特征提取D、L2范數(shù)可以防止過擬合,提升模型的泛化能力【正確答案】:ABCD解析:

LO是指向量中非0的元素的個數(shù),L1范數(shù)是指向量中各個元素絕對值之和,L2范數(shù)向量元素絕對值的平方和再開平方。L1范數(shù)可以使權值稀疏,方便特征提取。L2范數(shù)可以防止過擬合,提升模型的泛化能力。4.下列屬于大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)的方面有()。A、具有勞動增值B、涉及法律權屬C、具有財務價值D、涉及道德與倫理【正確答案】:ABCD解析:

大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動增值、涉及法律權屬、具有財務價值、涉及道德與倫理。5.在假設檢驗中,當原假設為偽,但數(shù)據(jù)分析人員沒有拒絕它時犯的錯誤叫()。A、a錯誤B、β錯誤C、取偽錯誤D、棄真錯誤【正確答案】:BC解析:

a錯誤(棄真錯誤):當原假設為真時,但我們錯誤地認為“原偶的”,進而導致拒絕這個正確假設;β錯誤(取偽錯誤):當原假設為假時,但我們錯誤地認為“原假設是成立的”,進而導致接受此錯誤假設。6.Spark組件包含()兩個算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:

Spark針對RDD提供了多種基礎操作,可以大致分為Action和Transformation兩種。7.下列關于數(shù)據(jù)流轉和應用的說法正確的有()。A、數(shù)據(jù)流轉和應用過程中應確??勺匪?、可復查B、前序環(huán)節(jié)應保證數(shù)據(jù)的真實、完整C、前序環(huán)節(jié)應及時傳遞到后序環(huán)節(jié)D、前后環(huán)節(jié)數(shù)據(jù)應保持銜接一致【正確答案】:ABCD解析:

數(shù)據(jù)流轉和應用主要包括可追溯、可復查,數(shù)據(jù)真實、完整,環(huán)節(jié)銜接完整,環(huán)節(jié)銜接數(shù)據(jù)一致。8.可視分析學的特點包含()。A、強調數(shù)據(jù)到知識的轉換過程B、強調可視化分析與自動化建模之間的相互作用C、強調數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性D、強調數(shù)據(jù)加工(DataWrangling或DataMunging)工作的必要性E、強調人機交互的重要性【正確答案】:ABCDE解析:

從可視分析學模型可以看出,可視分析學的流程具有如下特點:①強調數(shù)據(jù)到知識的轉換過程??梢暬治鰧W中對數(shù)據(jù)可視化工作的理解發(fā)生了根本性變化-數(shù)據(jù)可視化的本質是將數(shù)據(jù)轉換為知識,而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上。從數(shù)據(jù)到知識的轉換途徑有可視化分析和自動化建模兩種。②強調可視化分析與自動化建模之間的相互作用。二者的相互作用主要體現(xiàn)在:一方面,可視化技術可用于數(shù)據(jù)建模中的參數(shù)改進的依據(jù);另一方面,數(shù)據(jù)建模也可以支持數(shù)據(jù)可視化活動,為更好地實現(xiàn)用戶交互提供參考。③強調數(shù)據(jù)映射和數(shù)據(jù)挖掘的重要性。從數(shù)據(jù)到知識轉換的兩種途徑-可視化分析與自動化建模分別通過數(shù)據(jù)映射和數(shù)據(jù)挖掘兩種不同方法實現(xiàn)。因此,數(shù)據(jù)映射和數(shù)據(jù)挖掘技術是數(shù)據(jù)可視化的兩個重要支撐技術。用戶可以通過兩種方法的配合使用實現(xiàn)模型參數(shù)調整和可視化映射方式的改變,盡早發(fā)現(xiàn)中間步驟中的錯誤,進而提升可視化操作的信度與效度。④強調數(shù)據(jù)加工工作的必要性。數(shù)據(jù)可視化處理之前一般需要對數(shù)據(jù)進行預處理(轉換)工作,且預處理活動的質量將影響數(shù)據(jù)可視化效果。⑤強調人機交互的重要性??梢暬^程往往涉及人機交互操作,需要重視人與計算機在數(shù)據(jù)可視化工作中的互補性優(yōu)勢。因此,人機交互以及人機協(xié)同工作也將成為未來數(shù)據(jù)可視化研究與實踐的重要手段。9.下列描述屬于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡的性質有()。A、上一時刻的網(wǎng)絡狀態(tài)信息將會作用于下一時刻的網(wǎng)絡狀態(tài)B、并行處理序列中的所有信息C、容易梯度爆炸/消失D、易于搭建【正確答案】:AC解析:

解析:循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetwork,RNN)是一類以序列(sequence)數(shù)據(jù)為輸入,在序列的演進方向進行遞歸(recursion)且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(recursiveneuralnetwork)。循環(huán)神經(jīng)網(wǎng)絡在誤差梯度在經(jīng)過多個時間步的反向傳播后容易導致極端的非線性行為,包括梯度消失(gradientvanishing)和梯度爆炸(gradientexplosion)。實踐中,梯度爆炸雖然對學習有明顯的影響,但較少出現(xiàn),使用梯度截斷可以解決。梯度消失是更常見的問題且不易察覺,發(fā)生梯度消失時,循環(huán)神經(jīng)網(wǎng)絡在多個時間步后的輸出幾乎不與序列的初始值有關,因此無法模擬序列的長距離依賴(long-termdependency)。在數(shù)值試驗中,SRN對時間步跨度超過20的長距離依賴進行成功學習的概率接近于0。恰當?shù)臋嘀爻跏蓟╳eightinitialization)或使用非監(jiān)督學習策略,例如神經(jīng)歷史壓縮器(NHC)可提升循環(huán)神經(jīng)網(wǎng)絡學習長距離依賴的能力,但對更一般的情形,循環(huán)神經(jīng)網(wǎng)絡發(fā)展了一系列優(yōu)化策略,其中有很多涉及網(wǎng)絡結構的改變和算法的改進。10.Spark中的Scheduler模塊可以分為()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。11.在Hive架構中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:

Hive提供簡單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。12.Web內容挖掘實現(xiàn)技術包括()A、文本總結B、文本分類C、文本機器學習D、關聯(lián)規(guī)則【正確答案】:ABCD13.以下網(wǎng)絡結構中可以應用于圖像識別任務的是()A、LeNet-5B、AlexNetCNND、VGG-net【正確答案】:ABCD解析:

四者均為經(jīng)典的卷積神經(jīng)網(wǎng)絡。14.下列說法正確的有()。A、條件獨立性假設不成立時,樸素貝葉斯分類器仍有可能產(chǎn)生最優(yōu)貝葉斯分類器B、在估計概率值時使用的拉普拉斯修正避免了因訓練集樣本不充分而導致概率估值為零的問題C、由于馬爾可夫鏈通常很快就能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度很快D、二分類任務中兩類數(shù)據(jù)滿足高斯分布且方差相同時,線性判別分析產(chǎn)生貝葉斯最優(yōu)分類器【正確答案】:ABD解析:

由于馬爾可夫鏈通常需要很長時間才能趨于平穩(wěn)分布,因此吉布斯采樣算法的收斂速度較慢。15.假設檢驗中,首先需要提出零假設和備擇假設,下列關于零假設和備擇假設的描述正確的有()。A、零假設是只有出現(xiàn)的概率大于閾值才會被拒絕的;備擇假設是只有零假設出現(xiàn)的概率大于閾值才會被承認的B、零假設是希望推翻的結論;備擇假設是希望證明的結論C、零假設是只有出現(xiàn)的概率小于閾值才會被拒絕的;備擇假設是只有零假設出現(xiàn)的概率小于閾值才會被承認的D、零假設是希望證明的結論;備擇假設是希望推翻的結論【正確答案】:BC解析:

略16.如果將A、B、C三個分類器的P-R曲線畫在一個圖中,其中A、B的P-R曲線可以完全包含住C的P-R曲線,A、B的P-R曲線有交點,A、B、C的平衡點分別為0.79、0.66、0.58,則下列說法中正確的有()。A、學習器A的性能優(yōu)于學習器CB、學習器A的性能優(yōu)于學習器BC、學習器B的性能優(yōu)于學習器CD、學習器C的性能優(yōu)于學習器B【正確答案】:ABC解析:

若一個學習器的P-R曲線被另一個學習器的曲線完全包住,則可斷官后者的性能優(yōu)于前者,如果兩個學習器的P-R曲線發(fā)生了交叉,則可用平衡點度量。17.下列描述中正確的有()。A、統(tǒng)計學是數(shù)據(jù)科學的理論基礎之一B、Python語言是統(tǒng)計學家發(fā)明的語言C、機器學習是數(shù)據(jù)科學的理論基礎之一D、數(shù)據(jù)科學是統(tǒng)計學的一個分支領域(子學科)【正確答案】:AC解析:

Python發(fā)明者是GuidoVanRossum,并非為統(tǒng)計學家;數(shù)據(jù)科學是一門獨立學科,已經(jīng)超出了統(tǒng)計學一個學科的研究范疇,并非為統(tǒng)計學的一個分支。18.長短時記憶神經(jīng)網(wǎng)絡三個門是()A、進化門B、輸出門C、輸入門D、遺忘門【正確答案】:BCD解析:

解析:LSTM擁有三個門(輸入門、遺忘門、輸出門)用來保護和控制細胞狀態(tài)。

20019.下列跟人工智能場景相關的是()A、圖像識別B、人臉識別C、語音識別D、語義分析【正確答案】:ABCD解析:

人工智能的概念很廣義,圖像識別、人臉識別、語音識別、語義分析都屬于人工智能的應用場景。20.下列關于探索型數(shù)據(jù)分析常用圖表的說法正確的有()。A、絕大部分情況下使用餅圖代替條形圖能更加直觀地展示數(shù)據(jù)之間的特征和對比B、探索型數(shù)據(jù)分析常用的圖表包括條形圖、直方圖、餅圖、折線圖、散點圖、箱型圖等C、在探索型數(shù)據(jù)分析時應該盡量避免使用餅圖,然而在數(shù)據(jù)報告中可以使用餅圖達到更加美觀的效果D、直方圖和箱型圖都可以用來展示數(shù)據(jù)的分布情況【正確答案】:BCD解析:

數(shù)據(jù)之間的特征和對比使用條形圖可更加直觀地展示數(shù)據(jù)。21.對于主成分分析方法,確定降維后低維空間的維數(shù)d的方法有()。A、由用戶事先指定B、通過在d不同的低維空間中對開銷較小的學習器進行交叉驗證來選取C、可從重構的角度設置一個重構閾值,選取使得特定公式成立的最小值D、隨機設置【正確答案】:ABC解析:

降維后低維空間的維數(shù)通常是由用戶事先指定,或通過在d不同的低維空間中對k近鄰分類器(或其他開銷較小的學習器)進行交叉驗證來選取較好的d。還可從重構的角度設置一個重構閾值,選取使得特定公式成立的最小值。22.Spark的關鍵技術包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:

Spark的關鍵技術包括RDD、Schedulcr、Storagc、Shuffc。23.影響Apriori算法的計算復雜度的有()。A、支持度閾值B、項數(shù)(維度)C、事務數(shù)D、事務平均寬度【正確答案】:ABCD24.下列關于非頻繁模式的說法正確的有()。A、其支持度小于閾值B、都是不讓人感興趣的C、包含負模式和負相關模式D、對異常數(shù)據(jù)項敏感【正確答案】:AD解析:

非頻繁模式是一個項集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及數(shù)據(jù)中的負相關時。非頻繁模式對異常數(shù)據(jù)項敏感。25.下列屬于字符串匹配的分詞方法的是()A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的詞數(shù)最?。〥、雙向最大匹配法(進行由左到右、由右到左兩次掃描)【正確答案】:ABCD解析:

正向最大匹配、逆向最大匹配、最少切分、雙向最大匹配都屬于字符串匹配的常用方法。26.決策樹在()情況下會導致遞歸返回。A、當前節(jié)點包含的樣本全屬于同一類B、當前屬性集為空C、當前節(jié)點包含的樣本集合為空D、所有樣本在所有屬性上取值相同【正確答案】:ABCD解析:

決策樹的生成是一個遞歸過程。在決策樹基本算法中,有三種情形會導致遞歸返回:①當前節(jié)點包含的樣本全屬于同一類別,無須劃分;②當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;③當前節(jié)點包含的樣本集合為空,不能劃分。27.下列關于特征的稀疏性的說法正確的有()。A、稀疏性指的是矩陣中有許多列與當前學習任務無關B、稀疏樣本可減少學習任務的計算開銷C、學習任務難度可能有所降低D、稀疏矩陣沒有高效的存儲方法【正確答案】:ABC解析:

在一個矩陣中,若非零元素的個數(shù)遠遠小于零元素的個數(shù),且非零元素的分布沒有規(guī)律,則稱之為稀疏矩陣。為了節(jié)省存儲空間并且加快并行程序處理速度,可對稀疏矩陣進行壓縮存儲。28.假設一個隨機變量服從正態(tài)分布,則與隨機變量的概率分布有關的有()。A、眾數(shù)B、頻數(shù)C、平均值D、方差【正確答案】:CD解析:

正態(tài)分布一般用均值和方差來刻畫。29.數(shù)據(jù)故事化描述應遵循的基本原則有()。A、忠于原始數(shù)據(jù)原則B、設定共同場景原則C、有效性利用原則D、3C精神原則【正確答案】:ABCD解析:

數(shù)據(jù)的故事化描述應遵循的基本原則包括忠于原始數(shù)據(jù)原則、設定共同情景原則、體驗式講述原則、個性化定制原則、有效性利用原則、3C精神原則。30.特征選擇在子集生成與搜索方面引入了人工智能搜索技術和子集評價方法。其中人工智能搜索技術有()。A、分支界限法B、浮動搜索法C、信息熵D、AIC【正確答案】:ABCD解析:

特征選擇在子集生成與搜索方面引入了很多人工智能搜索技術,如分支界限法、浮動搜索法等;在子集評價方法則采用了很多源于信息論的準則,如信息熵、AIC等。31.下列關于MapReduce1.0版本的說法正確的有()。A、擴展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:

MapReducel.0存在的局限性包括擴展性差、可靠性差、資源利用率低、無法支持多種計算框架。32.下列關于Pig的說法正確的有()。A、彌補MapReduce編程復雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:

Pig建立在MapRcduce之上,主要目的是彌補MapRcduce編程的復雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結構適用于并行處理。33.下列關于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法正確的有()。A、一個客服一天可能接聽到多少個電話是一個連續(xù)型隨機變量B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布C、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分布D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1【正確答案】:BCD解析:

一個客服一天可能接聽到多少個電話是一個離散型隨機變量。34.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:

Spark的基本流程主要涉及DriverProgram(驅動程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作節(jié)點)、Executor(執(zhí)行器)和Cache(緩存)等角色。

-.35.大數(shù)據(jù)參考架構的三個層次包含()。A、角色B、活動C、邏輯構件D、功能組件【正確答案】:ABD解析:

GB/T35589-2017《信息技術大數(shù)據(jù)技術參考模型》描述了大數(shù)據(jù)的參考架構,包括角色、活動的功能組件以及它們之間的關系。36.算法“歧視”現(xiàn)象可能出現(xiàn)的過程有()。A、算法設計B、算法實現(xiàn)C、算法投入使用D、算法驗證【正確答案】:ABC解析:

算法歧視是指算法設計、實現(xiàn)和投入使用過程中出現(xiàn)的各種“歧視”現(xiàn)象。37.空間域濾波是直接以圖像中的像素操作為基礎的濾波,空間濾波器有時也可稱為()A、空間掩模B、核C、模板D、窗口【正確答案】:ABCD38.下列關于Pig的說法正確的有()。A、Pig的主要目的是彌補MapReduce編程的復雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結構適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:

Pig程序的結構適合并行處理。39.NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括()。A、Key-ValueB、Key-DocumentC、Key-ColumnD、圖存儲【正確答案】:ABCD解析:

NoSQL數(shù)據(jù)庫常用的數(shù)據(jù)模型包括Key-Value、Key-Document、Key-Column、存儲。40.數(shù)據(jù)科學以數(shù)據(jù)尤其是大數(shù)據(jù)為研究對象,主要研究內容包括()。A、數(shù)據(jù)加工B、數(shù)據(jù)管理C、數(shù)據(jù)計算D、數(shù)據(jù)產(chǎn)品開發(fā)【正確答案】:ABCD解析:

數(shù)據(jù)科學是一門以數(shù)據(jù),尤其是大數(shù)據(jù)為研究對象,并以數(shù)據(jù)統(tǒng)計、機器學習、數(shù)據(jù)可視化等為理論基礎,主要研究數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)產(chǎn)品開發(fā)等活動的交叉性學科。41.使用極大似然估計的前提條件有()。A、數(shù)據(jù)服從某種已知的特定數(shù)據(jù)分布型B、已經(jīng)得到了一部分數(shù)據(jù)集C、提前已知某先驗概率D、數(shù)據(jù)集各個屬性相對獨立【正確答案】:AB解析:

極大似然估計(MLE)要求樣本獨立同分布,否則無法用概率密度函數(shù)乘積的形式。假設的分布與真實的分布要一致,否則會南轅北轍。如果對總體分布一無所知是無法使用MLE的。42.下列描述中屬于特征選擇的優(yōu)點有()。A、解決模型自身的缺陷B、減少過擬合C、提升模型的性能D、增強模型的泛化能力【正確答案】:BCD解析:

特征選擇無法克服模型自身的缺陷,二者是獨立的。43.語音識別的方法包括()A、聲道模型方法B、模板匹配的方法C、利用人工神經(jīng)網(wǎng)絡的方法D、語音知識方法【正確答案】:ABCD解析:

一般來說,語音識別的方法有基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡的方法。44.下列為RDBMS中事務遵循原則的有()。A、原子性(Atomicity)B、一致性(Consistency)C、隔離性(Isolation)D、持久性(Durability)【正確答案】:ABCD解析:

關系數(shù)據(jù)庫中的事務需要具備一定的規(guī)則-ACID特征。ACID是指數(shù)據(jù)庫事務正確執(zhí)行的4個基本要素的縮寫:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)。45.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:

相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。46.下列關于HBase的說法正確的有()。A、面向列的數(shù)據(jù)庫B、非結構化的數(shù)據(jù)庫C、支持大規(guī)模的隨機、實時讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:

HBase是非結構化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大模數(shù)據(jù)的隨機、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。47.情感分析的應用場景有()A、數(shù)據(jù)挖掘B、信息檢索C、文本分詞D、市場營銷【正確答案】:ABD解析:

情感分析常用于數(shù)據(jù)挖掘、信息檢索、市場營銷等,而文本分詞屬于文本處理的應用場景。48.以下屬于關鍵詞提取算法的有()A、TF-IDF算法B、TextRank算法C、LSA(潛在語義分析)D、LDA【正確答案】:ABCD解析:

關鍵詞提取算法包括TF-IDF算法、TextRank算法、LSA(潛在語義分析)orLSI(潛在語義索引)、LDA等。49.下面屬于可視化高維數(shù)據(jù)技術的是哪些()A、矩陣B、平行坐標系C、星形坐標系D、散布圖【正確答案】:ABC解析:

矩陣、平行坐標系和星形坐標系都屬于可視化高維數(shù)據(jù)的常用技術,而散布圖又叫相關圖,只能處理二維數(shù)據(jù)。50.下列不屬于聚類性能度量內部指標的有()。A、DB指數(shù)B、Dunn指數(shù)C、Jaccard系數(shù)D、FM系數(shù)【正確答案】:CD解析:

聚類常用的外部指標包括Jaccard系數(shù)、FM系數(shù)、Rand指數(shù);聚類常用的內部指標包括DB指數(shù)、Dunn指數(shù)。51.與全連接的DNN,CNN的優(yōu)勢有()A、參數(shù)更少B、泛化更好C、訓練更快D、更容易搭建【正確答案】:ABC解析:

解析:DNN直接對數(shù)據(jù)做加權線性連接,CNN則是移動卷積核,并對圖像中的各區(qū)域做卷積操作。因此,DNN更容易搭建,D錯誤。52.卷積神經(jīng)網(wǎng)絡中常用的池化函數(shù)包括()。A、最大池化函數(shù)B、L2范數(shù)C、相鄰矩形區(qū)域內的平均值D、基于據(jù)中心像素距離的加權平均函數(shù)【正確答案】:ABCD解析:

解析:卷積神經(jīng)網(wǎng)絡中常用的池化函數(shù)有最大池化函數(shù)、L2范數(shù)、相鄰矩形區(qū)域內的平均值、基于據(jù)中心像素距離的加權平均函數(shù)、重疊池化、空金字塔池化。53.常見的圖像降噪方式包括()A、中值濾波B、均值濾波C、平均濾波D、加權平均濾波【正確答案】:ABCD54.在MapReducel.0版本中,JobTracker功能有()。A、資源管理B、作業(yè)控制C、作業(yè)存儲D、作業(yè)審核【正確答案】:AB解析:

在MapReducel.0中,JobTracker同時兼?zhèn)淞速Y源管理和作業(yè)控制兩個功能。55.Hadoop運行的模式包括()。A、單機版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運行模式包括單機版、偽分布式和分布式。56.下列關于HadoopMapReduce的描述正確的有()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)據(jù)【正確答案】:BCD解析:

reduce()函數(shù)的輸入是key-value集。57.下列關于數(shù)據(jù)產(chǎn)品研發(fā)的說法錯誤的有()。A、從加工程度看,可以將數(shù)據(jù)分為一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù)B、一次數(shù)據(jù)中往往存在缺失值、噪聲、錯誤或虛假數(shù)據(jù)等質量問題C、二次數(shù)據(jù)是對一次數(shù)據(jù)進行深度處理或分析后得到的增值數(shù)據(jù)D、三次數(shù)據(jù)是對二次數(shù)據(jù)進行洞察與分析后得到的、可以直接用于決策支持的洞見數(shù)據(jù)【正確答案】:ABD解析:

二次數(shù)據(jù)是一種按照信息的生產(chǎn)過程和加工深度進行對信息進行分類的,是指根據(jù)特定的需求,對一次信息進行加工、分析、改編、重組、綜合概括生成的信息。58.圖像識別的一般步驟包括()A、預處理B、特征提取C、超像素生成D、識別分類【正確答案】:ABD解析:

圖像識別中的一般步驟包括預處理、特征提取和識別分類。超像素生成并非必要步驟。59.影響聚類算法效果的主要原因有()。A、特征選取B、模式相似性測度C、分類準則D、已知類別的樣本質量【正確答案】:ABC解析:

聚類算法是無監(jiān)督的學習算法,訓練樣本的標記信息是未知的。60.噪聲數(shù)據(jù)的產(chǎn)生原因主要有()。A、數(shù)據(jù)采集設備有問題B、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤C、數(shù)據(jù)傳輸過程中發(fā)生錯誤D、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致【正確答案】:ABCD解析:

噪聲數(shù)據(jù)的產(chǎn)生原因主要有數(shù)據(jù)采集設備有問題、在數(shù)據(jù)錄入過程中發(fā)生了人為或計算機錯誤、數(shù)據(jù)傳輸過程中發(fā)生錯誤、由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。61.下列可以用來構造神經(jīng)網(wǎng)絡的算法有()。A、KNNB、線性回歸C、邏輯回歸【正確答案】:BC解析:

解析:KNN是一種基于實例的學習算法,不具有任何訓練參數(shù)。因此不能用來構造神經(jīng)網(wǎng)絡,線性回歸和邏輯回歸都可以用來構造神經(jīng)網(wǎng)絡模型,其實二者就是單神經(jīng)元的神經(jīng)網(wǎng)絡。62.情感分析的途徑下列哪些是()A、關鍵詞識別B、數(shù)據(jù)增強C、統(tǒng)計方法D、概念級技術【正確答案】:ABCD解析:

現(xiàn)有的文本情感分析的途徑大致可以集合成關鍵詞識別、詞匯關聯(lián)、統(tǒng)計方法和概念級技術四類。63.文本分類過程包括()A、選擇訓練文本B、選擇文本特征C、建立文本表示模型D、選擇分類方法【正確答案】:ABCD解析:

文本分類過程包括:(1)選擇訓練文本;(2)選擇文本特征;(3)建立文本表示模型;(4)選擇分類方法;(5)分類結果的評估。64.數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括()。A、精確性B、可辨認性C、可分離性D、視覺突出性【正確答案】:ABCD解析:

在數(shù)據(jù)來源和目標用戶已定的情況下,不同視覺通道的表現(xiàn)力不同。視覺通道的表現(xiàn)力的評價指標包括精確性、可辨認性、可分離性和視覺突出性。評價指標描述如下:①精確性代表的是人類感知系統(tǒng)對于可視化編碼結果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學Mackinlay曾于1986年提出了不同視覺通道所表示信息的精確性。②可辨認性是指視覺通道的可辨認度。③可分離性是指同一個視覺圖形元素的不同視覺通道的表現(xiàn)力之間應具備一定的獨立性。④視覺突出性是指視覺編碼結果能否在很短的時間內(如毫秒級)能夠迅速準確表達出可視化編碼的主要意圖。65.下列關于密度聚類的說法錯誤的有()。A、DBSCAN是一種著名的密度聚類算法B、密度聚類從樣本數(shù)量的角度來考察樣本之間的可連接性C、密度聚類基于不可連接樣本不斷擴展聚類簇,以獲得最終的聚類結果D、密度直達關系通常滿足對稱性【正確答案】:BCD解析:

密度聚類從樣本密度的角度來考察樣本之間的可連接性;密度聚類基于可連接樣本不斷擴展聚類簇,以獲得最終的聚類結果;密度直達關系通常不滿足對稱性;密度可達關系滿足直遞性,但不滿足對稱性;密度相連關系滿足對稱性。66.下列屬于機器學習生成式模型的有()。A、樸素貝葉斯B、隱馬爾科夫模型C、線性回歸模型D、深度信念網(wǎng)絡【正確答案】:ABD解析:

機器學習生成式模型包括樸素貝葉斯、隱馬爾科夫模型和深度信念網(wǎng)絡等。線性回歸屬于判別式模型。67.在正則化公式中,入為正則化參數(shù)。下列關于入的描述正確的有()。A、若正則化參數(shù)入過大,可能會導致出現(xiàn)欠擬合現(xiàn)象B、若入太大,則梯度下降可能不收斂C、取一個合理的λ,可以更好地應用正則化D、如果令λ很大的話,為了使CostFunction盡可能的小,所有0(不包括0。)都會在一定程度上減小【正確答案】:ABCD解析:

正則化參數(shù)太小容易產(chǎn)生過擬合,太大容易產(chǎn)生欠擬合。68.下列關于特征數(shù)據(jù)歸一化的說法正確的有()。A、特征數(shù)據(jù)歸一化加速梯度下降優(yōu)化的速度B、特征數(shù)據(jù)歸一化有可能提高模型的精度C、線性歸一化適用于特征數(shù)值分化比較大的情況D、概率模型不需要做歸一化處理【正確答案】:ABD解析:

歸一化方法比較適用于數(shù)值比較集中的情況,這種方法的缺陷是如果max和min不穩(wěn)定,很容易使得歸一化結果不穩(wěn)定,使得后續(xù)使用效果也不穩(wěn)定。實際使用中可以用經(jīng)驗常量值來替代max和min。非線性歸一化經(jīng)常用在數(shù)據(jù)分化比較大的場景,有些數(shù)值很大,有些很小。69.可以幫助解決訓練集在特征空間中線性不可分的問題的方法有()。A、硬間隔B、軟間隔C、核函數(shù)D、拉格朗日乘子法【正確答案】:BC解析:

核函數(shù)解決線性不可分的本質思想就是把原始的樣本通過核函數(shù)映射到高維空間中,讓樣本在高維特征空間中是線性可分的。軟間隔允許某些樣本不滿足約束,使得樣本在特征空間中不是線性可分。70.下列關于情感分析的說法正確的是()A、簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程B、情感分析的發(fā)展得益于社交媒體的興起C、按照處理文本的粒度不同,情感分析大致可分為詞語級,句子級,篇章級三個D、情感分析可以應用于文本挖掘【正確答案】:ABCD解析:

情感分析的定義即對帶有感情色彩的主觀性文本進行分析、處理、歸納和推理的過程,它得益于社交媒體的興起,從而能收集大量信息進行分析。其分析力度包括詞語級、句子級和篇章級。情感分析可用于文本挖掘。71.下列中屬于MapReduce特征的有()。A、以主從結構的形式運行B、容錯機制的復雜性C、任務備份機制的必要性D、數(shù)據(jù)存儲位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。72.在統(tǒng)計模式分類問題中,當先驗概率未知時,可以使用()。A、最小最大損失準則B、最小誤判概率準則C、最小損失準則D、N-P判決【正確答案】:AD73.異常值的檢測方法有()。A、直接通過數(shù)據(jù)可視化進行觀察B、通過統(tǒng)計分布進行判斷C、通過相對距離進行度量D、通過相對密度進行度量【正確答案】:ABCD解析:

異常值的檢測方法有直接通過數(shù)據(jù)可視化進行觀察、通過統(tǒng)計分布進行判斷、通過相對距離進行度量、通過相對密度進行度量。74.與相同步長的卷積層相比,使用池化層的優(yōu)勢不包含()A、參數(shù)更少B、可以獲得更大下采樣C、速度更快D、有助于提升精度【正確答案】:BCD解析:

解析:池化層公式與卷積一樣,只是不需要參數(shù)。75.下列關于現(xiàn)階段大數(shù)據(jù)技術體系的說法正確的有()。A、基礎設施提供數(shù)據(jù)計算、數(shù)據(jù)存儲、數(shù)據(jù)加工(DataWrangling或DataMunging)等服務B、數(shù)據(jù)流處理、統(tǒng)計工具、日志分析都屬于常用的開源工具C、數(shù)據(jù)資源代表的是生成數(shù)據(jù)的機構D、數(shù)據(jù)源與App為數(shù)據(jù)科學和大數(shù)據(jù)產(chǎn)業(yè)生態(tài)系統(tǒng)提供數(shù)據(jù)內容【正確答案】:ABCD解析:

Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當時快速發(fā)展中的大數(shù)據(jù)技術體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學的重要分析工具,得到了廣泛應用和不斷更新。MattTurck等組織繪制了2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術體系主要類型包括數(shù)據(jù)資源、數(shù)據(jù)源與App、開源工具、跨平臺基礎設施和分析工具、行業(yè)應用、企業(yè)應用、基礎設施和分析工具。76.Spark2.0提供的應用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:

Spark2.0提供的應用庫包括SparkSQL、SparkStreaming、MLib、GraphX。77.循環(huán)神經(jīng)網(wǎng)絡主要被應用的場景有()。A、語音識別B、語音建模C、機器翻譯D、圖像識別【正確答案】:ABC解析:

解析:圖像識別用CNN。78.下列服務中可以用于存儲數(shù)據(jù)的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】:CD解析:

MapReduce是計算模型;YARN是通用資源管理系統(tǒng);HBase是動態(tài)模式數(shù)據(jù)庫;HDFS是Hadoop分布式文件系統(tǒng),是數(shù)據(jù)存儲的基礎。79.下列屬于數(shù)據(jù)挖掘與分析工具的有()。A、TableauB、PythonC、SPSSD、Alteyx【正確答案】:ABCD解析:

常用的數(shù)據(jù)挖掘工具有RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的數(shù)據(jù)分析工具有Tableau、Alteyx、R&Python語言、FineReport、PowerBI。三、(共33題)80.列式數(shù)據(jù)庫(如BigTable和HBase)以表的形式存儲數(shù)據(jù),表結構包含的元素有()。A、關鍵字B、時間戳C、列簇D、數(shù)據(jù)類型【正確答案】:ABC解析:

BigTable和HBase的索引由行關鍵字、列簇和時間戳組成。81.神經(jīng)網(wǎng)絡模型(neuralnetwork)因受人類大腦的啟發(fā)而得名。神經(jīng)網(wǎng)絡由許多神經(jīng)元(neuron)組成,每個神經(jīng)元接受一個輸人,對輸人進行處理后給出一個輸出。下列關于神經(jīng)元的描述正確的有()。A、每個神經(jīng)元有一個輸入和一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論