數據工程智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第1頁
數據工程智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第2頁
數據工程智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第3頁
數據工程智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第4頁
數據工程智慧樹知到期末考試答案章節(jié)答案2024年同濟大學_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據工程智慧樹知到期末考試答案+章節(jié)答案2024年同濟大學使用KMEANS聚類時,更大的K值所得到結果的誤差的平方和(SSE)一定更小。

答案:錯DBSCAN是一種基于密度的聚類。

答案:對基于中心的歐幾里得密度是指一個點指定半徑內點的個數。

答案:對在機器翻譯中,如果我們在不使用句子歸一化的情況下進行波束搜索(beamsearch),該算法將會輸出過短的譯文。

答案:對在分布式數據庫中,數據劃分后的性能主要取決于數據上的具體操作。

答案:對數據審計不屬于數據清理的組成部分。

答案:錯可以將熵作為判斷聚類有效性的內部測度。

答案:錯SQL語言功能強大,但是非常難理解。

答案:錯分布式系統(tǒng)中的CAP理論包括()。

答案:一致性###系統(tǒng)可用性###網絡分區(qū)容忍性關于BP神經網絡說法正確的是()

答案:是一種非線性模型###sigmoid是其常用的一種激活函數###有良好的自組織自學習能力機器學習方法###可用于分類或回歸可以用來做可視化渲染的技術包括:

答案:WebGL###SVG###HTML5Canvas信息可視化中,動畫設計需要遵守哪些準則:

答案:一次只展示一個動畫;如果需要同時展示多個動畫,需要分階段展示###動畫必須與其載體,即所對應的可視化形式保持兼容###動畫的每個步驟必須有具體的含義,動畫的產生必須有明確的原因以下哪些交互可能會導致可視化中數據的改變:

答案:具象/抽象你有一個63x63x16的輸入體積,并將其與32個每個為7x7的filter進行卷積,步幅(stride)為2并且沒有填充(padding)。輸出大小是多少?

答案:29x29x32以下哪一項不是消除平行坐標系中視覺混亂問題的方法:

答案:數據重構以下哪一項不是圖的基本可視化形式:

答案:包含圖在平行坐標軸中,數據元素被顯示為:

答案:折線做組內研究時,使用不同工具完成相同任務時往往需要使用不同的數據,這樣做的目的是:

答案:避免用戶記住答案,影響實驗結果在平行坐標軸中,如果兩個維度之間沒有相關性,則其相關數據元素被展現為:

答案:雜亂無章的直線當設計實驗任務時,以下哪個說法是錯誤的:

答案:任務數量越多越好以下哪一項不是圖的布局所要解決的問題:

答案:確定變得顯示方式您認為幽靈存在的可能性約為5%。然后,您不曾說謊的叔叔說他看見了一個鬼。另一方面,您叔叔的視力不好,曾經把一個包誤認為一條狗。您估計存在的鬼的可能性應該?

答案:稍微提高決策樹的父節(jié)點和子節(jié)點的熵的大小關系是什么()

答案:父節(jié)點的熵更大SVM中的代價參數C表示什么?

答案:在分類準確性和模型復雜度之間的權衡對于神經網絡的說法,下面正確的是:1.增加神經網絡層數,可能會增加測試數據集的分類錯誤率2.減少神經網絡層數,總是能減小測試數據集的分類錯誤率3.增加神經網絡層數,總是能減小訓練數據集的分類錯誤率

答案:1當數據密度分布不均勻時,DBSCAN也能夠得到很好的結果。

答案:錯K均值可以發(fā)現不是明顯分離的簇,即便簇有重疊也可以發(fā)現,但是DBSCAN會合并有重疊的簇。

答案:對較小不純度的節(jié)點需要更多的信息來區(qū)分總體。

答案:錯關系數據庫中的連接操作把兩張或多張數據庫表,按照一定條件,把它們各一行記錄連接起來,生成結果集的一條記錄。

答案:對基尼指數反映了從樣本集D中隨機抽取兩個樣本,其類別標記不一致的概率,因此越小越好。

答案:對邏輯回歸分析需要對離散值做預處理,決策樹則不需要。

答案:對對于KMEANS算法而言,不同的初始聚類中心選擇可能導致不同的聚類結果。

答案:對聚類是這樣的過程,它找出描述并區(qū)分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。

答案:錯CHAMELEON是一種靜態(tài)建模的層次聚類算法。

答案:錯增大L2正則項的系數有助于減緩梯度消失問題

答案:錯有哪些圖形屬性可以用來編碼數據?

答案:顏色###形狀###大小可視化圖形符號包括哪些形式?

答案:線###面###點下面哪個是SVM在實際生活中的應用?

答案:圖片分類###新聞聚類###文本分類下列操作哪些屬于關系數據庫的基本操作?

答案:Group操作###Join操作###Select操作###Insert操作分布式數據庫的主要特點有()。

答案:站點自治性###物理分布性###邏輯完整性通常在ConvNet中看到以下哪些內容?

答案:最后幾層是FC層###多個CONV層,然后接POOL層大數據管理的挑戰(zhàn)包括()。

答案:多源異構###數據量大###高可用性###安全隱私數據集成主要可以采用哪些模式?

答案:聯邦數據庫模式###中介者模式###數據倉庫模式假設你輸入的是300x300色(RGB)圖像,并且沒有使用卷積網絡。如果第一個隱藏層有100個神經元,每個神經元都完全連接到輸入,那么這個隱藏層有多少個參數(包括偏向參數)?

答案:27,000,100MDS投影技術的設計原理是:

答案:最小化數據點與數據點之間的距離在高、低維空間中的差異當需要從中挑選一個特征來構建決策樹模型時,以下哪種準則的最大化最合適()

答案:H(Y)-H(Y|Xj)神經元(neuron)計算什么?

答案:神經元計算線性函數(z=Wx+b),然后計算激活函數可視化符號是用來:

答案:呈現數據元素及元素之間關系的假設某個行業(yè)中有5%的公司歧視愛荷華州。如果一家公司歧視,它將永遠不會從愛荷華州雇用人。假設有20名同等資格的申請人在該行業(yè)的公司中求職,其中6名來自愛荷華州。如果該公司從這組申請人中雇用了四人,但沒有人來自愛荷華州,那么該公司歧視的可能性是多少?

答案:0.2030“刷選與鏈接”交互是為了完成什么任務:

答案:在不同可視化視圖中展現數據元素之間的關聯假設你的輸入是300x300色(RGB)圖像,并且使用了一個卷積層,其中包含100個filter,每個filter為5x5。該隱藏層有多少個參數(包括偏置參數)?

答案:7600以下哪一種不是樹的可視化方法:

答案:關系圖在眾多數值型可視化通道中,以下哪一項是最為精確的:

答案:位置下面關于SVM中核函數的說法正確的是?1核函數將低維空間中的數據映射到高維空間.2它是一個相似度函數

答案:1和2下面哪一項用決策樹法訓練大量數據集最節(jié)約時間()

答案:減少樹的深度關于圖的鄰接矩陣表示方式,以下哪個說法是錯誤的:

答案:圖中的路徑可以清晰的展現在鄰接矩陣中假設你選取了高Gamma值的徑向基核(RBF),這表示:

答案:模型不會被數據點與超平面的距離影響“重構”交互主要是為了完成什么任務:

答案:改變可視化的空間布局以提供不同視角在word2vec算法中,你估計P(t|c),其中t是目標單詞,c是上下文(context)單詞。t和c該如何從訓練集當中選擇?

答案:c和t應該相鄰標識通道是用來顯示數據的:

答案:分類屬性公路交通圖可以被抽象為以下哪種類型的數據?

答案:圖實現“數據瀏覽”交互,可以使用哪些基本方法:

答案:直接導引或拖拽縮放在訓練神經網絡時,損失函數(loss)在最初的幾個epochs時沒有下降,最可能的原因是?

答案:學習率太低BP網絡具有廣泛的適應性和有效性。

答案:對內存數據庫無需磁盤IO,可以有效應對停電導致數據丟失的問題。

答案:錯CHAMELEON算法中既包含對圖的劃分也包含對子圖的合并。

答案:對輪廓系數屬于簇有效性的外部度量方法之一。

答案:錯虛擬式數據集成需要從各個數據源中把數據拷貝到目標數據倉庫中。

答案:錯在中介者數據集成模式中,中介者需要保存各個數據源的數據。

答案:錯SQL語言是一種聲明性語言。

答案:對GPU所配置的顯存的大小,對于在該GPU上訓練的深度神經網絡的復雜度、訓練數據的批次規(guī)模等,都是一個無法忽視的影響因素。

答案:對在KMEANS的訓練過程中,可以選擇不同的K值,比較使絕對誤差標準較小的K值,結合聚類業(yè)務的可解釋性,從而選擇合適的K值。

答案:對熵值越小所蘊含的不確定信息越小,越有利于數據的分類。

答案:對CHAMELEON算法第二階段中,將不斷尋找合并相對接近度和相對互聯度較低的兩個子簇。

答案:錯劃分聚類算法不具備全局目標。

答案:錯在數據倉庫中,ETL操作可以多次執(zhí)行。

答案:對下列數據庫中哪些是開源數據庫?

答案:MySQL###PostgreSQL分布式數據庫一般屬于并行數據庫。

答案:對單層感知機能夠實現各種布爾邏輯函數。

答案:錯單層感知機可以實現XOR操作。

答案:錯為了能夠構建非常深的網絡,我們通常僅使用池化層來減小激活函數輸出的高度/寬度,且卷積使用“valid”pooling。否則,我們將過快縮小模型的輸入。

答案:錯用戶認證是確保數據庫安全性的方法之一

答案:對數據清洗中的覆蓋類異常包括()。

答案:元組缺失###值缺失下列哪些屬于數據清洗中的語法類異常:

答案:詞法錯誤###不規(guī)則取值###值域格式錯誤NoSQL數據庫主要可以分為哪幾類?

答案:圖數據庫###列數據庫###文檔數據庫###鍵值數據庫為什么要對數據進行可視化?

答案:促進數據的交流與溝通###直觀展現信息###幫助數據分析與推理并行與分布式數據庫主要有哪幾種信息共享架構?

答案:共享磁盤架構###共享內存架構###無共享架構文檔數據庫的主要優(yōu)點包括()。

答案:結構靈活###不需要預先定義表結構假設輸入大小為nHxnWxnC。下面哪幾項是正確的?

答案:可以使用1x1卷積層來降低nC,但不能降低nH,nW。###可以使用池化層來降低nH,nW和nC。數據倉庫的主要特點包括()。

答案:一般面向主題###數據隨著時間增加###數據內容更新少###數據是集成的下列屬于數據清洗過程中評價數據質量的標準有()。

答案:一致性###完整性###唯一性以下關于深度神經網絡的說法中正確的是()。

答案:在使用SGD訓練時,若訓練loss的變化逐漸平緩不再明顯下降時,通??梢酝ㄟ^減小learningrate的方式使其再進一步下降###若batchsize過小,batchnormalization的效果會出現退化以下哪些不是用來提高可視化信息傳達效率的方法:

答案:最小化謊言因子以下哪一項不可以用來做任務的衡量指標:

答案:用戶在完成任務時系統(tǒng)的延遲等待時間以下哪一項是力導向布局的缺點:

答案:當圖的密度較大時,會導致視覺混亂以下哪種情況會導致SVM算法性能下降?

答案:數據有噪聲,有重復值我們想在大數據集上訓練決策樹,

為了使用較少時間,

我們可以()

答案:減少樹的深度數據標準化(Standardization)和規(guī)范化(Normalization)處理屬于數據清理中的()。

答案:數據轉換以下哪個不屬于可視化創(chuàng)建的關鍵步驟?

答案:可視化開發(fā)為了防止過擬合,在訓練神經網絡時,會加入許多技巧。請問以下技巧中既可以防止過擬合,又可以使最終參數具有稀疏性?

答案:AddL1RegularizationtoParameters神經網絡訓練時可能有一個停滯期,這是因為神經網絡在進入全局最小值之前陷入局部最小值。為了避免這種情況,下面的哪個策略有效?()

答案:抖動學習速率,即改變幾個時期的學習速率下列哪些數據庫屬于內存數據庫?

答案:SQLite###Redis“具象與抽象”交互主要是為了完成什么任務:

答案:從不同的粒度呈現數據關于組內研究表述不正確的是:

答案:如果實驗只有兩個自變量,分析組內研究結果時,需要使用非配對t檢驗數據墨水是指:

答案:用于呈現圖表中與數據相關部分的內容所消耗的筆墨總量可視化圖形符號可以用來表示:

答案:數據元素神經網絡模型是受人腦的結構啟發(fā)發(fā)明的。神經網絡模型由很多的神經元組成,每個神經元都接受輸入,進行計算并輸出結果,那么以下選項描述正確的是()。

答案:每個神經元有多個輸入和多個輸出假定你在神經網絡中的隱藏層中使用激活函數X。在特定神經元給定任意輸入,你會得到輸出「-0.0001」。X可能是以下哪一個激活函數?

答案:tanh在MySQL中,創(chuàng)建名為“education”的數據庫的正確語句是()?

答案:CREATEDATABASEeducation當到達ConvNet的更深層時,通常會看到以下哪項?

答案:nH和nW減小,而nC增加稀有的蜻蜓總是天生就有額外的翅膀。但是,普通的蜻蜓有時也會通過突變獲得額外的翅膀。在某些棲息地中,有0.3%的蜻蜓屬于這種稀有物種,已知有0.1%的常見蜻蜓發(fā)生了翼外突變。您會在該棲息地中看到帶有額外一對翅膀的蜻蜓。它是稀有物種的成員的概率是多少?

答案:0.7506在平行坐標軸中,數據的維度被顯示為:

答案:坐標軸可視化屬性可以用來表示:

答案:數據屬性以下哪一項不是點線圖的布局方式:

答案:鄰接布局在卷積神經網絡中,激活函數的引入是為了()

答案:加入非線性因素等,將某些特征過濾映射出來實現“重構”交互,有哪些基本方法:

答案:重新排序或重組視圖MongoDB創(chuàng)建新數據庫“education”的正確語句是()。

答案:useeducation在格式塔法則中,哪一種法則下所展現的群組關系最為強烈:

答案:連通性準則有關深度神經網絡的訓練(Training)和推斷(Inference),以下說法中不正確的是:()

答案:TensorFlow使用GPU訓練好的模型,在執(zhí)行推斷任務時,也必須在GPU上運行。當謊言因子>1時,說經可視化設計:

答案:夸大了數據事實以下等式是ResNet塊中的計算。上面的兩個空白是什么?a[l+2]=g(W[l+2]g(W[l+1]a[l]+b[l+1])+bl+2+_______)+_______

答案:分別是a[l]和0以下哪一項不屬于數值型可視化通道:

答案:色相PCA

的設計原理是:()。

答案:最大化數據點在低維空間中點的差異以下哪一種交互不屬于常見的可視化交互類型。

答案:定向數據可視化有哪些主要分支方向?

答案:科學可視化###信息可視化###可視分析謊言因子是設計用來度量可視化中什么設計指標的方法?

答案:可視化呈現數據時夸張程度的度量方法以下哪一項不是可視化的基本評估方法?

答案:定量實驗分析下列選項中哪一項不屬于可視化的基本設計準則。()

答案:設計能夠直觀傳遞信息的可視化信息可視化主要是針對什么類型數據的?

答案:抽象數據在受控用戶實驗中,當我們對比工具A與工具B時,以下哪一個假設符合實驗設計標準?

答案:假設在處理數據異常時,用戶使用工具A比使用工具B更快以下哪一項不屬于數據的維度的類型()。

答案:時間屬性“數據瀏覽”交互主要是為了完成什么任務:()。

答案:展現數據中的不同子集假設你正在訓練LSTM。你有10000個單詞的詞匯,并且正在使用具有100維激活的LSTM。每步當中的維數是多少?

答案:100為了使RNN更容易訓練,需要選取更好的激活函數,如Relu激活函數。ReLU函數的左側導數為0,右側導數恒為1,這就避免了梯度爆炸問題的發(fā)生。

答案:錯下列哪一項在神經網絡中引入了非線性?

答案:修正線性單元(ReLU)梯度下降算法的正確步驟是什么?a.計算預測值和真實值之間的誤差b.重復迭代,直至得到網絡權重的最佳值c.把輸入傳入網絡,得到輸出值d.用隨機值初始化權重和偏差e.對每一個產生誤差的神經元,調整相應的(權重)值以減小誤差

答案:dcaeb已知:大腦是有很多個叫做神經元的東西構成,神經網絡是對大腦的簡單的數學表達。-每一個神經元都有輸入、處理函數和輸出。-神經元組合起來形成了網絡,可以擬合任何函數。-為了得到最佳的神經網絡,我們用梯度下降方法不斷更新模型給定上述關于神經網絡的描述,什么情況下神經網絡模型被稱為深度學習模型?

答案:加入更多層,使神經網絡的深度增加訓練CNN時,可以對輸入進行旋轉、平移、縮放等預處理提高模型泛化能力。

答案:對您正在訓練RNN,發(fā)現您的權重和激活都具有NaN的值(“非數字”)。以下哪項最可能是此問題的原因?

答案:梯度爆炸問題多對一RNN架構可以應用于以下哪些任務?

答案:情感分類(輸入一段文字并輸出0/1表示正面或負面情緒)###語音中的性別識別(輸入音頻剪輯并輸出表明說話者性別的標簽)下面哪項操作能實現跟神經網絡中Dropout的類似效果?

答案:BaggingRNN會發(fā)生梯度消失的問題,產生這樣的問題的原因是RNN在算是會有激活函數導數的累乘,如果取tanh或sigmoid函數作為激活函數的話,那么必然是一堆小數在做乘法,結果就是越乘越小。隨著時間序列的不斷深入,小數的累乘就會導致梯度越來越小直到接近于0,這就是“梯度消失“現象。

答案:對關于決策樹算法的描述正確的是()。

答案:決策樹可以看成一個If-then規(guī)則的集合。VM算法的最小時間復雜度是O(n2),基于此,以下哪種規(guī)格的數據集并不適該算法?

答案:大數據集若參數C(costparameter)被設為無窮,下面哪種說法是正確的?

答案:只要最佳分類超平面存在,它就能將所有數據全部正確分類在貝葉斯定理的公式當中,哪一個是先驗概率?

答案:P(A)怎樣理解“硬間隔”?

答案:SVM只允許極小誤差對于信息增益,決策樹分裂節(jié)點,下面說法正確的是()1.純度高的節(jié)點需要更多的信息去區(qū)分2.信息增益可以用”1比特-熵”獲得3.如果選擇一個屬性具有許多歸類值,那么這個信息增益是有偏差的

答案:2和3貝葉斯決策是由先驗概率和類條件概率,推導后驗概率,然后利用這個概率進行決策。

答案:對SVM中的泛化誤差代表什么?

答案:SVM對新數據的預測準確度在電視游戲節(jié)目中,參賽者選擇三個門之一;一扇門的后面有獎,而另兩扇的后面沒有獎。參賽者選擇一扇門后,游戲節(jié)目主持人將打開其余的一扇門,并顯示門后沒有任何獎金。然后,主持人詢問參賽者是將自己的選擇切換到另一扇未打開的門,還是將STICK切換到其原始選擇。這對參賽者來說切換們是有利的。

答案:對決策樹中屬性選擇的方法有()。

答案:信息增益###GINI系數###信息增益率DBSCAN算法的缺點包括?

答案:對于高維問題,密度定義是個比較麻煩的問題###對輸入參數敏感###當簇的密度變化太大時,不能很好的處理凝聚層次聚類中,定義簇間的相似度的方法有()。

答案:組平均###MIN(單鏈)###Ward方法###MAX(全鏈)全鏈在處理大小不同的簇時,可能使大的簇破裂。

答案:對以下哪些選項是K-均值聚類面臨的問題?

答案:K的選擇具有挑戰(zhàn)性###關于數據的球形假設(到聚類中心的距離)###貪心算法存在的問題###難以處理噪聲、異常值CHAMELEON算法的優(yōu)點包括:()。

答案:能識別具有不同形狀、大小和密度的簇###能夠有效地聚類空間數據###對噪聲和異常數據不敏感同一組數據通過不同聚類算法得到的簇的個數是相同的。

答案:錯下列關于不同的簇類型的說法中,不正確的是()。

答案:在明顯分離的簇中,同簇中的對象之間的距離要大于異簇的對象使用KMEANS、DBSCAN等多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論