南開(kāi)20秋學(xué)期《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)答案_第1頁(yè)
南開(kāi)20秋學(xué)期《數(shù)據(jù)科學(xué)導(dǎo)論》在線作業(yè)答案_第2頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、20秋學(xué)期(1709、1803、1809、1903、1909、2003、2009 )數(shù)據(jù)科學(xué)導(dǎo)論在線作業(yè)試卷總分:100 得分:100一、單選題 (共 20 道試題,共 40 分)1.對(duì)于k近鄰法,下列說(shuō)法錯(cuò)誤的是()。A.不具有顯式的學(xué)習(xí)過(guò)程B.適用于多分類(lèi)任務(wù)C.k值越大,分類(lèi)效果越好D.通常采用多數(shù)表決的分類(lèi)決策規(guī)則答案:C2.以下哪個(gè)不是處理缺失值的方法()A.刪除記錄B.按照一定原則補(bǔ)充C.不處理D.隨意填寫(xiě)答案:D3.在一元線性回歸模型中,殘差項(xiàng)服從()分布。A.泊松B.正態(tài)C.線性D.非線性答案:B4.一元線性回歸中,真實(shí)值與預(yù)測(cè)值的差稱(chēng)為樣本的()。A.誤差B.方差C.測(cè)差D.

2、殘差答案:D5.Apriori算法的加速過(guò)程依賴(lài)于以下哪個(gè)策略( )A.抽樣B.剪枝C.緩沖D.并行答案:B6.數(shù)據(jù)庫(kù)中相關(guān)聯(lián)的兩張表都存儲(chǔ)了用戶(hù)的個(gè)人信息,但在用戶(hù)的個(gè)人信息發(fā)生改變時(shí)只更新了一張表中的數(shù)據(jù),這時(shí)兩張表中就有了不一致的數(shù)據(jù),這屬于()A.異常值B.缺失值C.不一致的值D.重復(fù)值答案:C7.單層感知機(jī)模型屬于()模型。A.二分類(lèi)的線性分類(lèi)模型B.二分類(lèi)的非線性分類(lèi)模型C.多分類(lèi)的線性分類(lèi)模型D.多分類(lèi)的非線性分類(lèi)模型答案:A8.層次聚類(lèi)適合規(guī)模較()的數(shù)據(jù)集A.大B.中C.小D.所有答案:C9.通過(guò)構(gòu)造新的指標(biāo)-線損率,當(dāng)超出線損率的正常范圍, 則可以判斷這條線路的用戶(hù)可能存在

3、竊漏電等異常行為屬于數(shù)據(jù)變換中的()A.簡(jiǎn)單函數(shù)變換B.規(guī)范化C.屬性構(gòu)造D.連續(xù)屬性離散化答案:C10.例如將工資收入屬性值映射到-1,1或者0,1內(nèi)屬于數(shù)據(jù)變換中的()A.簡(jiǎn)單函數(shù)變換B.規(guī)范化C.屬性構(gòu)造D.連續(xù)屬性離散化答案:B11.在有統(tǒng)計(jì)學(xué)意義的前提下,標(biāo)準(zhǔn)化偏回歸系數(shù)的絕對(duì)值越大,說(shuō)明相應(yīng)的自變量對(duì)y的作用()。A.越小B.越大C.無(wú)關(guān)D.不確定答案:B12.考慮下面的頻繁3-項(xiàng)集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定數(shù)據(jù)集中只有5個(gè)項(xiàng),采用 合并策略,由候選產(chǎn)生過(guò)程得到4-項(xiàng)集不包含()A.1,2,3,4B.1

4、,2,3,5C.1,2,4,5D.1,3,4,5答案:C13.具有偏差和至少()個(gè)S型隱含層加上一個(gè)()輸出層的網(wǎng)絡(luò)能夠逼近任何有理數(shù)。A.1,線性B.2,線性C.1,非線性D.2,非線性答案:A14.實(shí)體識(shí)別屬于以下哪個(gè)過(guò)程()A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)規(guī)約D.數(shù)據(jù)變換答案:B15.通過(guò)變量標(biāo)準(zhǔn)化計(jì)算得到的回歸方程稱(chēng)為()。A.標(biāo)準(zhǔn)化回歸方程B.標(biāo)準(zhǔn)化偏回歸方程C.標(biāo)準(zhǔn)化自回歸方程D.標(biāo)準(zhǔn)化多回歸方程答案:A16.我們需要對(duì)已生成的樹(shù)()進(jìn)行剪枝,將樹(shù)變得簡(jiǎn)單,從而使它具有更好的泛化能力。A.自上而下B.自下而上C.自左而右D.自右而左答案:B17.聚類(lèi)是一種()。A.有監(jiān)督學(xué)習(xí)B.無(wú)

5、監(jiān)督學(xué)習(xí)C.強(qiáng)化學(xué)習(xí)D.半監(jiān)督學(xué)習(xí)答案:B18.利用最小二乘法對(duì)多元線性回歸進(jìn)行參數(shù)估計(jì)時(shí),其目標(biāo)為()。A.最小化方差#最小化標(biāo)準(zhǔn)差B.最小化殘差平方和C.最大化信息熵答案:C19.實(shí)體識(shí)別的常見(jiàn)形式()A.同名異義B.異名同義C.單位不統(tǒng)一D.屬性不同答案:D20.以下哪一項(xiàng)不屬于數(shù)據(jù)變換()A.簡(jiǎn)單函數(shù)變換B.規(guī)范化C.屬性合并D.連續(xù)屬性離散化答案:C二、多選題 (共 10 道試題,共 20 分)21.距離度量中的距離可以是()A.歐式距離B.曼哈頓距離C.Lp距離D.Minkowski距離答案:ABCD22.Apriori算法的計(jì)算復(fù)雜度受()影響。A.支持度閾值B.項(xiàng)數(shù)C.事務(wù)數(shù)D

6、.事務(wù)平均寬度答案:ABCD23.K-means聚類(lèi)中K值選取的方法是()。A.密度分類(lèi)法B.手肘法C.大腿法D.隨機(jī)選取答案:AB24.聚類(lèi)的主要方法有()。A.劃分聚類(lèi)B.層次聚類(lèi)C.密度聚類(lèi)D.距離聚類(lèi)答案:ABC25.對(duì)于多層感知機(jī),()層擁有激活函數(shù)的功能神經(jīng)元。A.輸入層B.隱含層C.輸出層答案:BC26.什么情況下結(jié)點(diǎn)不用劃分()A.當(dāng)前結(jié)點(diǎn)所包含的樣本全屬于同一類(lèi)別B.當(dāng)前屬性集為空,或是所有樣本在所有屬性上取值相同C.當(dāng)前結(jié)點(diǎn)包含的樣本集為空D.還有子集不能被基本正確分類(lèi)答案:ABC27.下列選項(xiàng)是BFR的對(duì)象是()A.廢棄集B.臨時(shí)集C.壓縮集D.留存集答案:ACD28.系

7、統(tǒng)日志收集的基本特征有()A.高可用性B.高可靠性C.可擴(kuò)展性D.高效率答案:ABC29.下面例子屬于分類(lèi)的是()A.檢測(cè)圖像中是否有人臉出現(xiàn)B.對(duì)客戶(hù)按照貸款風(fēng)險(xiǎn)大小進(jìn)行分類(lèi)C.識(shí)別手寫(xiě)的數(shù)字D.估計(jì)商場(chǎng)客流量答案:ABC30.k近鄰法的基本要素包括()。A.距離度量B.k值的選擇C.樣本大小D.分類(lèi)決策規(guī)則答案:ABD三、判斷題 (共 20 道試題,共 40 分)31.一般而言,信息增益越大,則意味著使用屬性a來(lái)進(jìn)行劃分所獲得的“純度提升越大”,因此我們可用信息增益來(lái)進(jìn)行決策樹(shù)的最優(yōu)特征選擇。答案:正確32.給定一個(gè)數(shù)據(jù)集,如果存在某個(gè)超平面S能夠?qū)?shù)據(jù)集的部分正實(shí)例點(diǎn)和負(fù)實(shí)例點(diǎn)正確的劃分

8、到超平面的兩側(cè),則稱(chēng)該數(shù)據(jù)集是線性可分?jǐn)?shù)據(jù)集。答案:錯(cuò)誤33.Pearson相關(guān)系數(shù)是判斷特征之間、以及特征和目標(biāo)變量之間線性相關(guān)關(guān)系的統(tǒng)計(jì)量。答案:正確34.特征選擇和降維都是用于減少特征數(shù)量,進(jìn)而降低模型復(fù)雜度、防止過(guò)度擬合。答案:正確35.兩個(gè)對(duì)象越相似,他們的相異度就越高。答案:錯(cuò)誤36.樸素貝葉斯分類(lèi)器有簡(jiǎn)單、高效、健壯的特點(diǎn),但某些屬性可能會(huì)降低分類(lèi)器的性能答案:正確37.獲取數(shù)據(jù)為數(shù)據(jù)分析提供了素材和依據(jù),這里的數(shù)據(jù)只包括直接獲取的數(shù)據(jù)。答案:錯(cuò)誤38.選擇較小的k值,相當(dāng)于用較小的鄰域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè),學(xué)習(xí)的“近似誤差”會(huì)減小,“估計(jì)誤差”會(huì)增大,預(yù)測(cè)結(jié)果會(huì)對(duì)近鄰的點(diǎn)實(shí)例點(diǎn)

9、非常敏感。答案:正確39.K均值(K-Means)算法是密度聚類(lèi)。答案:錯(cuò)誤40.K-means算法采用貪心策略,通過(guò)迭代優(yōu)化來(lái)近似求解。答案:正確41.赤池信息準(zhǔn)則是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn)。答案:正確42.平均減少的不純度越大,則特征重要度越高。答案:正確43.標(biāo)準(zhǔn)BP算法是在讀取全部數(shù)據(jù)集后,對(duì)參數(shù)進(jìn)行統(tǒng)一更新的算法。答案:錯(cuò)誤44.子集產(chǎn)生本質(zhì)上是一個(gè)搜索過(guò)程,該過(guò)程可以從空集、隨機(jī)產(chǎn)生的一個(gè)特征子集或者整個(gè)特征集開(kāi)始。答案:正確45.數(shù)據(jù)科學(xué)具有廣泛的應(yīng)用領(lǐng)域,可以應(yīng)用在社交網(wǎng)絡(luò)、職業(yè)體育、政治競(jìng)選答案:正確46.探索性數(shù)據(jù)分析的特點(diǎn)是研究從原始數(shù)據(jù)入手,完全以實(shí)際數(shù)據(jù)為依據(jù)。答案:正確47.決策樹(shù)學(xué)習(xí)的算法通常是一個(gè)遞歸地選擇最優(yōu)特征,并根據(jù)該特征對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割,使得

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論