Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第1頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第2頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第3頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第4頁
Python數(shù)據(jù)分析與可視化 習(xí)題答案(呂云翔)_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、Python數(shù)據(jù)分析與可視化習(xí)題答案弟一早1、闡述統(tǒng)計分析與數(shù)據(jù)挖掘的特點。傳統(tǒng)的統(tǒng)計分析是在已定假設(shè)、先驗約束的內(nèi)情況下,對數(shù)據(jù)進行整理篩選 和加工,由此得到一些信息。數(shù)據(jù)挖掘是將信息需要進一步處理以獲得認(rèn)知,繼而轉(zhuǎn)為有效的預(yù)測和決策。統(tǒng)計分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認(rèn)知的工具。2、數(shù)據(jù)分析的基本步驟包括哪些?(1)數(shù)據(jù)收集;(2)數(shù)據(jù)預(yù)處理;(3)數(shù)據(jù)分析與知識發(fā)現(xiàn);(4)數(shù)據(jù)后處理。3、相比R語言、MATLAB、SAS、SPSS等語言或工具,Python有哪些優(yōu)點?(1) Python是面向生產(chǎn)的;(2)強大的第三方庫的支持;(3) Python的膠水語言特性。AA*

2、 弟一早選擇題1、python之父是以下哪位?(A)A、吉多范羅蘇姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的縮進功能有什么作用? (C)A、增加代碼可讀性B、方便放置各類符號C、決定程序的結(jié)構(gòu)D、方便修改程序3、python的單行注釋通過什么符號完成?(B)A、雙斜杠(/)B、井號(#)C、三引號(”)D 回歸分析二、判斷題1. k近鄰算法的訓(xùn)練時間開銷為0。True.線性判別分析,針對訓(xùn)練集,將其投影到一條直線上,使得同類樣本點盡可能接近,異 類樣本點盡量遠(yuǎn)離。True.同一個問題和樣本產(chǎn)生的決策樹一定相同。False.回歸分析的目的在于了解變量間是否相關(guān)、相關(guān)方向和相

3、關(guān)強度,并建立數(shù)學(xué)模型來進 行預(yù)測。True. DBSCAN聚類速度快且能夠有效處理噪聲和發(fā)現(xiàn)任意形狀的空間聚類。True三、填空題.貝葉斯公式:。(p (y | x) = (p (x | y) p (y) / (p (x).關(guān)聯(lián)規(guī)那么挖掘分為 和 o(生成頻繁項集生成強規(guī)那么). Apriori算法定律1:如果一個集合是頻繁項集,那么它的所有 都是頻繁項集;Apriori算法定律2:如果一個集合不是頻繁項集,那么它的所有 都不是頻繁項集。(子集超集).關(guān)聯(lián)規(guī)那么分析中,如果窮舉項集的所有組合,并測試每個組合是否滿足條件。那么對于一個元素個數(shù)為n的項集,所需要的時間復(fù)雜度為 o(0(2n).列

4、舉典型的無監(jiān)督學(xué)習(xí):和 o(關(guān)聯(lián)分析聚類分析)第七章一、單項選擇題1、在支持向量機分類方法中,在擬合以后,可以通過以下哪一個參數(shù)獲取支持向量的索引()BB support.D以上均不是B NuSVCD以上均是B support.D以上均不是B NuSVCD以上均是A support_vectors_C nsupport2、以下能夠?qū)崿F(xiàn)多元分類的是()DA SVCC高斯過程分類3、以下說法不正確的選項是()AA scikit-learn實現(xiàn)的lineajmodel. Lasso類使用了坐標(biāo)上升算法來擬合系數(shù)B linear_model. BayesianRidge類實現(xiàn)了貝葉斯嶺回歸,能夠在回歸

5、問題的估計過程中引入?yún)?shù)正規(guī)化C gaussian_process. GaussianProcessRegressor 類實現(xiàn) f 一個用于回歸問題的高斯過 程D與最近鄰分類一樣,scikit-learn也實現(xiàn)了兩種鄰回歸,KNeighborsRegressor與RadiusNeighborsRegressor分別基于每個查詢點的k個最近鄰、每個查詢點的固定半徑內(nèi) 的“鄰居”數(shù)量實現(xiàn)4、以下關(guān)于k均值以下說法不正確的選項是()CA兩種k均值算法在使用時都需要通過n_clusters參數(shù)指定聚類的個數(shù)。B給足夠多的時間,k均值算法總能夠收斂,但可能得到的是局部最小值。C 在使用cluster.

6、KMeans時,通過n_jobs參數(shù)能指定該模型使用的處理器個數(shù)。假設(shè)為正 值,那么使用“n_jobs”個處理器,-3代表使用全部處理器,-2代表除了兩個處理器以外全 部使用,代表除了某個處理器以外全部使用。D cluster. MiniBatchKMeans類實現(xiàn)了 k均值的算法的小批量變體5、以下關(guān)于聚類說法不正確的選項是()CA在譜聚類中,可以設(shè)置assignabels參數(shù)以使用不同的分配策略。B在層次聚類中使用n_clusters參數(shù)可以指定聚類個數(shù),linkage參數(shù)用于指定合并的策略, 可選用 ward、 complete、 averageC DBSCAN的核心概念是Core Sa

7、mples,即位于高密度區(qū)域的樣本,其中較小的min_samples 或者較大的esp表示形成聚類的密度較高。D 在BIRCH中,有兩個重要的參數(shù):branching_factor (分支因子)和threshold(閾值), 分支因子限制了一個節(jié)點中的子集群的數(shù)量,閾值限制了新加入的樣本和存在于現(xiàn)有子集群 中樣本的最大距離。二、對錯題1、在邏輯回歸中,saga求解器基于隨機平均梯度下降算法,其在大數(shù)據(jù)集上的收斂速度更 快。()錯2、在最近鄰分類方法中,KNeighborsClassifier是基于每個查詢點的固定半徑r內(nèi)的鄰居 數(shù)量實現(xiàn),其中r是用戶指定的浮點數(shù)。()是k,是數(shù)量,是整數(shù),錯3

8、、MultinomialNB BernoulliNB GaussianNB 還提供了 partial_f it 方法,該方法能夠動 態(tài)地解決加載大數(shù)據(jù)集的問題。與fit使用方法相同,操作比擬簡單。,錯,與fit使用方 法不同4、嶺回歸從本質(zhì)上來說也是最小二乘法,只不過是通過對系數(shù)的大小施加懲罰來改進。對 5、Mean-Shift算法不是高度可擴展的,因為在執(zhí)行算法期間需要執(zhí)行多個最近鄰搜索。因 為當(dāng)質(zhì)心較少時,會停止迭代,所以此算法不收斂,錯,是收斂的三、填空題1、scikit-learn是SciPy中一個非常著名的分支,scikit-learn所支持的算法、模型均 是經(jīng)過廣泛驗證的。在本章的

9、學(xué)習(xí)中,主要介紹了、等3大類。2、在隨機梯度下降分類方法中,lineajmodel.SGDClassifier類實現(xiàn)了簡單的隨機梯度下 降分類,可以通過loss函數(shù)來設(shè)置損失函數(shù),要軟件間隔對應(yīng)向量機、平滑Hinge或邏輯 回歸,loss的值應(yīng)分別選用、o3、目前,MLPClassifier只支持 函數(shù),通過運行 方法進行概率估計,MLP算法使用的是 傳播的方式。4、Scikit-learn支持高斯樸素貝葉斯、多項分布樸素貝葉斯與伯努利樸素貝葉斯算法,分 別由、實現(xiàn)。5、AffinintyPropagation類中,假設(shè)要設(shè)置相似度度量方式,設(shè)置阻尼因子,設(shè)置向量,代 表對各個點的偏好應(yīng)該要分

10、別設(shè)置、等參數(shù)。答案:1、分類方法;回歸方法;聚類方法2、 hinge; modifiedhuber; log3、交叉嫡損失函數(shù);predict_proba;反向傳播naive_bayes. GaussianNB naive bayes. MultinomialNB naive bayes. BernoulliNBAffinity damping、 preferencedpitight如以下圖所示,In3表示的意思是:()B第八章一、單項選擇題1、在使用savefile函數(shù)將生成的函數(shù)圖像保存為圖片時,可以使用以下哪個參數(shù)來指定圖 片清晰度()AB bbox_inchesD axesIn 1

11、: import matplotlib.pyplot as pitIn 2 : fig=plt.figure ()In 3 : axes=plt.subplot (2,2,1) axes=plt . subplot (2,2,3)In 4 : fig.suptitle(Example of multiple subplots *) In 5 : pit . show ()A figure對象中的subplot布局為2X2,B figure對象中的subplot布局為2X 1,C figure對象中的subplot布局為2義3,D figure對象中的subplot布局為2X2,A figure

12、對象中的subplot布局為2X2,B figure對象中的subplot布局為2X 1,C figure對象中的subplot布局為2義3,D figure對象中的subplot布局為2X2,選中了索引為1的subplot同時分別選中了索引為1和3的subplot選中了索引為1的subplot選中了索引為3的subplot3、代碼“axes, plot (t, s, color=k , linestyle=一的意思是()AA以t為橫軸,s為縱軸,A以t為橫軸,s為縱軸,畫函數(shù)圖像,線條類型為虛線B以s為橫軸,t為縱軸,B以s為橫軸,t為縱軸,畫函數(shù)圖像,線條類型為虛線C以t為橫軸,s為縱軸,

13、C以t為橫軸,s為縱軸,畫函數(shù)圖像,線條類型為實線D以s為橫軸,t為縱軸,D以s為橫軸,t為縱軸,畫函數(shù)圖像,線條類型為實線4、如以下圖所示,請問哪一行代碼創(chuàng)立了兩個柱狀圖()BIn 1 : import matplotlib.pyplot as pit import numpy as npIn 2 : figraxes=plt.subplots()In 3 : data_m=(40r 120, 20, 100, 30, 200) data_f=(60r 180, 30, 150, 20, 50)In 4 : index = np.arange(6)width=0 . 4In 5 : axes

14、.bar(index, data_m, width, color= * c1z label= * men1) axes.bar(index+width, data_fz width, color=1b, label=1 women *)In 6 : axes.set_xticks(index + width / 2)axes . set_xticklabels (TaxiMetro, Walk*, * Bus * f * Bicycle * r * Driving axes.legend()In 7 : pit.show()A In 4B In 6A In 4B In 6B In 5D In

15、75、在柱狀圖設(shè)計中,為了設(shè)置顏色的透明度可以設(shè)置哪個函數(shù)的哪個參數(shù)()DA axes, barh widthA axes, barh widthB axes, barh alphaC axes, bar widthD axes, bar alpha二、對錯題1、一個figure對象只能建立一個axes, 一個axes中能夠建立多個subplot ()錯誤2、minor tick比major tick更短,而且顯示具體的坐標(biāo)值()錯誤3、為了讓直方圖的條紋面積為1,可以為axes, hist函數(shù)設(shè)置參數(shù)density二true ()對4、使用pylot進行3D圖表的繪制,需要創(chuàng)立axes時設(shè)置

16、projection為3d對5、繪制餅圖時要調(diào)用axes, pie函數(shù),shadow表示百分比數(shù)值的顯示格式()錯三、填空題1、如果我們要建立一個figure對象,讓它擁有2X2的axes布局,可以輸入以下代碼參考答案Import matplotlib. pyplot as pitfig, axes=plt. subplots (2,2)pit. show()2、構(gòu)建圖表的主要步驟包括、.參考答案:準(zhǔn)備數(shù)據(jù);生成圖表對象并將數(shù)據(jù)數(shù)據(jù)傳入;調(diào)整圖表裝飾項;3、如以下圖所示,添加箭頭尖端的位置為;注釋文字位置為Code 8-6添加注釋例如In 1 : import matplotlib.pyplo

17、t as pit import numpy as npIn 2 : fig=plt.figure() figr axes=plt.subplots()In 3 : axes.plot(np.arange(0r 24z 2), 14,9,7,5, 12, 19,23, 26, 27,24,21,19, ,-o,)In 4 : axes.set_xticks(np.arange (0,24,2)In 5 : axes.annotate(hottest at 16:00, xy=(16, 27), xytext=(16z 22), arrowprops=dict(facecolor=,black,r

18、 shrink=0.2), horizontalalignment=center1, verticalalignment= * centerIn 6 : axes.text(12, 10, * Date: March 26th, 2018 * z bbox=1 facecolor1: cyan1 ,alpha*: 0.3, 1pad1: 6)In 7 : pit.show()參考答案:(16,27) ; (16,22) 4、在繪制餅圖時,要調(diào)用axes, pie函數(shù),其中參數(shù)labels, sizes, explode分別代表參考答案:餅圖中分區(qū)所代表的的含義;每個分區(qū)各自的面積占比,每個分區(qū)

19、相對中心的偏 移值5、在繪制表格時,需要調(diào)用axes, table函數(shù),還可以通過、來設(shè)置行 標(biāo)簽和列標(biāo)簽。rowLabels; colLabelsD、雙分號(;)4、以下選項中,Python數(shù)據(jù)分析方向的庫是? (C)A、PILB、DjangoC、 pandasD flask5、以下選項中,Python網(wǎng)絡(luò)爬蟲方向的庫是? (D)A、numpyB、openpyxlC、PyQt5D、scrapy對錯題1 winpython 會寫入 windows 注冊表(F)2、python與大多數(shù)程序設(shè)計語言的語法非常相近(T)3、Python的縮進是一種增加代碼可讀性的措施(F)4、PANDAS是一個構(gòu)建

20、在Numpy之上的高性能數(shù)據(jù)分析庫(T)5、Jupyter是一個交互式的數(shù)據(jù)科學(xué)與科學(xué)計算開發(fā)環(huán)境(T)填空題1、python中的多行注釋使用三引號廣表示。2、pandas能對數(shù)據(jù)進行排序、分組、歸并等操作。3、Scikitjearn包括多種分類、回歸、聚類、降維、模型選擇和預(yù)處理的算法。4、Matplotlib是一個繪圖庫。5、將Ipython工程中與其程序設(shè)計語言無關(guān)的局部獨立出來形成的新工程是Jupyter。弟二早選擇題1、以下不是集中趨勢的主要測度的是? (D)A、均值B、中位數(shù)C、眾數(shù)D、方差2、以下不是離散程度的主要測度的是?(D)A、極差B、方差C、標(biāo)準(zhǔn)差D、中位數(shù)3、以下不屬于

21、數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)的是? (C)A、完整性B、一致性C、可控性D、及時性4、以下不屬于噪聲數(shù)據(jù)處理方法的是你?(B)A、分箱技術(shù)B、同化技術(shù)C、聚類技術(shù)D、回歸技術(shù)5、以下不屬于特征提取方法的是? (B)A、主成分分析B、多重判別分析C、獨立成分分析D、線性判別分析對錯題1、數(shù)據(jù)庫中不含缺失值的變量被稱為完全變量(T)2、噪聲是指被觀測變量的隨機誤差或標(biāo)準(zhǔn)差(F)3、一致性是指數(shù)據(jù)是否合乎規(guī)范,數(shù)據(jù)內(nèi)的數(shù)據(jù)是否保持一致的格 式(T)4、及時性是指數(shù)據(jù)產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時 長(T)5、特征構(gòu)建是指從預(yù)處理的數(shù)據(jù)中人工構(gòu)建新的特征(F)填空題1、數(shù)據(jù)分析需要特別關(guān)注集中趨勢、

22、離散程度兩點。2、一般可以通過數(shù)據(jù)統(tǒng)計中的記錄值和唯一值兩個值來評估數(shù)據(jù)質(zhì) 量的完整性。3、數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)果的有效性和準(zhǔn)確性的前提保證。4、異常數(shù)據(jù)如果沒喲規(guī)律可循幾乎不可能被還原,只能將其過濾。5、特征提取是在原始特征的基礎(chǔ)上,自動構(gòu)建新的特征,將源石特 征轉(zhuǎn)換為一組更具物理意義、統(tǒng)計意義或者核的特征。第四章選擇題:1、關(guān)于NumPy說法不正確正確的選項是(D)A、NumPy是Python處理數(shù)組和矢量運算的庫。B、NumPy是高性能計算的基礎(chǔ)。C、NumPy是數(shù)據(jù)分析的基礎(chǔ)。D、Pandas scikit-learn 和 Matplotlib 是 NumPy 的基礎(chǔ)2、關(guān)于ndarr

23、ay對象說法不正確正確的選項是(D)As Ndarray對象指的是多維數(shù)組對象。B、Ndarray對象是NumPy中很重要的對象。C、Ndarray保存的是同一類型的對象。D、Ndarray的訪問方式不同于列表。3、以下哪些不是描述ndarray對象的屬性(C)A、 shapeB、ndimC、arrayD、size4、創(chuàng)立單位矩陣,對角線元素為1,其余為0需要用到以下哪個函數(shù)(D)A、 onesB、onesjikeC、empty J ikeD、eye identity5、對以下函數(shù)說法正確的選項是(B)A、reshape會修改原adarray對象B、reveal不會修改原adarray對象C、

24、T會修改原adarray對象D、resize不會修改原adarray對象判斷題1、floatl6為半精度浮點數(shù)。(對)2、floatl28為雙精度浮點數(shù)(錯)擴展精度3、complexl28 (cl6)使用兩個雙精度浮點數(shù)表示的復(fù)數(shù)。(對)4、empty指定shape,創(chuàng)立新數(shù)組,且填充為0 (錯)不填充5、size指ndarray對象的維度。(錯)元素個數(shù)填空題1、代碼中用指代NumPy。2、查詢某個ndarray對象的dtype屬性,會返回一個(dtype)類型的對象。3、T函數(shù)返回原ndarray對象的(轉(zhuǎn)置)4、布爾值的字節(jié)長度為(1)5、ndim指ndarray對象的(維度)。第五章

25、一、單項選擇題.以下哪一個Series對象不同()AA disc = T :1,,2, :2,,3, :3 obj c = Series (disc, index=11, 2, 3)B disc =1 :1, 2 :2, 3 :3 obj_c = Series(disc, index= 1, 2, 3)C disc = a : 1, b :2, c :3 obj c = Series (disc, index=11, 2, 3)D disc = a : 1, b :2, c :3 obj_c 二 Series (disc, index= 1, 2, 3).以下哪一項不是DataFrame對象的屬性()DA columnsB indexC valuesD length.以下哪一項可以對DataFrame對象進行行的刪除()AAdrop, axis=0Bdrop, axis=lC delD pop. Index對象中,以下哪一項針對時間間隔數(shù)據(jù)()DA Int64IndexB MultilndexC DatetimeindexD Perio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論