Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題答案_第1頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題答案_第2頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題答案_第3頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題答案_第4頁
Python數(shù)據(jù)分析與應(yīng)用-從數(shù)據(jù)獲取到可視化(第2版)習(xí)題答案_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第1章數(shù)據(jù)分析概述填空題描述性分析Anaconda實時MarkdownNumPy判斷題×√√√×選擇題BBACB簡答題數(shù)據(jù)分析是指使用適當(dāng)?shù)腬t"/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/_blank"統(tǒng)計分析方法對收集到的大量數(shù)據(jù)進行分析,從這些數(shù)據(jù)中提取有用信息和形成結(jié)論,并加以詳細(xì)研究和概括總結(jié)的過程。數(shù)據(jù)分析大致分為五個階段,分別是明確目的和思路、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)。第2章科學(xué)計算庫NumPy一、填空題ndarray。二數(shù)據(jù)類型廣播花式索引二、判斷題×√√√×三、選擇題BDACA四、簡答題軸其實就代表維度。數(shù)組的維度不同,它對應(yīng)的軸的數(shù)量也不同。一維數(shù)組只有一個軸,軸的編號為0;二維數(shù)組有沿行方向和列方向的兩個軸,其中沿行方向的軸編號為0,沿列方向的軸編號為1;三維數(shù)組有沿著行、列方向,以及由行列組成的平面的三個軸,這三個軸的編號分別為0、1、2。數(shù)組的形狀是否兼容。以兩個數(shù)組為例,這兩個數(shù)組的形狀右對齊,之后沿著從右向左的順序逐個比較同一緯度是否滿足任意一種情況:(1)維度相等;有一方維度為1。如果數(shù)組形狀的每個維度都滿足上述任意一種情況,說明兩個數(shù)組的形狀兼容,可以直接進行算術(shù)運算。五、編程題答案:importnumpyasnparr=np.zeros(5)print(arr)答案:importnumpyasnparr=np.zeros((8,8),dtype=int)arr[1::2,::2]=1arr[::2,1::2]=1print(arr)數(shù)據(jù)分析庫pandas基礎(chǔ)填空題DataFrame索引,數(shù)據(jù)DataFrameread_csv()分層索引判斷題√√×××選擇題CDAAB簡答題Series是類似于一維數(shù)組的數(shù)據(jù)結(jié)構(gòu),主要由一組數(shù)據(jù)和與之相關(guān)的索引兩部分組成,其中數(shù)據(jù)可以是任意類型的;DataFrame是一個類似于二維數(shù)組或表格的數(shù)據(jù)結(jié)構(gòu),它由索引和數(shù)據(jù)兩部分組成,既有行索引又有列索引,每列數(shù)據(jù)可以是不同的數(shù)據(jù)類型。分層索引可以理解為單層索引的延伸,即在一個軸方向上具有兩層或兩層以上的索引。編程題答案:(1)importnumpyasnpimportpandasaspddf_data=np.array([[1,5,8,8],[2,2,4,9],[7,4,2,3],[3,0,5,2]])col_data=np.array(['A','B','C','D'])df_obj=pd.DataFrame(columns=col_data,data=df_data)df_obj(2)sort_values_data=df_obj.sort_values(by=['B'],ascending=False)sort_values_data(3)sort_values_data.to_csv(r'write_data.csv')print('寫入完畢')數(shù)據(jù)預(yù)處理填空題NaN堆疊合并啞變量異常值pivot()判斷題√√×××選擇題BACDA簡答題異常值是指數(shù)據(jù)集中的個別值明顯偏離它所屬數(shù)據(jù)集的其余值,這些數(shù)值是不合理的或錯誤的。pandas中提供了幾種數(shù)據(jù)合并的方式,分別是堆疊合并、主鍵合并、根據(jù)索引合并、合并重疊數(shù)據(jù)。編程題答案:(1)importpandasaspdimportnumpyasnpgroup_a=pd.DataFrame({'A':[2,3,5,2,3],'B':['5',np.nan,'2','3','6'],'C':[8,7,50,8,2],'key':[3,4,5,2,5]})group_b=pd.DataFrame({'A':[3,3,3],'B':[4,4,4],'C':[5,5,5]})print(group_a)print(group_b)(2)group_a=group_bine_first(group_b)group_a(3)group_a.rename(columns={'key':'D'})數(shù)據(jù)聚合與分組運算填空題拆分by可迭代groupsDataFrameBy判斷題×××√×選擇題AABDC簡答題分組與聚合主要根據(jù)一定的拆分標(biāo)準(zhǔn)將原數(shù)據(jù)拆分成若干個分組,然后對每個分組應(yīng)用統(tǒng)計運算,并把運算后的結(jié)果合并到一起。按照列標(biāo)簽分組、按照Series類的對象分組、按照字典分組、按照函數(shù)分組。編程題答案:(1)importpandasaspdstudnets_data=pd.DataFrame({'年級':['大一','大二','大三','大四','大二','大三','大一','大三','大四'],'姓名':['李宏卓','李思真','張振海','趙鴻飛','白蓉','馬騰飛','張曉凡','金紫萱','金燁'],'年齡':[18,19,20,21,19,20,18,20,21],'身高':[175,165,178,175,160,180,167,170,185],'體重':[65,60,70,76,55,70,52,53,73]})studnets_data(2)group_data=studnets_data.groupby('年級')freshman=group_data.get_group('大一')freshman(3)new_data=group_data.apply(max)delnew_data['年級']new_data(4)junior=dict([xforxingroup_data])['大三']print(freshman['體重'].apply('mean'))print(junior['體重'].apply('mean'))數(shù)據(jù)可視化填空題直方圖中位數(shù)pyplot六邊形Pyecharts判斷題√××××選擇題DDCBB簡答題答案:圖表常用的輔助元素包括坐標(biāo)軸、標(biāo)題、圖例、網(wǎng)格、參考線、參考區(qū)域、注釋文本,其中坐標(biāo)軸是用于界定圖表繪圖區(qū)的一組直線,用作度量的參照框架;標(biāo)題是圖表的說明性文本,用于描述圖表的大致內(nèi)容;圖例是集中在圖表一角或一側(cè)的方框,主要作用是標(biāo)識為圖表中的數(shù)據(jù)系列或分類指定的圖案或顏色;網(wǎng)格是從坐標(biāo)軸的刻度線開始、貫穿繪圖區(qū)域的若干條線,作為估算圖形所示值的標(biāo)準(zhǔn);參考線是標(biāo)記坐標(biāo)軸上特殊值的一條直線;參考區(qū)域是標(biāo)記坐標(biāo)軸上特殊范圍的一塊區(qū)域;注釋文本表示對圖形的一些注釋和說明。答案:(1)直方圖,由一系列高度不等的矩形條或線段組成,用于反映數(shù)據(jù)的分布和波動情況。(2)折線圖是用直線段將各數(shù)據(jù)點連接起來而組成的圖形,以線條的方式顯示數(shù)據(jù)的變化趨勢。(3)柱形圖是由一系列寬度相等的縱向矩形條組成的圖表,它使用矩形條的高度表示數(shù)據(jù)的多少,以此反映不同分類數(shù)據(jù)之間的差異。(4)餅圖是一種用于了解數(shù)據(jù)中各分類占比情況的圖表,它使用圓表示數(shù)據(jù)的總量,組成圓的扇面表示數(shù)據(jù)各項占總量的比例大小。(5)散點圖是由若干組數(shù)據(jù)點組成的圖表,主要用于判斷兩變量之間是否存在某種關(guān)聯(lián),或者總結(jié)數(shù)據(jù)點的分布模式。(6)箱形圖是利用數(shù)據(jù)中的5個統(tǒng)計量——最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值——描述數(shù)據(jù)的一種圖表,主要用于反映一組或多組數(shù)據(jù)的對稱性、分布程度等信息。編程題答案:importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']#正常顯示中文標(biāo)簽x_axis=stock_data['汽車品牌']y_axis=stock_data['熱搜指數(shù)']rect_hot=plt.bar(x_axis,y_axis)plt.ylabel('熱搜指數(shù)')plt.title('不同品牌汽車的熱搜指數(shù)')#添加注釋文本defautolabel(rects):"""在每個柱形上方添加注釋文本"""forrectinrects:rect_height=rect.get_height()#獲取每個柱形的高度rect_x=rect.get_x()#獲取每個柱形的x值rect_width=rect.get_width()#獲取每個柱形的寬度plt.text(rect_x+rect_width/2,rect_height+30,s='{}'.format(rect_height),ha='center',va='bottom',fontsize=9)autolabel(rect_hot)plt.show()時間序列分析填空題時間序列時間戳基礎(chǔ)頻率重采樣Period判斷題√√×√×選擇題ADDBC簡答題時間戳表示帶時區(qū)的特定的日期時間;時間差表示絕對的持續(xù)時間;時期是由時間點及其相關(guān)頻率定義的時間跨度。如果是將高頻率數(shù)據(jù)聚合到低頻率,比如將每日采集的頻率變成每月采集,則稱為降采樣;如果將低頻率數(shù)據(jù)轉(zhuǎn)換到高頻率數(shù)據(jù),比如將每月采集的頻率變成每日采集,則稱為升采樣。編程題答案:代碼一:運行產(chǎn)生ValueError異常,主要是因為date_range()函數(shù)中必須傳入start、end、periods、freq中至少三個參數(shù),而代碼中只傳入了start和freq參數(shù)。代碼二:運行結(jié)果為5代碼三:運行出現(xiàn)異常,因為日期字符串的格式不能夠被正確解析。文本數(shù)據(jù)分析填空題詞形還原詞性標(biāo)注停用詞NLTK精確判斷題×√×××選擇題DABCDDAB簡答題文本預(yù)處理的基本流程包括分詞、詞形統(tǒng)一化、刪除停用詞。(1)對文本進行分詞操作,從中找出正向情感詞、負(fù)向情感詞、否定詞以及程度副詞。(2)判斷每個情感詞之前是否有否定詞及程度副詞,將它之前的否定詞和程度副詞劃分為一組。如果存在否定詞,則將情感詞的情感權(quán)值乘以-1;如果有程度副詞,就乘以程度副詞的程度值。(3)將所有組的得分加起來,得分大于0的歸于正向,小于0的歸于負(fù)向。機器學(xué)習(xí)入門填空題機器學(xué)習(xí)樣本監(jiān)督學(xué)習(xí)最值歸一化網(wǎng)格搜索判斷題√××√×選擇題DAACA簡答

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論