大數(shù)據(jù)分析處理慕課版郭永洪習題答案_第1頁
大數(shù)據(jù)分析處理慕課版郭永洪習題答案_第2頁
大數(shù)據(jù)分析處理慕課版郭永洪習題答案_第3頁
大數(shù)據(jù)分析處理慕課版郭永洪習題答案_第4頁
大數(shù)據(jù)分析處理慕課版郭永洪習題答案_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

單元1大數(shù)據(jù)分析概述一、單選題1.大數(shù)據(jù)分析針對的是什么樣的數(shù)據(jù)集合?(B) A.單一的 B.海量的、多樣化的 C.無須處理的 D.傳統(tǒng)的2.ETL是3個單詞的縮寫,分別代表什么意思?(C) A.抽取、分析、存儲 B.清洗、轉換、分析 C.抽取、轉換、裝載 D.分析、展示、裝載3.“提取隱含在數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識?!边@是在描述哪一項技術?(D) A.數(shù)據(jù)清洗 B.數(shù)據(jù)收集 C.數(shù)據(jù)展示 D.數(shù)據(jù)挖掘4.目前大數(shù)據(jù)分析的比較主流編程語言是(A)。 A.Python B.Java C.C語言 D.R語言5.哪一個庫是Python的數(shù)據(jù)分析庫,是為解決數(shù)據(jù)分析任務而創(chuàng)建的?(B) A.numpy B.pandas C.sklearn D.matplotlib二、填空題1.數(shù)據(jù)分析是有目的地進行收集、整理、加工和分析數(shù)據(jù),提煉有價值信息的過程。2.數(shù)據(jù)清洗的目的在于提高數(shù)據(jù)質量,將臟數(shù)據(jù)“清洗”干凈,使原數(shù)據(jù)具有完整性、唯一性、權威性、合法性、一致性等特點。3.Excel適合簡單的統(tǒng)計分析,其內置的數(shù)據(jù)分析工具不僅方便好用,功能也基本齊全,可以完成專業(yè)數(shù)據(jù)分析工作。4.pip5.pip--version是用來查看pip版本的命令。三、簡答題1.什么是數(shù)據(jù)分析?參考答案:數(shù)據(jù)分析是指根據(jù)分析目的,采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集來的數(shù)據(jù)進行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個特征統(tǒng)計量結果的過程。2.請列舉幾個大數(shù)據(jù)分析編程語言。參考答案:Python、R、Java、Scala3.通常安裝第三方庫的方法有幾種?請列舉。參考答案:使用pip命令安裝第三方庫使用PyCharm平臺安裝第三方庫單元2numpy科學計算基礎一、單選題1.numpy中的隨機數(shù)模塊是哪一個?(A) A.random B.sklearn C.os D.linalg2.以下哪一個屬性可用來表示數(shù)組在各個維度上的大???(D) A.ndarray.size B.ndarray.dtype C.ndarray.ndim D.ndarray.shape3.標量與多維數(shù)組運算時,會根據(jù)標量產(chǎn)生一個與多維數(shù)組具有(C)行數(shù)和列數(shù)的新數(shù)組,新數(shù)組與多維數(shù)組的每個元素都被相加、相減、相乘或者相除。 A.差異的 B.不同的 C.相同的 D.相似的4.通用函數(shù)是一種針對ndarray中的數(shù)據(jù)執(zhí)行(A)級運算的函數(shù),返回的是一個新的數(shù)組。 A.元素 B.數(shù)組 C.對象 D.序列5.0軸會沿著(B)的方向垂直向下延伸,1軸會沿著(B)的方向水平向右延伸。 A.列,行 B.行,列 C.單元,軸 D.軸,單元二、填空題1.numpy的全稱是NumericalPython。2.ndarray對象的數(shù)據(jù)類型可以通過astype方法進行轉換。3.計算數(shù)組元素的平方的函數(shù)是square。4.返回數(shù)組最大元素的索引的方法是argmax。5.numpy中提供的一個用于矩陣乘法的函數(shù)是dot。三、簡答題1.觸發(fā)廣播機制需要滿足哪些條件?參考答案:兩個數(shù)組的某一維度等長。②其中一個數(shù)組為一維數(shù)組。2.列舉5個ndarray對象的用于統(tǒng)計的方法。參考答案:sum、mean、min、max、cumsum3.兩個矩陣相乘,需要滿足哪些條件?參考答案:兩個矩陣相乘,必須滿足矩陣A的列數(shù)等于矩陣B的行數(shù)這一條件。假設A為m×p的矩陣,B為p×n的矩陣,那么矩陣A與B的乘積就是一個m×n的矩陣C。單元3pandas統(tǒng)計分析基礎一、單選題1.定義一個DataFrame為df,使用切片選擇索引為1、3的列,包括尾部數(shù)據(jù)。(C) A.df.loc[:,[0,3]] B.df.loc[:,[1,4]] C.df.loc[:,[1,3]] D.df.loc[:,[0,2]]2.使用字典創(chuàng)建DataFrame,字典的鍵將作為DataFrame的(D)。 A.index B.rows C.values D.columns3.創(chuàng)建Series對象時可以使用(B)參數(shù)來指定Series對象的索引。 A.data B.index C.dtype D.copy4.定義一個DataFrame為df,計算df['visit']的總和,請選擇正確的代碼。(B) A.df['visits'].sum() B.df['visit'].sum() C.df['visits'].total() D.df['visit'].total()5.DataFrame對象的(A)方法是以索引為依據(jù)對數(shù)據(jù)進行排序的。 A.sort_index B.sort_values C.index D.sort二、填空題1.pandas中有3個數(shù)據(jù)結構,分別是Series、DataFrame和Panel。2.DataFrame對象有兩個排序方法,其中以索引為依據(jù)進行排序的方法是sort_index。3.sort_values方法中用于設置按升序或降序排序的參數(shù)是ascending。4.pandas的統(tǒng)計方法中用于統(tǒng)計平均值的方法是mean。5.pandas的統(tǒng)計方法中用于統(tǒng)計累計和的方法是cumsum。三、簡答題1.寫出導入pandas庫并將其簡寫為pd的語句。參考答案:importpandasaspd2.對DataFrame對象進行排序,可以用哪兩種方法?參考答案:sort_index方法、sort_values方法3.創(chuàng)建一個Series對象,并獲得它的元素中的最小值、第一四分位數(shù)(Q1)、中位數(shù)(Q2)、第三四分位數(shù)(Q3)和最大值。參考答案:importpandasaspdser=pd.Series([28,35,54,42,21,60,63,38,41,64,68,70,18,17,39,26])ser.min()ser.quantile(0.25)ser.quantile(0.5)ser.quantile(0.75)ser.max()運行結果:1727.54060.7570單元4數(shù)據(jù)讀取與寫入一、單選題1.Python導入pandas庫的語句為“importpandasaspd”,文本文件userinfo.txt的數(shù)據(jù)格式如下,能正確讀取該文本文件的語句是(B)。 用戶1,男,軟件開發(fā)工程師 用戶2,女,軟件測試工程師 A.pd.read_exel('userinfo.txt',encoding='gbk') B.pd.read_csv('userinfo.txt',encoding='gbk') C.pd.read_table('userinfo.txt',encoding='gbk') D.pd.read_sql('userinfo.txt',encoding='gbk')2.下列哪個函數(shù)能夠將數(shù)據(jù)寫入Excel文件?(C) A.to_xlsx B.to_csv C.to_excel D.to_sql3.讀取文件的代碼為“data=pd.read_csv('job_info.csv',encoding='gbk')”,將讀取到的內容寫入Excel文件user_info.xlsx的工作表jobs,索引不寫入,下列語句正確的是(D)。 A.data.to_excel('jobs',sheet_name='job_info.xlsx',encoding='gbk',index=True) B.data.to_excel('jobs',sheet_name='job_info.xlsx',encoding='gbk',index=False) C.data.to_excel('user_info.xlsx',sheet_name='jobs',encoding='gbk',index=True) D.data.to_excel('user_info.xlsx',sheet_name='jobs',encoding='gbk',index=False)4.使用SQLAlchemy和PyMySQL建立數(shù)據(jù)庫連接,以root用戶登錄sales數(shù)據(jù)庫(字符集為UTF-8),登錄密碼為M123,下列連接MySQL的連接字符串s設置正確的是(A)。 A.s='mysql+pymysql://root:M123@127.0.0.1:3306/sales?charset=utf8' B.s='pymysql+mysql://root:M123@127.0.0.1:3306/sales?charset=utf8' C.s='mysql+pymysql://root:M123?127.0.0.1:3306/sales?charset=utf8' D.s='pymysql+mysql://root:M123?127.0.0.1:3306/sales?charset=utf8'5.下列哪些函數(shù)可以從MySQL中讀取數(shù)據(jù)?(B) ①read_sql_table②read_sql_query③read_table④read_sql A.①②③ B.①②④ C.②③④ D.①②③④二、填空題1.pandas庫中用于讀取Excel文件的函數(shù)是read_excel。2.pandas庫中用于將數(shù)據(jù)寫入文本文件的函數(shù)是to_csv。3.pandas庫中只能通過表名稱讀取表內容的函數(shù)是read_sql_table。4.pandas庫中只能通過執(zhí)行SQL查詢語句讀取表內容的函數(shù)是read_sql_query。5.pandas庫中用于將數(shù)據(jù)寫入Excel文件的函數(shù)是to_excel。三、簡答題1.pandas讀寫CSV文本文件的方法有哪些?參考答案:Pandas讀取csv文件的函數(shù)有read_table、read_csv,Pandas使用to_csv函數(shù)實現(xiàn)寫數(shù)據(jù)到csv文件。2.pandas有哪些函數(shù)可用來實現(xiàn)Excel文件的讀寫操作?參考答案:Pandas的read_excel函數(shù)可實現(xiàn)Excel文件讀取操作,to_excel函數(shù)實現(xiàn)將數(shù)據(jù)寫入Excel文件的操作。3.Python如何實現(xiàn)對MySQL數(shù)據(jù)庫的操作?參考答案:Python通過PyMySQL庫創(chuàng)建連接MySQL數(shù)據(jù)庫的引擎,通過read_sql_table函數(shù)、read_sql_query函數(shù)和read_sql函數(shù)實現(xiàn)對MySQL數(shù)據(jù)庫讀操作,通過to_sql函數(shù)實現(xiàn)數(shù)據(jù)庫寫操作。單元5數(shù)據(jù)質量與數(shù)據(jù)清洗一、單選題1.低質量數(shù)據(jù)帶來的影響不包括以下哪個?(B) A.企業(yè)收入損失 B.企業(yè)人員流失 C.客戶投訴 D.財務計劃的偏差2.以下哪個不是缺失值處理方法?(C) A.刪除法 B.替換法 C.更新法 D.插值法3.pandas提供了一個去重方法,名為(C)。 A.drop_repeat B.detect_duplicates C.drop_duplicates D.drop_duplicate4.異常值有時也被稱為(A)。 A.離群點 B.奇異值 C.離散點 D.特殊值二、填空題1.DataFrame對象用于判斷是否存在重復值的方法是duplicated。2.pandas庫提供的識別缺失值的方法是isnull。3.常用的異常值檢測方法主要有兩種,分別是圖形法和建模法。4.3σ原則又稱為拉依達準則。5.插值法常用庫是scipy。三、簡答題1.drop_duplicates方法中的參數(shù)分別表示什么?參考答案:subset:接收string或sequence,表示需要進行去重的列,默認為None,表示全部列。keep:接收特定string,表示去重時保留第幾個數(shù)據(jù)。first:保留第一個。last:保留最后一個。False:只要有重復都不保留。默認為first。inplace:接收布爾值,表示是否在原表上進行操作,默認為False。2.常用的插值法有哪些,分別有什么特點?參考答案:(1)線性插值是一種較為簡單的插值方法,它針對已知的值求出線性方程,通過求解線性方程得到缺失值。(2)多項式插值是利用已知的值擬合一個多項式,使得現(xiàn)有的數(shù)據(jù)滿足這個多項式,再利用這個多項式求解缺失值,常見的多項式插值法有拉格朗日插值和牛頓插值等。(3)樣條插值是以可變樣條來作出一條經(jīng)過一系列點的光滑曲線的插值方法,插值樣條由一些多項式組成,每一個多項式都是由相鄰兩個數(shù)據(jù)點決定,這樣可以保證兩個相鄰多項式及其導數(shù)在連接處連續(xù)。從擬合結果可以看出多項式插值和樣條插值在兩種情況下擬合都非常出色,線性插值法只在自變量和因變量為線性關系的情況下擬合才較為出色。而在實際分析過程中,自變量與因變量的關系是線性的情況非常少見,所以在大多數(shù)情況下,多項式插值和樣條插值是較為合適的選擇。單元6數(shù)據(jù)合并與數(shù)據(jù)轉換一、單選題1.將兩個表按軸堆疊在一起,可以使用pandas庫中哪個函數(shù)或方法完成?(A) A.concat B.merge C.join D.a(chǎn)ppend2.數(shù)據(jù)分析和處理過程中若出現(xiàn)兩張內容幾乎一致的表,但是某些特征的數(shù)據(jù)在其中一張表上是完整的,而在另外一張表上則是缺失的,可以用下列哪個函數(shù)或方法進行重疊數(shù)據(jù)合并,構建完整的表?(D) A.join B.merge C.concat D.combine_first3.下列哪個函數(shù)或方法可以用來實現(xiàn)數(shù)據(jù)映射轉換?(D) A.join B.merge C.concat D.map4.使用pandas庫中cut函數(shù)將連續(xù)型數(shù)值數(shù)據(jù)集ds離散化為區(qū)間,代碼為pandas.cut(ds,2,right=False),下列哪個說法是正確的?(C) A.離散化后的區(qū)間不包含左邊界,包含右邊界。 B.離散化后的區(qū)間既包含左邊界,也包含右邊界。 C.離散化后的區(qū)間包含左邊界,不包含右邊界。 D.離散化后的區(qū)間既不包含左邊界,也不包含右邊界。5.使用pandas庫中qcut函數(shù)將一個連續(xù)型數(shù)值數(shù)據(jù)集ds按頻率均衡劃分為q等份的代碼為pandas.qcut(ds,q),則下列關于參數(shù)q的取值中哪項是正確的?(A) A.2 B.{0,0.6,1} C.(0,0.4,1) D.[0,1,2]二、填空題1.concat函數(shù)的axis參數(shù)可以用來指定兩個DataFrame對象按照橫向或縱向堆疊。2.使用map方法對數(shù)據(jù)集中的數(shù)據(jù)做映射轉換時,用于處理數(shù)據(jù)集中缺失值的參數(shù)是na_action。3.使用cut函數(shù)對數(shù)據(jù)進行離散化處理時,將離散化后的數(shù)據(jù)區(qū)間表示成類別名稱,使用參數(shù)labels。4.使用pandas庫中merge函數(shù)連接兩個表,用于指定連接方式的參數(shù)是how。5.函數(shù)merge的參數(shù)how的取值有l(wèi)eft、right、outer和inner。三、簡答題有哪些方法或函數(shù)可以用來實現(xiàn)數(shù)據(jù)連接?參考答案:merge函數(shù)join方法combine_first方法單元7數(shù)據(jù)分組與數(shù)據(jù)聚合一、單選題1.pandas中用于分組的方法是(A)。 A.groupby B.a(chǎn)gg C.a(chǎn)pply D.transform2.groupby方法中哪個參數(shù)代表了分組依據(jù)?(C) A.a(chǎn)xis B.sort C.by D.level3.在完成簡單的聚合時,通常選用哪種方法?(A) A.a(chǎn)gg B.a(chǎn)pply C.transform D.combine4.如果傳入apply方法的函數(shù)本身就實現(xiàn)了聚合操作并返回一個標量的話,那么調用apply方法后返回的是(D)。 A.列表 B.元組 C.集合 D.具體的值5.傳入groupby的參數(shù)不可以是(D)。 A.Series B.list C.dict D.string二、填空題1.groupby

方法中將函數(shù)作為分組鍵時,任何一個被當作分組鍵的函數(shù)都會在各個索引值上被調用一次。2.調用groupby方法的過程中,自定義函數(shù)會對一個數(shù)據(jù)對象進行操作。3.寫出以下代碼的運行結果:importpandasaspdimportnumpyasnpseries=pd.Series([1,2])result=series.apply(lambdax:x**2)print(list(result))運行結果:[1,4]。4.可以在apply方法中傳入自定義函數(shù)。5.transform是針對每一元素(即每一列特征操作)進行計算的。三、簡答題1.groupby方法的分組鍵可以是哪些?參考答案:list、string、mapping或generator2.簡述3種聚合方法(agg方法、apply方法、transform方法)的區(qū)別。參考答案:agg方法支持對每個分組應用某函數(shù),包括Python內置函數(shù)或自定義函數(shù)。同時這個方法能夠也能夠直接對DataFrame進行函數(shù)應用操作。apply方法類似agg方法能夠將函數(shù)應用于每一列。不同之處在于apply方法相比agg方法傳入的函數(shù)只能夠作用于整個DataFrame或者Series,而無法像agg一樣能夠對不同字段,應用不同函數(shù)獲取不同結果。使用apply方法對GroupBy對象進行聚合操作其方法和agg方法也相同,只是使用agg方法能夠實現(xiàn)對不同的字段進行應用不同的函數(shù),而apply則不行。transform方法能夠對整個DataFrame的所有元素進行操作。且transform方法只有一個參數(shù)“func”,表示對DataFrame操作的函數(shù)。同時transform方法還能夠對DataFrame分組后的對象GroupBy進行操作,可以實現(xiàn)組內離差標準化等操作。單元8scikit-learn機器學習一、單選題1.機器學習是一門關于人工智能的學科,其主要研究對象是什么?(A) A.人工智能 B.人 C.機器 D.代碼2.導入PCA的方式是(B)。 A.fromsklearn.datasetsimportload_iris B.fromsklearn.decompositionimportPCA C.fromsklearn.preprocessingimportMinMaxScaler D.fromsklearn.model_selectionimporttrain_test_split3.下列算法中,sklearn沒有涉及的是(D)。 A.K-means B.邏輯斯諦回歸 C.支持向量機 D.Apriori關聯(lián)算法4.下列關于train_test_split函數(shù)的說法正確的是(C)。 A.train_test_split能夠將數(shù)據(jù)集劃分為訓練集、驗證集和測試集 B.train_test_split每次劃分的結果不同,無法解決 C.train_test_split可以自行決定訓練集和測試集的占比 D.生成的訓練集和測試集在賦值的時候可以調換位置5.將數(shù)據(jù)縮放到0和1之間,應該使用sklearn的哪種預處理轉換器?(B) A.StandardScaler B.MinMaxScaler C.Normalizer D.Binarizer6.線性回歸模型中用于擬合線性模型的方法是(C)。 A.load() B.plot() C.fit() D.predict()7.K-means聚類在sklearn的哪個模塊中?(A) A.cluster B.base C.model_selection D.liner_model二、填空題1.sklearn的全稱是scikit-learn。2.可以通過sklearn中的StandardScaler進行數(shù)據(jù)標準化。3.sklearn中自帶數(shù)據(jù)集的模塊是datasets。4.可以通過sklearn中的Binarizer進行二值化處理。5.PCA是一種降維方法。三、簡答題1.為什么要把數(shù)據(jù)集分成訓練集和測試集?參考答案:保證模型在實際系統(tǒng)中能夠起到預期作用。其中訓練集用于估計模型,而測試集則用于檢驗最優(yōu)模型的性能。2.什么是PCA算法?它的作用是什么?參考答案:PCA算法通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中表示,即把原先的n個特征用數(shù)目更少的m個特征取代,新特征是舊特征的線性組合。并期望在所投影的維度上數(shù)據(jù)的方差最大,盡量使新的m個特征互不相關。之所以要采用PCA降維方法,是因為數(shù)據(jù)在低維下更容易處理、更容易使用;相關特征容易在數(shù)據(jù)中明確的顯示出來,例如:兩維、三維數(shù)據(jù),能進行可視化展示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論