




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
學(xué)院
期末試卷A
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級:20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長:
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗A》(課程代碼:)
考試時間:120分鐘總分:100分
一'名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
2、數(shù)據(jù)集成
二、選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實數(shù)據(jù)C、污染數(shù)據(jù)D、都對
2、、特征二值化的核心在于設(shè)定一個()
A、元素B、閾值
C、元素D、關(guān)鍵值
3、定性特征啞編碼又稱為獨(dú)熱碼,它用不同的()對應(yīng)不同的數(shù)據(jù)值。
A、數(shù)據(jù)B、數(shù)值C、狀態(tài)D、節(jié)點(diǎn)
4、數(shù)據(jù)壓縮是指在()前提下,縮減數(shù)據(jù)量以減少存儲空間,提高其傳輸、存
儲和處理效率,或按照一定的算法對數(shù)據(jù)進(jìn)行重新組織,減少數(shù)據(jù)的冗余和存儲
的空間的一種技術(shù)方法。()
A、不丟失有用信息的B、不丟失所有信息的C、不丟失真實信息的
D、以上三個都是
5、在Python在,GroupBy對象的用途是()。
A、執(zhí)行分割-應(yīng)用-組合操作B、執(zhí)行排序操作C、執(zhí)行定位操作D、都不
是
三'簡答題(每題8分,共48分)
1.描述數(shù)據(jù)歸約思想及實現(xiàn)。
2、描述回歸法主要思想。
3、描述大數(shù)據(jù)采集的特點(diǎn)。
4、請寫出8個以上的Excel中用于數(shù)據(jù)清洗的函數(shù)
5、什么是數(shù)據(jù)類型?有哪些常見的數(shù)據(jù)類型?
6、如何使用kettle對數(shù)據(jù)進(jìn)行統(tǒng)計分析
四、程序題(每題6分共12分)
1.寫出程序用Python讀取文本內(nèi)容
2.創(chuàng)建一個Series,并更新Series的索引
五'論述題(每題20分共20分)
如何使用kettle清洗超出范圍的數(shù)據(jù)?畫出流程圖并說明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)的標(biāo)準(zhǔn)化
數(shù)據(jù)的標(biāo)準(zhǔn)化,是通過一定的數(shù)學(xué)變換方式,將原始數(shù)據(jù)按照一定的比例進(jìn)行轉(zhuǎn)換,使之落入
到一個小的特定區(qū)間內(nèi),例如0~1或-1~1的區(qū)間內(nèi),消除不同變量之間性質(zhì)、量綱、數(shù)量級等
特征屬性的差異,將其轉(zhuǎn)化為一個無量綱的相對數(shù)值。
2、數(shù)據(jù)集成
數(shù)據(jù)集成正是將把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為
企業(yè)提供全面的數(shù)據(jù)共享。
二'選擇題(每空2分,共20分)
ABCAA
三、簡答題(每題8分,共32分)
1.數(shù)據(jù)歸約是指在盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量(完成該任務(wù)的
必要前提是理解挖掘任務(wù)和熟悉數(shù)據(jù)本身內(nèi)容)。數(shù)據(jù)歸約主要有兩個途徑:屬性選擇和數(shù)
據(jù)采樣,分別針對原始數(shù)據(jù)集中的屬性和記錄。
一般而言,原始數(shù)據(jù)可以用數(shù)據(jù)集的歸約表示。盡管歸約數(shù)據(jù)體積較小,但它仍接近于
保持原始數(shù)據(jù)的完整性。
2.回歸法是試圖發(fā)現(xiàn)兩個相關(guān)的變量之間的變化模式,通過使數(shù)據(jù)適合一個函數(shù)來平滑數(shù)
據(jù),即通過建立數(shù)學(xué)模型來預(yù)測下一個數(shù)值,包括線性回歸和非線性回歸。線性回歸涉及找
出擬合兩個屬性(或變量)的“最佳”直線,使得一個屬性可以用來預(yù)測另一個。非線性回歸
是線性回歸的擴(kuò)充,其中涉及的屬性多余兩個,并且數(shù)據(jù)擬合到一個多維曲面。
3.大數(shù)據(jù)采集與一般的傳統(tǒng)采集不同,大數(shù)據(jù)的采集過程的主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)
高,因為同時可能會有成千上萬的用戶在進(jìn)行訪問和操作。例如,火車票售票網(wǎng)站、飛機(jī)票
售票網(wǎng)站和淘寶網(wǎng)站的并發(fā)訪問量在峰值時可達(dá)到上百萬甚至是上千萬,所以在采集端需要
部署大量數(shù)據(jù)庫才能對其支撐。并且在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片是需要深入的思
考和設(shè)計的。
此外,根據(jù)數(shù)據(jù)源的不同,大數(shù)據(jù)采集方法也不相同。但是為了能夠滿足大數(shù)據(jù)采集
的需要,大數(shù)據(jù)采集時大多都使用了大數(shù)據(jù)的處理模式,即M叩Reduce分布式并行處理模
式或是基于內(nèi)存的流式處理模式。
4.FIND函數(shù)、SEARCH函數(shù)、REPLACE函數(shù)、UBSTITUTE函數(shù)、LEFT函數(shù)、
RIGHT函數(shù)、MID函數(shù)、DOLLAR函數(shù)。
5.數(shù)據(jù)類型是指是一個值的集合和定義在這個值集上的一組操作的總稱。它的出現(xiàn)是為了
把數(shù)據(jù)分成所需內(nèi)存大小不同的數(shù)據(jù),以便于程序的運(yùn)行。通??梢愿鶕?jù)數(shù)據(jù)類型的特點(diǎn)將數(shù)
據(jù)劃分為不同的類型,如原始類型、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考
類型以及函數(shù)類型等。在每種編程語言和數(shù)據(jù)庫中都有不同的數(shù)據(jù)類型。
常見的數(shù)據(jù)類型主要包含有:數(shù)值型、日期型、時間性、字符串型、邏輯型以及文本型
6.成功運(yùn)行ketlle后在菜單欄單擊文件,在“新建”中選擇“轉(zhuǎn)換”選項,在“輸入”中選
擇“Excel輸入”選項,在“統(tǒng)計”中選擇“單變量統(tǒng)計”選項進(jìn)行分析
四'程序題(每題10分共30分)
1.withopen('1.txt,)asfile_object:
contents=file_object.read()
print(contents)
2.importpandasaspd
data=np.array(「a?b?c?d'])
s=pd.Series(data)
print(s)
運(yùn)行結(jié)果為:
0a
1b
2c
3d
dtype:object
data=np.arrayCfa'/bVcVd'])
s=pd.Series(data,index=[100J01,102,103])
print(s)
運(yùn)行結(jié)果為:
100a
101b
102c
103d
dtype:object
s.index
運(yùn)行結(jié)果為:
Int641ndex([100,101,102,103],dtype='int64')
五、論述題(每題10分共10分)
文本文件捻出2
學(xué)院
期末試卷B
2020-2021學(xué)年第一學(xué)期
考試課程:數(shù)據(jù)清洗
課程代碼:
考試形式:閉卷考試
考試班級:20大數(shù)據(jù)
命題教師:
教研室主任:
系(院)主任:
教務(wù)處長:
學(xué)院
2020-2021學(xué)年第一學(xué)期輔修試卷
《數(shù)據(jù)清洗B》(課程代碼:)
考試時間:120分鐘總分:100分
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉庫
2、NumPy
二'選擇題(每空2分,共10分)
1、噪聲數(shù)據(jù)主要包含錯誤數(shù)據(jù)、假數(shù)據(jù)和()
A、異常數(shù)據(jù)B、真實數(shù)據(jù)C、污染數(shù)據(jù)D、都對
2、Pandas提供了兩種高效的的數(shù)據(jù)結(jié)構(gòu),series和()
A、defineB、form
C、numD、dataframe
3、Kafka是一種高吞吐量的分布式系統(tǒng)()。
A、數(shù)據(jù)采集B、發(fā)布訂閱消息C、數(shù)據(jù)集成D、數(shù)據(jù)及處理
4^Scribe是facebook開源的()
A、數(shù)據(jù)集成系統(tǒng)B、數(shù)據(jù)清洗系統(tǒng)C、數(shù)據(jù)實現(xiàn)系統(tǒng)D、
日志采集系統(tǒng)
5、在Excel中,LOOKUP函數(shù)的用途是()。
A、查找指定的值B、清除指定的值C、打開指定的值D、都不是
三'簡答題(每題8分,共48分)
1.描述隨機(jī)變量分布思想。
2、描述3a原則。
3、描述網(wǎng)絡(luò)爬蟲。
4、描述數(shù)據(jù)抽取定義及實現(xiàn)方式。
5、描述Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟。
6、描述R語言功能及特點(diǎn)。
四、程序題(每題6分共12分)
1.寫出程序用Python創(chuàng)建一個3x4的數(shù)組,并輸出和更新數(shù)組中的元素。
2.用Python將數(shù)據(jù)框按keyl歹U,key2列同時進(jìn)行分組求均值
五'論述題(每題20分共20分)
如何使用kettle去除重復(fù)數(shù)據(jù)?畫出流程圖并說明含義
答案:
一、名詞解釋題(每題5分,共10分)
1、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(DataWarehouse)簡稱DW,顧名思義,數(shù)據(jù)倉庫是一個很大的數(shù)據(jù)存儲集合,出于
企業(yè)的分析性報告和決策支持目的而創(chuàng)建,并對多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。
2、NumPy
NumPy是Python中科學(xué)計算的第三方庫,代表“NumericPython”。它是一個提供多維數(shù)組
對象,多種派生對象(如:掩碼數(shù)組、矩陣)以及用于快速操作數(shù)組的函數(shù)及API
二'選擇題(每空2分,共20分)
ADBDA
三'簡答題(每題8分,共32分)
1.隨機(jī)變量是指隨機(jī)事件的數(shù)量表現(xiàn),人們可以用數(shù)學(xué)分析的方法來研究隨機(jī)現(xiàn)象。例如
某一時間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺在一定時間內(nèi)收到的呼叫次數(shù),電子元件
的壽命,一臺機(jī)器在一定時間內(nèi)出現(xiàn)故障的次數(shù),在實際工作中遇到的測量誤差等,都是隨
機(jī)變量的實例。按照隨機(jī)變量可能取得的值,可以把它們分為離散型與連續(xù)性兩種基本類型。
2.3a原則是指如果數(shù)據(jù)服從正態(tài)分布,那么在3a原則下,異常數(shù)據(jù)為一組測定值中與平均
值的偏差超過3倍標(biāo)準(zhǔn)差的值。因此,如果數(shù)據(jù)服從正態(tài)分布,那么距離平均值3a之外的
值出現(xiàn)的概率為P(|x-u|>3a)<=0.003,(屬于極個別的小概率事件)即可認(rèn)為是異常數(shù)據(jù)。
3.網(wǎng)絡(luò)爬蟲(WebSpider)又稱之為網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)蜘蛛,是一種通過既定規(guī)則,能夠
自動提取網(wǎng)頁信息的程序。爬蟲的目地在于將目標(biāo)網(wǎng)頁數(shù)據(jù)下載至本地,以便進(jìn)行后續(xù)的數(shù)
據(jù)分析。
4.數(shù)據(jù)抽取是指從數(shù)據(jù)源中抽取對企業(yè)有用的或感興趣的數(shù)據(jù)的過程,它的實質(zhì)是將數(shù)
據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,它是大數(shù)據(jù)工作開展的前提。目前常用以下兩種方式
來實現(xiàn)數(shù)據(jù)抽?。宏P(guān)系庫中的數(shù)據(jù)抽取和非關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)抽取。
5.Excel數(shù)據(jù)清洗和轉(zhuǎn)換的基本步驟如下:
1)從外部數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。
2)在單獨(dú)的工作簿中創(chuàng)建原始數(shù)據(jù)的副本。
3)確保以行和列的表格形式顯示數(shù)據(jù),并且每列中的數(shù)據(jù)都相似;所有的列和行都可
見;范圍內(nèi)沒有空白行。為了獲得較佳結(jié)果,請使用Excel表。
4)首先執(zhí)行不需要對列進(jìn)行操作的任務(wù),例如拼寫檢查或使用“查找和替換”對話框。
5)然后執(zhí)行需要對列進(jìn)行操作的任務(wù)。對列進(jìn)行操作的一般步驟為:
a.在需要清理的原始列(A)旁邊插入新列(B)。
b.在新列(B)的頂部添加將要轉(zhuǎn)換數(shù)據(jù)的公式。
c.在新列(B)中向下填充公式。在Excel表中,將使用向下填充的值自動創(chuàng)建計算列。
d.選擇并復(fù)制新列(B),然后將其作為值粘貼到新列(B)中。
e.刪除原始列(A),這樣,新列B將轉(zhuǎn)換為A。
6.R語言是用于統(tǒng)計分析,圖形表示報告的編程語言和軟件環(huán)境。R語言是由新西蘭奧
克蘭大學(xué)的RossIhaka和RobertGentleman創(chuàng)建的,目前由RDevelopmentCoreTeam開發(fā)
和維護(hù)。R語言的核心是一種解釋型的計算機(jī)語言,允許使用分支和循環(huán)以及函數(shù)的模塊化
編程。
四、程序題(每題10分共30分)
1.importnumpyasnp
a=np.array([[l,2,3,4],[5,6,7,8],[9,10,11,12]])#創(chuàng)建一個3X4的數(shù)組
a
#結(jié)果:
array([[1,2,3,4],
[5,6,7,81,
[9,10,11,12]])
b=a[:2,1:3]#取數(shù)組中第0,1行,第1,2列的元素
b
#結(jié)果:
array([[2,3],
[6,7]])
print(a[0,1])#運(yùn)行結(jié)果為:2
b[0,0]=77#將b[0,0]的值更新為77,同時a[0,1]元素的值也更新為77
print(a[0,1])#運(yùn)行結(jié)果為:7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025重慶市安全員-A證考試題庫附答案
- 2025-2030年中國金屬鈷市場發(fā)展趨勢規(guī)劃研究報告
- 2025-2030年中國袋式除塵器行業(yè)運(yùn)營趨勢規(guī)劃研究報告
- 2025-2030年中國芝麻素市場運(yùn)行狀況與前景趨勢分析報告
- 2025-2030年中國翻譯行業(yè)競爭狀況及發(fā)展趨勢分析報告
- 2025-2030年中國砂巖行業(yè)市場運(yùn)行態(tài)勢及發(fā)展風(fēng)險分析報告
- 2025-2030年中國電熱水龍頭市場運(yùn)行現(xiàn)狀及發(fā)展前景預(yù)測報告
- 廣西民族大學(xué)《建筑設(shè)備自動化A》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東外語外貿(mào)大學(xué)《法律與人生》2023-2024學(xué)年第二學(xué)期期末試卷
- 咖啡店合同咖啡店合作經(jīng)營協(xié)議
- 2025年山東鋁業(yè)職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 全套電子課件:技能成就夢想
- 2024年教育公共基礎(chǔ)知識筆記
- 2025年江蘇農(nóng)林職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 異構(gòu)數(shù)據(jù)融合技術(shù)-深度研究
- 北京市朝陽區(qū)2024-2025學(xué)年七年級上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- 《銷售合同執(zhí)行》課件
- 2025年春新外研版(三起)英語三年級下冊課件 Unit4第2課時Speedup
- 山東2024年山東經(jīng)貿(mào)職業(yè)學(xué)院第二批招聘102人歷年參考題庫(頻考版)含答案解析
- 急性呼吸窘迫綜合征的護(hù)理課件(演示)
評論
0/150
提交評論