




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo)書目錄實(shí)驗(yàn)一:數(shù)據(jù)分析與可視化 /6實(shí)驗(yàn)一:數(shù)據(jù)分析與可視化一、實(shí)驗(yàn)?zāi)康暮鸵笫煜ふ莆誔ython編程基礎(chǔ)熟悉掌握利用Python進(jìn)行數(shù)據(jù)分析熟悉掌握利用Python進(jìn)行可視化的方法二、實(shí)驗(yàn)內(nèi)容和原理使用python進(jìn)行數(shù)據(jù)導(dǎo)入使用python進(jìn)行數(shù)據(jù)的探索性分析使用python進(jìn)行數(shù)據(jù)可視化分析三、主要儀器設(shè)備計(jì)算機(jī)1臺,本機(jī)型號__HPPavilionNotebook15-bc5xxx____;Python版本:_____3.7________;matplotlib版本:_______3.5.1______。四、實(shí)驗(yàn)步驟繪制散點(diǎn)圖散點(diǎn)圖是指在\t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"回歸分析中,數(shù)據(jù)點(diǎn)在直角坐標(biāo)系平面上的\t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"分布圖,散點(diǎn)圖表示因變量隨\t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"自變量而\t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"變化的大致趨勢,據(jù)此可以選擇合適的函數(shù)\t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"對數(shù)據(jù)點(diǎn)進(jìn)行\(zhòng)t"/item/%E6%95%A3%E7%82%B9%E5%9B%BE/_blank"擬合。步驟如下:導(dǎo)入相關(guān)模塊importmatplotlib.pyplotaspltimportnumpyasnp使用隨機(jī)數(shù)模塊生成100組數(shù)據(jù)點(diǎn)#隨機(jī)產(chǎn)生100個(gè)0~2之間的x,y坐標(biāo)x=np.random.rand(n)*2y=np.random.rand(n)*2設(shè)置散點(diǎn)圖的屬性:顏色、面積、透明度colors=np.random.rand(n)#隨機(jī)產(chǎn)生100個(gè)0~1之間的顏色值area=np.pi*(10*np.random.rand(n))**2#點(diǎn)的半徑范圍:0~10繪制并顯示散點(diǎn)圖plt.scatter(x,y,s=area,c=colors,alpha=0.5,marker='o')plt.show()繪制直方圖直方圖是一種可視化表示數(shù)據(jù)在連續(xù)間隔或者特定時(shí)間段內(nèi)容的分布情況;直方圖又稱為質(zhì)量分布圖,屬于條行圖的一種;直方圖x軸表示數(shù)據(jù)類型,縱軸表示分布情況,每個(gè)數(shù)據(jù)寬度可以任意變化。步驟如下:導(dǎo)入matplotlib.pyplot模塊準(zhǔn)備數(shù)據(jù),可以使用numpy/pandas整理數(shù)據(jù)調(diào)用pyplot.hist()繪制直方圖導(dǎo)入相關(guān)模塊使用隨機(jī)數(shù)模塊生成待可視化的學(xué)生身高數(shù)據(jù)1000條;調(diào)用pyplot.hist()繪制直方圖,bars=100;直方圖名稱為你的姓名,x軸標(biāo)簽為身高,y軸標(biāo)簽為數(shù)量;顯示直方圖;改變直方圖的透明度,再繪制一幅直方圖。繪制箱線圖箱線圖反映數(shù)據(jù)分布特征的統(tǒng)計(jì)量,能提供有關(guān)數(shù)據(jù)位置和分散情況的關(guān)節(jié)信息,尤其在比較不同特征時(shí),更可表現(xiàn)其分散程度差異。步驟如下:導(dǎo)入相關(guān)模塊:numpymatplotlib.pyplotpandas使用隨機(jī)數(shù)模塊生成100行5列的DataFrame;各列屬性名為['A','B','C','D,'E''])繪制并顯示箱線圖。箱線圖名稱為你的姓名繪制詞云“詞云”是對網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽網(wǎng)頁者只要一眼掃過文本就可以領(lǐng)略文本的主旨?!霸~云”就是數(shù)據(jù)可視化的一種形式。給出一段文本的關(guān)鍵詞,根據(jù)關(guān)鍵詞的出現(xiàn)頻率而生成的一幅圖像,人們只要掃一眼就能夠明白文章主旨。步驟如下:導(dǎo)入相關(guān)模塊frompyechartsimportoptionsasoptsfrompyecharts.chartsimportPage,WordCloudfrompyecharts.globalsimportSymbolType自主構(gòu)造需要可視化的詞云,不少于20個(gè)詞。使用WordCloud()方法,設(shè)置相關(guān)參數(shù)。c=WordCloud()c.add("",words,word_size_range=[20,80])c.set_global_opts(title_opts=opts.TitleOpts(title="WordCloud-基本示例"))c.render_notebook()
五、實(shí)驗(yàn)數(shù)據(jù)記錄和處理代碼記錄行號代碼1import
matplotlib.pyplot
as
plt2import
numpy
as
np3n=1004x
=
np.random.rand(n)*25y
=
np.random.rand(n)*26colors
=
np.random.rand(n)7area
=
np.pi
*
(10
*
np.random.rand(n))**28area
=
np.pi
*
(10
*
np.random.rand(n))**29plt.scatter(x,
y,
s=area,
c=colors,
alpha=0.5,
marker='o')10plt.show()1import
matplotlib.pyplot
as
plt2import
numpy
as
np3y_Height=np.random.randint(150,200,500)4plt.hist(y_Height,bins=50)5plt.title("曹森國")6plt.xlabel("Height")7plt.ylabel("Counts")8plt.rcParams['font.sans-serif']=['SimHei']9plt.rcParams['axes.unicode_minus']=False10plt.show()1import
numpy
as
np2import
matplotlib.pyplot
as
plt3import
pandas
as
pd4np.random.seed(2)5df
=
pd.DataFrame(np.random.rand(10,4))6columns=['A','B','C','D']7plt.rcParams['font.sans-serif']=['Simhei']8plt.rcParams['axes.unicode_minus']=False9plt.boxplot(df)10plt.title("曹森國")11plt.show()1from
pyecharts
import
options
as
opts2from
pyecharts.charts
import
Page,
WordCloud3from
pyecharts.globals
import
SymbolType4words=[("曹森國",9925),("直方圖",1115),("箱線",8625),("詞云",7151),("數(shù)據(jù)",4500),("挖掘",3054),("矩陣",9545),("乘法",2222),("實(shí)驗(yàn)",8888),("專周",4445),("app",6014),("應(yīng)用",8125),("結(jié)束",3334),("奶茶",2224),("有事",4154),("沒事",6194),("GG",8774),("愛惜",9994),("模塊",2544),("知道",6664),("基本",5554),("按摩師",4444),("暗示",2224)]5c
=
WordCloud()6c.add("",words,word_size_range=[20,80])7c.set_global_opts(title_opts=opts.TitleOpts(title="WordCloud"))8c.render("詞云.html")實(shí)驗(yàn)結(jié)果記錄(貼圖)散點(diǎn)圖:直方圖:箱線圖:詞云:
實(shí)驗(yàn)二:數(shù)據(jù)挖掘分析一、實(shí)驗(yàn)?zāi)康暮鸵笫煜ふ莆誔ython編程基礎(chǔ)熟悉掌握利用Python進(jìn)行數(shù)據(jù)分析熟悉掌握利用Python進(jìn)行數(shù)據(jù)挖掘的方法二、實(shí)驗(yàn)內(nèi)容和原理使用python進(jìn)行數(shù)據(jù)導(dǎo)入使用python進(jìn)行數(shù)據(jù)的探索性分析使用python進(jìn)行數(shù)據(jù)挖掘的方法三、主要儀器設(shè)備計(jì)算機(jī)1臺,本機(jī)型號__HPPavilionNotebook15-bc5xxx_____;Python版本:________3.7___;用到的庫的版本:___pandas1.3.7numpy1.21.5sklearn___四、實(shí)驗(yàn)步驟本次實(shí)驗(yàn)將綜合使用之前學(xué)習(xí)的知識,實(shí)現(xiàn)對腫瘤數(shù)據(jù)breast-cancer-wisconsin.data的分析和預(yù)測。步驟如下:導(dǎo)入相關(guān)模塊:importpandasaspdimportnumpyasnp讀入數(shù)據(jù)breast-cancer-wisconsin.data,各列屬性值為下面column_names中的值,讀取之后顯示前5行以查看數(shù)據(jù)。column_names=['number','Cl_Thickness','Unif_cell_size','Unif_cell_shape','Marg_Adhesion','Sing_epith_cell_size','Bare_nuclei','Bland_chromation','Norm_nuclei','Mitoses','Class']data=pd.read_csv('breast-cancer-wisconsin.data',names=column_names)display(data.head())利用describe()查看數(shù)據(jù)的基本統(tǒng)計(jì)信息統(tǒng)計(jì)數(shù)據(jù)屬性中的空缺值isnull().sum()如果數(shù)據(jù)中存在空缺數(shù)據(jù)需要丟棄或填充。該數(shù)據(jù)集中包含了16個(gè)缺失值用“?”標(biāo)出。因此要?jiǎng)h除有缺失值的數(shù)據(jù)。data=data.replace(to_replace='?',value=np.nan)data=data.dropna(how='any')print(data.shape)將數(shù)據(jù)劃分為訓(xùn)練集和測試集fromsklearn.model_selectionimporttrain_test_split#劃分訓(xùn)練集與測試集X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)print('訓(xùn)練樣本的數(shù)量和類別分布:\n',y_train.value_counts())標(biāo)準(zhǔn)化數(shù)據(jù),每個(gè)維度的特征數(shù)據(jù)方差為1,均值為0,使得預(yù)測結(jié)果不會被某些維度過大的特征值主導(dǎo)。fromsklearn.preprocessingimportStandardScalerss=StandardScaler()X_train=ss.fit_transform(X_train)X_test=ss.transform(X_test)print(X_train.mean())用LogisticRegression構(gòu)建分類器。fromsklearn.linear_modelimportLogisticRegressionlr=LogisticRegression()lr.fit(X_train,y_train)lr_y_predict=lr.predict(X_test)LR分類器性能分析fromsklearn.metricsimportclassification_reportprint('AccuracyofLRClassifier:',lr.score(X_test,y_test))print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))根據(jù)數(shù)據(jù)性質(zhì),自己構(gòu)建預(yù)測數(shù)據(jù),分析預(yù)測結(jié)果X_你的姓名首寫字母=np.array([])X_你的姓名首寫字母=ss.transform(X_你的姓名首寫字母)y_predict_你的姓名首寫字母=lr.predict(X_你的姓名首寫字母)Print(y_predict_你的姓名首寫字母)五、實(shí)驗(yàn)數(shù)據(jù)記錄和處理代碼記錄行號代碼1import
pandas
as
pd2import
numpy
as
np3column_names=['number','Cl_Thickness','Unif_cell_size','Unif_cell_shape','Marg_Adhesion','Sing_epith_cell_size','Bare_nuclei','Bland_chromation','Norm_nuclei','Mitoses','Class']4data=pd.read_csv('breast-cancer-wisconsin.data',names=column_names)5print(data.head())6print(())7print(data.describe())8data.isnull().sum()9data=data.replace(to_replace='?',value=np.nan)10data=data.dropna(how='any')11print(data.shape)12from
sklearn.model_selection
import
train_test_split13X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)14print(y_train.value_counts())15from
sklearn.preprocessing
import
StandardScaler16ss=StandardScaler()17X_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 買賣種子合同范本
- 農(nóng)業(yè)委托種植合同范本
- 體育新城租房合同范本
- 剩余瓷磚售賣合同范本
- 人工包給勞務(wù)公司合同范本
- 協(xié)助出口退稅合同范本
- 農(nóng)資經(jīng)營聘用合同范本
- 3人共同合作合同范本
- lng承運(yùn)合同范本
- 醫(yī)保專員勞動合同范本
- 小老鼠找朋友 演示文稿
- 2023年青島職業(yè)技術(shù)學(xué)院高職單招(英語)試題庫含答案解析
- 2023年蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院高職單招(數(shù)學(xué))試題庫含答案解析
- GB/T 37864-2019生物樣本庫質(zhì)量和能力通用要求
- 中國國防:新中國國防建設(shè)成就【2】
- 慢性病建檔表系列
- GB 19641-2015食品安全國家標(biāo)準(zhǔn)食用植物油料
- 科室會專用-元治-鹽酸貝尼地平-產(chǎn)品介紹
- 英語四六級翻譯技巧課件
- 讀后續(xù)寫(2022新高考I卷)講解課件 高三英語寫作專項(xiàng)
- 馬工程西方經(jīng)濟(jì)學(xué)(第二版)教學(xué)課件-1
評論
0/150
提交評論