Matlab 數(shù)據(jù)分析 課件 康海剛 第5章 數(shù)據(jù)探索與分析_第1頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第5章 數(shù)據(jù)探索與分析_第2頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第5章 數(shù)據(jù)探索與分析_第3頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第5章 數(shù)據(jù)探索與分析_第4頁
Matlab 數(shù)據(jù)分析 課件 康海剛 第5章 數(shù)據(jù)探索與分析_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

Matlab數(shù)據(jù)分析第1章數(shù)據(jù)的基本概念及其應用第2章Matlab基礎第3章隨機模擬第4章數(shù)據(jù)預處理第5章數(shù)據(jù)探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第5章數(shù)據(jù)探索與分析5.1數(shù)據(jù)的特征統(tǒng)計量5.1.1中心度量趨勢:均值、中位數(shù)、眾數(shù)5.1.2常用的變異程度度量1.極差2.方差3.標準差4.標準差系數(shù)5.四分位數(shù)間距5.1數(shù)據(jù)的特征統(tǒng)計量6.百分位數(shù)5.1.3分布形態(tài)5.2基本統(tǒng)計描述的可視化5.2.1分類型數(shù)據(jù)頻數(shù)分布及其可視化例5.1表5-1是X公司員工收入基本狀況調(diào)查表,用此表數(shù)據(jù)來說明對于分類型數(shù)據(jù)的頻數(shù)統(tǒng)計及其數(shù)據(jù)可視化。5.2基本統(tǒng)計描述的可視化例5.2使用Matlab數(shù)據(jù)統(tǒng)計信息。(1)打開“數(shù)據(jù)統(tǒng)計信息對話框”“數(shù)據(jù)統(tǒng)計信息”對話框可幫助您計算和繪制數(shù)據(jù)的描述性統(tǒng)計量。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化(2)設置繪圖上數(shù)據(jù)統(tǒng)計量的格式“數(shù)據(jù)統(tǒng)計信息”對話框使用顏色和線型將統(tǒng)計量與繪圖上的數(shù)據(jù)區(qū)分開來。1)在Matlab窗口中,單擊工具欄中的(編輯繪圖)按鈕。2)雙擊要編輯其顯示屬性的繪圖上的統(tǒng)計量,例如,雙擊表示Station2均值的水平線。(3)將統(tǒng)計量保存到Matlab工作區(qū)執(zhí)行下列步驟可將統(tǒng)計量保存到Matlab工作區(qū)。5.2基本統(tǒng)計描述的可視化(4)查看新結構體變量可輸入變量名稱:5.2基本統(tǒng)計描述的可視化(5)生成代碼文件示例的此部分顯示如何從圖形生成Matlab代碼文件,再將代碼應用至新數(shù)據(jù)以重新生成相同格式的繪圖和統(tǒng)計量。5.2.2直方圖1.histogram函數(shù)繪制直方圖5.2基本統(tǒng)計描述的可視化例5.3創(chuàng)建直方圖。1)生成10000個隨機數(shù)并創(chuàng)建直方圖。2)對分類為25個等距離散化的10000個隨機數(shù)繪制直方圖,如圖5-13所示。5.2基本統(tǒng)計描述的可視化3)生1000個隨機數(shù)并創(chuàng)建直方圖。5.2基本統(tǒng)計描述的可視化2.確定基本概率分布1)生成5000個均值5、標準差力2的正態(tài)分布隨機數(shù)。2)對于均值為5、標準差為2的正態(tài)分布,疊加一個概率密度函數(shù)圖,如圖5-17所示。5.2基本統(tǒng)計描述的可視化例5.4對分類數(shù)據(jù)進行繪圖。1)工作區(qū)變量Location是一個字符向量單元數(shù)組,它包含患者就醫(yī)的3個唯一醫(yī)療機構。2)工作區(qū)變量。3)繪制直方圖。4)僅為健康狀況評估為Fair或Poor的患者繪制醫(yī)院位置直方圖,如圖5-19所示。5.2基本統(tǒng)計描述的可視化5)創(chuàng)建餅圖。5.2基本統(tǒng)計描述的可視化6)創(chuàng)建帕累托圖。5.2基本統(tǒng)計描述的可視化7)創(chuàng)建散點圖。5.2.3分位數(shù)圖和經(jīng)驗累計分布函數(shù)5.2基本統(tǒng)計描述的可視化5.2.4分位數(shù)-分位數(shù)圖——q-q圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.2.5箱形圖1)最小值。2)第一個四分位數(shù)(Q1)。3)中位數(shù)(Q2)。4)第三個四分位數(shù)(Q3)。5)最大值。例5.5對于下述這組數(shù)據(jù):331033353450348034803490352035403550

36503730

3925,作出箱形圖。1)畫箱形圖時,把第和第三四分位數(shù)作力箱體的邊緣,Q1=3465,Q3=3600。2)在中位數(shù)(3505)位置與箱體內(nèi)畫一條垂線,因此中位數(shù)線就把數(shù)據(jù)平分為兩部分。3)通過使用四分位數(shù)間距IQR=Q3-Q1,定好界限的位置。5.2基本統(tǒng)計描述的可視化4)圖5-25中的虛線被稱觸須線(Whisker)。5)最后,每個異常值的位置用符號*表示在圖5-25中,看到了一個異常值3925。箱形圖的作用有以下幾個。1)箱形圖非常直觀地反映了樣本數(shù)據(jù)的分散程度以及總體分布的對稱性和尾重。2)利用箱形圖可以直觀地識別樣本數(shù)據(jù)中的異常值。3)可比較幾組數(shù)據(jù)的形狀。5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化例5.6繪制均勻分布隨機樣本與指數(shù)分布隨機樣本的箱形圖(見圖5-26)。5.2基本統(tǒng)計描述的可視化例5.7繪制服從標準正態(tài)分布隨機數(shù)箱形圖(見圖5-27)。5.2基本統(tǒng)計描述的可視化5.2.6散點圖5.2基本統(tǒng)計描述的可視化5.2基本統(tǒng)計描述的可視化5.3度量數(shù)據(jù)的相似性和相異性5.3.1數(shù)據(jù)矩陣、相異性矩陣、相似性矩陣1)數(shù)據(jù)矩陣。2)相異性矩陣。3)相似性矩陣。5.3度量數(shù)據(jù)的相似性和相異性5.3.2數(shù)值屬性的相似性:相關系數(shù)1.協(xié)方差5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性2.相關系數(shù)3.散點圖矩陣5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3.3數(shù)值屬性的相異性:距離1.歐幾里得距離(EuclideanDistance)2.曼哈頓距離(ManhattanDistance)5.4數(shù)據(jù)降維——主成分分析1.基本思想5.4數(shù)據(jù)降維——主成分分析2.主成分分析的計算步驟第一步,對原始數(shù)據(jù)進行標準化處理,即z分數(shù)規(guī)范化。第二步,計算樣本相關系數(shù)矩陣,即第三步,計算相關系數(shù)矩陣R的特征值(??1,??2,?,??p)和相應的特征向量??i=[??i1,??i2

,?,??ip](i=1,2,?,P)。5.4數(shù)據(jù)降維——主成分分析第四步,選擇重要的主成分,并寫出主成分表達式。第五步,計算主成分得分。3.PCA算法的Matlab實現(xiàn)5.4數(shù)據(jù)降維——主成分分析4.案例分析5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第一步,繪制箱形圖。第二步,使用主成分分析首先要求原來特征相關性比較密切。有以下兩種方式。5.4數(shù)據(jù)降維——主成分分析①制作散點圖矩陣(見圖5-38)。②計算相關系數(shù)。第三步,進行主成分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論