




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、華北水利水電大學(xué)建模培訓(xùn),2014年5月31日,Matlab統(tǒng)計(jì)分析與應(yīng)用,目錄,1,數(shù)據(jù)導(dǎo)入、導(dǎo)出與預(yù)處理,方差分析,參數(shù)估計(jì)與假設(shè)檢驗(yàn),隨機(jī)數(shù)生成,5,數(shù)據(jù)擬合,主成分分析,判別分析,聚類(lèi)分析,1數(shù)據(jù)處理,1.2 調(diào)用高級(jí)函數(shù)導(dǎo)入數(shù)據(jù) importdata(examp02-01.txt),把文件復(fù)制到目錄下,重命名選中文件名 Load函數(shù)適用于全是數(shù)據(jù)的文件,且等長(zhǎng); 常用的還有dlmread,textread(適合分隔符多樣的情況),1.1 用菜單導(dǎo)入數(shù)據(jù) 對(duì)txt文檔,直接使用fileimport data 例如example 02-01;02-05(長(zhǎng)短不齊),1.3調(diào)用低級(jí)函數(shù)導(dǎo)入
2、數(shù)據(jù) 步驟:按指定格式打開(kāi)文件(fopen),獲取文件標(biāo)識(shí)符(fid),讀取文件內(nèi)容(fseek,ftell,frewind,feof控制讀寫(xiě)位置,fgets讀取文件的下一行,textscan讀取數(shù)據(jù)等) ,關(guān)閉文件(fclose) 。,1數(shù)據(jù)處理,1.5從excel文件中讀取數(shù)據(jù) num = xlsread(examp02_14.xls, A2:H4),1.4 數(shù)據(jù)寫(xiě)入txt文件 fprintf(fid,%-f %-f %-f %-f %-f %-f %-f %-fn, x);,1.6 數(shù)據(jù)預(yù)處理 1.畫(huà)出散點(diǎn)圖估計(jì)趨勢(shì) 2.剔除奇異點(diǎn) 3.平滑處理(smooth,建議用excel)或?qū)?shù)變
3、換 4.標(biāo)準(zhǔn)化變換,適合于各變量的量綱和數(shù)量級(jí)不一致的時(shí)候。數(shù)據(jù)減去均值,除以標(biāo)準(zhǔn)差(zscore)xz,mu,sigma = zscore(x) 5.極差歸一化變換(rscore ,非matlab自帶),2隨機(jī)數(shù)生成,1隨機(jī)數(shù) 用于信息安全,網(wǎng)絡(luò)游戲,計(jì)算機(jī)仿真和模擬計(jì)算等。 Rand 0,1 Randn 標(biāo)準(zhǔn)正態(tài) Randstream 適合于7.7及其以后版本,調(diào)用類(lèi)函數(shù) 統(tǒng)計(jì)工具箱中以rnd結(jié)尾的用來(lái)生成符合某種分布的隨機(jī)數(shù),如 Normrnd 正態(tài)分布 Binornd二項(xiàng)分布 Exprnd指數(shù)分布等,2 histrate函數(shù)(非自帶) 統(tǒng)計(jì)數(shù)值型數(shù)組,字符串?dāng)?shù)組等各元素出現(xiàn)的頻數(shù),頻率
4、等,請(qǐng)同學(xué)們檢查是否安裝的有matlab統(tǒng)計(jì)工具箱,2隨機(jī)數(shù)生成,例子:用蒙特卡洛方法求圓周率 圓心在原點(diǎn)的單位圓與外接正方形,相互獨(dú)立的,服從-1,1上的均勻分布,則(,)在正方形內(nèi)服從二元均勻分布,為落在圓內(nèi)的概率, 則(A)=? 還可以用來(lái)求面積,體積,積分值,概率等,3蒙特卡洛方法 這是計(jì)算機(jī)隨機(jī)模擬方法,是一種基于隨機(jī)數(shù)的計(jì)算方法,馮以摩納哥的賭城命名。基本思想:頻率確定概率。,3參數(shù)估計(jì),2正態(tài)總體參數(shù)的檢驗(yàn)(例子05.02) U檢驗(yàn)(標(biāo)準(zhǔn)差已知) ztest 檢驗(yàn)(標(biāo)準(zhǔn)差未知) ttest 均值比較檢驗(yàn)ttest2 卡方檢驗(yàn)(單個(gè)方差)vartest 檢驗(yàn)(兩個(gè)方差) varte
5、st2,1參數(shù)估計(jì) 統(tǒng)計(jì)工具箱中以fit結(jié)尾的函數(shù),用來(lái)求常見(jiàn)分布的參數(shù)的最大似然估計(jì)和置信區(qū)間估計(jì)。 例子05.01,3擬合與檢驗(yàn),理論上概率統(tǒng)計(jì)都假定變量服從某分布,構(gòu)造統(tǒng)計(jì)量,做出統(tǒng)計(jì)推斷。 但總體到底服從何種分布,你的假定是真的嗎? 例子examp02_14.xls,描述性統(tǒng)計(jì)(examp05-03) 均值,標(biāo)準(zhǔn)差,最值,極差,中位數(shù),眾數(shù), 變異系數(shù),標(biāo)準(zhǔn)差與平均數(shù)的比值,自己計(jì)算 偏度,分布密度曲線的對(duì)稱性,越接近0,越對(duì)稱 峰度,密度曲線在峰值附近的陡峭性,正態(tài)為3,3擬合與檢驗(yàn),3統(tǒng)計(jì)圖(examp05-03) 箱線圖(判斷對(duì)稱性) 頻率直方圖(最常用) 經(jīng)驗(yàn)分布函數(shù)圖 正態(tài)概
6、率圖(+越集中在參考線附近,越近似正態(tài)分布),4分布檢驗(yàn) Chi2gof,jbtest,kstest,kstest2,lillietest等 Chi2gof卡方擬合優(yōu)度檢驗(yàn),檢驗(yàn)樣本是否符合指定分布。它把觀測(cè)數(shù)據(jù)分組,每組包含5個(gè)以上的觀測(cè)值,根據(jù)分組結(jié)果計(jì)算卡方統(tǒng)計(jì)量,當(dāng)樣本夠多時(shí),該統(tǒng)計(jì)量近似服從卡方分布。 jbtest,利用峰度和偏度檢驗(yàn)。,3擬合與檢驗(yàn),5核密度估計(jì)(example05_04.m) 需要用樣本估計(jì)總體的概率分布函數(shù),方法有參數(shù)法和非參數(shù)法。參數(shù)法假定總體服從某種已知的分布,估計(jì)參數(shù)。非參數(shù)法不需要做對(duì)總體分布的假設(shè),核密度估計(jì)就是一種非參數(shù)法。,4方差分析,預(yù)備知識(shí)有關(guān)
7、術(shù)語(yǔ)簡(jiǎn)介 因素或因子:所要檢驗(yàn)的對(duì)象 水平:因子的不同表現(xiàn) 觀察值:在每個(gè)因素水平下得到的樣本值 方差分析能做: 1檢驗(yàn)多個(gè)總體均值是否相等(不同院系的高數(shù)成績(jī)) 2需要研究生產(chǎn)條件或?qū)嶒?yàn)條件的改變對(duì)產(chǎn)品的質(zhì)量或產(chǎn)量有無(wú)影響,比如種植業(yè)研究諸多因素對(duì)因變量的影響(品種、施肥量、密度對(duì)產(chǎn)量)。在諸多影響因素中哪些是主要的? 3確定最優(yōu)組合,4方差分析,1之所以叫方差分析,是我們雖然關(guān)心的是均值,但在判斷均值是否有差異時(shí)需要借助于方差。這個(gè)名字也表示,它是通過(guò)誤差來(lái)源的分析來(lái)判斷不同總體的均值是否相等。,2 方差分析的基本假定 正態(tài)性方差齊性獨(dú)立抽樣前兩個(gè)條件滿足認(rèn)為方差分析是穩(wěn)健的,3單因素一元
8、方差分析步驟 ( example07_01.m判斷不同院系成績(jī)均值是否相等) 數(shù)據(jù)預(yù)處理 正態(tài)性檢驗(yàn)lillietest (p0.05接受) 方差齊性檢驗(yàn)vartestn (p0.05接受) 方差分析anoval(0有顯著差別) 多重比較:兩兩比較,找出存在顯著差異的學(xué)院,multcompare,4方差分析,方差分析表把數(shù)據(jù)差異分為三部分(或四部分): 列均值之間的差異引起的變差 列均值之間的差異引起的變差 行列交互作用引起的變差 (隨機(jī)誤差) 后續(xù)可以進(jìn)行多重比較,multcompare,找出哪種組合是最優(yōu)的,4雙因素一元方差分析步驟(如判斷兩種肥料使用量不同對(duì)產(chǎn)量的影響) 數(shù)據(jù)預(yù)處理 正態(tài)
9、性檢驗(yàn)lillietest (p0.05接受) 方差齊性檢驗(yàn)vartestn (p0.05接受) 構(gòu)造觀測(cè)值矩陣,每一列對(duì)應(yīng)因素的一個(gè)水平,每一行對(duì)應(yīng)因素的一個(gè)水平 方差分析anova2得到方差分析表,4方差分析,5多因素一元方差分析anovan 根據(jù)樣本觀測(cè)值向量進(jìn)行均衡或非均衡實(shí)驗(yàn)的多因素一元方差分析,檢驗(yàn)多個(gè)因素的主效應(yīng)或交互效應(yīng)是否顯著,這里往往需要結(jié)合正交實(shí)驗(yàn)進(jìn)行。 6單因素多元方差分析manoval 7非參數(shù)方差分析:當(dāng)數(shù)據(jù)不滿足正態(tài)性和方差齊性假定時(shí),應(yīng)采用基于秩的非參數(shù)檢驗(yàn)(參看非參數(shù)統(tǒng)計(jì),王星,人大出版社) 兩種非參數(shù)檢驗(yàn):kruskal-wallis檢驗(yàn)friedman檢驗(yàn)
10、 函數(shù)名同上:kruskalwallis,friedman 如: example07_07,四個(gè)評(píng)委判斷四個(gè)人做得“水煮魚(yú)”是否品質(zhì)相同,5數(shù)據(jù)擬合,目的:用一個(gè)函數(shù)近似表示變量之間的不確定關(guān)系。 1一元線性回歸分析 做出散點(diǎn)圖,估計(jì)趨勢(shì);計(jì)算相關(guān)系數(shù)矩陣; regress函數(shù),可以得到回歸系數(shù)和置信區(qū)間,做殘差分析,剔除異常點(diǎn),重新做回歸分析 Regstats 多重線性或廣義回歸分析,它帶有交互式圖形用戶界面,可以處理帶有常數(shù)項(xiàng)、線性項(xiàng)、交叉項(xiàng)、平方項(xiàng)等模型 robustfit函數(shù):穩(wěn)健回歸(加權(quán)最小二乘法),2一元非線性回歸分析 做出散點(diǎn)圖,估計(jì)趨勢(shì);定義回歸方程所對(duì)應(yīng)的函數(shù)(冪函數(shù),對(duì)數(shù)
11、函數(shù)等),調(diào)用nlinfit函數(shù)做回歸方程;再用nlparci函數(shù)計(jì)算參數(shù)估計(jì)的置信區(qū)間;調(diào)用nlpredci函數(shù)求預(yù)測(cè)值,5數(shù)據(jù)擬合,3 曲線擬合工具箱cftool作一元非線性擬合 運(yùn)行cftool,主要功能:data(導(dǎo)入數(shù)據(jù)),fitting(擬合),exclude(篩選),plotting,analysis,4多重回歸分析 一個(gè)變量與諸因素之間的回歸模型。調(diào)用reglm函數(shù)(非自帶)。 Y=a+bx1+cx2+dx3 開(kāi)始并不知道選擇幾個(gè)自變量,可以先設(shè)一個(gè),再根據(jù)顯著性水平,剔除不顯著的項(xiàng)。,5逐步回歸分析 Stepwise函數(shù),matlab自帶函數(shù),輸入函數(shù)名后打開(kāi)交互式圖形用戶界
12、面,,6聚類(lèi)分析,1聚類(lèi)分析簡(jiǎn)介 目的:把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi)。 距離:度量樣品間的相似性,明氏距離 蘭氏距離,馬氏距離,斜交空間距離 相似系數(shù):度量變量之間的相似性 夾角余弦xian,相關(guān)系數(shù),,2系統(tǒng)聚類(lèi)法 定義距離(樣品之間的距離和類(lèi)與類(lèi)之間的距離),距離最近的兩類(lèi)合并為一類(lèi),每次減少一類(lèi),最后形成聚類(lèi)樹(shù)形圖或譜系圖。 類(lèi)與類(lèi)之間的距離的不同定義方式,產(chǎn)生了不同的聚類(lèi)方法。 最短距離法:類(lèi)與類(lèi)之間的距離為兩類(lèi)最近樣品間的距離。 最長(zhǎng)距離法:類(lèi)與類(lèi)之間的距離為兩類(lèi)最遠(yuǎn)樣品間的距離。 中間距離法:類(lèi)與類(lèi)之間的距離采用中間距離。 重心法:類(lèi)與類(lèi)之間的距離為兩類(lèi)重心(類(lèi)均值)的距離。,6
13、聚類(lèi)分析,4模糊均值聚類(lèi)法,3K均值聚類(lèi)法 一、將所有樣品分為個(gè)初始類(lèi),這個(gè)類(lèi)的重心作為初始凝聚點(diǎn)。 二、每個(gè)樣品歸入離它最近的凝聚點(diǎn)所在的類(lèi),更新均值 三、重復(fù)二,直到結(jié)束。 注意:初始凝聚點(diǎn)的選擇對(duì)結(jié)果可能有影響 所用函數(shù):kmeans,silhouette,類(lèi)平均法:樣品對(duì)之間平方距離的平均值,該方法比較好。還有離差平方和法等 Pdist,squareform,linkage,dendrogram,cophenet,inconsistent,cluster,clusterdata, 距離,距離矩陣,創(chuàng)建系統(tǒng)聚類(lèi)樹(shù),作聚類(lèi)樹(shù)形圖,計(jì)算相關(guān)系數(shù),計(jì)算不一致系數(shù), 輸出聚類(lèi)結(jié)果,由數(shù)據(jù)得到聚類(lèi)
14、,6聚類(lèi)分析,4模糊均值聚類(lèi)法 使用模糊數(shù)學(xué)中的隸屬度函數(shù)來(lái)確定分類(lèi) Matlab模糊邏輯工具箱fuzzy logic toolbox 提供了函數(shù):fcm 不同聚類(lèi)分析方法的結(jié)果不一定一致。需要測(cè)試集,可參考其它論文 系統(tǒng)聚類(lèi)法的評(píng)價(jià): 單調(diào)性:距離單增 空間的濃縮與擴(kuò)張 類(lèi)平均法比較好,7判別分析,1判別分析簡(jiǎn)介 對(duì)未知類(lèi)別的樣品進(jìn)行歸類(lèi)的一種方法。聚類(lèi)分析是對(duì)還沒(méi)有分類(lèi)的對(duì)象進(jìn)行分類(lèi)。判別分析是對(duì)已經(jīng)有了分類(lèi),需要建立判別準(zhǔn)則,判別未知類(lèi)別的樣品所屬的類(lèi)型。如考古,醫(yī)學(xué)判斷,文字識(shí)別等。,2距離判別法 這里的思想和前面的聚類(lèi)分析是類(lèi)似的,根據(jù)樣品到各個(gè)類(lèi)的距離(比如用馬氏距離)判斷其所屬的
15、類(lèi)。,3貝葉斯判別法 距離判別沒(méi)有考慮人們對(duì)研究對(duì)象已有的認(rèn)識(shí),而這種認(rèn)識(shí)可能對(duì)判別結(jié)果產(chǎn)生影響。貝葉斯判斷用一個(gè)先驗(yàn)概率來(lái)描述這種認(rèn)識(shí),然后用樣本來(lái)修正先驗(yàn)概率,得到后驗(yàn)概率,最后基于后驗(yàn)概率進(jìn)行判別。 距離判別法和先驗(yàn)分布為正態(tài)分布的貝葉斯判別法都可以用統(tǒng)計(jì)工具箱中的classify函數(shù),對(duì)未知類(lèi)別的樣品進(jìn)行判斷。,7判別分析,4 Fisher判別法 Fisher判別的基本思想是投影,將組維數(shù)據(jù)投影到某個(gè)方向,使得它們投影組與組之間盡可能地分開(kāi)。 工具箱中沒(méi)有,有編好的函數(shù)fisher.m,程序有205行,如果你能看懂,對(duì)你的編程能力大有好處,8主成分分析,通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾
16、個(gè)主成分的多元統(tǒng)計(jì)方法。這些主成分能夠反映原始變量的大部分信息,通常表示為原始變量的線性組合,為使信息互不重疊,要求各主成分之間互不相關(guān)。易于抓住主要矛盾,簡(jiǎn)化問(wèn)題。,1主成分分析 幾何意義:通過(guò)坐標(biāo)系旋轉(zhuǎn),使得新坐標(biāo)系的各個(gè)坐標(biāo)軸方向是原始數(shù)據(jù)變差最大的方向,各主成分表達(dá)式就是新舊坐標(biāo)轉(zhuǎn)換關(guān)系式 (幾何直觀:一三象限的一個(gè)橢圓內(nèi)部密集分布的點(diǎn)) 樣本主成分分析步驟:構(gòu)造樣本觀測(cè)值矩陣,計(jì)算樣本協(xié)方差矩陣和樣本相關(guān)系數(shù)矩陣;從樣本協(xié)方差矩陣出發(fā)求解主成分;(也可以由樣本相關(guān)系數(shù)矩陣出發(fā)求解主成分);由主成分重建原始數(shù)據(jù) 注:由于特征值對(duì)應(yīng)的特征向量不唯一,故主成分的表達(dá)式也不唯一,不過(guò)這對(duì)后續(xù)分析沒(méi)有太大影響,8主成分分析,2相關(guān)的matlab函數(shù) Pcacov根據(jù)協(xié)方差矩陣或相關(guān)系數(shù)矩陣進(jìn)行主成分分析,需先計(jì)算協(xié)方差矩陣或相關(guān)系數(shù)矩陣 Princomp根據(jù)樣本觀測(cè)值進(jìn)行主成分分析 Pcares重建數(shù)據(jù),并求出殘差;pcares調(diào)用了princomp函數(shù),不會(huì)自動(dòng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,可用zscore函
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024杭州科技職業(yè)技術(shù)學(xué)院輔導(dǎo)員招聘筆試真題
- 1.食品安全地方標(biāo)準(zhǔn)立項(xiàng)建議書(shū)(式樣)
- 2023.06.21夏至一陰初升
- 2025年陜西省國(guó)家綜合性消防救援隊(duì)伍招聘考試試題【答案】
- 2025年濕簧式繼電器項(xiàng)目發(fā)展計(jì)劃
- 北京海淀區(qū)社區(qū)工作者招聘筆試真題2024
- 2025年昭通市昭陽(yáng)區(qū)龍泉街道辦事處選拔社區(qū)后備干部考試試題【答案】
- 2025年產(chǎn)后健康項(xiàng)目發(fā)展計(jì)劃
- 消防專(zhuān)項(xiàng)方案
- 理財(cái)顧問(wèn)實(shí)習(xí)報(bào)告范文-1
- 招商大使選聘管理辦法
- 智慧教育基于大數(shù)據(jù)的個(gè)性化教學(xué)研究與實(shí)踐
- 2025年中國(guó)鐵路集團(tuán)招聘筆試備考題庫(kù)(帶答案詳解)
- 用工風(fēng)險(xiǎn)培訓(xùn)課件
- 海外現(xiàn)場(chǎng)安全健康環(huán)境管理(HSE)
- 2025年公安機(jī)關(guān)人民警察(行政執(zhí)法)資格考試(客觀題及刑法)含答案
- DB3502∕T 166-2024 既有廠區(qū)及老舊小區(qū)海綿城市方案設(shè)計(jì)導(dǎo)則
- 2025年 江西省金控科技產(chǎn)業(yè)集團(tuán)有限公司招聘考試筆試試卷附答案
- 四川省成都市蓉城聯(lián)盟2024-2025學(xué)年高一下學(xué)期6月期末考試物理試題(含答案)
- 2025年中國(guó)模內(nèi)標(biāo)簽(IML)行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 【人教版】吉林長(zhǎng)春2024-2025學(xué)年 五年級(jí)下學(xué)期期末數(shù)學(xué)試題【附答案】
評(píng)論
0/150
提交評(píng)論