版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 在自然界中,有很多的現(xiàn)象是不能用我們以前所學(xué)的知識所能解決的研究動機(jī) 比如我們在耐液鋅蝕腐蝕合金研究過程中,它是由許多種元素配合,再通過高溫熔煉而成??梢杂枚嗌俜N成份來配料,熔煉溫度需要多高,后續(xù)如何處理?這些往往都是未知數(shù)。而且沒有一定的規(guī)律可言。那就需要我們進(jìn)行大量的試驗(yàn)來尋找它的配方及燒制溫度。第1頁/共126頁 在實(shí)驗(yàn)過程中將要利用各種方法對樣品進(jìn)行分析測試,產(chǎn)生許多測量數(shù)據(jù)。 按測量值獲得的方法分為:直接測量、間接測量和組合測量 直接測量:如用米尺測量長度 間接測量:利用直接測量結(jié)果,根據(jù)特定關(guān)系計(jì)算特定物理量,如晶面間距測量 組合測量:測量長寬,計(jì)算面積第2頁/共126頁第二章
2、實(shí)驗(yàn)數(shù)據(jù)處理 在自然科學(xué)領(lǐng)域,常用函數(shù)表達(dá)變量之間的數(shù)量關(guān)系 例如擴(kuò)散層厚度與時間的關(guān)系,利用公式便于分析規(guī)律 如何利用有限的實(shí)驗(yàn)數(shù)據(jù)擬合出一個近似公式,這就是參數(shù)擬合問題。 確定參數(shù)的方法主要有最小二乘法和最大似然法。 如要判斷一組數(shù)據(jù)是否在某個精度范圍內(nèi)與理論公式一致,就是假設(shè)檢驗(yàn)問題。 采用代數(shù)多項(xiàng)式來表示復(fù)雜的函數(shù),可用插值法第3頁/共126頁2.1 2.1 誤差理論簡介 誤差的含義 絕對誤差 相對誤差 置信區(qū)間 貝葉斯理論 區(qū)間估計(jì) 不同分布樣本的區(qū)間估計(jì) 第4頁/共126頁一、誤差的含義 可以通過一定的試驗(yàn)測試或運(yùn)算用估計(jì)值表示理論值的近似值。試驗(yàn)值(估計(jì)值)與理論值(真值)之間的
3、差值稱絕對誤差,簡稱誤差。 真值往往很難得到,因而誤差的絕對值也是無法知道的。但是根據(jù)測量工具或計(jì)算情況可以估計(jì)誤差值上限或估計(jì)值的精確程度。第5頁/共126頁相對誤差 誤差限的大小還不能完全表示近似值的好壞,如101與10005兩個量,雖然前者絕對誤差較小,但是顯然后者更精確。 所以除了考慮誤差的大小以外,還應(yīng)考慮準(zhǔn)確值本身的大小,誤差與準(zhǔn)確值的比值稱為近似值的相對誤差。第6頁/共126頁系統(tǒng)誤差與隨機(jī)誤差 系統(tǒng)誤差 由于某種原因所產(chǎn)生,并遵循一定的規(guī)律進(jìn)行變化. 例如,隨樣品或試劑用量的大小按比例進(jìn)行變化. 系統(tǒng)誤差有一定的指向,例如稱量一種吸濕性物質(zhì),其誤差總是正值. 它屬于方法和技術(shù)問
4、題,知道了產(chǎn)生的原因,便可消除或修正,所以此種誤差也稱可定誤差. 隨機(jī)誤差 在相同條件下重復(fù)多次測定同一物理量時,誤差大小或正負(fù)變化純屬偶然而毫無規(guī)律,這種誤差稱為隨機(jī)誤差,也叫偶然誤差. 第7頁/共126頁系統(tǒng)誤差的特點(diǎn) 重現(xiàn)性 單向性 數(shù)值基本恒定 系統(tǒng)誤差可以校正??捎靡欢ǖ姆椒ㄏ?。第8頁/共126頁隨機(jī)誤差分布 隨機(jī)誤差是不可預(yù)測、不可避免的 根據(jù)統(tǒng)計(jì)理論,隨機(jī)誤差服從高斯分布(正態(tài)分布) 隨機(jī)誤差具有 單峰性:較小誤差出現(xiàn)的幾率較大 對稱性:絕對值相等的正負(fù)誤差出現(xiàn)的幾率相等 有界性:大誤差出現(xiàn)的幾率較低 因此,測量次數(shù)較多時,均值會趨于真值221()exp()22xfx第9頁/共
5、126頁隨機(jī)誤差的估算 算術(shù)平均誤差 用算術(shù)平均代替真值,可以計(jì)算絕對誤差的平均值。 標(biāo)準(zhǔn)誤差(方差) 反映數(shù)據(jù)偏離真值的分散程度,即均值與真值之間的接近程度。11()niixxxn 201211lim()1()1nininiixxnSxxn第10頁/共126頁幾個精度概念 精密度:多次測量結(jié)果之間的符合程度,反映隨機(jī)誤差的大小,重現(xiàn)性 正確度:系統(tǒng)誤差的大小 準(zhǔn)確度:測量值與真值的一致程度,反映系統(tǒng)誤差與隨機(jī)誤差的綜合第11頁/共126頁 在熱工、電工儀表中,正確度等級一般都用引用誤差來表示,通常分為0.1, 0.2, 0.5, 1.0, 1.5, 2.5, 5.0 七級。 例如,某儀表正確
6、度等級為R級(引用誤差R%),滿量程的刻度為X,實(shí)際使用時的測量值為 x (x X),則xRXRX%測量值的相對誤差測量值的絕對誤差第12頁/共126頁通過上面的分析,可知為了減少儀表測量的誤差,提高正確度,應(yīng)該使儀表盡可能在靠近滿量程刻度的2/3以上的區(qū)域內(nèi)使用的原則。第13頁/共126頁提高實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)確度的方法 減少系統(tǒng)誤差的途徑 對照實(shí)驗(yàn) 空白實(shí)驗(yàn) 校準(zhǔn)儀器 校正方法 減少偶然誤差的途徑 多次測量、取平均值 防范過失! 第14頁/共126頁粗大誤差 粗大誤差也稱過失誤差,是一種不應(yīng)發(fā)生,而僅由于粗心、疏忽等引起的誤差。 往往是由于非正常實(shí)驗(yàn)條件或非正常操作所造成的. 如測量時對錯了標(biāo)志,
7、 誤讀了數(shù)碼, 實(shí)驗(yàn)儀器未達(dá)到預(yù)想的指標(biāo),記錄計(jì)算錯誤,加錯了試劑等 粗大誤差的數(shù)值遠(yuǎn)大于系統(tǒng)誤差和隨機(jī)誤差,實(shí)際上已超出了誤差范圍 含有粗差的測量值常稱為壞值或異常值, 應(yīng)予以剔除,否則會影響結(jié)果第15頁/共126頁壞值剔除 用統(tǒng)計(jì)法進(jìn)行壞值剔除的基本思想是:給定一顯著性水平,并確定一門限值,凡超過這個門限的誤差就認(rèn)為它不屬于隨機(jī)誤差的范疇,而是粗差,并予以剔除.第16頁/共126頁拉依達(dá)( )準(zhǔn)則拉依達(dá)準(zhǔn)則又被簡稱為3準(zhǔn)則。由于隨機(jī)誤差服從正態(tài)分布規(guī)律,因此 P| 3=99.7有限次測量誤差超過3的幾率很小,可以剔除由于實(shí)際上未知,如果 可以剔除,棄真幾率很小3ixxS第17頁/共126頁
8、例某合金導(dǎo)線的電阻值測量次序電阻值/W測量次序電阻值/W測量次序電阻值/W140.42940.401740.42240.431040.431840.41340.381140.421940.39440.441240.432040.39540.461340.392140.30640.421440.362240.42740.401540.402340.43840.431640.432440.43第18頁/共126頁 24個測量值的均值為40.41 24個測量值的標(biāo)準(zhǔn)差S0.0321 3S0.0963 與平均值偏差最大的是21次測量結(jié)果40.30,偏差0.11,超過3S,壞值 去掉該值后,均值40.4
9、1,S0.0225 偏差最大(5,14)0.053S,有效第19頁/共126頁肖維勒準(zhǔn)則 肖維勒認(rèn)為,在n次測量中,某誤差可能出現(xiàn)的次數(shù)小于半次時,則舍去這個誤差值。 誤差等于或大于出現(xiàn)的相對頻數(shù)可近似地取為1-P 測量次數(shù)為n,誤差等于或大于出現(xiàn)的次數(shù)為n( 1-P)S,即可判斷為粗差第20頁/共126頁Chauvenet系數(shù)的數(shù)值表系數(shù)的數(shù)值表 n in in i34567891011121.381.531.651.731.801.861.921.962.002.03131415161718192021222.072.102.132.152.172.202.222.242.262.2823
10、2425304050751002005002.302.312.332.392.492.582.712.813.023.20第21頁/共126頁Grubbs準(zhǔn)則 格拉布斯(FEGrubbs)準(zhǔn)則同樣適用于對同一參數(shù)進(jìn)行重復(fù)測量得到的一列測量數(shù)據(jù)的處理。 這個準(zhǔn)則經(jīng)蒙持卡羅法考驗(yàn)后,認(rèn)為是最有效的判別方法。 同上,當(dāng) 時則認(rèn)為xi是含有粗值的壞值,應(yīng)予剔除( , )in s 第22頁/共126頁Grubbs系數(shù)數(shù)值表n n n 0.010.050.010.050.010.05345678910111.151.491.751.912.102.222.322.412.481.151.461.671.8
11、21.912.032.112.182.241213141516171819202.552.612.662.702.742.782.822.852.882.292.332.372.412.412.472.502.532.562122232425303540502.912.942.952.993.013.103.183.213.342.582.602.622.642.662.742.812.872.96第23頁/共126頁t檢驗(yàn)法 該準(zhǔn)則又可稱為羅曼諾夫準(zhǔn)則。當(dāng)測量次數(shù)較小時,按t分布的實(shí)際誤差分布范圍來判斷粗大誤差較為合理。 t檢驗(yàn)準(zhǔn)則的原則是:首先剔除一個與均值偏離最大的數(shù)據(jù),然后對剩余的數(shù)據(jù)
12、進(jìn)行統(tǒng)計(jì)計(jì)算,以判定該次剔除是否合理,即判定已被剔除的那個數(shù)據(jù)是否含有粗大誤差。第24頁/共126頁 在剔除某一數(shù)據(jù)xi后,重新計(jì)算均值和方差,如果時,剔除壞值xi 其中 T為t分布,自由度f=n-2( , )ikn s21),()1/(),(nntnkf第25頁/共126頁Dixon 準(zhǔn)則 狄克松(Dixon)準(zhǔn)則采用了極差比的方法,不必求方差。 對于某一等精度重復(fù)測量,按測量值的大小排列為 x1x2xn 如果上述測量值中有含有粗大誤差的測量數(shù)據(jù),首先值得懷疑的是x1、xn。 狄克松首先定義了一個與x1,xn和、n有關(guān)的極差比統(tǒng)計(jì)量f(f的計(jì)算公式見表),如果 f臨界值f(a,n) 則認(rèn)為在
13、顯著性水平下, x1、xn含有粗大誤差,應(yīng)予以剔除。 狄克松準(zhǔn)則一次能判別兩個數(shù)據(jù)x1,xn ,如果這兩個數(shù)據(jù)都不含粗大誤差,判斷結(jié)束。 如果這兩個數(shù)據(jù)中有含粗大誤差的數(shù)據(jù),則予以剔除。剔除后的數(shù)據(jù)列當(dāng)做新的數(shù)據(jù)列,重新進(jìn)行判斷第26頁/共126頁第27頁/共126頁有效數(shù)字 有效數(shù)字是指在實(shí)驗(yàn)中實(shí)際上能測量到的數(shù)字。 記錄數(shù)字和計(jì)算結(jié)果時究竟應(yīng)該保留幾位數(shù)字,必須根據(jù)測量方法 和使用儀器的準(zhǔn)確程度來決定。在記錄數(shù)據(jù)和計(jì)算結(jié)果時,所保留 的有效數(shù)字中,只有最后一位是可疑的數(shù)字。 稱量瓶質(zhì)量:10. 373g,10.3732g,10.37321g 10.3732 0.0001g 鹽酸溶液體積:2
14、4.2mL,24.21mL,24.213 mL 24.21 0.01 mL 有效數(shù)字的位數(shù)直接與測定的相對誤差有關(guān)! 在測量準(zhǔn)確度的范圍內(nèi),有效數(shù)字位數(shù)越多,測量也越準(zhǔn)確。但超過 測量準(zhǔn)確度的范圍后,過多的數(shù)字是沒有意義的。 第28頁/共126頁有效數(shù)字的運(yùn)算規(guī)則 記錄測量數(shù)據(jù)時,只保留一位可疑數(shù)字; 當(dāng)有效數(shù)字位數(shù)確定后, (計(jì)算結(jié)果中的)其余數(shù)字應(yīng)舍去 修約方法:四舍六入五留雙 原有數(shù)據(jù): 3.1424 3.2156 5.6235 4.6245 四位有效數(shù)據(jù): 3.142 3.216 5.624 4.624 當(dāng)?shù)谝晃挥行?shù)字大于或等于8,其有效數(shù)字可以多算一 位。 三位有效數(shù)據(jù): 3.14
15、 四位有效數(shù)據(jù): 9.37 第29頁/共126頁實(shí)驗(yàn)結(jié)果的表示 測量結(jié)果最常用的表示方式是均值和標(biāo)準(zhǔn)偏差。前者表征測試量的大小,后者表征測試的精密度。 與之有關(guān)的是有效位的取舍. 所謂有效位是指某種測量所達(dá)到的精度. 如下列測試值:10.09,10.11,10.09,10.10和10.12,其均值為10.102,標(biāo)準(zhǔn)偏差為0.0130.但測試值僅準(zhǔn)確到小數(shù)點(diǎn)后面第一位,而第二位為可疑位,故結(jié)果的表示為:)5(01. 010.10Nsx)5(01. 010.1032Nsx第30頁/共126頁有效數(shù)字及計(jì)算規(guī)則 當(dāng)幾個數(shù)據(jù)相加減時,其有效數(shù)字的保留應(yīng)以小數(shù)點(diǎn)后 位數(shù)最少的數(shù)據(jù)為依據(jù)。 32.1 4
16、16.9 3.235 123 35.335 35.3 293.9 294第31頁/共126頁有效數(shù)字及計(jì)算規(guī)則 在大量數(shù)據(jù)的運(yùn)算中,為使誤差不迅速積累,對參加運(yùn) 算的數(shù)據(jù)可以多保留一位有效數(shù)字。待運(yùn)算完成后在進(jìn) 行舍入。 5.2727 0.075 3.7 2.12 5.27 0.08 3.7 2.12 11.17 11.2第32頁/共126頁有效數(shù)字及計(jì)算規(guī)則 當(dāng)幾個數(shù)據(jù)相乘除時,其有效數(shù)字的保留應(yīng)以有效數(shù)字 位數(shù)最少的那個數(shù)為依據(jù)。 0.0121 25.64 1.05782 0.0121 25.6 1.06 = 0.328 0.0121 25.64 1.058 = 0.3282 = 0.32
17、8 第33頁/共126頁二、置信度與置信區(qū)間 設(shè)一未知參數(shù)X(例如材料的硬度),雖然其精確值未知,但是可由若干試驗(yàn)值(樣本)估計(jì)它在某個范圍內(nèi)。如果有區(qū)間x1,x2,對于給定值m(0 m1),X值在X1-X2之間出現(xiàn)的概率滿足 P (X1XX2)=m 則稱隨機(jī)區(qū)間x1,x2是X的100m%置信區(qū)間,X1是置信下限,X2是置信上限,百分?jǐn)?shù)100m%稱為置信度。第34頁/共126頁置信區(qū)間舉例 假如真值為Xo,擬合出參數(shù)的值XX, 意味著在某個概率下,多次測量的X估計(jì)值(近似等于Xo)可以落在以上范圍內(nèi)。 如果估計(jì)值X服從正態(tài)分布,X在某范圍(如X1,X2區(qū)間)選值的概率等于高斯概率密度曲線下X1
18、到X2的面積。若采用標(biāo)準(zhǔn)誤差和測量值X來表示測得的真值Xo范圍,則 P(X - Xo X + )0.68 P(X -2 Xo X +2)0.95 P(X -3 Xo X +3)0.9974 顯然,區(qū)間越寬,置信度越高。第35頁/共126頁三、不同分布的區(qū)間估計(jì) 1. 對于正態(tài)分布樣本,可以用若干樣本平均值估計(jì)總體平均值第36頁/共126頁舉例第37頁/共126頁例二 如果方差未知,可以用樣本方差s作為總體方差的近似值,樣本均值與整體均值之間服從t分布。第38頁/共126頁例3 鋼中Cr含量的5次測定結(jié)果(%)為1.12,1.15,1.11,1.16,1.12。根據(jù)這批數(shù)據(jù)估計(jì)Cr的含量范圍(9
19、0%)。 1.10,1.1621.13 ,0.0217xs/2(1)sxtnn0.050.02171.13(4)5t0.02171.132.77651.130.026941.130.03第39頁/共126頁normfit MU估計(jì)值, SIGMA估計(jì)值, MU區(qū)間, SIGMA區(qū)間 = normfit(x,alpha) 對給定數(shù)據(jù)x,在置信度100(1- )條件下給出正態(tài)分布參數(shù)的無偏估計(jì) 該函數(shù)輸入變量最多2個,第2參數(shù) 的缺省值= 0.05 對應(yīng)于置信度90%(雙邊)或95%(單邊)。 函數(shù)的輸出值最多可以有4個,可以選擇前14個作為輸出結(jié)果。 第40頁/共126頁2. 0-12. 0-1
20、分布參數(shù)的估計(jì) 第41頁/共126頁舉例第42頁/共126頁binofit binofit 對二項(xiàng)分布數(shù)據(jù)參數(shù)和置信區(qū)間估計(jì) binofit(x,n) 對于給定數(shù)據(jù) X返回取1的幾率 phat, pci = binofit(x,n,alpha) 給出極大似然估計(jì)值和100(1-) % 置信區(qū)間 缺省值 = 0.05 對應(yīng)于90%置信區(qū)間(雙邊)或95%(單邊)。第43頁/共126頁3.3.契比雪夫不等式 第44頁/共126頁 變量之間的關(guān)系分為兩類。一類是確定性關(guān)系,如函數(shù)關(guān)系。另一類是非確定性關(guān)系。當(dāng)自變量x確定以后,因變量y并不確定,而是符合一定分布的隨機(jī)變量。二者的關(guān)系可以表示為y=f(
21、x)+, 隨機(jī)項(xiàng)N(0,1),f(x)是確定函數(shù),稱為回歸函數(shù)。 回歸分析的任務(wù)一是根據(jù)經(jīng)驗(yàn)公式、散點(diǎn)圖等確定回歸函數(shù);還要檢驗(yàn)回歸函數(shù)是否合理;回歸的目的是用f(x)預(yù)測和決策。第45頁/共126頁 如果通過試驗(yàn)得到了一組樣本觀察值(試驗(yàn)值),自然希望利用這組數(shù)據(jù)來估計(jì)總體參數(shù)的值,在統(tǒng)計(jì)學(xué)上稱為點(diǎn)估計(jì)問題。 例如歌手大獎賽評分方法,去掉若干最高最低,然后求平均值,估價歌手的水平。第46頁/共126頁參數(shù)估計(jì)的方法 估計(jì)值的求法有很多,如 常用的數(shù)字特征法,用樣本的數(shù)字特征,如平均值、方差等估計(jì)總體的數(shù)字特征。 順序統(tǒng)計(jì)量法是一種簡便方法,將樣本按大小順序排列,取居中的一個或幾個數(shù)的平均值作
22、為總體均值的估計(jì)值、用最大值與最小值的差值估計(jì)數(shù)據(jù)的離散程度。 最小二乘法和最大似然法是求出未知參數(shù)值的有效的方法。第47頁/共126頁2.2 最小二乘法 在實(shí)驗(yàn)數(shù)據(jù)處理中,常常需要從一組測定的數(shù)據(jù)(xi,yi)去求自變量x和因變量y的近似函數(shù)關(guān)系式y(tǒng)=f(x)。從圖形上看,就是由給定的N個點(diǎn)(xi,yi)(i=1,2,n)求曲線擬合的問題。 實(shí)際上實(shí)驗(yàn)中所得到的數(shù)據(jù)總是有測試誤差的,因此并不要求曲線通過所有的點(diǎn)。 第48頁/共126頁最小二乘法原理 曲線擬合是要求畫出一條近似曲線,盡可能從給定點(diǎn)的附近通過,能反映給定數(shù)據(jù)的一般趨勢,但是盡量不出現(xiàn)局部波動。 最小二乘法是參數(shù)估計(jì)的一種方法,可
23、用來求這樣的近似曲線。對于含有觀測誤差的數(shù)據(jù)來說,這樣的處理可以部分抵消數(shù)據(jù)中含有的觀測誤差。第49頁/共126頁最小二乘法如果我們得到 n 個實(shí)驗(yàn)測量數(shù)據(jù),記為obsiy,且擬對這些數(shù)據(jù)擬合的函數(shù)形式為的)(jthiay,其中 aj是在該理論公式中的參數(shù),則我們可以構(gòu)造出如下的量 Q 21)(niijthiobsiayyQ i是下面要討論的誤差。如果適當(dāng)選擇參數(shù) aj,使得 Q值取極小值,即 yobs與 yth之間的差別最小,這種方法就叫最小二乘法,也稱為最小方差擬合,這是一個在曲線擬合中常用的方法。 第50頁/共126頁誤差選取第51頁/共126頁1. 1.直線擬合( (線性回歸) ) 如
24、果由試驗(yàn)得到的一組數(shù)據(jù)(xi,yi)在平面x-y上畫出的曲線與直線差不多,就可以用直線y=a+bx去擬合。問題就變?yōu)檫x擇適當(dāng)?shù)膮?shù)a和b,使得 取得最小值。 第52頁/共126頁直線擬合算法第53頁/共126頁第54頁/共126頁2.2.代數(shù)多項(xiàng)式擬合( (回歸) ) 第55頁/共126頁代數(shù)多項(xiàng)式擬合算法此時,系數(shù) a 必須適合下列方程組 1112112/0nmjkjiiiiijkQa xyxa k=1,2,.m+1 若所有 yi的測量誤差都相同,以上方程可化簡為 111110nmjkjiiiija xyx 121111mnnjkkjiiijiiaxxy k=1,2,.m+1 第56頁/共1
25、26頁多項(xiàng)式次數(shù) 從這個方程組可以求出系數(shù)aj即可得到所要求的m次多項(xiàng)式曲線方程。 當(dāng)m值較大時,以上方程的系數(shù)行列式將減小,使方程組出現(xiàn)病態(tài),因而一般多項(xiàng)式擬合最高次數(shù)只取到m=4-5。第57頁/共126頁3.3.線性模型的推廣第58頁/共126頁Curve fit toolbox 利用曲線擬合工具箱 可以對數(shù)據(jù)進(jìn)行各種函數(shù)形式的擬合,如多項(xiàng)式擬合、指數(shù)函數(shù)擬合、高斯擬合等 在命令窗口利用函數(shù)a=polyfit(x,y,n)返回n次多項(xiàng)式的系數(shù);第59頁/共126頁Matlab矩陣除法 利用矩陣除法可求解超定、欠定方程。 矩陣除法可以實(shí)現(xiàn)特殊形式的回歸 例如,求一形如y=a+bx2的經(jīng)驗(yàn)公式
26、中的系數(shù)例如已知x,y的5個值, 令x1=ones(5,1),(x.2); ab=x1y即可得到系數(shù)a,b21axyb 第60頁/共126頁4 多元線性擬合 最小二乘法可以推廣到二元、甚至多元線性擬合。 設(shè)因變量為y,兩個自變量分別為x1和x2,假設(shè)已通過試驗(yàn)測得一系列數(shù)據(jù)為(yi,x1i,x2i), i=1,2,3n 則二元線性回歸方程可表示為ya+b1x1+b2x2 式中a為常數(shù)項(xiàng),b1和b2分別為y對x1和x2的偏回歸系數(shù)。第61頁/共126頁 殘差平方和 根據(jù)最小二乘法的原理,令殘差平方和最小,可求得這些參數(shù)。對相關(guān)參數(shù)求導(dǎo)數(shù),得第62頁/共126頁 方程組的簡化形式第63頁/共126
27、頁Regress函數(shù) 利用統(tǒng)計(jì)工具箱命令regress實(shí)現(xiàn)多元線性回歸 調(diào)用格式為b=regress(y,x) 或 b,bint,r,rint,stats = regess(y,x,alpha),alpha為顯著性水平(缺省時設(shè)定為0.05) 輸出向量b,bint為回歸系數(shù)估計(jì)值和它們的置信區(qū)間,r,rint為殘差及其置信區(qū)間 stats是用于檢驗(yàn)回歸模型的統(tǒng)計(jì)量,有三個數(shù)值,第一個是R2,其中R是相關(guān)系數(shù),第二個是F統(tǒng)計(jì)量值,第三個是與統(tǒng)計(jì)量F對應(yīng)的概率P,當(dāng)P10倍自變量)高精度的數(shù)據(jù); 預(yù)分析:根據(jù)專業(yè)知識和經(jīng)驗(yàn)確定自變量的高次項(xiàng)及交叉乘積是否進(jìn)入模型,是否需要數(shù)據(jù)轉(zhuǎn)換,檢驗(yàn)全變量線性關(guān)
28、系是否顯著,利用殘差分析等手段考察誤差分布的正態(tài)性、等方差性假定是否合理? 確定回歸關(guān)系形式后,選擇影響顯著的變量,確定最優(yōu)回歸方程第75頁/共126頁2.3 2.3 假設(shè)檢驗(yàn) 假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷的另一類重要問題,它是根據(jù)樣本的信息來判斷一組數(shù)據(jù)是否在某個精度范圍內(nèi)與理論公式一致, 或判斷總體分布是否具有指定特征。 假設(shè)檢驗(yàn)包括參數(shù)檢驗(yàn)和分布檢驗(yàn)。 參數(shù)檢驗(yàn)是在假設(shè)是正確的情況下,計(jì)算得到擬合參數(shù)的幾率。如果該幾率較大,則接受假設(shè),反之則放棄假設(shè)。實(shí)際工作中一般采用分布假設(shè)。第76頁/共126頁1. 分布律的檢驗(yàn) 分布律檢驗(yàn)的原理是Pearson平方和準(zhǔn)則 假設(shè)n個樣本來自分布為F(x)的總體
29、; 將實(shí)數(shù)域分成k個區(qū)間, 若樣本落在第i個區(qū)間的次數(shù)為mi,而根據(jù)分布律計(jì)算得到的概率為pi第77頁/共126頁分布律檢驗(yàn) 選取統(tǒng)計(jì)量 式中r為需要估計(jì)的參數(shù)個數(shù) 根據(jù)樣本觀察值計(jì)算統(tǒng)計(jì)量的值 查表得臨界值 如果 一般可以接受這種分布假設(shè),反之拒絕假設(shè)221()(1)kiiiimnpwkrnp 2(1)kr 2(1)wkr 第78頁/共126頁2.均值估計(jì)當(dāng)樣本來自正態(tài)分布總體N(,2),其均值服從t分布,即 ) 1(/0ntnsx 例如,某工廠鋼絲強(qiáng)度的總體均值為1056.0MPa,今新生產(chǎn)了一批鋼絲,隨機(jī)抽取10個樣品作抗拉試驗(yàn),測得的抗拉強(qiáng)度為 1051.2 1062.3 1066.8
30、 1055.4 1077.6 1070.7 1055.7 1058.1 1066.6 1067.0 設(shè)鋼絲強(qiáng)度服從正態(tài)分布,問這批鋼絲的抗拉強(qiáng)度是否比以往高? 第79頁/共126頁均值估計(jì)示例第80頁/共126頁U檢驗(yàn)法( ) Ztest 樣本均值與一常數(shù)進(jìn)行比較 h,p,ci,zval = ztest(x,m,sigma,alpha,tail)h=0接受原假設(shè),h=1拒絕原假設(shè)m均值,tail=0,1,-1對應(yīng)于備選假設(shè)為不等于、大于和小于m第81頁/共126頁T檢驗(yàn)法(方差未知) ttest: 樣本均值與一常數(shù)進(jìn)行比較 matlab函數(shù)用法與ztest相似 H,P,CI,STATS = t
31、test(x,m,alpha,tail) 判斷來自于正態(tài)分布的X均值是否為m. 缺省值m = 0, = 0.05 ,tail = 0 原假設(shè): 均值m 對于tail=0, 備選假設(shè): 均值 不等于m. 對于tail=1, 備選假設(shè): 均值 大于m 對于tail=-1,備選假設(shè): 均值 小于m第82頁/共126頁3.3.以誤差判斷擬合質(zhì)量 第83頁/共126頁4.4.回歸分析 回歸(擬合)可以由最小二乘法實(shí)現(xiàn),matlab polyfit 回歸方程的質(zhì)量常用相關(guān)系數(shù)和F檢驗(yàn)作為評估指標(biāo)。 相關(guān)系數(shù)用如下公式計(jì)算 相關(guān)系數(shù)用以描述兩個變量線性相關(guān)的密切程度。絕大部分R值在0-1之間。22)()()
32、(yyxxyyxxRiiii 第84頁/共126頁相關(guān)系數(shù)與樣品個數(shù) 相關(guān)系數(shù)與樣品的抽樣個數(shù)有關(guān)。 對于一定觀察次數(shù)n,相關(guān)系數(shù)必須大于一定值所擬合的直線才有意義,此時我們稱二者顯著相關(guān) 。 觀察次數(shù)n臨界值=5%=1%30.9971.00050.8780.957100.6320.765200.4440.561300.3610.463500.2730.3541000.1950.2542000.1380.1814000.0980.12810000.0620.081第85頁/共126頁 可以證明,當(dāng)X Y均服從正態(tài)分布,當(dāng)二者無關(guān)時,統(tǒng)計(jì)量 給定顯著性水平,可查表求得臨界值t(n-2) 若計(jì)算的
33、統(tǒng)計(jì)量t t(n-2),則可以認(rèn)為X Y二者顯著相關(guān),相關(guān)系數(shù)有效。 否則可認(rèn)為X Y二者無關(guān)。22 (2)1xyxyrtnt nr第86頁/共126頁F檢驗(yàn)第87頁/共126頁復(fù)相關(guān)系數(shù) 對于多元線性回歸,采用復(fù)相關(guān)系數(shù)。iiiiiyyyyR22)()(1 其中iy 是回歸估計(jì)值,yi是測量結(jié)果,y平均值 21niiiyy是殘差平方和(Q),由于試驗(yàn)誤差以及其它未加控制的因素引起的, niiyy12稱回歸平方和(u),由于自變量變化引起的。 第88頁/共126頁復(fù)相關(guān)系數(shù)的意義 R反映了變量y與多個變量xi(i=1,2,3)之間的線性相關(guān)程度。 R=0表示x,y之間無關(guān), R=1表示x,y二
34、者嚴(yán)格線性相關(guān)。 R越大,線性回歸效果越好。 第89頁/共126頁回歸方程變量個數(shù) 復(fù)相關(guān)系數(shù)是總回歸效果的一個重要指標(biāo),但是R與回歸方程中自變量個數(shù)K以及試驗(yàn)次數(shù)n有關(guān)。當(dāng)n值相對于K不是很大時,常有較大的R。特別是當(dāng)n=K+1時,即使K個自變量與y無關(guān),也必然有R=1(Q=0),因此在實(shí)際計(jì)算當(dāng)中必須注意K與n的相對比例。根據(jù)經(jīng)驗(yàn),n應(yīng)該比K大4-5以上。 第90頁/共126頁復(fù)相關(guān)系數(shù)的臨界值 統(tǒng)計(jì)量W 服從F分布F(k,n-k-1) 可根據(jù)置信度大小在F表中查出相應(yīng)的臨界值。當(dāng)計(jì)算的F值大于臨界值則認(rèn)為回歸效果顯著。 ) 1,(11) 1/(/22KnKFRRKKnKnQKuW 第91
35、頁/共126頁偏相關(guān)系數(shù) 偏相關(guān)系數(shù)表征單個因素對因變量的作用大小。偏相關(guān)系數(shù)也可以用普通相關(guān)系數(shù)公式計(jì)算,即 ri越大,說明y對xi的依賴越顯著,這時不可將該因素剔除。 njjnjijnjjijiyyxxyyxxr12121)()()( 第92頁/共126頁偏相關(guān)系數(shù)的臨界值 常用如下統(tǒng)計(jì)量來衡量該因素的顯著性 給定置信度,可以根據(jù)t分布表,查出臨界值t,當(dāng)計(jì)算值W的絕對值大于臨界值t,則認(rèn)為xj對y產(chǎn)生顯著影響,不可忽視。 ) 1(112KntrKnrWjj 第93頁/共126頁Matlab實(shí)現(xiàn) 相關(guān)系數(shù)r=corrcoef(x,y), 式中 X 和 Y 列向量, 等價于 r=corrco
36、ef(x y).第94頁/共126頁單個回歸系數(shù)的顯著性 利用統(tǒng)計(jì)量 式中分子分別為對第k個變量回歸系數(shù)的估計(jì)值和系數(shù)值, 分母s是系數(shù)的標(biāo)準(zhǔn)差的估計(jì),(1)()kkknpktts 第95頁/共126頁T檢驗(yàn)法第96頁/共126頁單個回歸系數(shù)的顯著性 在k0時, |tk|不應(yīng)過分偏大。反之,若 則可以認(rèn)為在置信度(1)條件下xk對結(jié)果有顯著作用(1)()kknpktts 2(1)kttnp第97頁/共126頁單個回歸系數(shù)的顯著性 或選取統(tǒng)計(jì)量 akk是(XX)1的主對角線上第k個元素 Fk不應(yīng)過分偏大。反之,若 則可以認(rèn)為在置信度(1)條件下xk對結(jié)果有顯著作用2/(1,1)kkkkaFFnp
37、MSE(1,1)kFFnp第98頁/共126頁5 方差分析 試驗(yàn)過程中經(jīng)常需要分析各種方法、參數(shù)對實(shí)驗(yàn)結(jié)果的影響 方差分析是鑒別各個因素效應(yīng)的一種統(tǒng)計(jì)方法 20年代英國統(tǒng)計(jì)學(xué)家R A Fisher首先應(yīng)用到農(nóng)業(yè)試驗(yàn)中。第99頁/共126頁 如果試驗(yàn)時只有一個因素在變化,其它可控制的因素都不變,稱單因素試驗(yàn) 若變化的因素多于一個,稱為雙因素或多因素試驗(yàn)第100頁/共126頁單因素分析模型 在同一水平Ai下獨(dú)立觀察ni次,因變量的觀察值服從正態(tài)分布; 不同水平的觀察值來自于不同的正態(tài)總體; 除A的水平變化外,盡量控制替他條件相同,即假定各正態(tài)總體具有相同的方差,因素的影響只局限在均值的差異221(
38、,);_(0,);_;1ijiijiiji jijiijijiijiiriiixNxxNxnn 總平均值第101頁/共126頁單因素方差分析 將試驗(yàn)的變異因素A分成r個水平,對每一個水平進(jìn)行重復(fù)試驗(yàn),列出試驗(yàn)結(jié)果水平水平試驗(yàn)結(jié)果試驗(yàn)結(jié)果行均行均1x11x12x1n1X12x21x22x2n2X2rxr1xr2xrnrXr第102頁/共126頁記樣本總數(shù) n=n1+n2+nr 總體均值111inrijijxxn 行均值 11iniijjixxn 離差平方總和211()inrTijijSxx 自由度 n-1 組內(nèi)平方和211()inrEijiijSxx 自由度 n-r(含有 r 個均值) 組間平方
39、和211()inrAiijSxx 自由度 r-1 第103頁/共126頁222r22i=11()()()(2(0iTijijiiijiinijiiiijijTSxxxxxxxxxxxxxxxxxxSe SaSSeSaiiiiinnrri=1 j=1i=1 j=1nri=1 j=1nnrri=1 j=1i=1 j=1=)(=)+) +())+第104頁/共126頁 是i 的良好估計(jì)值,SE反映了隨機(jī)誤差ij的影響;稱為誤差平方和; SA反映了i (I=1,2,r)之間的差異程度,反映了各水平效應(yīng)對觀測量的影響;稱為因素的平方和ix第105頁/共126頁 選取統(tǒng)計(jì)量 如果統(tǒng)計(jì)量F臨界值F,該因素沒
40、有顯著作用,反之作用顯著。 /(1)(1,)/()AESrFF rnrSnr第106頁/共126頁舉例 某學(xué)期本課程三個班成績情況1班班2班班3班班均值均值74.73553.00057.000標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差S12.37017.8479.293人數(shù)人數(shù)242439第107頁/共126頁Se,Sa計(jì)算NoImage22122122i=1111() ;1(1)()()(1)iiiniijijiniiijijnrrijiiijisxxnnsxxSexxns組內(nèi)方差22111()()rnrriiiijiSaxxn xx111/rrijiiiiixxn xnn第108頁/共126頁 總平均(74.37524
41、+5324+5739)/(24+24+39)=60.690 Sa=24*(74.375-60.690)2+24*(53-60.690)2+39*(57-60.690)2=6445 Se= 23*12.3702+23*17.8472+ 38*9.2932=14126.92 F=(6445/2)/(14126.92/84)=19.16 查表取0.05,F(2,60)=3.15 查表取0.01,F(2,60)=4.98 可見三個班的考試成績有非常顯著差別第109頁/共126頁第110頁/共126頁例2 某學(xué)期4個班97人材料科學(xué)基礎(chǔ)B成績 均值66.42268 1班:76.438,8.813,32人;2班:46.280,14.845, 25人;3班:75.600,9.170, 25人;4班:63.333,10.175, 15人 Sa=15601.42 ST=26765.67 Se= 11164.25 查表取0.01,F(3,60)=4.13 F=(15601.42/3)/(11164.25/93)= 43.32 可見4個班的考試成績有非常顯著差別第111頁/共126頁第112頁/共126頁例3 20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海南師范大學(xué)《工程估價與費(fèi)用管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度水路貨物運(yùn)輸合同(含貨物保險、風(fēng)險控制)6篇
- 二零二五年度工程車運(yùn)輸合同管理范本3篇
- 2025年度智能辦公系統(tǒng)租賃服務(wù)合同范本3篇
- 2025年度綠色建筑商品房建筑工程施工監(jiān)管協(xié)議3篇
- 運(yùn)營餐廳課程設(shè)計(jì)
- 勞動合同法對媒體行業(yè)從業(yè)者的管理探討
- 運(yùn)動館親子訓(xùn)練課程設(shè)計(jì)
- 檢修部副主任安全職責(zé)(4篇)
- 二零二五年度大型活動專用班車租賃合同3篇
- 物業(yè)年終總結(jié)匯報工作
- 金色簡約蛇年年終總結(jié)匯報模板
- 醫(yī)院住院病歷質(zhì)量檢查評分表(評分標(biāo)準(zhǔn))
- 12.1 擁有積極的人生態(tài)度(教學(xué)設(shè)計(jì))2024七年級道德與法治上冊
- 視聽說課程(《走遍美國》)教學(xué)方案
- 2024年內(nèi)蒙古中考語文試卷五套合卷附答案
- 高中體育與健康-短跑教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 廠房廠區(qū)保潔方案
- 汽車租賃服務(wù)方案(投標(biāo)方案)
- 中國鋰離子電池行業(yè)發(fā)展環(huán)境(PEST)分析
- ODM合作合同協(xié)議書范本全面(2024版)
評論
0/150
提交評論