多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)_第1頁
多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)_第2頁
多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)_第3頁
多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)_第4頁
多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、    多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點(diǎn)的探討(1)    】 目的: 探討準(zhǔn)確發(fā)現(xiàn)、合理處理實(shí)驗(yàn)資料中異常點(diǎn),資料滿足多元線性回歸分析條件,確保分析結(jié)果真實(shí)可靠。方法: 采用殘差圖、殘差分析、影響分析、穩(wěn)健回歸及根據(jù)專業(yè)知識判斷。結(jié)果: 第一組資料所對應(yīng)的點(diǎn)為異常點(diǎn),刪去異常點(diǎn),最小二乘法建立的方程與穩(wěn)健回歸建立的方程一致。結(jié)論: 多種方法結(jié)合判斷異常點(diǎn),進(jìn)一步提高了專業(yè)結(jié)論的科學(xué)性。 【關(guān)鍵詞】 異常點(diǎn); 多元回歸分析; 穩(wěn)健回歸為了研究肺吸蟲囊蚴脫囊的影響因素,我們進(jìn)行了正交試驗(yàn)并對其試驗(yàn)資料進(jìn)

2、行多元線性回歸分析,旨在建立多元線性回歸模型,分析探討其影響因素作用的性質(zhì)和大小。在回歸模型中,異常點(diǎn)是指對既定模型偏離很大的數(shù)據(jù)點(diǎn)。尤其是數(shù)據(jù)集中的那些對統(tǒng)計(jì)量的取值有非常大的影響力的強(qiáng)影響點(diǎn)1。一旦發(fā)現(xiàn)異常數(shù)據(jù)應(yīng)及時(shí)進(jìn)行相應(yīng)的處理,以提高回歸方程的質(zhì)量。1 資料和方法11 資料根據(jù)專業(yè)知識選定影響肺吸蟲囊蚴脫囊的4個(gè)主因素及水平 ,選用L16(45)正交表安排試驗(yàn),試驗(yàn)資料收集如表1。表1 正交試驗(yàn)數(shù)據(jù)(略)12 學(xué)生化殘差值為了考察各個(gè)觀測數(shù)據(jù)相對于擬合的回歸是否為異常點(diǎn),常用的方法是考察殘差的數(shù)值或?qū)W生化殘差。因?yàn)闅埐畹慕^對值越大,就表示回歸對這一觀測擬合得越不好,相對于擬合的回歸這一

3、觀測就是異常的數(shù)據(jù)。學(xué)生化殘差(student residual)ri=ei    s1-rii(i=1,2,n)式中的S為誤差的標(biāo)準(zhǔn)差。在擬合回歸時(shí),對不同的自變量值其擬合的誤差是不同的。對絕對值相同的殘差,其自變量不同,有不同的含義,從這個(gè)角度來考慮,就需將殘差的數(shù)值除以它的標(biāo)準(zhǔn)差來標(biāo)準(zhǔn)化,通常稱為“學(xué)生化”。在回歸診斷中,通常用學(xué)生化殘差來判斷異常點(diǎn),對于較大的ri(例如|ri|>2)的觀察值稱為異常值2(outlier)。本研究中第一組數(shù)據(jù)觀察值|ri|=2.44,所以認(rèn)為此值為異常值。它所對應(yīng)的點(diǎn)為異常點(diǎn)。13 殘差圖多元線性回歸分析資料

4、殘差圖一般求n個(gè)點(diǎn)的散布是無規(guī)則的。當(dāng)殘差圖中的點(diǎn)呈現(xiàn)某種規(guī)律或趨向時(shí),就可以對模型的假設(shè)提出懷疑。用殘差圖(residual plot)作為一種直觀但經(jīng)常有效的非正式檢查方法。本研究以學(xué)生化殘差ri為Y軸,以預(yù)測值為X軸作標(biāo)準(zhǔn)化殘差圖(圖1),大部分散點(diǎn)落在|ri|2的水平帶狀區(qū)域內(nèi),只有第一組觀察值落在該范圍外,所以直觀上認(rèn)為該觀察值所對應(yīng)的點(diǎn)為一個(gè)異常點(diǎn)。由于學(xué)生化殘差考慮了自變量空間中試驗(yàn)點(diǎn)的位置(由hii測得),所以學(xué)生化殘差比普通殘差更為合理,作圖更易發(fā)現(xiàn)異常點(diǎn)2。14 影響分析 影響分析是研究每個(gè)觀測點(diǎn)對于參數(shù)估計(jì)的影響,目的在于找出對參數(shù)估計(jì)影響大的觀測值。這對于樣本量較小的回

5、歸分析尤為重。對于參數(shù)估計(jì)值影響較大的觀測值,稱為強(qiáng)影響點(diǎn)。圖1 殘差圖(略)141 CookD值CookD統(tǒng)計(jì)量法是觀察回歸方程及剔除第i個(gè)觀察之后的回歸方程中的預(yù)測值與實(shí)際值之間Cook距離來判斷第i個(gè)觀測值是否為大的影響點(diǎn)的方法。Di(M,c)=(i)-)M(i)-)    c 通常Di>1就認(rèn)為第i組數(shù)據(jù)是一個(gè)強(qiáng)影響點(diǎn)。而在實(shí)際中,當(dāng)Di>0.8或Di>0.6(當(dāng)其余的Di較小)時(shí)就是一個(gè)強(qiáng)影響點(diǎn)3。本研究中第一組數(shù)據(jù)CookD為0.83,因此可認(rèn)為該觀察點(diǎn)為強(qiáng)影響點(diǎn)。142 DFFITS它是通過測量一個(gè)觀測值排除是否對其預(yù)測值

6、有影響,從而判斷該觀測值是否為強(qiáng)影響點(diǎn)2。 DFFITSi=(i-(i)s(i)hii,其中i表示用全部數(shù)據(jù)擬合回歸對yi的預(yù)測值,(i)表示將第i個(gè)觀測值排除在外后擬合回歸對yi的預(yù)測值。通常以2為其界值。本研究中第一組數(shù)據(jù)DFFTIS值為-2.8688,其絕對值大于2。15 根據(jù)專業(yè)知識判斷產(chǎn)生異常值通常有兩個(gè)方面的因素:一是環(huán)境因素的顯著變化;二是人為因素。對于環(huán)境因素,異常值的出現(xiàn)恰恰是反映實(shí)況的突變,所以應(yīng)結(jié)合實(shí)際,慎重分析。我們來看,本課題中認(rèn)為的異常點(diǎn),第一組觀察值中自變量胃酶濃度為0,膽鹽濃度為0,胰酶濃度為0,胃酶作用時(shí)間5分鐘,從專業(yè)角度看,幾乎相當(dāng)于所有觀察指標(biāo)皆為0,與

7、模擬的實(shí)際狀況是不相符合的。于是從專業(yè)來看第一組資料所對應(yīng)的點(diǎn)可看作異常點(diǎn)。16 穩(wěn)健回歸有學(xué)者認(rèn)為,一個(gè)樣本點(diǎn)是否為異常值,不能單憑它在最小二乘法之下計(jì)算的殘差去判定,除了經(jīng)驗(yàn)以及對這樣本是如何獲得的了解外,用M估計(jì)也能有一些幫助1。在M估計(jì)中,被診斷為“異常值”的觀察點(diǎn),給予的權(quán)重都較小,最小二乘法中殘差越小的或越接近0的點(diǎn),給予的權(quán)重越大。在此我們采用穩(wěn)健回歸的M估計(jì),根據(jù)反復(fù)迭代加權(quán)最小二乘法,我們知道權(quán)重小的點(diǎn)是我們考慮的異常點(diǎn)4。本研究中發(fā)現(xiàn)第一組試驗(yàn)數(shù)據(jù)所給與的權(quán)重最小,穩(wěn)健回歸得出第一組資料所對應(yīng)的點(diǎn)為異常點(diǎn)。列出各點(diǎn)最小二乘殘差rls及穩(wěn)健回歸中各點(diǎn)的權(quán)重:y &#

8、160;  r    wt1    7    -3.435641    0.031686812    22    2.192429    0.873486393    10    -0.4852421 

9、0;  0.90536394    7    -0.6966451    0.999696385    14    0.4464198    0.990269526    15    1.599765    0.8914

10、93097    12    -0.1546714    0.988987028    13    0.6672604    0.9447489    3    -1.466972    0.739517810  

11、60; 13    0.7086987    0.9219137811    9    -0.0951291    0.9546443512    8    -0.3320152    0.9640339513    8 

12、;   -0.0474304    0.9996977914    10    0.4162532    0.9969310415    1    -0.5415038    0.999778316    4   

13、60;0.0685466    0.985117932 結(jié)果由學(xué)生化殘差、殘差圖、cookD值、DFFITS值及穩(wěn)健回歸等可得出第一組資料所對應(yīng)的點(diǎn)為異常點(diǎn),刪去異常點(diǎn)由最小二乘法建立的回歸方程為:=22.89536-99.19433x1-0.23107x2-2.49086x3-69.48004x4穩(wěn)健回歸M估計(jì)求得方程為:=22.3843-96.081x1-0.2302754x2-2.209383x3-64.3451x4由此看來穩(wěn)健回歸求得的方程與剔除異常值后最小二乘法求得的方程比較接近,具有一致性,證實(shí)了回歸診斷的正確性。  &#

14、160; 3 討論一組數(shù)據(jù)對應(yīng)空間中的一個(gè)點(diǎn),如果該組數(shù)據(jù)的殘差比其他組數(shù)據(jù)殘差大的多,我們稱其所對應(yīng)的點(diǎn)為異常點(diǎn);對參數(shù)估計(jì)或預(yù)測有異常大的影響的數(shù)據(jù)稱為強(qiáng)影響數(shù)據(jù),所對應(yīng)的點(diǎn)為強(qiáng)影響點(diǎn)5。當(dāng)然異常點(diǎn)也可能是強(qiáng)影響點(diǎn),因此它可能對回歸的估計(jì)以及其它推斷產(chǎn)生非同小可的影響。在回歸的實(shí)際應(yīng)用中,如何探查異常點(diǎn),判斷出異常點(diǎn)之后應(yīng)該如何處理,是備受重視的問題。在回歸分析中因變量y的取值具有隨機(jī)性,而自變量x1,x2,xp的取值,X=(xi1,xip),i=1,2,n也只是許多可能取到的值中的n組,我們希望每組數(shù)據(jù)(xi,yi)對未知參數(shù)的估計(jì)有一定的影響,但這種影響不能過大,這樣得到的經(jīng)

15、驗(yàn)回歸方程就具有一定的穩(wěn)定性。不然的話,如果個(gè)別數(shù)據(jù)對估計(jì)有異常大的影響,當(dāng)我們剔除這些數(shù)據(jù)之后,就能得到與原來差異很大回歸方程,這樣必然懷疑所建立回歸方程是否真正描述了因變量與各自變量之間的客觀存在的相依關(guān)系。隨著回歸診斷及其圖示方法在醫(yī)學(xué)試驗(yàn)數(shù)據(jù)中的廣泛應(yīng)用,通過它們可以使回歸結(jié)果更正確可靠6。因此本研究通過殘差圖、學(xué)生化殘差、CookD值及DFFITS統(tǒng)計(jì)量法等判定正交試驗(yàn)的第一組數(shù)據(jù)為異常點(diǎn)并且為強(qiáng)影響點(diǎn),在此所作的殘差圖,對于難以圖示的多元回歸則具有更為重的實(shí)用意義。殘差圖直觀是其優(yōu)點(diǎn),但也帶來了判斷上的主觀性,將殘差圖和相應(yīng)的假設(shè)檢驗(yàn)結(jié)合起來進(jìn)行“診斷”是一種較為理想的方法7。為了

16、進(jìn)一步證實(shí)判斷的異常點(diǎn)的正確性,還采用穩(wěn)健回歸的M估計(jì)。本研究中發(fā)現(xiàn)第一組試驗(yàn)數(shù)據(jù)所給與的權(quán)重最小,這正與我們回歸診斷判斷的異常點(diǎn)相符合。由此看來,回歸診斷與穩(wěn)健回歸殊途同歸,目的相同8。從廣義上可認(rèn)為兩者是同一個(gè)東西,重點(diǎn)都是識別異常點(diǎn)。從狹義上講,它們思路恰好相反:回歸診斷,首先檢測異常點(diǎn),把異常點(diǎn)剔出,剩下的觀測作為數(shù)據(jù)主體,作最小二乘擬合;而穩(wěn)健回歸,則先擬合一個(gè)穩(wěn)健擬合,然后檢測出有大殘差的異常點(diǎn)。有關(guān)異常點(diǎn)的處理,本研究采用剔除異常點(diǎn)用最小二乘法求回歸方程和不剔除異常點(diǎn)由穩(wěn)健回歸求回歸方程,兩種處理方法得出了一致的結(jié)論,進(jìn)一步提高了專業(yè)結(jié)論的真實(shí)性和科學(xué)性。  

17、          作者:曲桂玉 陳景武 杜國防【摘】目的: 探討準(zhǔn)確發(fā)現(xiàn)、合理處理實(shí)驗(yàn)資料中異常點(diǎn),資料滿足多元線性回歸分析         本篇論文是由3COME文檔頻道的網(wǎng)友為您在網(wǎng)絡(luò)上收集整理餅投稿至本站的,論文版權(quán)屬原作者,請不用于商業(yè)用途或者抄襲,僅供參考學(xué)習(xí)之用,否者后果自負(fù),如果此文侵犯您的合法權(quán)益,請聯(lián)系我們?!緟⒖嘉墨I(xiàn)】1 陳希孺,王松桂,主編近代回歸分析原理方法及應(yīng)用合肥:安徽科學(xué)技術(shù)出版社,1987,91106;3413502 黃守坤. 回歸診斷中例外數(shù)據(jù)點(diǎn)及大影響點(diǎn)的處理統(tǒng)計(jì)與決策,2002,6:47.3 王斌會,徐勇勇回歸診斷中幾種影響診斷量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論