


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、多元回歸分析肺吸蟲囊蚴脫囊影響因素中有關(guān)異常點的探討 作者:曲桂玉 陳景武 杜國防【摘要】 目的: 探討準(zhǔn)確發(fā)現(xiàn)、合理處理實驗資料中異常點,資料滿足多元線性回歸分析條件,確保分析結(jié)果真實可靠。方法: 采用殘差圖、殘差分析、影響分析、穩(wěn)健回歸及根據(jù)專業(yè)知識判斷。結(jié)果: 第一組資料所對應(yīng)的點為異常點,刪去異常點,最小二乘法建立的方程與穩(wěn)健回歸建立的方程一致。結(jié)論: 多種方法結(jié)合判斷異常點,進一步提高了專業(yè)結(jié)論的科學(xué)性。 【關(guān)鍵詞】 異常點; 多元回歸分析; 穩(wěn)健回歸為
2、了研究肺吸蟲囊蚴脫囊的影響因素,我們進行了正交試驗并對其試驗資料進行多元線性回歸分析,旨在建立多元線性回歸模型,分析探討其影響因素作用的性質(zhì)和大小。在回歸模型中,異常點是指對既定模型偏離很大的數(shù)據(jù)點。尤其是數(shù)據(jù)集中的那些對統(tǒng)計量的取值有非常大的影響力的強影響點1。一旦發(fā)現(xiàn)異常數(shù)據(jù)應(yīng)及時進行相應(yīng)的處理,以提高回歸方程的質(zhì)量。1 資料和方法11 資料根據(jù)專業(yè)知識選定影響肺吸蟲囊蚴脫囊的4個主要因素及水平 ,選用L16(45)正交表安排試驗,試驗資料收集如表1。表1 正交試驗數(shù)據(jù)(略)12 學(xué)生化殘差值為了考察各個觀測數(shù)據(jù)相對于擬合的回歸是否為異常點,
3、常用的方法是考察殘差的數(shù)值或?qū)W生化殘差。因為殘差的絕對值越大,就表示回歸對這一觀測擬合得越不好,相對于擬合的回歸這一觀測就是異常的數(shù)據(jù)。學(xué)生化殘差(student residual)ri=ei s1-rii(i=1,2,n)式中的S為誤差的標(biāo)準(zhǔn)差。在擬合回歸時,對不同的自變量值其擬合的誤差是不同的。對絕對值相同的殘差,其自變量不同,有不同的含義,從這個角度來考慮,就需要將殘差的數(shù)值除以它的標(biāo)準(zhǔn)差來標(biāo)準(zhǔn)化,通常稱為“學(xué)生化”。在回歸診斷中,通常用學(xué)生化殘差來判斷異常點,對于較大的ri(例如|ri|>2)的觀察值稱為異常值2(outlier)。
4、本研究中第一組數(shù)據(jù)觀察值|ri|=2.44,所以認為此值為異常值。它所對應(yīng)的點為異常點。13 殘差圖多元線性回歸分析資料殘差圖一般要求n個點的散布是無規(guī)則的。當(dāng)殘差圖中的點呈現(xiàn)某種規(guī)律或趨向時,就可以對模型的假設(shè)提出懷疑。用殘差圖(residual plot)作為一種直觀但經(jīng)常有效的非正式檢查方法。本研究以學(xué)生化殘差ri為Y軸,以預(yù)測值為X軸作標(biāo)準(zhǔn)化殘差圖(圖1),大部分散點落在|ri|2的水平帶狀區(qū)域內(nèi),只有第一組觀察值落在該范圍外,所以直觀上認為該觀察值所對應(yīng)的點為一個異常點。由于學(xué)生化殘差考慮了自變量空間中試驗點的位置(由hii測得),所以學(xué)生化殘差比普通殘差更為合理,作圖更
5、易發(fā)現(xiàn)異常點2。14 影響分析 影響分析是研究每個觀測點對于參數(shù)估計的影響,目的在于找出對參數(shù)估計影響大的觀測值。這對于樣本量較小的回歸分析尤為重要。對于參數(shù)估計值影響較大的觀測值,稱為強影響點。圖1 殘差圖(略)141 CookD值CookD統(tǒng)計量法是觀察回歸方程及剔除第i個觀察之后的回歸方程中的預(yù)測值與實際值之間Cook距離來判斷第i個觀測值是否為大的影響點的方法。Di(M,c)=(i)-)M(i)-) c 通常Di>1就認為第i組數(shù)據(jù)是一個強影響點。而在實際中,當(dāng)Di>0.8或Di>0.
6、6(當(dāng)其余的Di較小)時就是一個強影響點3。本研究中第一組數(shù)據(jù)CookD為0.83,因此可認為該觀察點為強影響點。142 DFFITS它是通過測量一個觀測值排除是否對其預(yù)測值有影響,從而判斷該觀測值是否為強影響點2。 DFFITSi=(i-(i)s(i)hii,其中i表示用全部數(shù)據(jù)擬合回歸對yi的預(yù)測值,(i)表示將第i個觀測值排除在外后擬合回歸對yi的預(yù)測值。通常以2為其界值。本研究中第一組數(shù)據(jù)DFFTIS值為-2.8688,其絕對值大于2。15 根據(jù)專業(yè)知識判斷產(chǎn)生異常值通常有兩個方面的因素:一是環(huán)境因素的顯著變化;二是人為因素。對于環(huán)境因素,異常值的出現(xiàn)恰恰是反映
7、實況的突變,所以應(yīng)結(jié)合實際,慎重分析。我們來看,本課題中認為的異常點,第一組觀察值中自變量胃酶濃度為0,膽鹽濃度為0,胰酶濃度為0,胃酶作用時間5分鐘,從專業(yè)角度看,幾乎相當(dāng)于所有觀察指標(biāo)皆為0,與要模擬的實際狀況是不相符合的。于是從專業(yè)來看第一組資料所對應(yīng)的點可看作異常點。16 穩(wěn)健回歸有學(xué)者認為,一個樣本點是否為異常值,不能單憑它在最小二乘法之下計算的殘差去判定,除了經(jīng)驗以及對這樣本是如何獲得的了解外,用M估計也能有一些幫助1。在M估計中,被診斷為“異常值”的觀察點,給予的權(quán)重都較小,最小二乘法中殘差越小的或越接近0的點,給予的權(quán)重越大。在此我們采用穩(wěn)健回歸的M估計,根據(jù)反復(fù)迭
8、代加權(quán)最小二乘法,我們知道權(quán)重小的點是我們考慮的異常點4。本研究中發(fā)現(xiàn)第一組試驗數(shù)據(jù)所給與的權(quán)重最小,穩(wěn)健回歸得出第一組資料所對應(yīng)的點為異常點。列出各點最小二乘殘差rls及穩(wěn)健回歸中各點的權(quán)重:y r wt1 7 -3.435641 0.031686812 22
9、2.192429 0.873486393 10 -0.4852421 0.90536394 7 -0.6966451 0.999696385 14 0.4464198&
10、#160; 0.990269526 15 1.599765 0.891493097 12 -0.1546714 0.988987028 13 0.6672604
11、0; 0.9447489 3 -1.466972 0.739517810 13 0.7086987 0.9219137811 9 -0.0951291
12、60; 0.9546443512 8 -0.3320152 0.9640339513 8 -0.0474304 0.9996977914 10 0.4162532 0.9969310415 1 -0.5415038 0.999778316 4 0.0685466 0.985117932 結(jié)果由學(xué)生化殘差、殘差圖、cookD值、DFFITS值及穩(wěn)健回歸等可得出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園保育工作相關(guān)表格與工作制度:幼兒食譜編制與評價
- 物理處理法改良竹材聲學(xué)振動性能的研究
- 換頁注意力模型優(yōu)化-洞察闡釋
- 學(xué)校美育對拔尖創(chuàng)新人才培養(yǎng)的作用
- 從騰訊到阿里:全域私域的紅利在哪里
- 綠色金融發(fā)展中的挑戰(zhàn)與機遇
- 2025至2030年中國特種油劑行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國點歌機行業(yè)投資前景及策略咨詢報告
- 2025至2030年中國漸開線鋼片行業(yè)投資前景及策略咨詢報告
- 農(nóng)村社會服務(wù)設(shè)施布局與空間結(jié)構(gòu)提升
- 《igg4相關(guān)性疾病》課件
- 初中地理會考知識點匯總
- 安全生產(chǎn)、環(huán)境保護監(jiān)督管理制度(最終版)
- 《財政學(xué)》教學(xué)大綱中文版
- 小學(xué)數(shù)學(xué)命題思考
- 砌筑擋土墻搭設(shè)腳手架專項方案設(shè)計
- 長篇情感電臺讀文(10篇)精選
- DB35_T 169-2022 森林立地分類與立地質(zhì)量等級
- 動火作業(yè)危害識別及控制措施清單
- 26個科室建設(shè)指南
- 安全帶檢測報告(共8頁)
評論
0/150
提交評論