離群點(diǎn)的判定_第1頁(yè)
離群點(diǎn)的判定_第2頁(yè)
離群點(diǎn)的判定_第3頁(yè)
離群點(diǎn)的判定_第4頁(yè)
離群點(diǎn)的判定_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2014數(shù)學(xué)建模競(jìng)賽選拔承 諾 書我們仔細(xì)閱讀了數(shù)學(xué)建模競(jìng)賽選拔的規(guī)則.我們完全明白,在做題期間不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊(duì)外的任何人研究、討論與選拔題有關(guān)的問題。我們知道,抄襲別人的成果是違反選拔規(guī)則的, 如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻(xiàn)的表述方式在正文引用處和參考文獻(xiàn)中明確列出。我們鄭重承諾,嚴(yán)格遵守選拔規(guī)則,以保證選拔的公正、公平性。如有違反選拔規(guī)則的行為,我們將受到嚴(yán)肅處理。我們選擇的題號(hào)是(從A/B/C中選擇一項(xiàng)填寫): A 隊(duì)員簽名 :1. 2. 3. 日期: 2014 年 8 月 23 日2014年南數(shù)學(xué)建模

2、競(jìng)賽選拔編 號(hào) 專 用 頁(yè)評(píng)閱編號(hào)(評(píng)閱前進(jìn)行編號(hào)):評(píng)閱記錄(評(píng)閱時(shí)使用):評(píng)閱人評(píng)分備注A題:離群點(diǎn)的判定摘要離群點(diǎn)(outlier)是指數(shù)值中,遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。稱之為歧異值,有時(shí)也稱其為野值。本文對(duì)離群點(diǎn)的判定、計(jì)算結(jié)果的評(píng)價(jià)與預(yù)測(cè)問題進(jìn)行了建模、求解和相關(guān)分析。針對(duì)問題一,在計(jì)量測(cè)試領(lǐng)域中, 離群值是指粗差即粗大誤差或過失誤差的測(cè)量值。為了準(zhǔn)確地判別離群點(diǎn),本文建立了合適的判別模型,通過已知條件建立學(xué)生化殘差模型來(lái)判別一維數(shù)據(jù)的離群點(diǎn),通過一維數(shù)據(jù)的均值,殘差等找出了離群點(diǎn)。最后通過DPS數(shù)據(jù)處理系統(tǒng),結(jié)合3S檢驗(yàn)準(zhǔn)則、狄克松準(zhǔn)則、格拉布拉斯準(zhǔn)則對(duì)結(jié)果進(jìn)行了合理

3、的檢驗(yàn)。針對(duì)問題二,對(duì)于離群點(diǎn)的處理,本文從技術(shù)上設(shè)法判斷其出現(xiàn)的原因,詳細(xì)地介紹了離群點(diǎn)檢驗(yàn)的6種方法,并用一組實(shí)例通過計(jì)算,完成檢驗(yàn),并得出結(jié)果。針對(duì)問題三,對(duì)n維數(shù)據(jù)建立判別離群點(diǎn)的數(shù)學(xué)模型,采用降維的方法,運(yùn)用LLE算法尋找樣本數(shù)據(jù)的內(nèi)在嵌入分布,并通過距離公式和離群點(diǎn)權(quán)值判別式進(jìn)行權(quán)值數(shù)據(jù)判定,根據(jù)權(quán)值的大小標(biāo)識(shí)出數(shù)據(jù)集中的離群點(diǎn),最后對(duì)其結(jié)果進(jìn)行了科學(xué)的評(píng)價(jià)。最后對(duì)本文所建立的模型及使用的方法的優(yōu)缺點(diǎn)進(jìn)行了相關(guān)的討論,并分析了在其他情況下的推廣應(yīng)用問題。關(guān)鍵詞:離群點(diǎn) 學(xué)生化殘差模型 DPS 格拉布斯準(zhǔn)則 LLE算法一、 問題重述1.1 問題背景離群點(diǎn)(outlier)是指數(shù)值中,

4、遠(yuǎn)離數(shù)值的一般水平的極端大值和極端小值。因此,也稱之為歧異值,有時(shí)也稱其為野值。 形成離群點(diǎn)的主要原因有:首先可能是采樣中的誤差,如記錄的偏誤,工作人員出現(xiàn)筆誤,計(jì)算錯(cuò)誤等,都有可能產(chǎn)生極端大值或者極端小值。其次可能是被研究現(xiàn)象本身由于受各種偶然非正常的因素影響而引起的。例如:在人口死亡序列中,由于某年發(fā)生了地震,使該年度死亡人數(shù)劇增,形成離群點(diǎn);在股票價(jià)格序列中,由于受某項(xiàng)政策出臺(tái)或某種謠傳的刺激,都會(huì)出現(xiàn)極增,極減現(xiàn)象,變現(xiàn)為離群點(diǎn)。 不論是何種原因引起的離群點(diǎn)對(duì)以后的分析都會(huì)造成一定的影響。從造成分析的困難來(lái)看,統(tǒng)計(jì)分析人員說(shuō)不希望序列中出現(xiàn)離群點(diǎn),離群點(diǎn)會(huì)直接影響模型的擬合精度,甚至?xí)?/p>

5、得到一些虛偽的信息。因此,離群點(diǎn)往往被分析人員看作是一個(gè)“壞值”。但是,從獲得信息來(lái)看,離群點(diǎn)提供了很重要的信息,它不僅提示我們認(rèn)真檢查采樣中是否存在差錯(cuò),在進(jìn)行分析前,認(rèn)真確認(rèn),而且,當(dāng)確認(rèn)離群點(diǎn)是由于系統(tǒng)受外部突發(fā)因素刺激而引起的時(shí)候,他會(huì)提供相關(guān)的系統(tǒng)穩(wěn)定性,靈敏性等重要信息。1.2 目標(biāo)任務(wù)1. 針對(duì)一維數(shù)據(jù),建立判別離群點(diǎn)的數(shù)學(xué)模型;并對(duì)模型的計(jì)算結(jié)果進(jìn)行評(píng)價(jià)或檢驗(yàn);2. 如果數(shù)據(jù)中出現(xiàn)離群點(diǎn)應(yīng)該如何處理?并舉例說(shuō)明該處理方法對(duì)后續(xù)建模分析的影響;3. 針對(duì)n維數(shù)據(jù),建立判別離群點(diǎn)的數(shù)學(xué)模型;并對(duì)模型的計(jì)算結(jié)果進(jìn)行評(píng)價(jià)或檢驗(yàn)。二、 問題分析離群值是樣本中的個(gè)別值,其數(shù)值明顯偏離其它樣

6、本的值,故通常稱做異值。1、對(duì)于問題一,判別與剔除離群值一般采用兩種方法。第一種方法是, 對(duì)測(cè)量列進(jìn)行統(tǒng)計(jì)檢驗(yàn),通過統(tǒng)計(jì)規(guī)律判斷是否含有離群值。通常假定隨機(jī)變量的測(cè)量值服從正態(tài)分布,并且運(yùn)用一定的檢驗(yàn)方法,例如如格拉布斯檢驗(yàn)或狄克遜檢驗(yàn)等,對(duì)所得到的測(cè)量值進(jìn)行判斷,然后利用處理后的測(cè)量值來(lái)確定被測(cè)量的特征參數(shù)估計(jì)。一般都是以殘差分析為對(duì)象。在給定顯著性水平的情況下,根據(jù)殘差值是否超出標(biāo)準(zhǔn)差的某一倍數(shù),來(lái)判斷是否存在離群值進(jìn)而消除其影響。第二種方法是,采用可避免或抑制離群值影響的測(cè)量結(jié)果及其不確定度的穩(wěn)健估計(jì)進(jìn)行處理,這種方法可以保證當(dāng)發(fā)生少許或嚴(yán)重模型差異時(shí), 處理結(jié)果所受到的影響比較小。對(duì)于

7、一維數(shù)據(jù)離群點(diǎn)的判別,我們采用的是學(xué)生殘差化分析,并利用DPS數(shù)據(jù)處理系統(tǒng)對(duì)其模型計(jì)算結(jié)果進(jìn)行檢驗(yàn)。2、對(duì)于問題二,對(duì)于測(cè)定中的異常值的處理,必須持慎重態(tài)度,不能貿(mào)然從事。由于在一組平行測(cè)定所得到的分析數(shù)據(jù)中,有時(shí)會(huì)出現(xiàn)個(gè)別測(cè)定值與其他數(shù)據(jù)相關(guān)較遠(yuǎn),這些數(shù)據(jù)稱為離群值或逸出值(Qutlier)。初學(xué)者多傾向于隨意舍棄這一可疑值,以獲得精確度較好的分析結(jié)果。對(duì)于離群值,首先應(yīng)從技術(shù)上設(shè)法判斷其出現(xiàn)的原因,如果查明確由實(shí)驗(yàn)技術(shù)上的失誤引起的,不管這樣的測(cè)定值是否為異常值,都應(yīng)舍棄,而不必進(jìn)行統(tǒng)計(jì)檢驗(yàn)。但是,有時(shí)由于各種原因未必能從技術(shù)上找出它出現(xiàn)的原因,在這種情況下應(yīng)對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),以便于從統(tǒng)計(jì)

8、上判明離群值是否應(yīng)該保留或舍棄。本文在問題二的論述中,詳細(xì)介紹了離群點(diǎn)檢驗(yàn)的6種方法,并用一組一維實(shí)例來(lái)進(jìn)行檢驗(yàn),并得出結(jié)果。3、對(duì)于問題三而言,對(duì)n維數(shù)據(jù)建立判別離群點(diǎn)的數(shù)學(xué)模型,并對(duì)模型的計(jì)算結(jié)果進(jìn)行評(píng)價(jià)或檢驗(yàn),采用了降維的方法,并運(yùn)用LLE算法分別計(jì)算出樣本點(diǎn)與鄰近點(diǎn)的距離,以及相應(yīng)的權(quán)值和降維后的特征向量。通過對(duì)判別式的分析,離群點(diǎn)的權(quán)值變化情況可以通過判別式得出,從而判別出離群點(diǎn)。三、 模型假設(shè)1、假設(shè)一維數(shù)據(jù)滿足正態(tài)分布;2、假設(shè)每年的試題難度差不多;3、對(duì)于每個(gè)樣本點(diǎn)都可以找到它的k個(gè)近鄰點(diǎn);4、假設(shè)n維數(shù)據(jù)在局部是線性的。四、 符號(hào)約定符號(hào)定義與說(shuō)明S標(biāo)準(zhǔn)差實(shí)驗(yàn)學(xué)生化殘差殘差樣

9、本學(xué)生殘差絕對(duì)值樣本點(diǎn)的距離權(quán)值這里只給出主要符號(hào)的意義,其他符號(hào)將在文中給出,在此不再一一贅述。五、 模型的建立與求解5.1 一維數(shù)據(jù)中離群判定模型的建立及對(duì)其結(jié)果的檢驗(yàn)5.1.1 建立學(xué)生化殘差分析模型對(duì)于一維數(shù)據(jù) 首先算出它的算術(shù)平均值及其殘差分別為:,再選取一樣本,可得出其實(shí)驗(yàn)標(biāo)準(zhǔn)差與樣本標(biāo)準(zhǔn)差分別為:實(shí)驗(yàn)標(biāo)準(zhǔn)差 : 樣本標(biāo)準(zhǔn)差 : 而實(shí)驗(yàn)學(xué)生化殘差為殘差與實(shí)驗(yàn)標(biāo)準(zhǔn)差之比,樣本學(xué)生化殘差是殘差與樣本標(biāo)準(zhǔn)差之比,它們可以通稱為學(xué)生化殘差,其值及其絕對(duì)值分別是:實(shí)驗(yàn)學(xué)生化殘差: 樣本學(xué)生化殘差: 實(shí)驗(yàn)學(xué)生殘差絕對(duì)值: 樣本學(xué)生殘差絕對(duì)值: 根據(jù)其學(xué)生化殘差分析模型性質(zhì)可知,對(duì)于,其服從正態(tài)

10、分布,則學(xué)生化殘差服從湯普森分布,若某一測(cè)量列的樣本學(xué)生化殘差的絕對(duì)值的最大值為多個(gè)測(cè)量列的樣本學(xué)生化殘差的絕對(duì)值的最大值一定分別滿足于: 當(dāng)n為偶數(shù) ; 當(dāng)n為奇數(shù);所以通過學(xué)生化殘差模型判別一維數(shù)據(jù)的的離群點(diǎn),首先要算其統(tǒng)計(jì)量:然后確定其顯著水平,通過查表可得到其臨界值,當(dāng)時(shí),可以認(rèn)為對(duì)應(yīng)的為離群值,應(yīng)當(dāng)給予剔除,否則該一維數(shù)據(jù)不含離群值。若剔除一個(gè)離群值,則對(duì)剩余的個(gè)一維數(shù)據(jù)繼續(xù)使用該模型判斷直到檢驗(yàn)不到離群值,也就是到所有的為止。5.1.2 模型的求解如下表所示,通過學(xué)生化殘差分析模型求解,判別出其離群點(diǎn),并運(yùn)用DPS數(shù)據(jù)處理系統(tǒng)對(duì)其離群點(diǎn)加以檢驗(yàn)。表1 一維測(cè)量數(shù)據(jù)舉例n123456

11、78長(zhǎng)度(mm)11251248125012591273127912851285n910111213141516長(zhǎng)度(mm)12931300130513121324131513251350(1) 利用公式求出均值和殘差絕對(duì)值均值: 殘差: 可得到殘差絕對(duì)值表如下:表2 測(cè)量數(shù)據(jù)殘差絕對(duì)值n12345678殘差(mm)15835332410422n910111213141516殘差(mm)1017222941324267 (2) 求出試驗(yàn)標(biāo)準(zhǔn)差s標(biāo)準(zhǔn)差: (3) 求出臨界值根據(jù)給定的,由于,所以通過查表可以得到臨界值為: 臨界值: (4) 判別離群點(diǎn)因?yàn)?所以第一個(gè)一維數(shù)據(jù)1125是離群點(diǎn),應(yīng)該

12、剔除,此時(shí)n=15重新計(jì)算均值,殘差絕對(duì)值,以及實(shí)驗(yàn)標(biāo)準(zhǔn)差。通過繼續(xù)查表可得當(dāng)剔除一個(gè)離群點(diǎn)以后的臨界值,由于,所以該一維數(shù)據(jù)中不再含有離群點(diǎn)。5.1.3 模型計(jì)算結(jié)果的檢驗(yàn) 對(duì)離群點(diǎn)(異常值)檢驗(yàn)的方法有很多種如3S檢驗(yàn)準(zhǔn)則,狄克松(Dixon準(zhǔn)則,格拉布拉斯(Grubbs)準(zhǔn)則等,但相對(duì)而言DPS數(shù)據(jù)處理系統(tǒng)(Data Processing System對(duì)離群點(diǎn)的檢驗(yàn)更方便、更快捷,數(shù)據(jù)處理系統(tǒng)平臺(tái)是由浙江大學(xué)研制的通用多功能數(shù)理統(tǒng)計(jì)和數(shù)學(xué)模型處理軟件系統(tǒng)。能較快的處理異常值。其具體步驟如下:(1)啟動(dòng)DPS軟件,首先將表1的實(shí)驗(yàn)測(cè)量數(shù)據(jù)輸入工作表。圖1 DPS數(shù)據(jù)處理輸入數(shù)據(jù)(2)選擇菜

13、單選項(xiàng)“數(shù)據(jù)分析”,并點(diǎn)擊其中選項(xiàng)“異常值檢驗(yàn)”圖2 DPS數(shù)據(jù)處理數(shù)據(jù)分析(3)進(jìn)行異常值檢驗(yàn)后會(huì)出現(xiàn)菜單“異常數(shù)據(jù)剔除檢驗(yàn)”,選擇相應(yīng)的檢驗(yàn)分析方法與p值,單擊“確定”,就會(huì)出現(xiàn)檢驗(yàn)結(jié)果。 圖3 DPS數(shù)據(jù)處理剔除異常數(shù)據(jù)(5) 與學(xué)生化殘差模型計(jì)算結(jié)果對(duì)比對(duì)比,可以發(fā)現(xiàn)DPS數(shù)據(jù)處理系統(tǒng)檢驗(yàn)結(jié)果,與原始結(jié)果一致,說(shuō)明學(xué)生化殘差模型適用于一維數(shù)據(jù)的離群點(diǎn)的判別。5.2 離群值的處理及檢驗(yàn)在一組平行測(cè)定所得到的分析數(shù)據(jù)中,有時(shí)會(huì)出現(xiàn)個(gè)別測(cè)定值與其他數(shù)據(jù)相關(guān)較遠(yuǎn),這些數(shù)據(jù)稱為離群值或逸出值(Qutlier)。初學(xué)者多傾向于隨意舍棄這一可疑值,以獲得精確度較好的分析結(jié)果。對(duì)于離群值,首先應(yīng)從技術(shù)

14、上設(shè)法判斷其出現(xiàn)的原因,如果查明確由實(shí)驗(yàn)技術(shù)上的失誤引起的,不管這樣的測(cè)定值是否為異常值,都應(yīng)舍棄,而不必進(jìn)行統(tǒng)計(jì)檢驗(yàn)。但是,有時(shí)由于各種原因未必能從技術(shù)上找出它出現(xiàn)的原因,在這種情況下應(yīng)對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn),以便于從統(tǒng)計(jì)上判明離群值是否應(yīng)該保留或舍棄。5.2.1 問題的分析圖4 離群值的檢驗(yàn)方法5.2.2 離群值的檢驗(yàn)方法離群值的檢驗(yàn)可分兩大類:一類是標(biāo)準(zhǔn)偏差預(yù)先已知的場(chǎng)合;另一類是標(biāo)準(zhǔn)偏差未知的場(chǎng)合。只能利用待檢驗(yàn)的一組分析數(shù)據(jù)本身來(lái)檢驗(yàn)其中的離群值是否為異常值。1、 標(biāo)準(zhǔn)偏差預(yù)先已知檢驗(yàn)時(shí)使用統(tǒng)計(jì)量 (10)式中是被檢驗(yàn)的離群值,是一組測(cè)定值的算術(shù)平均值,是由不包括異常值在內(nèi)的其他實(shí)驗(yàn)測(cè)定值

15、求得。如果根據(jù)式(10)計(jì)算的值查表大于舍棄界限中相應(yīng)置信度下的臨界值,則將作為異常值舍棄。2、 標(biāo)準(zhǔn)偏差未知在更多情況下標(biāo)準(zhǔn)偏差是未知的,只能利用待檢驗(yàn)的一組分析數(shù)據(jù)本身來(lái)檢驗(yàn)其中的離群值是否應(yīng)該保留或舍棄。(1) 萊達(dá)因準(zhǔn)則對(duì)于采集幾個(gè)數(shù)據(jù)的測(cè)量列,先求得算術(shù)平均值及剩余誤差然后再根據(jù)貝塞爾法求得均方根偏差。判別依據(jù)如下(假設(shè)符合正態(tài)分布,即測(cè)量列也服從正態(tài)分布);,則為粗大估計(jì),應(yīng)予舍去;,則為正常數(shù)據(jù),應(yīng)予保留。根據(jù)概率論統(tǒng)計(jì),當(dāng)誤差服從正態(tài)分布時(shí),誤差大于的觀測(cè)數(shù)據(jù)出現(xiàn)的概率小于0.003,即在大于300次的觀測(cè)中才有出現(xiàn)1次的可能。因此若采用萊因達(dá)準(zhǔn)則(亦稱準(zhǔn)則)進(jìn)行粗差剔除時(shí),置

16、棄概率是較小的,這樣有時(shí)就會(huì)將不合理的異常值也予以保留。(2) 肖維勒準(zhǔn)則肖維勒準(zhǔn)則也是以正態(tài)分布為前提的。假設(shè)多次重復(fù)測(cè)量所得n個(gè)測(cè)量值中,某數(shù)據(jù)的殘余誤差,則剔除此數(shù)據(jù)。,實(shí)用中由于(是樣品容量為時(shí)的判別系數(shù)),所以這在一定程度上彌補(bǔ)了萊因達(dá)準(zhǔn)則的不足,相對(duì)萊因達(dá)準(zhǔn)則而言,這一判別準(zhǔn)則要苛刻得多。(與的對(duì)應(yīng)關(guān)系在下表3中給出)表3 與的對(duì)應(yīng)關(guān)系n34567891011121.381.541.651.731.801.881.921.962.002.03n1314151618203040502.072.102.132.152.202.242.392.493.00(3) 格拉布斯準(zhǔn)則假設(shè)測(cè)量列為

17、正態(tài)分布列。將按它們的大小,從小到大的順序排列,設(shè)為,即最小,最大。如果懷疑或者為異常數(shù)值,那么可以這樣來(lái)進(jìn)行判定。先求出它們的算術(shù)平均值和標(biāo)準(zhǔn)偏差,然后計(jì)算出統(tǒng)計(jì)量與臨界值比較,進(jìn)行判斷,其中,為數(shù)據(jù)數(shù)目,為顯著性水平,通常取,即取置信度為。下表列出了格拉布斯檢驗(yàn)法的臨界值,以下為數(shù)理統(tǒng)計(jì)的相關(guān)公式:當(dāng)時(shí):當(dāng)時(shí):首先將該試驗(yàn)數(shù)據(jù)代入以上各式并計(jì)算,然后將求得的與表格拉布斯臨界值進(jìn)行比較:若,認(rèn)為不存在異常數(shù)據(jù);若,認(rèn)為對(duì)應(yīng)為異常數(shù)據(jù)。將異常試驗(yàn)數(shù)據(jù)剔除,則剩余個(gè)數(shù)據(jù),并重復(fù)以上步驟,再次判斷,直到經(jīng)過次判斷,得到無(wú)異常數(shù)據(jù)。但應(yīng)指出的是:要對(duì)測(cè)試數(shù)據(jù)異常值進(jìn)行詳細(xì)分析,只有確定其是由于測(cè)量過

18、失引起的誤差,才能進(jìn)行剔除。表4 格拉布斯臨界值n345678910111213g1.151.461.671.821.942.032.112.182.232.292.33n1415161718192025304050g2.372.412.442.472.52.532.562.662.752.872.96將分析數(shù)據(jù)由小至大按順利排列:,其中可疑值為或。先計(jì)算出該組數(shù)據(jù)的平均值和標(biāo)準(zhǔn)偏差,再計(jì)算統(tǒng)計(jì)量或根據(jù)事先確定的置信度和測(cè)定次數(shù)查表,如果大于所查數(shù)值,則相對(duì)于的或?yàn)楫惓V担瑧?yīng)予以舍去;否則,應(yīng)予保留。(4) t分布檢驗(yàn)法在幾次重復(fù)試驗(yàn)中,有個(gè)別較大的剩余誤差被懷疑是過失誤差,則應(yīng)將含有此剩余誤

19、差的測(cè)試值剔除,然后按余下的個(gè)測(cè)試值及剩余誤差來(lái)計(jì)算標(biāo)準(zhǔn)差的估計(jì)量:表5為t分布臨界值。按置信概率和t分布的自由度來(lái)查表5中值以確定該值是否應(yīng)剔除。表5 t分布臨界值n12345t12.714.3033.1822.7762.571n678910t2.4472.3652.3062.2622.228若被懷疑并被剔除的測(cè)試值確實(shí)屬于含有過失誤差應(yīng)滿足:也就是說(shuō)滿足于上式時(shí),該測(cè)試值剔除是合理的;如果不滿足上式,則說(shuō)明該測(cè)試值不含有過失誤差,所以應(yīng)該將它放入測(cè)試值的數(shù)列,并重新計(jì)算標(biāo)準(zhǔn)差估計(jì)量。(5) 狄克遜準(zhǔn)則若有1組測(cè)量數(shù)據(jù),且為正態(tài)分布,則可能為異常值的測(cè)量數(shù)量必然出現(xiàn)在兩端,即或。分別使用不同

20、的統(tǒng)計(jì)量(見表6),當(dāng)求得統(tǒng)計(jì)量大于表7相應(yīng)置信度和測(cè)量次數(shù)的臨界值時(shí),則可將被檢測(cè)的數(shù)值作為異常值舍去。表6 不同范圍的極差比n檢驗(yàn)檢驗(yàn)3n78n1011n1314n15表7 狄克遜臨界值n345678r0.9410.7650.6420.560.5070.554n910111213r0.5120.4770.5760.5460.521(6) 極差法利用極差檢驗(yàn)一組分析數(shù)據(jù)中的離群值時(shí),使用統(tǒng)計(jì)量式中為極差。根據(jù)事先確定的置信度和測(cè)定次數(shù)查表,如果上式算出的值大于表中相應(yīng)的值,則可以認(rèn)為該離群值為異常值,應(yīng)從該組分析數(shù)據(jù)中舍棄;否則,應(yīng)予保留。(7) 其他方法5.2.3 舉例說(shuō)明例:測(cè)試得到某電

21、線電纜產(chǎn)品某狀態(tài)下的電性指標(biāo)為1.56,2.09,2.09,2.09,2.23,2.33,2.42,2.42,2.56,2.66等10個(gè)數(shù)據(jù),試找出離群點(diǎn)并對(duì)其進(jìn)行處理。解:方法 用t分布檢驗(yàn)法進(jìn)行檢驗(yàn)。首先懷疑最大的2.66是異常值,剔除2.66后進(jìn)行計(jì)算:查表5可得:即滿足所以測(cè)試值2.66不含有過失誤差,不是異常數(shù),不應(yīng)被剔除。方法 用格拉布斯檢驗(yàn)法進(jìn)行檢驗(yàn)因?yàn)椋核裕翰楸?格拉布斯臨界值,所以,因此,認(rèn)為對(duì)應(yīng)為異常數(shù)據(jù)。取出后,試驗(yàn)總數(shù)據(jù)數(shù)為,重復(fù)以上步驟并進(jìn)行如下的計(jì)算:因?yàn)椋核裕翰楸?格拉布斯臨界值,所以,認(rèn)為對(duì)應(yīng)不是異常數(shù)據(jù)。因此,除1.56是異常數(shù)據(jù)外,其他均為有效數(shù)據(jù)值。方

22、法 用狄克遜檢驗(yàn)法進(jìn)行檢驗(yàn)因?yàn)椋翰楸?狄克遜臨界值,由此可得:,所以最小試驗(yàn)數(shù)據(jù)1.56為異常值,不可信,應(yīng)予以剔除;,所以最大試驗(yàn)數(shù)據(jù)2.66不是異常值,可信,應(yīng)予以保留。故,由以上三種方法可得出結(jié)論:1.56為異常值,不可信,應(yīng)予以剔除;2.66不是異常值,可信,應(yīng)予以保留。5.3 n維數(shù)據(jù)中離群判定模型的建立及對(duì)其結(jié)果的檢驗(yàn)如果科學(xué)、合理地對(duì)數(shù)模競(jìng)賽成績(jī)進(jìn)行評(píng)價(jià)和預(yù)測(cè),除全國(guó)競(jìng)賽成績(jī)、賽區(qū)成績(jī)外,還需要考慮許多的因素。5.3.1 問題的分析對(duì)于n維數(shù)據(jù)離群點(diǎn)的判別不同與一維數(shù)據(jù)的判別方法。對(duì)高維數(shù)據(jù)的估計(jì)需要的樣本個(gè)數(shù)與維數(shù)構(gòu)成指數(shù)增長(zhǎng)的關(guān)系,大量的數(shù)據(jù)分析問題本質(zhì)上是非線性的,甚至是高

23、度的非線性,對(duì)此我們不能利用已有的快速成熟的線性模型進(jìn)行研究因此。對(duì)于n為數(shù)據(jù)離群點(diǎn)的判別與檢驗(yàn)可用采用基于局部線性加權(quán)的離群點(diǎn)檢測(cè)方法,其基本思想是:為了適合挖掘高維復(fù)雜數(shù)據(jù)集中的離群點(diǎn),該算法利用LLE算法對(duì)高維非線性數(shù)據(jù)進(jìn)行維數(shù)約減,從高維采樣數(shù)據(jù)中恢復(fù)得到低維數(shù)據(jù)集結(jié)合本文提出的距離公式,并根據(jù)本文提出的離群點(diǎn)權(quán)值判別式進(jìn)行權(quán)值數(shù)據(jù)的判別。同時(shí),在判別基礎(chǔ)上,設(shè)定分段線性處理,再利用局部鄰近點(diǎn)加權(quán),最終確定離群點(diǎn)。實(shí)驗(yàn)表明了此算法能夠快速處理帶有離群點(diǎn)的非線性高維數(shù)據(jù)集,結(jié)果與對(duì)象空間分布順序無(wú)關(guān),并且效率優(yōu)于已有的同類基于距離的離群點(diǎn)檢測(cè)算法。5.3.2 離群點(diǎn)判別的數(shù)學(xué)模型的建立1

24、. LLE算法LLE是一種依賴于局部線性的算法,它認(rèn)為在局部意義下,數(shù)據(jù)結(jié)構(gòu)是線性的,或者說(shuō)局部意義下的點(diǎn)在一個(gè)超平面上。主要使用局部的線性描述整體的非線性,從而表達(dá)整體的情況。LLE算法能夠?qū)崿F(xiàn)高維輸入數(shù)據(jù)點(diǎn)映射到低維坐標(biāo)系,同時(shí)保留鄰接點(diǎn)之間的關(guān)系。(1) 距離的計(jì)算對(duì)于n維空間中的每一個(gè)樣本與其它n-1個(gè)樣本的距離,在樣本點(diǎn)分布稀疏的區(qū)域,近鄰點(diǎn)所組成的局部鄰域應(yīng)該要比在樣本點(diǎn)分布比較稠密的區(qū)域大,所以對(duì)距離定義如下:其中,分別表示,和其他點(diǎn)之問的平均值,采用這個(gè)距離公式尋找離群點(diǎn)。的分子是普通的歐氏距離,分母是數(shù)值,所以可以給出滿足距離定義的要求:,當(dāng)且僅當(dāng)成立,滿足距離的非負(fù)性; 滿

25、足距離對(duì)稱要求)滿足三角不等式要求,即這個(gè)距離使處于樣本點(diǎn)分布較密集區(qū)域的樣本點(diǎn)之間的距離增大,而使處于樣本點(diǎn)分布較稀疏的區(qū)域的樣本點(diǎn)之間的距離縮小,這樣會(huì)使降維后的樣本數(shù)據(jù)集整體分布趨于均勻化,有利于離群點(diǎn)的權(quán)值計(jì)算。同時(shí),距離公式可設(shè)定所需的距離閾值用于判別定理。(2) 權(quán)值的計(jì)算在這些數(shù)據(jù)中,對(duì)于每個(gè),找到與他相鄰的k個(gè)近鄰點(diǎn)后,計(jì)算該點(diǎn)和每個(gè)緊鄰點(diǎn)的權(quán)值,即最小化:其中, 如果不是的近鄰,則。(3) 計(jì)算低維嵌入空間中的和的值 根據(jù)n維空間中樣本點(diǎn)和它的近鄰點(diǎn)的權(quán)值來(lái)計(jì)算低維嵌入空間中的和的值。在低維的空間中我們保持著局部的線性結(jié)構(gòu),而權(quán)值w代表著局部的信息,所以固定權(quán)值使下面的損失函

26、數(shù)最小化: 其中。要求并且,從而使得對(duì)平移、旋轉(zhuǎn)、伸縮變化都具有不變形。使最小化的解為矩陣M的最小幾個(gè)特征值所對(duì)應(yīng)的特征向量構(gòu)成的矩陣。取最小的m+1個(gè)特征值對(duì)應(yīng)的特征向量,去掉其中最小的特征值對(duì)應(yīng)的特征向量,剩余的m個(gè)特征向量組成的矩陣就是低維空間中所得特征向量。2,離群點(diǎn)權(quán)值的判別定理 經(jīng)過LLE降維方法處理后,其低維數(shù)據(jù)集是通過權(quán)值計(jì)算而來(lái)的,離群點(diǎn)的權(quán)值的變化情況由以下定理判別:令代表相應(yīng)的真實(shí)情況,代表的鄰域,并設(shè),則有 令代表相應(yīng)的離群點(diǎn),同時(shí)。再令 則有,其中,代表點(diǎn)的鄰域矩陣。在上面的敘述中,各離群點(diǎn)之間、不同真實(shí)值之間,以及與離群點(diǎn)之間是相互獨(dú)立的,個(gè)離群點(diǎn)是同均值(0),同

27、方差的,并且記,且有如下判別式:, 其中為歐幾里德范數(shù),,為的最小非零特征值,。綜上可得下面判別式: 由上述定理可知,在鄰域大小k已知情況下,離群點(diǎn)權(quán)值主要由3個(gè)因素決定: 數(shù)據(jù)點(diǎn)之間距離d的大小; 鄰域的影響; 真實(shí)值的權(quán)值的大小;3,具體算法的描述 對(duì)于n維空間中每個(gè)樣本計(jì)算它和其他n-1個(gè)樣本點(diǎn)之間的距離,根據(jù)距離的大小,選擇前k個(gè)與樣本點(diǎn)最近的點(diǎn)作為其臨近點(diǎn),常采用改進(jìn)歐氏距離來(lái)度量?jī)蓚€(gè)點(diǎn)之間的距離。 對(duì)于每一個(gè)樣本點(diǎn),找到它的k個(gè)近鄰點(diǎn)之后,計(jì)算該點(diǎn)和它的每個(gè)近鄰點(diǎn)之間的權(quán)值。 對(duì)最小化所得的每一個(gè)權(quán)值組成一個(gè)權(quán)值矩陣,并對(duì)權(quán)值進(jìn)行約束限制。 根據(jù)n維空間中的樣本點(diǎn)和它的近鄰之間的權(quán)

28、值來(lái)計(jì)算低維嵌入空間中的值和。 根據(jù)距離公式改進(jìn)降維后樣本數(shù)據(jù)集中各點(diǎn)之間的距離,以使樣本數(shù)據(jù)中的離群點(diǎn)更加突出。 經(jīng)過LLE算法降維,包括離群點(diǎn)的低維數(shù)據(jù)是通過權(quán)值W計(jì)算而得,離群點(diǎn)的變化情況可由判別式得出。 由于使用LLE算法進(jìn)行降維,LLE算法是從保持局部線性假設(shè)出發(fā),因?yàn)樵诮稻S后的數(shù)據(jù)集中,對(duì)從判別式中得到的離群點(diǎn)權(quán)值,利用一點(diǎn)的近鄰點(diǎn)的線性組合來(lái)表式出該離群點(diǎn)。5.3.3 模型的評(píng)價(jià)從模型的計(jì)算結(jié)果來(lái)看,模型給出了判別離群點(diǎn)的具體方法,從總體上來(lái)看,這個(gè)模型綜合考慮了各種因素的影響,經(jīng)過了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推理,從計(jì)算結(jié)果上來(lái)看還是比較合理的,其合理性主要體現(xiàn)在以下幾個(gè)方面:1,在這個(gè)模型的

29、求解過程中,保持了數(shù)據(jù)所含感興趣信息,與此同時(shí),還降低了數(shù)據(jù)的維數(shù),這樣既使運(yùn)算簡(jiǎn)單,而且還不失其合理性。2,LLE算法能夠?qū)崿F(xiàn)高維輸入數(shù)據(jù)點(diǎn)映射到一個(gè)低維坐標(biāo)系,同時(shí)保留了鄰接點(diǎn)之間的關(guān)系,這樣固有的幾何結(jié)構(gòu)就能夠得到保留。而且此算法不僅能夠有效地發(fā)現(xiàn)數(shù)據(jù)的非線性結(jié)構(gòu),同時(shí)具有平移、旋轉(zhuǎn)等不變特性。3,對(duì)原有歐氏距離的計(jì)算方法進(jìn)行了改進(jìn),這樣使處于樣本點(diǎn)分布較密集區(qū)域的樣本點(diǎn)之間的距離增大,而使處于樣本點(diǎn)分布較稀疏的區(qū)域的樣本點(diǎn)之間的距離縮小,這樣會(huì)使降維后的樣本數(shù)據(jù)集整體分布趨于均勻化,以使樣本數(shù)據(jù)集中的離群點(diǎn)更加突出,而且有利于離群點(diǎn)的權(quán)值計(jì)算。通過以上分析可以發(fā)現(xiàn),此模型的判別結(jié)果還是

30、比較合理的,既保證了得到的結(jié)果相當(dāng)接近于全局最優(yōu)解,又保證了能非??焖俚氐玫浇Y(jié)果。因此,此判別方法對(duì)于n維數(shù)據(jù)中離散點(diǎn)的判別效果還是不錯(cuò)的。六、 模型評(píng)價(jià)及推廣6.1 模型優(yōu)點(diǎn)1、學(xué)生化殘差模型,就殘差模型而言,它是一種重要的回歸診斷量,通過對(duì)殘差進(jìn)行統(tǒng)計(jì)處理從中提煉出這些信息的方法,可以發(fā)現(xiàn)現(xiàn)行模型的缺陷。通過與殘差圖和相應(yīng)的假設(shè)檢驗(yàn)結(jié)合起來(lái)是一種比較理想的方法;2、DPS系統(tǒng)檢測(cè)檢測(cè)與剔除離群點(diǎn),該方法比較簡(jiǎn)單、直觀和快捷,有利于數(shù)據(jù)的處理與分析;3、LLE算法能夠?qū)崿F(xiàn)高維輸入數(shù)據(jù)點(diǎn)映射到一個(gè)低維坐標(biāo)系,同時(shí)保留了鄰接點(diǎn)之間的關(guān)系,這樣固有的幾何結(jié)構(gòu)就能夠得到保留。而且此算法不僅能夠有效地發(fā)現(xiàn)數(shù)據(jù)的非線性結(jié)構(gòu),同時(shí)具有平移、旋轉(zhuǎn)等不變特性。6.2 模型缺點(diǎn)1、學(xué)生化殘差模型,僅適用于簡(jiǎn)單的一維數(shù)據(jù)離群點(diǎn)的判定,而對(duì)于高維或一些復(fù)雜的一維數(shù)據(jù),處理起來(lái)比較麻煩;2、 在計(jì)算所有點(diǎn)之

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論