數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正_第1頁(yè)
數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正_第2頁(yè)
數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正_第3頁(yè)
數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正_第4頁(yè)
數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、-. z.題目:數(shù)據(jù)的預(yù)處理問(wèn)題摘要數(shù)據(jù)處理貫穿于社會(huì)生產(chǎn)和社會(huì)生活的各個(gè)領(lǐng)域。數(shù)據(jù)處理技術(shù)的開(kāi)展及其應(yīng)用的廣度和深度,極影響著人類社會(huì)開(kāi)展的進(jìn)程。數(shù)據(jù)補(bǔ)充,異常數(shù)據(jù)的鑒別及修正,在各個(gè)領(lǐng)域也起到了重要作用。對(duì)于第一問(wèn),我們采用了多元線性回歸的方法對(duì)缺失數(shù)據(jù)進(jìn)展補(bǔ)充,我們將1960-2015.*ls見(jiàn)附表一中的數(shù)據(jù)導(dǎo)入matlab。首先作出散點(diǎn)圖,設(shè)定y(*59287)與*1(*54511)、*2(*57494)的關(guān)系為二元線性回歸模型,即y=b0+b1*1+b2*2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項(xiàng)式為:Y=18.014+0

2、.051*1+0.354*2。再作出殘差分析圖驗(yàn)證擬合效果,殘差較小,說(shuō)明回歸多項(xiàng)式與源數(shù)據(jù)吻合得較好。假設(shè)*1=30.4,*2=28.6時(shí),y的數(shù)據(jù)缺失,則將*1,*2帶入回歸多項(xiàng)式,算出缺失值y=29.6888。類似地,假設(shè)*1=40.6,*2=30.4時(shí),y的數(shù)據(jù)缺失,則將*1,*2帶入回歸多項(xiàng)式,算出缺失值y=30.8462,即可補(bǔ)充缺失數(shù)據(jù)。對(duì)于第二問(wèn),我們使用了異常值檢驗(yàn)中標(biāo)準(zhǔn)差未知的t檢驗(yàn)法。將除可疑測(cè)定值以外的其余測(cè)定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測(cè)定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測(cè)定值同屬于一個(gè)總體,則它與其余測(cè)

3、定值之間不應(yīng)有顯著性差異。檢測(cè)統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來(lái)進(jìn)展檢驗(yàn),則檢測(cè)統(tǒng)計(jì)量可視為:。假設(shè)統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值該臨界值通過(guò)查表法得出,則將判為異常值。由此算法即可鑒別出相應(yīng)的異常數(shù)據(jù)。對(duì)于第三問(wèn),對(duì)于問(wèn)題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項(xiàng)式方法插值法來(lái)修正數(shù)據(jù)異常。同時(shí)也需利用外插法修正最后一個(gè)數(shù)據(jù)的異常。通過(guò)各種插值方法的比擬,發(fā)現(xiàn)三次樣條方法較為準(zhǔn)確,并較好的對(duì)異常數(shù)據(jù)進(jìn)展修正。關(guān)鍵詞:多元線性回歸,t檢驗(yàn)法,分段線性插值,最近方法插值,三次樣條插值,三次多項(xiàng)式插值C38*專業(yè)隊(duì)長(zhǎng)康偉振應(yīng)數(shù)長(zhǎng)望隊(duì)員一卜維新網(wǎng)絡(luò)工程隊(duì)員二蘭

4、馨應(yīng)用氣象問(wèn)題重述1.1背景在數(shù)學(xué)建模過(guò)程中總會(huì)遇到大數(shù)據(jù)問(wèn)題。一般而言,在提供的數(shù)據(jù)中,不可防止會(huì)出現(xiàn)較多的檢測(cè)異常值,怎樣判斷和處理這些異常值,對(duì)于提高檢測(cè)結(jié)果的準(zhǔn)確性意義重大。1.2需要解決的問(wèn)題1給出缺失數(shù)據(jù)的補(bǔ)充算法;2給出異常數(shù)據(jù)的鑒別算法;3給出異常數(shù)據(jù)的修正算法。模型分析2.1問(wèn)題1的分析屬性值數(shù)據(jù)缺失經(jīng)常發(fā)生甚至不可防止。較為簡(jiǎn)單的數(shù)據(jù)缺失平均值填充如果空值為數(shù)值型的,就根據(jù)該屬性在其他所有對(duì)象取值的平均值來(lái)填充缺失的屬性值;如果空值為非數(shù)值型的,則根據(jù)眾數(shù)原理,用該屬性在其他所有對(duì)象的取值次數(shù)最多的值出現(xiàn)頻率最高的值來(lái)補(bǔ)齊缺失的屬性值。 (2) 熱卡填充就近補(bǔ)齊對(duì)于包含空值

5、的數(shù)據(jù)集,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與其最相似的數(shù)據(jù),用此相似對(duì)象的值進(jìn)展填充。 (3) 刪除元組將存在遺漏信息屬性值的元組刪除。(二)較為復(fù)雜的數(shù)據(jù)缺失 (1)多元線性回歸當(dāng)有缺失的一組數(shù)據(jù)存在多個(gè)自變量時(shí),可以考慮使用多元線性回歸模型。將所有變量包括因變量都先轉(zhuǎn)化為標(biāo)準(zhǔn)分,再進(jìn)展線性回歸,此時(shí)得到的回歸系數(shù)就能反映對(duì)應(yīng)自變量的重要程度。2.2問(wèn)題2的分析屬性值異常數(shù)據(jù)鑒別很重要。我們可以采用異常值t檢驗(yàn)的方法比擬前后兩組數(shù)據(jù)的平均值,與臨界值相比擬即可區(qū)分?jǐn)?shù)據(jù)異常并剔除異常數(shù)據(jù)。將除可疑測(cè)定值以外的其余測(cè)定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測(cè)定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將

6、可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測(cè)定值同屬于一個(gè)總體,則它與其余測(cè)定值之間不應(yīng)有顯著性差異。檢測(cè)統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來(lái)進(jìn)展檢驗(yàn),則檢測(cè)統(tǒng)計(jì)量可視為:。假設(shè)統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值該臨界值通過(guò)查表法得出,則將判為異常值。2.3問(wèn)題3的分析對(duì)于數(shù)據(jù)修正,我們采用各種插值算法進(jìn)展修正,這是一種行之有效的方法。1分段線性插值將每?jī)蓚€(gè)相鄰的節(jié)點(diǎn)用直線連起來(lái),如此形成的一條折線就是分段線性插值函數(shù),記作,它滿足,且在每個(gè)小區(qū)間上是線性函數(shù)。可以表示為有良好的收斂性,即對(duì)于有,用計(jì)算* 點(diǎn)的插值時(shí),只用到* 左右的兩個(gè)節(jié)點(diǎn),計(jì)算量與節(jié)點(diǎn)個(gè)數(shù)n 無(wú)關(guān)。但n 越大,

7、分段越多,插值誤差越小。實(shí)際上用函數(shù)表作插值計(jì)算時(shí),分段線性插值就足夠了,如數(shù)學(xué)、物理中用的特殊函數(shù)表,數(shù)理統(tǒng)計(jì)中用的概率分布表等。(2) 三次多項(xiàng)式算法插值當(dāng)用的n+1個(gè)數(shù)據(jù)點(diǎn)求出插值多項(xiàng)式后,又獲得了新的數(shù)據(jù)點(diǎn),要用它連同原有的n+1個(gè)數(shù)據(jù)點(diǎn)一起求出插值多項(xiàng)式,從原已計(jì)算出的n次插值多項(xiàng)式計(jì)算出新的n+1次插值多項(xiàng)式很困難,而此算法可以克制這一缺點(diǎn)。3三次樣條函數(shù)插值4數(shù)學(xué)上將具有一定光滑性的分段多項(xiàng)式稱為樣條函數(shù)。三次樣條函數(shù)為:對(duì)于上的分劃:=b,則,利用樣條函數(shù)進(jìn)展插值,即取插值函數(shù)為樣條函數(shù),稱為樣條插值。模型假設(shè)1.假設(shè)只有因變量存在數(shù)據(jù)缺失,而自變量不存在缺失。2.利用t檢驗(yàn)法

8、時(shí),將除可疑測(cè)定值以外的其余測(cè)定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。問(wèn)題1的分析與求解4.1問(wèn)題分析此題需要對(duì)缺失數(shù)據(jù)進(jìn)展補(bǔ)充,情況可分為數(shù)據(jù)集中單一元素缺失及*一元組缺失兩種情況。因此,對(duì)數(shù)據(jù)處理采用同上模型分析2.1的處理方法。4.2問(wèn)題處理我們將1960-2015.*ls見(jiàn)附表一中的數(shù)據(jù)導(dǎo)入matlab程序見(jiàn)附錄一。首先作出散點(diǎn)圖。設(shè)定y(*59287)與*1(*54511)、*2(*57494)的關(guān)系為二元線性回歸模型,即y=b0+b1*1+b2*2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項(xiàng)式為:Y=18.014+0.0

9、51*1+0.354*2。由matlab編程所得結(jié)果圖如下4-2所示。圖4-2再作出殘差分析圖驗(yàn)證擬合效果,殘差較小,說(shuō)明回歸多項(xiàng)式與源數(shù)據(jù)吻合得較好。假設(shè)*1=30.4,*2=28.6時(shí),y的數(shù)據(jù)缺失,則將*1,*2帶入回歸多項(xiàng)式,算出缺失值y=29.6888。類似地,假設(shè)*1=40.6,*2=30.4時(shí),y的數(shù)據(jù)缺失,則將*1,*2帶入回歸多項(xiàng)式,算出缺失值y=30.8462,即可補(bǔ)充缺失數(shù)據(jù)。問(wèn)題2的分析與求解5.1 問(wèn)題分析此題需要對(duì)給定缺失數(shù)據(jù)進(jìn)展鑒別,可以采用的方法為t檢驗(yàn)檢測(cè)法。T檢驗(yàn)用t分布理論來(lái)推論差異發(fā)生的概率,從而比擬兩個(gè)平均數(shù)的差異是否顯著。5.2 問(wèn)題處理(一)隨機(jī)產(chǎn)

10、生數(shù)據(jù)由R系統(tǒng)隨機(jī)產(chǎn)生數(shù)據(jù)對(duì)其進(jìn)展缺失數(shù)據(jù)鑒別,代碼如附錄四所示,結(jié)果圖如下5-1,5-2,5-3所示。圖5-1圖5-2圖5-3(二)給定相應(yīng)數(shù)據(jù)對(duì)于問(wèn)題二,在數(shù)據(jù)完整但出現(xiàn)異常的情況下,可以考慮使用異常值檢驗(yàn)中標(biāo)準(zhǔn)差未知的t檢驗(yàn)法。將除可疑測(cè)定值以外的其余測(cè)定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測(cè)定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測(cè)定值同屬于一個(gè)總體,則它與其余測(cè)定值之間不應(yīng)有顯著性差異。檢測(cè)統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來(lái)進(jìn)展檢驗(yàn),則檢測(cè)統(tǒng)計(jì)量可視為:。假設(shè)統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值該臨界值通過(guò)查表法得出,則將判為異

11、常值。具體數(shù)據(jù)見(jiàn)附表二,具體程序詳見(jiàn)附錄二,結(jié)果圖如下5-4所示。圖5-4問(wèn)題3的分析與求解6.1 問(wèn)題分析對(duì)于問(wèn)題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項(xiàng)式方法插值法來(lái)修正數(shù)據(jù)異常。同時(shí)也需利用外插法修正最后一個(gè)數(shù)據(jù)的異常。詳見(jiàn)2.3對(duì)問(wèn)題三的處理原理。具體代碼見(jiàn)附錄三。附錄一多元線性回歸matlab程序clear;data1=*lsread(C:UsersLenovoDesktop1960-2005.*ls);%做出散點(diǎn)圖figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),r);*=ones(262,1),da

12、ta1(:,4),data1(:,5);y=data1(:,6);b,bint,r,rint,stats=regress(y,*);*label(*54511(*1);ylabel(*57494(*2);zlabel(*59287(y);te*t(0.1,0.06,0.2,回歸方程式為:y=18.014+0.051*1+0.352*2,color,b);title(*1,*2,y的關(guān)系:,color,m);%做殘差分析圖figure(2)reoplot(r,rint);*label(數(shù)據(jù));ylabel(殘差);title(殘差繪制圖);%補(bǔ)缺失數(shù)據(jù)*1=32.6,31.3;y1=*1*b;*

13、2=33.2,26.5;y2=*2*b;附錄二 t檢驗(yàn)spss代碼GET DATA /TYPE=*LS /FILE=C:Usersbw*Desktop2.*ls /SHEET=name Sheet1 /CELLRANGE=full /READNAMES=on /ASSUMEDSTRWIDTH=32767. E*ECUTE. DATASET NAME 數(shù)據(jù)集2 WINDOW=FRONT. T-TEST /TESTVAL=0 /MISSING=ANALYSIS /VARIABLES=y /CRITERIA=CI(.95).附錄三插值修正數(shù)據(jù)matlab代碼clear T=0:5:65T = 0 5

14、 10 15 20 25 30 35 40 45 50 55 60 65 *=2:5:57* = 2 7 12 17 22 27 32 37 42 47 52 57 F=3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3,6403.5,6824.7,7328.5,7857.6; F1=interp1(T,F,*)F1 = 1.0e+003 * Columns 1 through 10 0.0028 0.3532 1.2621 2.2891 3.4358 4.5769 5.6038 6.3817 6.7745

15、6.6704 Columns 11 through 12 6.5720 7.0262 F1=interp1(T,F,*,nearest)F1 = 1.0e+003 * Columns 1 through 10 0.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247 F1=interp1(T,F,*,nearest)%最近方法插值F1 = 1.0e+003 * Columns 1 through 10 0.0032 0.0023 0.8795

16、 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247 F1=interp1(T,F,*,spline)%三次樣條方法插值F1 = 1.0e+003 * -0.1702 0.3070 1.2560 2.2698 3.4396 4.5896 5.6370 6.4229 6.8593 6.6535 6.4817 7.0441 F1=interp1(T,F,*,cubic)%三次多項(xiàng)式方法插值F1 = 1.0e+003 * 0.0025 0.2232 1.2484 2.2736 3.4

17、365 4.5913 5.6362 6.4362 6.7978 6.6917 6.5077 7.0186附錄四隨機(jī)數(shù)據(jù)缺失鑒別R語(yǔ)言代碼 set.seed(2016) * summary(*) Min. 1st Qu. Median Mean 3rd Qu. Ma*. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 summary(*) Min. 1st Qu. Median Mean 3rd Qu. Ma*. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 # outliers bo*plot.stats(*)#out$stats1 -1.9338617 -0.4858811 0.1866546 0.7267571 1.9850002$n1 100$conf1 -0.004942252 0.378251413$out1 -3.315391 2.685922 -3.055717 2.571203 bo*plot.stats(*)$out1 -3.315391 2.685922 -3.055717 2.571203 bo*plot(*) y df rm(*,y) head(df) * y1 -3.31539150 0.76197742 -0.04765067 -0.64044033

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論