01第一章背景與異常劃分的一元方法

上傳人：b*** IP屬地：天津上傳時間：2022-03-10 格式：DOCX 頁數(shù)：12 大小：114.35KB 積分：12 舉報 版權申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、第一章背景與異常劃分的一元方法地球化學背景與異常劃分是化探數(shù)據(jù)統(tǒng)計分析的基本問題，以后就簡稱為背景與異常劃分。這方面的具體方法很多，而且正在發(fā)展，有的還不完全成熟。本書只介紹一些常用的或理論上具有一定系統(tǒng)性的方法。本章內容不僅是解決背景與異常劃分的方法基礎，也是以后各章有關其它統(tǒng)計方法的基礎，因而雖然簡單，卻很重要。這里只涉及單個因素，因而是一元方法，且一般不考慮樣本的采樣位置。第二章主要討論與地理位置有關的背景與異常劃分問題，也屬于一元方法。背景與異常劃分的多元方法將在以后的有關章節(jié)中順便介紹，因為那時我們有了解多元問題的數(shù)學基礎。希望在有了這些基礎知識后能廣閱參考文獻，甚至提出更成熟的方法

2、。§背景與異常劃分的基本原理常用的背景與異常劃分方法是以一元正態(tài)分布為前提的。只要熟知一元正態(tài)分布的有關性質，背景與異常劃分的原理就十分明確。正態(tài)分布是最簡單的情形。但一切的復雜情形都可視為簡單情況的綜合。對簡單問題的討論是解決復雜問題的基礎，因而十分重要。一、一元正態(tài)分布的有關性質設x為一元正態(tài)隨機變量，其概率密度函數(shù)為11(x-P)2exp(-),%vxv+x(1.1)f(x)=2則稱2服從參數(shù)為P,c的一元正態(tài)分布,記為x?N(P,c其中P，分別為一元正態(tài)總體x的均值與方差，分布圖形如圖1-1所示。X的概率密度函數(shù)為F(x)=/x-訊(t)dt(1.2)其圖形如圖1-2所示。若

3、用P(A)表示隨機事件A發(fā)生的概率，則正態(tài)分布具有如下重要特性：pa|1-O-O-JO-JO-20-G-<J圖1-1一元正態(tài)總體的概率密度分布圖1-2元正態(tài)總體的概率分布1、f(P)=maxf(x);2、P(xWy)=F(P)=50%;3、P(x<-pa)=F(-阿)=15.9%;4、P(xWy+2(T)=F(P+2(T)=97.7%;5、P(-ta&<x<y+ta-a)=16、P(-Xvxv+x)=1;其中性質5更為重要，它表示，若以y為起點，在x軸向左右兩邊各延伸ta個單位長度er,形成一個區(qū)間(威ac<x<y+t,a則)X在該區(qū)間內取值的概率為

4、1-a,例如：當ta=時,1-a=68.3%a=31.7%當ta=2寸，1-a=95.4%a=4.6%當ta=3寸，1-a=99.7%a=0.3%這些性質與背景、異常的概念關系十分密切。二、背景與異常劃分的基本原理根據(jù)以上性質并參考圖1-1,1-2,我們不難得出如下推理：1、由性質1、2知，x在點y處的概率密度最大，即x在y處的取值機會最多，于是y作為常見值被用做背景值是當然的，在x=y點，F(xiàn)(X)=50%，因而f(x)達極大值或F(x)=50%=0.5時自變量x的取值y即為背景值。2、由性質2、3不難看出，F(xiàn)(x)取50%與F(x)取15.9%分別對應的x值之差的絕對值正好是正態(tài)總體的標準離

5、差或均方差r3、由性質4易見，x落在區(qū)間(-Vy+2(內的概率為97.7%，而落在該區(qū)間右側的概率僅為2.3%,是正態(tài)前提下不容易發(fā)生的小概率事件，則被視為異常事件，故y+2可被看作劃分背景與異常的一個界限。4、由性質5可以得到劃分背景與異常的更嚴格的敘述。當ta取值足夠大或a取值足夠小時，隨機變量x在區(qū)間(ytar<x<y+t取值的概率為1-a,是一個很大的概率事件，發(fā)生這樣的事是不足為奇的，因而該區(qū)間的一切取值都認為是屬于正態(tài)總體的正常值或背景值；反之，隨機變量在該區(qū)間兩側取值的機會只有a,是一個很小的值，一旦某值落入該區(qū)間兩側，則屬于異?，F(xiàn)象，將此值視為異常值，可認為它不屬于

6、上述正態(tài)總體，而可能來自異?？傮w。當ta或a取定時，上述區(qū)間亦被確定，稱為置信區(qū)間，其左右的兩個端點稱為置信下限和置信上限?；街谐７Q左端點為負異常上限，右端點為正異常上限。例如當ta=時，異常下限為y+2r這時a=0.046再看a值的意義。由性質5知，當a越小時to就越大置信區(qū)間就越大，所劃出的異常值與背景值的差異就越顯著，即這種差異值屬于真正異常的可信度就越大；而反過來也可以說明置信區(qū)間的值屬于背景值的可信度就越小。所以a的大小決定了背景與異常的可靠性，或者廣義的說，a的大小決定了識別任一樣品是否屬于某正態(tài)總體的可信程度。在數(shù)理統(tǒng)計中，a稱為置信度。一般a由人為指定，可分別取0.1,0.0

7、5,0.001等。這一概念在以后經常遇到。值得指出的是，當我們用統(tǒng)計方法把某個樣品劃歸背景或異常時，嚴格的應稱這種劃分是在置信度。下所做的推斷。在隨后的討論中我們將看到to的意義。它實際上是標準化變量的異常下限。§背景與異常劃分的基本方法由上述討論知，若x?N(P,且，P，已知，則背景與異常劃分的方法是顯然的。問題是,我們一般難以得到總體的分布參數(shù)和(，也不知道x是否是滿足正態(tài)分布條件。本節(jié)主要討論這兩個問題，并引入很有實用價值的標準化變量的概念。一、總體分布參數(shù)的估計在一般實際問題中，我們不是從整體出發(fā)而是從樣本出發(fā)，通常用樣本均值來估計總體的均值也用樣本方差S來估計總體方差c于是

8、立刻得到異常界限的估計值為Xa=+taS(1.3)ta為正值時，上式定義了正異常下限；當ta為負值時上式定義了負異常上限，其中ta由可信度a而定。但由上節(jié)知，ta般取2左右即可，這時a約為0.046。應用中不必再做嚴格推算。為簡便起見，今后一般不討論負異常上限。所剩的問題是如何用樣本來估計總體均值與方差，以后簡稱均值、方差，分別用X、S222來表示?，F(xiàn)介紹幾種最常用的估計方法。1、直接計算方法在有計算機的條件下，這是最簡便的方法。設某正態(tài)樣本容量為n數(shù)據(jù)為Xi,i=1,2,n,則樣本均值和均方差分別為1n=Exi(1.4)ni=11n(xi-)2(1.5)S=刀ni=1當n很大時,(1.5)式

9、與常用無偏估計無多大差異。2、直方圖法直方圖是日常社會活動常見的圖形，這里簡明介紹其制作方法及有關參數(shù)的估計。設正態(tài)樣本數(shù)據(jù)為xi,i=1,2,小則作圖步驟為：將n個數(shù)據(jù)的取值范圍max(xi)-min(xi)分為K個子區(qū)間(一般為組)，方括號表示區(qū)間。K一般取奇數(shù)5、7、9等,大小視n的大小而定。各區(qū)間的長度即組距為d=1max(xi)-min(xi)K其中第j個子區(qū)間(組)為max(xi)+(j-1)d,min(xi)+jd),j=1,2,k其中圓括號表示開區(qū)間，方括號表示閉區(qū)間，但第K區(qū)間左右都為閉區(qū)間。各區(qū)間的中點值稱為組中值。求出落在第j區(qū)間的樣品數(shù)fj,j=1,2,k稱為組頻數(shù)，

10、進而求出各組頻率fj=fj/n,j=1,2,k求出各組的累積頻率Fj=*Efi=1ji,j=1,2,k在方格紙上，以x為橫坐標，以fj為縱坐標可作出頻率分布直方圖或頻率分布曲線;以x為橫坐標，以Fj為縱坐標，可作出頻率累積直方圖。上述步驟對程序設計也是有用的。圖1-3是某元素含量分布的頻率直方圖或頻率分布曲線，圖1-4是相應的累積頻率直方圖與累積頻率曲線如圖所示兩條曲線分別與圖1-1、圖1-2相似，即接近正態(tài)分布。于是可由正態(tài)分布的有關性質，從直方圖上估計、S或xa。這里有兩個常用的名詞。圖1-3中的Mo點稱為眾值，圖1-4中的Me點稱為中位數(shù)。在嚴格正態(tài)分布下不難知道有：x=Mo=Me。從圖

11、1-4中還可看出：S=Me-x1，也可看出異常下限值xa圖1-3頻率直方圖圖1-4累積頻率直方圖直方圖的優(yōu)點是直觀，實際工作中往往將直方圖與計算法結合起來，即用計算法求出x、S、xa,用直方圖給予直觀表示。有了直方圖制作步驟中給出的各種表達式，編制一個打f印直方圖的子程序也是容易的。但編制一個實用的直方圖子程序，適用于嚴重偏離正態(tài)分布的數(shù)據(jù)，還需要考慮本章后面的有關內容。3、概率格紙法在制作直方圖的第步，若以各子區(qū)間的中點，即組中值為橫坐標，以各區(qū)間累積頻率為縱坐標在概率格紙上作出一組散點，則當正態(tài)分布時，這組點大致成一條直線分布；反之，若這組點呈近似直線分布，則可以認為數(shù)據(jù)近似正態(tài)分布。這種

12、圖形有兩種作用，一一，,4.5,67?Yt一是用于檢驗一組數(shù)據(jù)是否服從正態(tài)分布，二是只要把上述直線當作圖1-4中的累積頻率曲線，則完全可用圖1-4中示意的方法求出X、S、xa,故不多述。二、正態(tài)檢驗正態(tài)檢驗是用統(tǒng)計的方法檢驗一組數(shù)據(jù)是否服從正態(tài)分布。分布檢驗的方法有多種，例如上面的概率格紙法就是其中一種?，F(xiàn)介紹另一種方法一一偏度、峰度檢驗法。首先定義兩個統(tǒng)計變量，即偏度r1,和峰度r2,其中1n1n3(xi-x)23(1.6)r仁刀(xi-/刀ni=1ni=11n1n4(xi-x)24-3(1.7)r2=刀(xi-)/刀ni=1ni=1其中各記號為熟知的。檢驗的原理方法如下：若假設：x?N(P

13、,d則有：r1?N(0,6/n),r2?N(0,24/n)于是在信度a=0.06下，由正態(tài)分布的性質顯然有|r1|<2(6/n)1/2,|r2|<2(24/n)1/2(1.8)對于一個容量為n的樣本xi,i=1,2,-,n若(1.8)成立，則稱在信度a=0.046下x為正態(tài)分布，即接受正態(tài)假設；否則拒絕假設，稱在信度a=0.046Tx非正態(tài)分布。順便說明，這種檢驗實質是看樣本分布與理論分布是否有顯著差異，如果樣品分布沒有太大偏斜、分布陡緩適當，就認為是正態(tài)的。在實際工作中，還常常從直方圖上直接觀察分布形式、判斷正態(tài)與否，不做過分嚴格的檢驗。三、標準化變量設單變量x的一個樣本為xi,

14、i=1,2,其均值為x,均方差為S,則稱t=(x-)/s(1.9)為標準化變量,對每個樣品xi有ti=(xi-x)/s(1.10)稱為xi的標準化數(shù)值.容易驗證，標準化變量由以下重要性質：(1) 標準化變量的均值為0;標準化變量的方差為1。當x?N(P,d2)t?N(0,1),即我們熟知的標準化正態(tài)分布，這時t的異常下限正好是前面定義的ta例如，假設y為標準化正態(tài)變量，即yN(0,1)，貝岫異常下限公式(1.3)及標準化變量的性質有：ya=y+tas=0+ta=ta由此可見，任何量級的元素，只要將其含量進行標準化，則在信度a下，它們的異常下限為ta這是標準化變量t的方便之一。標準化變量的另一意

15、義在于，t值的大小與正負號直觀表示了它所對應的原始數(shù)值x屬于異常的程度及正負性質。例如當t=1時表示x+S;t=2時表示+2S;t=-3時表示-3S;t=0表示背景值等，它們明確指示了x值落在何種區(qū)間，而這些區(qū)間又明確對應著一定的概率意義?？梢韵胂?，若用標準化數(shù)據(jù)來表示某種化探成果，如編制地球化學等值線圖等，就會有特殊效果。今后我們還會看到標準化變量的其它一些重要作用。在一般統(tǒng)計學教科書中都有標準化正態(tài)分布函數(shù)表，本書附錄中也已列出，這是很有用的。例如,當a=0.05寸,3/2=0.0251-a/2=0.97$即F(ta)=0.975由表可查得ta=1.9,即置信度a=0.05F，標準化變量的

16、異常下限為1.96。這也是人們常取xa=+1.96S勺原因。§復雜情況下的背景與異常劃分我們以正態(tài)分布為前提討論了背景與異常劃分的基本原理與方法，知道了正態(tài)與否的檢驗及分布參數(shù)的估計都是在一定的信度下作出的推斷。只要一批數(shù)據(jù)近似正態(tài)分布，就不妨用上述方法識別異常。然而當統(tǒng)計數(shù)據(jù)嚴重偏離正態(tài)假設時便不可輕易使用上述方法，而應該采用穩(wěn)健的統(tǒng)計方法。一、穩(wěn)健統(tǒng)計方法的概念在穩(wěn)健統(tǒng)計中，我們經常遇到的一個概念是所謂離群點”又可稱為野值點”或異點”(outlier)早期人們將其解釋為顯然嚴重偏離了樣本中其它觀測值的觀測值”遠離數(shù)據(jù)中心或主題的數(shù)據(jù)”或不一定遠離主題數(shù)據(jù)而僅表現(xiàn)為與主體中數(shù)據(jù)不一

17、致”的數(shù)據(jù)?？傊覀兛梢詫慄c理解為樣本中存在的個別或少數(shù)不能嚴格代表總體特征的數(shù)據(jù)。但對以上定義，人們持有不同看法提出了對異點的更嚴格的定義方式(Barnethetal,1979)。但我們不再進一步討論。與異點概念有關的另一個概念是統(tǒng)計方法的穩(wěn)健性。簡單的說，一種統(tǒng)計方法對于異點的抵抗能力可稱為該方法的穩(wěn)健性；如果一種統(tǒng)計方法能夠抵抗或消除異點的影響，即在數(shù)據(jù)偏離某種假設的情況下仍能得到可靠的統(tǒng)計結果，則這種方法就是穩(wěn)健統(tǒng)計方法；與上述概念有關的統(tǒng)計學分支稱為穩(wěn)健統(tǒng)計學，它有較系統(tǒng)的理論與方法，但我們也不能做進一步敘述。僅通過一個簡單的例子說明應用問題。例1.1假設從某地層中采了10個樣品

18、，測得Cu的含量(10-6)為10,16,23,26,30,34,37,44,50,500,則500就可視為異點。若我們的目標是估計該地層中的背景分布參數(shù)，則由于該值不能代表真實背景總體而應在參數(shù)估計中消除或抵抗其影響。若對全部十個數(shù)據(jù)采用(1.4)、(1.5)式計算，得x=77,S=149,這種算法未能消除或抵抗異點的影響，結果不代表真實背景特征，因而可認為是不穩(wěn)健的算法，還可用另外的某種算法，計算中或給予異點數(shù)值較小的權，或者將異點剔除后再做計算，盡量壓制其影響，獲得可靠的估計參數(shù)，例如將500剔除后可得x=30,S=10.4,這就可以說是較穩(wěn)健的算法。由此例可以看出，用穩(wěn)健統(tǒng)計的方法可以

19、得到較可靠的結果，否則結果嚴重失真。如果將上述10個數(shù)據(jù)作成分布直方圖，則異點表現(xiàn)非常直觀。值得注意的是，在穩(wěn)健統(tǒng)計方法中重要的一點是首先要對數(shù)據(jù)的分布形式有一個基本假設，然后才能考慮是否存在偏離假設的異點。例如，我們一般假設數(shù)據(jù)是正態(tài)分布的，那么偏離正態(tài)分布的數(shù)據(jù)就可視為異點，是應被消除的對象?？傊?，所謂異點是一定假設下的異點。圖1-5各種復雜的分布形式在實際問題中，我們會遇到各種各樣的分布形式，真正的正態(tài)分布是很少見的，如圖1-5所示。他們與正態(tài)分布的不同之處有兩點：一是出現(xiàn)多個峰值，如圖1-5(b,c,d)，這實際上是數(shù)據(jù)中存在的多個異點，多峰的出現(xiàn)說明不僅存在個別異點而且存在多重總體。

20、往往左邊的總體代表背景總體，右邊的代表異?？傮w，需要將其刪除后才能求的可靠的背景分布參數(shù)。二是象圖1-5(a)那樣，雖為單峰分布，但出現(xiàn)嚴重的偏斜，當數(shù)據(jù)分析靈敏度不足時，常出現(xiàn)這種情形?？傊?，圖1-5中的各種情況的一個共同特點是都偏離了正態(tài)假設，對此顯然不能用正態(tài)假設下的方法來估計其背景分布參數(shù)。這就說明穩(wěn)健統(tǒng)計方法的重要性。但有的即使使用穩(wěn)健統(tǒng)計方法也難以解決。因為穩(wěn)健統(tǒng)計方法解決的對象是少數(shù)異點，對于樣品數(shù)大致相等的多重總體是無能為力的。本課程不可能系統(tǒng)介紹穩(wěn)健統(tǒng)計方法，有興趣者可參考其它有關文獻。下面介紹的幾種方法雖然不是太嚴格的穩(wěn)健統(tǒng)計方法，但至少考慮了方法的穩(wěn)健性，而且又較簡單常用

21、。這些方法針對不同的分布形式，但正態(tài)分布的方法仍然是解決問題的基礎，只不過在運用此基礎方法之前，需要對原始數(shù)據(jù)做適當?shù)念A處理，使預處理后的數(shù)據(jù)能夠接近滿足正態(tài)假設。二、對數(shù)變換法對數(shù)變換是將原始數(shù)據(jù)取對數(shù)，一般取常用對數(shù)。設xi,i=1,2,，為原始數(shù)據(jù)，將其2取對數(shù)得yi,yi=lg(xi),i=1,2,，n若yN(P,歷則稱x服從對數(shù)正態(tài)分布。今后統(tǒng)稱正態(tài)分布。類似于圖1-5(a)那樣的原始分布，峰值偏左，通過上述對數(shù)變換后一般趨近于正態(tài)分布。這時，對原始數(shù)據(jù)xi,可用上述變換得到y(tǒng)i,然后用yi代替xi,i=1,2,n采用正態(tài)分布下的基本方法就可求得y的均值y和均方差Sy,將y取反對數(shù)即

22、為原始數(shù)據(jù)的背景值；而將y的異常下限值ya=y+taS取反對數(shù)即為原始數(shù)據(jù)的異常下限。三、分解法所謂分解法，即為一般文獻中所謂的多重總體中的分解方法，就是把具有明顯差異的若干總體的分布圖形分割開來，再用單一總體計算分布參數(shù)。統(tǒng)計方法仍然是在正態(tài)假設下的方法，因而要求分割后的總體服從正態(tài)分布。圖1-5(d)的情況就可以采用這種方法?；具^程是簡單的：首先以雙峰（或多峰）分布的谷值點Xa為界，分為左右兩部分，可見其均接近正態(tài)；然后用正態(tài)假設下的基本方法分別求出左右兩個分布的分布參數(shù)X,S;最后選定一個分布（一般以左邊的分布）為背景總體，并確定異常下限。四、觀察法由圖1-5可見，在很多情況下，異常下

23、限可直接從直方圖上觀察出來，圖1-5的b、C、d就是如此。這時谷值點Xa就可作為異常下限。有時還可以從含量剖面曲線或等值線圖上直接觀察出異常下限，但這不屬于統(tǒng)計方法。五、逐步截尾法在實際資料中常見的情形是直方圖的左邊部分接近正態(tài)，右邊部分由于少數(shù)異點的存在出現(xiàn)一個長尾巴。反之，右邊為正態(tài)，左邊為長尾的現(xiàn)象不易見到。這些分布形式稱為長尾分布。這里所謂逐步截尾法，也稱為一元截尾法，是按照一定的準則將長尾截去后用剩下的接近正態(tài)分布的子樣來計算背景分布參數(shù)的統(tǒng)計方法。設有n個數(shù)據(jù)xi,i=1,2,n其分布形式呈長尾狀，則逐步截尾法的步驟可簡述為：1、用全部n個數(shù)據(jù)求出初始均值，初始方差S。對n個數(shù)據(jù)x

24、i,它落在區(qū)間11（-tBS,x+t之外），則將xi視為異點予以剔除。在這一步中若有異點可刪，則進行下一1111步；若無異點可刪，則結束計算，并將x作為背景樣本均值x,將S作為背景樣本均方差So112、刪除上一步發(fā)現(xiàn)的異點，用所剩的子樣求均值，均方差S2o對所剩子樣的每個數(shù)2據(jù)xi,它落在區(qū)間（-tBS,x+t之S），則應將其視為異點而刪除。若有這樣的異點可刪，2222則進行下一步；否則則將x、S2作為背景參數(shù)的估計值。3、K、2依次類推，直至進行到第K步無異點可刪時為止。這時所剩的子樣是背景子樣，其均值k,均方差Sk就是最終得到的背景估計參數(shù)x=xk,S=Sk，分別稱為截尾均值與截尾方差。7

25、進而得到異常下限為xa=+taS=k+taSk該方法的計算流程圖如圖1-6所示，其中參數(shù)L表示上述某步中被刪除的異點的個數(shù)，其它記號與文中一致。對上述計算步驟還需要說明一個問題。上述參數(shù)t的意義與ta相似，它作為刪除異點時的臨界值，一般可取大一點，如果t功3.0,2.8,2.5等；而t0則用于劃分通常意義下的背景和異常，一般可以取小一些。如取ta為2.0,1.96等。但究竟這些參數(shù)取多大合適呢？這就需要在計算機上反復計算選擇，因而在編制程序時，t3ta應是可變的。當程序執(zhí)行時先給定一組t3ta并在屏幕上顯示出X、S、xa及相應的直方圖，若這些參數(shù)的估計值與直方圖對比顯的合理，則說明131a選擇

26、合理，否則要修改常用的131a后重新計算。在計算機上實現(xiàn)這些步驟是很快的?？傊?，逐步截尾法的應用及方法選擇以符合客觀實際的結果為標準，它是目前較一種方法，只要有關參數(shù)選擇適當，其穩(wěn)定性是較好的圖1-6元截尾計算流程圖六、應用實例與直方圖制作技巧例1.2某剖面37個花崗巖樣本中Co的含量值列于表1-1,試求出其背景分布參數(shù)，并作出直方圖?，F(xiàn)依次說明逐步截尾法的應用，并介紹一種較實用的分布直方圖制作技巧。表1-1某地花崗巖中Co的含量（單位10-9）1.021.301.310.600.731.2222.20.880.680.791.841.771.022.010.791.671.921.301.2

27、82.531.251.731.840.931.471.041.091.021.402.701.481.411.281.270.991.131.42由表1-1中的37個數(shù)據(jù)以（1.4）、（1.5）式求得初始均值x仁1.90,初始均方差S1=3.42c取tB=3即將1+3S1以上，X1-3S1以下的數(shù)值視為應剔除的異點。由表可見，S2=0.47,22.2>1.90+33A2=12.16是一個異點，將其剔除后用所剩的36個數(shù)據(jù)求得2=1.34,這時，36個數(shù)據(jù)中最大的數(shù)值為2.70<1.34+30.47=2.75再無異點可剔除。因而取背景值為截尾均值，即x=x2=1.34,用截尾均方差作

28、為背景均方差，即S=S2=0.47。若取ta=則得異常下限為xa=+2S=2.28這時，表1-1中的2.53,2.70,22.2可視為異常值。這種結果是否合理呢，從下面的直方圖中可以看出。圖1-7a是以前面介紹的方法為基礎，用初始均方差S的一般為組距(即區(qū)間長度)作出的直方圖，個別異點的影響，絕大多數(shù)數(shù)據(jù)沒有反映出其分布形式，而是被壓縮在一兩個區(qū)間內，這是上述直方圖制作的一個弊病。為避免上述影響，我們可采用以下兩個改進措施。第一，以逐步截尾法為依據(jù)，將長尾部分截掉，用剩下的部分數(shù)據(jù)做直方圖。如果截掉的數(shù)據(jù)不太多，有時可以標在直方圖的旁側。第二，我們不采用一般分組方法，而是先求出截尾均值x與截尾

29、均方差S,然后以0.4或0.5或0.8倍S為組距進行區(qū)間劃分。這樣分組的好處之一是可估計出截尾之后分多少組合適。因為截尾后的數(shù)據(jù)大多數(shù)分布在區(qū)間(x-3S,x+3S)之內，少數(shù)異常樣品分布于該區(qū)間之外。例如，當我們取組距d=0.5S，分組數(shù)為20時，上述區(qū)間內一般最多占用有12個組，由經驗知，負異常一般不會超過這個區(qū)間。另外8個組則可用于表示較高值的正異常數(shù)據(jù)分布。abc組中值頻數(shù)組中值頻數(shù)組中值頻數(shù)05320.5110.6732.7540.7540.8644.4600.8881.0576.1701.2291.2487.8801.4551.4359.5801.6931.6212901.9341

30、.81413.0002.1602.00214.7102.4002.19016.4202.6422.38018.1202.8702.57019.8303.1102.76021.5403.3502.94023.2503.5803.13024.9503.8203.320圖1-7實用直方圖制作說明tB=311=1.9S=3.421=1.34S=0.47a按0.5S為組距b:按0.5S為組距c：按0.4S為組距1圖1-7b、c都是使用這種方法作出的。但圖1-7b用的組距為d=0.5S,圖1-7c用的組距為d=0.4S,分組數(shù)都為15。二者均有一個數(shù)據(jù)被截掉。從本例中結合圖1-7我們可以看出以下幾個問題：1、若不考慮少數(shù)異點，則數(shù)據(jù)基本接近正態(tài)。2、截尾法求得的x,S,xa基本合理。3、直方圖的形態(tài)與分組方法有關。4、由截尾法做直方圖可以較準確的反映背景分布形式。值得強調的是，籠統(tǒng)的說某批數(shù)據(jù)”服從何種分布是含糊的概念。首先要明確我們的目的和研究對象。如果我們的目的是要估計背景分布參數(shù)，就只需以背景部分的數(shù)據(jù)”作為研究對象的樣本，考慮它

人人文庫> 全部分類> 行業(yè)資料 > 信息產業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

01第一章背景與異常劃分的一元方法

文檔簡介

溫馨提示

最新文檔

評論

01第一章背景與異常劃分的一元方法

文檔簡介

溫馨提示

最新文檔

評論

相關文檔