數(shù)理統(tǒng)計中自由度的理解和應(yīng)用_第1頁
數(shù)理統(tǒng)計中自由度的理解和應(yīng)用_第2頁
數(shù)理統(tǒng)計中自由度的理解和應(yīng)用_第3頁
數(shù)理統(tǒng)計中自由度的理解和應(yīng)用_第4頁
數(shù)理統(tǒng)計中自由度的理解和應(yīng)用_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)理統(tǒng)計中自由度的理解和應(yīng)用摘 要:數(shù)理統(tǒng)計是一門以概率論為基礎(chǔ)的應(yīng)用學(xué)科,應(yīng)用于許多領(lǐng)域。文章對數(shù)理統(tǒng)計作出了一個深入淺出的介紹,并對數(shù)理統(tǒng)計中自由度的理解作了較為全面的闡述,并在此基礎(chǔ)上給了自由度科學(xué)的定義。通過列舉自由度在統(tǒng)計學(xué)中的應(yīng)用,旨在全面認(rèn)識自由度。關(guān)鍵字:數(shù)理統(tǒng)計;自由度數(shù)理統(tǒng)計是數(shù)學(xué)的一個分支學(xué)科,是一門以概率論為基礎(chǔ)的應(yīng)用學(xué)科。隨著研究隨機(jī)現(xiàn)象規(guī)律性的科學(xué)概率論的發(fā)展,應(yīng)用概率論的結(jié)果更深入地分析研究統(tǒng)計資料,通過對某些現(xiàn)象的頻率的觀察來發(fā)現(xiàn)該現(xiàn)象的內(nèi)在規(guī)律性,并作出一定精確程度的判斷和預(yù)測;將這些研究的某些結(jié)果加以歸納整理,逐步形成一定的數(shù)學(xué)概型,這些組成了數(shù)理統(tǒng)計的內(nèi)容

2、。數(shù)理統(tǒng)計在自然科學(xué)、工程技術(shù)、管理科學(xué)及人文社會科學(xué)中得到越來越廣泛和深刻的應(yīng)用,其研究的內(nèi)容也隨著科學(xué)技術(shù)和政治、經(jīng)濟(jì)與社會的不斷發(fā)展而逐步擴(kuò)大,但概括地說可以分為兩大類:試驗的設(shè)計和研究,即研究如何更合理更有效地獲得觀察資料的方法;統(tǒng)計推斷,即研究如何利用一定的資料對所關(guān)心的問題作出盡可能精確可靠的結(jié)論,當(dāng)然這兩部分內(nèi)容有著密切的聯(lián)系,在實際應(yīng)用中更應(yīng)前后兼顧。它以隨機(jī)現(xiàn)象的觀察試驗取得資料作為出發(fā)點(diǎn),以概率論為理論基礎(chǔ)來研究隨機(jī)現(xiàn)象.根據(jù)資料為隨機(jī)現(xiàn)象選擇數(shù)學(xué)模型,且利用數(shù)學(xué)資料來驗證數(shù)學(xué)模型是否合適,在合適的基礎(chǔ)上再研究它的特點(diǎn)、性質(zhì)和規(guī)律性。例如燈泡廠生產(chǎn)燈泡,將某天的產(chǎn)品中抽出幾

3、個進(jìn)行試驗,試驗前不知道該天燈泡的壽命有多長,概率和其分布情況.試驗后得到這幾個燈泡的壽命作為資料,從中推測整批生產(chǎn)燈泡的使用壽命、合格率等。為了研究它的分布,利用概率論提供的數(shù)學(xué)模型進(jìn)行指數(shù)分布,求出值,再利用幾天的抽樣試驗來確定指數(shù)分布的合適性。簡而言之,數(shù)理統(tǒng)計以概率論為基礎(chǔ),根據(jù)試驗或觀察得到的數(shù)據(jù),來研究隨機(jī)現(xiàn)象統(tǒng)計規(guī)律性的學(xué)科。它的任務(wù)就是研究有效地收集數(shù)據(jù),科學(xué)地整理與分析所獲得的有限的資料,對所研究的問題,盡可能地作出精確而可靠的結(jié)論。數(shù)理統(tǒng)計研究問題的方式,不是對所研究對象的全體(稱為總體)進(jìn)行觀察,而是抽取其中的部分(稱為樣本)進(jìn)行觀察獲得數(shù)據(jù)(抽樣),并通過這些數(shù)據(jù)對總體

4、進(jìn)行推斷。數(shù)理統(tǒng)計方法具有“部分推斷整體”的特征。下面引入一些數(shù)理統(tǒng)計中的術(shù)語:抽樣、抽樣分布、總體與樣本、統(tǒng)計量、自由度、幾個常用的分布、正態(tài)總體統(tǒng)計量的分布但是大多數(shù)數(shù)理統(tǒng)計教材中介紹自由度時,往往一筆帶過,沒有給出明確的定義或足夠的解釋,增加了自由度理解學(xué)習(xí)具有的難度,尢其對于初學(xué)者來說,自由度就像一個黑箱子,難以捉摸。數(shù)學(xué)中的自由度一般是指能夠自由取值的變量個數(shù)。數(shù)理統(tǒng)計中的自由度是指當(dāng)以樣本的統(tǒng)計量來估計總體的參數(shù)時,樣本中獨(dú)立或能自由變化的數(shù)據(jù)的個數(shù),自由度通常記為df。數(shù)理統(tǒng)計上的這個定義可以從如下幾個方面來理解:第一,“統(tǒng)計量”(如樣本數(shù)據(jù)的平均數(shù)X、樣本數(shù)據(jù)的標(biāo)準(zhǔn)差)是研究者

5、通過調(diào)查樣本的數(shù)據(jù)人為地計算出來的,而“參數(shù)”(如總體均值、總體標(biāo)準(zhǔn)差)是被調(diào)查的總體所客觀存在的,這是兩者的區(qū)別。在統(tǒng)計學(xué)的理論層面上,要求或者假定統(tǒng)計量是參數(shù)的無偏估計,認(rèn)為二者是相等的(在實際研究中,由于抽樣的偏差,可能導(dǎo)致兩者不相等,但對于這種情況,研究者是無法知道的,知道就沒有抽樣調(diào)查的必要了)。在理論假設(shè)下,統(tǒng)計量也就和參數(shù)一樣被看作是客觀的、確定的。第二,既然在理論上統(tǒng)計量被要求是確定的,那么在實際層面上,計算統(tǒng)計量的那組數(shù)據(jù)就不是完全自由的。這一點(diǎn)很重要,因為自由度中“自由”的含義就是相對這個“確定”條件而言的。正是統(tǒng)計量的這種“確定性”限制了與之相關(guān)的一組數(shù)據(jù)的自由度,也就是

6、說,一組數(shù)據(jù)不是可以完全自由取值的,它必須支持“統(tǒng)計量與總體參數(shù)相等”的理論假設(shè)。這就是自由度存在的理由。有必要舉例來進(jìn)一步說明“獨(dú)立或能自由變化的數(shù)據(jù)”的含義。在心理、社會等領(lǐng)域的測量或者調(diào)查過程中,研究者設(shè)置了一些變量(如智商、收入等),這些變量是隨機(jī)變量。所謂隨機(jī)變量是指,在調(diào)查總體中,變量的取值范圍及其所對應(yīng)的頻次(兩者合起來稱為變量的分布)是確定的,但在一次具體的抽樣調(diào)查中,變量的取值及其所對應(yīng)的頻次則是不確定的,但在大樣本的抽樣調(diào)查中,變量的分布又是能體現(xiàn)總體的特征和規(guī)律的。例如:研究者在調(diào)查某個城市在崗職女工的平均收入時,從總體40000萬人中,研究者隨機(jī)抽取了200人進(jìn)行調(diào)查。

7、在這個例子中,總體40000個在崗女工的收入的平均數(shù)是總體參數(shù),是客觀的、確定的,盡管研究者不知道。通過隨機(jī)抽樣和問卷調(diào)查,研究者獲得了200人的收入的數(shù)據(jù)。運(yùn)用這組數(shù)據(jù)可以算出樣本的平均數(shù),它是統(tǒng)計量。由于在理論上要求統(tǒng)計量與參數(shù)相等,所以這200個數(shù)據(jù)中只有199個數(shù)據(jù)可以“自由”變動,所以,這組數(shù)據(jù)在求平均數(shù)這個統(tǒng)計量時的自由度就是:K=200-1=199。第三,在上面的例子中,研究者只抽了一個200人的樣本,而在實際層面,這200人的收入是確定的,因為每個被調(diào)查者只有一個確定的收入。既然這樣,“199個數(shù)據(jù)可以自由變動”是什么意思呢?這需要回到理論上去回答。在理論上,從20000人中隨

8、機(jī)抽取200人有種抽取方法,也就是說,在理論上研究者可以得到個不同的、樣本容量均為200人的樣本,這個數(shù)據(jù)量是很大的(沒有必要確切知道它的值)。這樣,在理論上就存在很多組調(diào)查數(shù)據(jù)(雖然研究者確實只調(diào)查了一個200人的樣本,也只獲得了一組數(shù)據(jù)),每組都有200個數(shù)據(jù)。每組數(shù)據(jù)在理論上都有對應(yīng)的統(tǒng)計量,正是這些統(tǒng)計量的分布,構(gòu)成了統(tǒng)計學(xué)中所說的抽樣分布,它是基礎(chǔ)統(tǒng)計學(xué)的核心內(nèi)容。所以,僅僅在理論上,這200個數(shù)據(jù)中的199個數(shù)據(jù)是可以隨不同樣本而變化的、自由的。當(dāng)然,話說回來,這種自由并非是絕對的,它們也只能在總體的取值范圍內(nèi)變動,例如,關(guān)于“收入”這個變量的取值就不可能為負(fù)值。眾所周知,很多統(tǒng)計

9、量的計算公式中都有自由度的概念,可為什么同樣是計算標(biāo)準(zhǔn)差,總體標(biāo)準(zhǔn)差的自由度是n,而樣本標(biāo)準(zhǔn)差的自由度就是n-1?為什么其它公式中的自由度還有n-2、n-3呢?它到底是什么含意?在統(tǒng)計模型中,自由度指樣本中可以自由變動的變量的個數(shù),當(dāng)有約束條件時,自由度減少自由度計算公式:自由度=樣本個數(shù)-樣本數(shù)據(jù)受約束條件的個數(shù),即df=n-k(df自由度,n樣本個數(shù),k約束條件個數(shù)),n-1是通常的計算方法,更準(zhǔn)確的講應(yīng)該是n-k,n表示“處理”的數(shù)量,k表示實際需要計算的參數(shù)的數(shù)量。如需要計算2個參數(shù),則數(shù)據(jù)里只有n-2個數(shù)據(jù)可以自由變化。例如,一組數(shù)據(jù),平均數(shù)一定,則這組數(shù)據(jù)有n-1個數(shù)據(jù)可以自由變化

10、;如一組數(shù)據(jù)平均數(shù)一定,標(biāo)準(zhǔn)差也一定,則有n-2個數(shù)據(jù)可以自由變化。第四,自由度是誰的?從前面的分析中可以知道,自由度產(chǎn)生于這樣的背景下:運(yùn)用一組數(shù)據(jù)來求“統(tǒng)計量”。離開“一組數(shù)據(jù)”就不可能有“統(tǒng)計量”,不計算“統(tǒng)計量”,“一組數(shù)據(jù)”就失去了科學(xué)的價值。所以,“自由度”應(yīng)該是“統(tǒng)計量”和“一組數(shù)據(jù)”所共同擁有的。當(dāng)然,為了方便,我們說“統(tǒng)計量的自由度”或者“一組數(shù)據(jù)的自由度”也都是可以接受的。第五,統(tǒng)計學(xué)上的自由度包括兩方面的內(nèi)容:首先,在估計總體的平均數(shù)時,由于樣本中的n個數(shù)都是相互獨(dú)立的,從其中抽出任何一個數(shù)都不影響其他數(shù)據(jù),所以其自由度為n。在估計總體的方差時,使用的是離差平方和。只要n

11、-1個數(shù)的離差平方和確定了,方差也就確定了;因為在均值確定后,如果知道了其中n-1個數(shù)的值,第n個數(shù)的值也就確定了。這里,均值就相當(dāng)于一個限制條件,由于加了這個限制條件,估計總體方差的自由度為n-1。例如,有一個有4個數(shù)據(jù)(n=4)的樣本, 其平均值m等于5,即受到m=5的條件限制,在自由確定4、2、5三個數(shù)據(jù)后, 第四個數(shù)據(jù)只能是9,否則m5。因而這里的自由度=n-1=4-1=3。推而廣之,任何統(tǒng)計量的自由度=n-限制條件的個數(shù)。其次,統(tǒng)計模型的自由度等于可自由取值的自變量的個數(shù)。如在回歸方程中,如果共有p個參數(shù)需要估計,則其中包括了p-1個自變量(與截距對應(yīng)的自變量是常量1)。因此該回歸方

12、程的自由度為p-1。在一個包含n個個體的總體中,平均數(shù)為m。知道了n-1個個體時,剩下的一個個體不可以隨意變化。為什么總體方差計算,是除以n而不是n-1呢?方差是實際值與期望值之差平方的期望值,所以知道總體個數(shù)n時方差應(yīng)除以n,除以n-1時是方差的一個無偏估計。上述從不同角度對自由度的概念與定義進(jìn)行了闡述,我們認(rèn)為,在統(tǒng)計學(xué)上,自由度是建立在統(tǒng)計量之上的概念,它是統(tǒng)計量的數(shù)學(xué)特征。至此,我們可以給出數(shù)理統(tǒng)計中自由度的科學(xué)定義:自由度是指在一組樣本數(shù)據(jù)中,能夠自由取值且不違反給定約束條件的樣本數(shù)值的個數(shù)。這樣,我們就較科學(xué)地將實際樣本容量和自由度區(qū)別開來。下面將進(jìn)一步舉例說明自由度在不同方面的應(yīng)

13、用。一、樣本方差的自由度許多教科書在列出樣本方差的計算公式時都沒有說分子n-1(n為樣本容量)就是自由度,也很少解釋清楚為什么是除以n-1而不是n。假設(shè)一個容量為10的樣本,如果沒有其他關(guān)于該樣本的信息或約束的話,任意從總體中抽取的10個觀察值都可以形成這樣的樣本。也就是說,這10個觀察值可以任意地被從總體中抽取的其他觀察值所取代。當(dāng)我們想要計算樣本方差時,必須先算出樣本均值,設(shè)=35。此時,這10個觀察值就不能任意地被總體中抽取的其他觀察值所取代了。因為n=350,10個觀察值的總和必須等于350。這樣一來,樣本中只有9個觀察值可以隨意改變,因為如果任意9個觀察值確定了,第10個觀察值也被這

14、9個值確定了。因此在計算樣本方差時自由度等于9。有效樣本容量被減少為n-1,在此基礎(chǔ)上,我們可以很好地理解為什么作為均方差的樣本方差計算時,要用自由度來平均而非用n平均。這也說明了如果從樣本數(shù)據(jù)中估計了一個總體參數(shù),自由度就會減少一個。因為樣本方差的自由度為n-1,所以在比較兩個獨(dú)立總體的均值大小的t檢驗中,合并方差的自由度等于+-2=(-1)+(-1);在比較兩個獨(dú)立總體的方差大小的F檢驗中,F(xiàn)統(tǒng)計量的自由度為(-1,-1),其中,分別為兩個樣本的容量。二、方差分析和回歸中的自由度由Fisher創(chuàng)造的重要方法方差分析中也體現(xiàn)了自由度的思想。由于自由度代表著有效樣本容量,我們計算均方時必須用自

15、由度去除平方和。假設(shè)在方差分析中共有n個觀察值,將總平方和SST除以總自由度n-1就可得到總方差。對于K個處理,組間平方和 ,其中和分別為第i個處理的樣本容量和樣本均值。當(dāng)SSTR被計算出來時,就能被SSTR和其他K-1個值決定。所以計算組間的均方差時自由度為K-1。因為殘差平方和SSE等于K個處理的組內(nèi)離差平方和,所以殘差的均方差有個自由度,這里運(yùn)用了自由度的可加性。值得注意的是,總自由度,它被分解成組間均方差的自由度與殘差均方差的自由度的和。類似地,自由度也出現(xiàn)在多元回歸分析的相關(guān)內(nèi)容中。假設(shè)k為解釋變量(包括常數(shù)項)的個數(shù),調(diào)整,和分別用各自的有效樣就可以確定整張表的信息內(nèi)容。也就是說列

16、聯(lián)表有個自由度??梢韵胂螅粡坮行c列的列聯(lián)表,在各行和與列和給定的情況下,我們只要填上任意行列的頻數(shù),表中其他的頻數(shù)也會隨之確定下來,樣本容量來平均。三、獨(dú)立性檢驗中的自由度在獨(dú)立性的卡方檢驗中,列聯(lián)表是必不可少的。 我們運(yùn)用列聯(lián)表來說明其中自由度的思想。見表1,一張23的列聯(lián)表,它的行和與列和已經(jīng)給定了。如果不能給出更多的頻數(shù),這張表是有空缺的。如果填入一個頻數(shù),如=45,另一個頻數(shù)就可以被確定=45。倘若再給出一個頻數(shù),那么整個列聯(lián)表就填列完整了。如令=15,則=5,=20,=20。對于2行3列的列聯(lián)表,只要給出2個獨(dú)立的必要的信息,我們就可以確定整張表的信息內(nèi)容。也就是說列聯(lián)表有(r-1)(c-1)=(2-1)(3-1)=2個自由度??梢韵胂?,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論