![一篇文章帶你正確認(rèn)識總體和樣本_第1頁](http://file4.renrendoc.com/view/3c62c1ac6efef23871d331963aa2cc53/3c62c1ac6efef23871d331963aa2cc531.gif)
![一篇文章帶你正確認(rèn)識總體和樣本_第2頁](http://file4.renrendoc.com/view/3c62c1ac6efef23871d331963aa2cc53/3c62c1ac6efef23871d331963aa2cc532.gif)
![一篇文章帶你正確認(rèn)識總體和樣本_第3頁](http://file4.renrendoc.com/view/3c62c1ac6efef23871d331963aa2cc53/3c62c1ac6efef23871d331963aa2cc533.gif)
![一篇文章帶你正確認(rèn)識總體和樣本_第4頁](http://file4.renrendoc.com/view/3c62c1ac6efef23871d331963aa2cc53/3c62c1ac6efef23871d331963aa2cc534.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
一篇文章帶你正確認(rèn)識總體和樣本在常規(guī)數(shù)據(jù)分析中,我們關(guān)注的是總體,而不是個(gè)體。比如某學(xué)校的教學(xué)改革之后,需要關(guān)注該校全體學(xué)生的成績是否有顯著提升;再如某種藥物上市之后,需要關(guān)注服用該藥的所有患者是否有顯著好轉(zhuǎn);新設(shè)備上線之后,生產(chǎn)出的所有產(chǎn)品的質(zhì)量是否有顯著提升,等等。在上述例子中,所有學(xué)生的成績,所有患者的療效,所有產(chǎn)品的質(zhì)量,都構(gòu)成了一個(gè)總體。為何在數(shù)據(jù)分析中只關(guān)注總體?在實(shí)際應(yīng)用中,待研究的總體有著怎樣的特征,比如均值,方差,甚至分布形態(tài),往往都是未知的,那我們該如何認(rèn)識總體呢?總體和樣本又有著怎樣的關(guān)系呢?本文將試圖解答這些問題。我們把研究對象的全體稱之為總體,組成總體的每一個(gè)研究對象稱為個(gè)體,比如一個(gè)學(xué)校的全體學(xué)生可視為一個(gè)總體,每一個(gè)學(xué)生可視為總體中的一個(gè)個(gè)體。在具體的一次研究中,我們通常關(guān)心的并不是研究對象的所有性質(zhì)或者特征,而是某個(gè)特征或者某幾個(gè)特征,也常稱之為指標(biāo),比如在具體的一次教學(xué)研究中,我們只關(guān)注學(xué)生的成績(并不會(huì)關(guān)注學(xué)生的身高、體重、品德等其他特征),成績就是一個(gè)指標(biāo)。因受隨機(jī)因素的影響(比如考試時(shí)的狀態(tài),平時(shí)對知識的掌握程度等等),每位學(xué)生的成績往往是不同的,是隨機(jī)變化的,因此一個(gè)學(xué)校的全體學(xué)生的成績,實(shí)際上是一個(gè)隨機(jī)變量;同理,每位肥胖患者服用同一種減肥藥之后,下降的體重也不是一個(gè)固定值(因?yàn)槊课环逝只颊叩淖陨項(xiàng)l件總是存在差異的),有的患者下降多一些,有的患者下降少一些,下降的體重也是一個(gè)隨機(jī)變量;同一條生產(chǎn)線生產(chǎn)出的產(chǎn)品,其質(zhì)量或者重量等特征也不是恒定不變的,因受外界隨機(jī)因素(比如溫度的變化、源材料來源的變化、人為操作的不一致等)的影響,產(chǎn)品的各類指標(biāo)也都是隨機(jī)變量。在統(tǒng)計(jì)領(lǐng)域中,總體往往指的就是隨機(jī)變量的所有取值,一個(gè)學(xué)校的所有學(xué)生的成績構(gòu)成一個(gè)總體,所有肥胖患者的下降體重構(gòu)成一個(gè)總體等等。所以,總體也可以表述為:表征全體研究對象的某一個(gè)特征的隨機(jī)變量。隨機(jī)變量中的任意一個(gè)取值即為個(gè)體。因此,指標(biāo)、隨機(jī)變量、總體,它們的本質(zhì)含義是一致的,只不過是三種不同的表述。綜上所述,總體和個(gè)體有兩層含義:一層是研究對象的全體稱為總體,全體中的每一個(gè)研究對象稱為個(gè)體;另一層是總體即表征全體研究對象的某一個(gè)特征的隨機(jī)變量,隨機(jī)變量中的任意一個(gè)取值即為個(gè)體。大家閱讀資料時(shí)可以根據(jù)上下文來判斷總體和個(gè)體具體為哪一層含義??傮w可分為有限和無限總體,有限總體即包含有限個(gè)研究對象,相應(yīng)地,隨機(jī)變量的取值的數(shù)量也是有限的,比如研究對象為某城市的所有企業(yè),即為有限總體;無限總體中的研究對象是無限多個(gè),或者無法全部獲得,比如一條生產(chǎn)線生產(chǎn)的所有產(chǎn)品,理論上是無限多的,只要生產(chǎn)線正常運(yùn)作,就可以源源不斷地生產(chǎn)出產(chǎn)品;再如全世界的人口,雖然總數(shù)是有限的,但是不可能獲得每個(gè)人的某項(xiàng)特征值,比如身高、年齡、體重等等。任何總體有兩個(gè)重要的特性:同質(zhì)和變異。同質(zhì):對于總體中所有研究對象的某項(xiàng)特征(指標(biāo))來說,其影響因素是眾多的,比如上文提到的學(xué)生成績,受到考試時(shí)的狀態(tài)、平時(shí)學(xué)習(xí)習(xí)慣和方法、考題難易程度、教學(xué)方法等因素的影響。如果影響被研究指標(biāo)的主要的、已知的、可控制的因素達(dá)到相同或基本相同,就可以認(rèn)為總體中的全體研究對象是同質(zhì)的。比如一個(gè)學(xué)校的全體學(xué)生都就讀于同一學(xué)校,接受同樣的教學(xué)方法,年齡相仿,成長階段和心理特征基本接近,考題難易程度相近,也就是說該學(xué)校的全體學(xué)生是同質(zhì)的。再比如如果研究兒童的生長發(fā)育,同性別、同年齡、同地區(qū)、同民族、健康的兒童即為同質(zhì)的兒童,可以視為一個(gè)總體。我們所研究的總體,其中的每個(gè)研究對象之間是同質(zhì)的,也就是每個(gè)研究對象自身?xiàng)l件或者所處的外部環(huán)境盡可能對被研究特征(指標(biāo))所產(chǎn)生的影響是相同或者相近的。如果不同質(zhì),那么這樣的總體研究就沒有意義。變異:上面提到,影響總體中的研究對象的某項(xiàng)特征的因素是眾多的,除了已知的、可控制的之外,還有許多未知的、不可控制的因素,比如同一所學(xué)校的每位學(xué)生,考試時(shí)的心理狀態(tài)有沉著有焦慮、平時(shí)的學(xué)習(xí)習(xí)慣和方法有好有壞,這些影響成績的因素不可能完全相同,總是有差異,而且這些影響因素是不可控的,因人而異,此外,還有其他的未知的影響成績的因素。除了影響因素的不同,影響機(jī)制還及其復(fù)雜且不可知,因此影響因素最終產(chǎn)生的作用是隨機(jī)的,不可預(yù)測的,這樣每個(gè)研究對象的特征值一定存在差異,是隨機(jī)變化的,同一學(xué)校的學(xué)生的成績有高有底;同質(zhì)的兒童的身高有高有矮,體重有胖有瘦;用相同的降壓藥治療病情、年齡相同的原發(fā)性高血壓病人,其血壓值降低的有多有少。這就是個(gè)體變異,是普遍存在的,是絕對的。變異代表世界的不確定性??傮w的同質(zhì)特性本質(zhì)上是人為地最大程度保證影響每個(gè)研究對象的特征的因素是相同的。但是人們只能保證一些已知的,可控的因素是相同的,不可能保證所有的影響因素都是相同的,因?yàn)槠渲械牟糠钟绊懸蛩厥俏粗?,不可控的。所以說同質(zhì)是相對的,變異是絕對的??傮w是同質(zhì)和變異的統(tǒng)一體。上面提到,總體實(shí)際上也是一個(gè)隨機(jī)變量,這就體現(xiàn)出了總體中個(gè)體的變異性。個(gè)體變異雖然代表著不確定性,但是如果綜合考察總體中的所有個(gè)體變異,它們往往具有一定的規(guī)律性。這是確定與不確定的統(tǒng)一。比如下圖顯示某機(jī)構(gòu)男性成員體重分布圖,在橫軸上將體重劃分為7個(gè)區(qū)間,每個(gè)藍(lán)色柱子中央標(biāo)示出體重落入該區(qū)間內(nèi)的男性成員人數(shù)占總?cè)藬?shù)的比例,很明顯,每位成員的體重雖然存在變異,但是他們的體重分布卻呈現(xiàn)出一定的規(guī)律性,體重適中的成員占據(jù)多數(shù),而過瘦過胖的成員占據(jù)少數(shù),這就是個(gè)體存在變異,但總體內(nèi)所有個(gè)體的變異卻呈一定的規(guī)律性,如果男性成員人數(shù)足夠多,他們體重逐漸趨于正態(tài)分布,具有固定的均值和方差等特征。因此我們雖然無法把握個(gè)體的變異,但是卻可以把握總體,因?yàn)榭傮w相對是確定的。我們數(shù)據(jù)分析的一個(gè)任務(wù)就是在同質(zhì)的基礎(chǔ)上,對個(gè)體變異進(jìn)行分析研究,揭示由變異所掩蓋的同質(zhì)事物內(nèi)在的本質(zhì)和規(guī)律。所以數(shù)據(jù)分析也是人們盡其所能對抗不確定性的一種方式。個(gè)體變異的存在,代表著不確定性,因此無法只通過個(gè)體來做出一般性的因果結(jié)論,比如教學(xué)改革之后,一位學(xué)生的成績提高了,并不能因此得出教學(xué)改革效果顯著的結(jié)論。再比如用兩種方法治療病情相似的患者,結(jié)果一例治愈,一例死亡,由于個(gè)體變異的存在,無法簡單地確定一種方法有效,一種方法無效。所以數(shù)據(jù)分析只關(guān)注總體,因?yàn)榭傮w具有確定的特征和規(guī)律,如果全校所有學(xué)生的平均成績(也即總體的均值)顯著提高了,那么我們就有理由推斷教學(xué)改革效果是明顯的。在實(shí)際應(yīng)用中,我們該如何確定一個(gè)總體呢,一是要滿足同質(zhì)性,即影響被研究對象特征的已知的、可控的因素盡量相同或者相近;二是根據(jù)實(shí)際的研究目的而定,比如研究對象為某地區(qū)所有的企業(yè),與研究對象為某地區(qū)所有的民營企業(yè),其各自的總體自然是不同的。下面我們再學(xué)習(xí)統(tǒng)計(jì)領(lǐng)域中另一個(gè)重要的概念----樣本。樣本也有兩層含義:一是來自于總體的部分研究對象,二是部分研究對象的特征值。抽取的研究對象的個(gè)數(shù)稱為樣本容量,常記為n。隨機(jī)抽取的樣本對總體的代表性比較好,隨機(jī)意味著抽到每個(gè)研究對象的機(jī)會(huì)是均等的。抽樣的目的是通過樣本信息來推斷總體特征,也就是認(rèn)識總體,實(shí)際上就是通過認(rèn)識樣本來達(dá)到認(rèn)識總體的目的??傮w和樣本,如果分別作為研究對象,它們各自也有自己的特征。參數(shù):是對總體的特征的數(shù)值描述。參數(shù)是固定的常數(shù),通常是未知的。統(tǒng)計(jì)量:是對樣本的特征的數(shù)值描述。樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量。如果研究對象是人,那么人的特征有姓名,體重,身高,籍貫等。對于一組數(shù)據(jù)(總體或者樣本)來說,同樣也有眾多的特征,從宏觀來劃分,大致有總量、集中、分布、離散等特征。參數(shù)與統(tǒng)計(jì)量,實(shí)際上就是對總體或者樣本經(jīng)過某種運(yùn)算而得到的值,這樣的值可以揭示總體或者樣本某方面的特征。比如分別對樣本執(zhí)行求平均值、求中位數(shù)、求眾數(shù)的運(yùn)算,即可得到反應(yīng)樣本集中程度的平均數(shù)、中位數(shù)、眾數(shù)等特征指標(biāo);最常見的反應(yīng)離散特征的就是方差、標(biāo)準(zhǔn)差等指標(biāo),求方差、求標(biāo)準(zhǔn)差實(shí)際上也就是對總體或者樣本執(zhí)行的某種運(yùn)算。反應(yīng)分布特征的主要有峰度和偏度兩個(gè)指標(biāo)。參數(shù)通常用希臘字母表示,比如π代表比率,μ代表均值,σ代表標(biāo)準(zhǔn)差,ρ代表總體的相關(guān)系數(shù);統(tǒng)計(jì)量通常用英文字母表示,比如p代表比率,x代表均值,S代表標(biāo)準(zhǔn)差,r代表樣本的相關(guān)系數(shù)。很明顯,參數(shù)與統(tǒng)計(jì)量是兩個(gè)同等意義的概念,都是用于反應(yīng)一組數(shù)據(jù)的特征,只是一個(gè)用于總體,一個(gè)用于樣本。在實(shí)際應(yīng)用中,往往無法得到總體中的所有數(shù)據(jù),所以總體的參數(shù)是未知的,但無論總體是有限的,還是無限的,其包含的全體研究對象是確定的,因此總體的參數(shù)是一個(gè)固定的常數(shù)。由于每次從總體中隨機(jī)抽取的樣本的數(shù)目是有限的、已知的,因此樣本的統(tǒng)計(jì)量自然也是已知的。但是樣本統(tǒng)計(jì)量卻不是恒定不變的,是一個(gè)隨機(jī)變量,因?yàn)槊恳淮坞S機(jī)抽取的樣本,其中包含的研究對象往往是不同的,例如假設(shè)總體中有9個(gè)數(shù)據(jù):1,2,3,…,9,從中隨機(jī)抽取3個(gè)樣本數(shù)據(jù),第一次可能抽取到1,5,9,第二次可能抽取到3,4,7,第三次可能抽取到2,5,6等等。三次抽取的樣本的平均數(shù)分別是:5,4.67,4.33,所以平均數(shù)這個(gè)樣本統(tǒng)計(jì)量就是在總體參數(shù)(總體平均數(shù)為4.5)附近波動(dòng)的隨機(jī)變量,可以作為總體參數(shù)的估計(jì)值。有的樣本統(tǒng)計(jì)量可以作為總體參數(shù)的估計(jì)值,比如樣本的均值可以用于估計(jì)總體的均值,樣本的方差可以用于估計(jì)總體的方差。樣本統(tǒng)計(jì)量除了可以估計(jì)總體參數(shù),還有一個(gè)極其重要的作用,那就是用于推斷總體(在這里樣本統(tǒng)計(jì)量的含義其實(shí)得到了進(jìn)一步擴(kuò)展,樣本統(tǒng)計(jì)量不僅僅可以描述樣本特征,同時(shí)也可以用于總體的推斷)。在不同的應(yīng)用場景下,基于特定的推斷目的(比如推斷總體的均值,或者推斷總體的方差,或者推斷總體的分布形態(tài),等等),統(tǒng)計(jì)學(xué)家已經(jīng)為我們提供了特定的樣本統(tǒng)計(jì)量計(jì)算方式(也就是對樣本進(jìn)行特定運(yùn)算的公式),以及該樣本統(tǒng)計(jì)量所服從的分布形態(tài)(比如正態(tài)分布、t分布、卡方分布、F分布等等),這樣一來,該樣本統(tǒng)計(jì)量實(shí)際上就是一個(gè)已知的新總體(上面我們提到樣本統(tǒng)計(jì)量是一個(gè)隨機(jī)變量,自然也是一個(gè)總體,不同于樣本所來自的那個(gè)總體)。根據(jù)這個(gè)已知的新總體,我們可以對樣本所來自的總體做出一些相關(guān)的未知信息的推斷,比如均值,方差,分布形態(tài)等等。下圖是通過樣本推斷總體的基本過程(關(guān)于詳細(xì)的推斷原理和過程,可參見文章《假設(shè)檢驗(yàn)在數(shù)據(jù)分析中的應(yīng)用》)。樣樣本樣本特征統(tǒng)計(jì)量(已知)總體同質(zhì)變異總體特征參數(shù)(未知)隨機(jī)抽樣方法選擇統(tǒng)計(jì)推斷/估計(jì)下面我們舉一個(gè)實(shí)際例子。假設(shè)欲比較2021年甲乙兩地12歲正常男童的平均身高。方法如下:從兩地(兩個(gè)總體)中各抽取一個(gè)樣本(不妨各隨機(jī)抽取10名男童),分別算得平均身高(樣本統(tǒng)計(jì)量),然后通過合適的數(shù)據(jù)分析方法來推斷甲乙兩地12歲正常男童平均身高(這里的平均身高是總體的均值,屬于總體的參數(shù))是否有差異,也就是揭示不同總體的異質(zhì)性,本質(zhì)上就是揭示在兩個(gè)總體中,各自影響男童身高的因素對男童身高所產(chǎn)生的影響是否有顯著的不同。下面我們介紹一下總體取值的類型,因?yàn)椴煌娜≈殿愋?,可能需要選用不同的數(shù)據(jù)分析方法??傮w是隨機(jī)變量,隨機(jī)變量根據(jù)取值的不同可分為如下幾類:隨機(jī)變量隨機(jī)變量計(jì)量變量連續(xù)型變量離散型變量分類變量無序分類變量有序分類變量計(jì)量變量:隨機(jī)變量的取值為數(shù)值型數(shù)據(jù),具有度量衡單位,也稱定量變量,或者數(shù)值變量,該類型的隨機(jī)變量實(shí)際反應(yīng)的是研究對象的可度量的特征,也就是可定量的特征。計(jì)量變量又可分為連續(xù)型和離散型,連續(xù)型即為在任何一個(gè)數(shù)值區(qū)間內(nèi),取值都是無限的,比如理論上人的身高和體重的取值可以是連續(xù)的,只要測量儀可以精確到小數(shù)點(diǎn)無限位數(shù)。不連續(xù)的隨機(jī)變量即為離散型,比如有的隨機(jī)變量只能取整數(shù),假如每隔一分鐘統(tǒng)計(jì)一次某公交車站臺上的等車人數(shù),那么等車人數(shù)就是一個(gè)隨機(jī)變量,而且只能取正整數(shù);有的隨機(jī)變量只能取有限的、固定的、可列舉的數(shù)值,比如箱子中有多種顏色的小球,其中只有三個(gè)紅色小球,如果每次隨機(jī)抽取三個(gè)小球(放回抽樣),那么抽中紅色小球的個(gè)數(shù)只能是:0,1,2,3。分類變量:該類型的隨機(jī)變量實(shí)際反應(yīng)的是研究對象的可定性的特征,無法使用數(shù)值來描述,只能使用文字或者符號來描述。分類變量又可分為無序分類變量和有序分類變量,無序分類變量的取值相互獨(dú)立,沒有任何等級關(guān)系,比如血型可以取值:O型,A型,B型,AB型;實(shí)驗(yàn)結(jié)果可以是有效和無效;成績可以是及格和不及格;檢測結(jié)果可以是陽性和陰性等等。相反,有序分類變量的取值具有等級關(guān)系,也就是在嚴(yán)重程度或者有效程度或者其他方面表現(xiàn)出一種遞進(jìn)關(guān)系,比如問題的嚴(yán)重程度可以是:致命、非常嚴(yán)重、嚴(yán)重、一般、提示;藥物的療效可以是:痊愈、顯效、有效、無效。對于計(jì)量變量,在數(shù)據(jù)分析中,我們常常關(guān)注它們的均值,方差特征;而對于分類變量,我們常常關(guān)注每個(gè)類別的總數(shù)目,或者占據(jù)總體的比例等等。有些數(shù)據(jù)分析方法適用于計(jì)量變量,比如兩樣本均值比較的t檢驗(yàn),多樣本均值比較的方差分析等等;有些數(shù)據(jù)分析方法適用于分類變量,比如列聯(lián)表分析方法。大家在選用數(shù)據(jù)分析方法時(shí),要注意鑒別。下表為某醫(yī)院住院患者信息表,大家可以判斷一下每列數(shù)據(jù)屬于哪種變量類型。序號年齡性別身高(m)血型心電圖尿紅蛋白職業(yè)血RBC135
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)編版初中語文九年級上冊第十七課《孤獨(dú)之旅》聽評課記錄
- 蘇州蘇教版五年級數(shù)學(xué)上冊第二單元《多邊形的面積》聽評課記錄
- 照明線路更換施工方案
- 2024北京密云區(qū)六年級(上)期末數(shù)學(xué)試題及答案
- 蘇科版數(shù)學(xué)七年級上冊4.3.5《用一元一次方程解決問題》聽評課記錄
- 人教版道德與法治七年級下冊8.1《憧憬美好集體》聽課評課記錄
- 望洞庭湖聽評課記錄
- 湘教版數(shù)學(xué)八年級下冊2.5.2《矩形的判定》聽評課記錄
- 中考道德與法治一輪復(fù)習(xí)八年級上第1單元走進(jìn)社會(huì)生活 聽課評課記錄 人教版
- 湘教版數(shù)學(xué)八年級上冊5.1《二次根式的化簡》聽評課記錄
- 2024九省聯(lián)考適應(yīng)性考試【甘肅省】歷史試卷及答案解析
- 四年級語文下冊第六單元【集體備課】(教材解讀+教學(xué)設(shè)計(jì))
- 小學(xué)一年級數(shù)學(xué)思維訓(xùn)練100題(附答案)
- 蘇教版小學(xué)信息技術(shù)五年級下冊五年級下冊教案全集
- 蘇教版八年級數(shù)學(xué)上冊期末試卷及答案【完美版】
- 法院拍賣議價(jià)協(xié)議書
- 新能源充電站運(yùn)營手冊
- 2021年人教版八年級物理上冊期末考試卷(完美版)
- TB 10009-2016 鐵路電力牽引供電設(shè)計(jì)規(guī)范
- 2024年東南亞雞蛋分級包裝設(shè)備市場深度研究及預(yù)測報(bào)告
- 2024年蘭州新區(qū)實(shí)正鑫熱電有限公司招聘筆試沖刺題(帶答案解析)
評論
0/150
提交評論