(推薦)連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第1頁
(推薦)連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第2頁
(推薦)連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第3頁
(推薦)連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第4頁
(推薦)連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì)_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1 第5章 連續(xù)性變量的統(tǒng)計(jì)描述與參數(shù)估計(jì) 連續(xù)變量的統(tǒng)計(jì)描述概述 1 統(tǒng)計(jì)描述中的可用工具 (1)各種初步匯總描述方法 頻數(shù)、百分位數(shù)。 (2)各種統(tǒng)計(jì)描述指標(biāo) 均值、標(biāo)準(zhǔn)差、四分位數(shù)間距。 (3)統(tǒng)計(jì)表 (4)統(tǒng)計(jì)圖 2 5.1 連續(xù)變量的統(tǒng)計(jì)描述指標(biāo)體系 年齡 70.065.060.055.050.045.040.035.030.025.0 年齡 Frequency 30 20 10 0 Std. Dev = 10.23 Mean = 42.7 N = 70.00 (1)集中趨勢 (Central Trend): 均數(shù)(Mean) 中位數(shù)(Median) 截尾均數(shù)(Trimmed Mea

2、n) 幾何均數(shù)(Geometric Mean) 眾數(shù)(Mode) 調(diào)和均數(shù)(Harmonic Mean) 3 (4)其他趨勢 單峰雙峰分布、極端值(Outlier)。 (2)離散趨勢(Dispersion Trend) 全距(Range)、標(biāo)準(zhǔn)差(Std. Deviation)和方差(Variance)、百分 位數(shù)(Percentile)、四分位數(shù),四分位間距、變異系數(shù) (3)分布特征(Distribution Tendency) 偏度系數(shù)(Skewness)和峰度系數(shù)(Kurtosis) 4 2集中趨勢的的描述指標(biāo) 1 算術(shù)平均 算術(shù)平均(Arithmetic Mean)是最常用的描述數(shù)據(jù)分

3、布的集中 趨勢的統(tǒng)計(jì)量??傮w均數(shù)(Population Mean)用希臘字母 表示,樣本均數(shù)常用 表示。 一、算術(shù)平均數(shù)的定義和性質(zhì) X XaaXXX XX n X n XXX X ii i i n 2 2 21 0 5 二、均數(shù)的意義二、均數(shù)的意義 任何一個平均數(shù)值首先是同類現(xiàn)象的平均數(shù)。任何一個平均數(shù)總是一 個平衡點(diǎn)。 但平均數(shù)在高度概括觀測數(shù)據(jù)從而使問題簡化的同時,卻丟失了某些 有用的信息,一方面它把各個觀測數(shù)據(jù)之間的差異性掩蓋了起來,另 一方面由于平均數(shù)對于個別極端值反應(yīng)比較靈敏,因而平均數(shù)在某些 情況下可能具有一定的欺騙性。 三、均數(shù)的適用范圍三、均數(shù)的適用范圍 嚴(yán)格的講平均數(shù)指示用

4、于定距變量。但有時對于定序變量,求平均 等級也可以使用平均數(shù)。 6 2 中位數(shù) 中位數(shù)(Median)是將總體各單位的標(biāo)志值按大小順序排列,處于中間 位置的那個標(biāo)志。 一、中位數(shù)的定義 對于未分組的原始資料,首先必須將標(biāo)志值按大小順序。設(shè)排序結(jié)果為: 則中位數(shù)就可以按下列方式確定: 二、中位數(shù)的適用范圍 n XXXX 321 為偶數(shù)時當(dāng) 為奇數(shù)時當(dāng) n2/ n 12/2/ 2/1 nn n XXM XM 7 3其他集中趨勢指標(biāo) 一、截尾均數(shù) 由于均數(shù)較易受極端值的影響,因此可以考慮將數(shù)據(jù)排序后, 按照一定的比例去掉最兩端的數(shù)據(jù),只是用中部的數(shù)據(jù)來求 均數(shù)。如果截尾均數(shù)和原均數(shù)相差不大,則說明數(shù)

5、據(jù)不存在 極端值,或者兩側(cè)極端值的影響正好抵消;反之,則說明數(shù) 據(jù)中有極端值,此時截尾均數(shù)更好地反映數(shù)據(jù)的集中趨勢。 常用的截尾均數(shù)有5%截尾均數(shù),即兩端各去掉5%的數(shù)據(jù)。 8 二、幾何均數(shù)二、幾何均數(shù) 幾何均數(shù)適用于原始數(shù)據(jù)分布不對稱,但經(jīng)過對數(shù)轉(zhuǎn) 換后呈對稱分布的資料。 n X G XXXXG i n n lg lg 1 321 幾何均數(shù)實(shí)際上就是對數(shù)轉(zhuǎn)換后的數(shù)據(jù)lgX的算術(shù)平均數(shù) 的反對數(shù)。 9 四、調(diào)和均數(shù) 它實(shí)際上是觀察值X倒數(shù)之均數(shù)的倒數(shù)。 三、眾數(shù)(Mode) 眾數(shù)指的是樣本數(shù)據(jù)中出現(xiàn)頻次最多的那個數(shù)。 眾數(shù)適用于任何層次的變量,特別適用于單峰對稱的情 況,是比較兩個分布是否接近

6、首先要考慮的參數(shù)。 在SPSS中,眾數(shù)可以在Report子菜單和Tables子菜單的 全部報(bào)表過程和制表過程中計(jì)算出來。 在SPSS中,調(diào)和均數(shù)可以在Report子菜單的4個報(bào)表過 程過程中計(jì)算出來。 x n xxx n n xxx G nn 1111111 1 2121 10 3 離散趨勢的描述指標(biāo) 1全距(Range) 又稱為極差,是一組數(shù)據(jù)中最大值(Maximun)與最小值 (Minimum)之差。 極差反映的是變量分布的差異范圍或離散程度,在總體中, 任何兩個標(biāo)志值之差都不可能超過極差。 極差存在兩點(diǎn)不足: 一是它僅僅取決于兩個極端值的水平,不能反映其間的變量 分布情況,提供的信息太少

7、。 二是它容易受個別極端值的影響,不符合穩(wěn)健型的要求。 minmax XXR 11 2 方差和標(biāo)準(zhǔn)差 一、方差(Variance)和標(biāo)準(zhǔn)差(Standard Deviation)的定義 將離均差平方和(Sum of Squares of Deviation from Mean,SS)除以觀 察例數(shù)N,就得到方差: 方差越大,數(shù)據(jù)分布離散程度越大。 對于樣本數(shù)據(jù)而言,方差的計(jì)算公式為: 將方差開方,就得到標(biāo)準(zhǔn)差。對于同性質(zhì)的數(shù)據(jù)來說,標(biāo)準(zhǔn)差越小,表明 數(shù)據(jù)的變異程度越小,即數(shù)據(jù)越整齊,數(shù)據(jù)的分布范圍越集中;標(biāo)準(zhǔn)差越 大,表明數(shù)據(jù)的變異程度越大,即數(shù)據(jù)越參差不齊,分布越分散。 二、方差和標(biāo)準(zhǔn)差的適

8、用范圍: 方差和標(biāo)準(zhǔn)差的適用范圍應(yīng)當(dāng)是正態(tài)分布。 N XX i 2 2 1 2 2 n XX S i 12 3 百分位數(shù)、四分位數(shù)與四分位數(shù)間距 分位差是對極差指標(biāo)的一種改進(jìn),是從變量數(shù)列中剔除了一部分極 端值后重新計(jì)算的類似于極差的指標(biāo)。常用的分位差有四分位差、 十分位差、百分位差。 一、分位數(shù)一、分位數(shù) 分位數(shù):是一種位置指標(biāo),用PX表示。一個百分位數(shù)PX將一組觀測值 分為兩部分,理論上有x%的觀測值比它小,(100-x)%的觀測值比它 大。 四分位數(shù)(quartile)、十分位數(shù)(decile)、百分位數(shù) (percentile),他們分別是用3個點(diǎn)、9個點(diǎn)、99個點(diǎn)將數(shù)據(jù)4等分、 10

9、等分和100等分后各分位點(diǎn)上的值。 13 二、四分位數(shù)二、四分位數(shù) 四分位數(shù):實(shí)際上是三個數(shù)值的總稱,分別是P25、P50、P75分位數(shù)。 很顯然,中間的分位數(shù)是中位數(shù),因此通常所說的四分位數(shù)是指 第一個四分位數(shù)(下四分位數(shù))和第三個四分位數(shù)(上四分位數(shù))。 上下四分位數(shù)的差值稱為四分位數(shù)間距: QR=Q3-Q1 14 4 變異系數(shù) 當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候,往往直接使用標(biāo) 準(zhǔn)差來進(jìn)行比較并不合適。這可以被分為兩種情況: (1)測量尺度相差太大; (2)數(shù)據(jù)量綱不同。 在以上情形中,就應(yīng)當(dāng)消除測量尺度和量綱的影響,而變異 系數(shù)(Coefficient of Variance),它是

10、標(biāo)準(zhǔn)差和其平均數(shù)的 比率。 X S CV 15 5.2 連續(xù)性變量的參數(shù)估計(jì) 根據(jù)樣本數(shù)據(jù)對總體的客觀規(guī)律性作出合理估計(jì)的過程被稱 為統(tǒng)計(jì)推斷(Statistical Inference),它可以被分為參數(shù)估 計(jì)和假設(shè)檢驗(yàn)兩大類。 1 正態(tài)分布 一、正態(tài)分布的定義 若連續(xù)性隨即變量X的概率分布密度函數(shù)為 則稱隨機(jī)變量X服從正態(tài)分布(Normal Distribution) 2 2 2 2 1 X exf 16 二、正態(tài)分布的特征 (1)正態(tài)分布是一條對稱曲線,關(guān)于均數(shù)對稱,因此均數(shù)被 稱為正態(tài)分布的位置參數(shù)。 (2)曲線是單峰,在均值出達(dá)到最高點(diǎn)。 (3)正態(tài)分布曲線的高矮與標(biāo)準(zhǔn)差有關(guān)。因此標(biāo)

11、準(zhǔn)差被稱為 正態(tài)分布曲線的尺度參數(shù)。 (4)曲線無論向左或向右延伸,都越來越接近橫軸,但不會 與橫軸相交,以橫軸為漸近線。 (5)約68%的個體的取值與平均數(shù)在距離一個標(biāo)準(zhǔn)差之內(nèi)。 (6)約95%的個體取值與平均數(shù)的距離在1.96個標(biāo)準(zhǔn)差之內(nèi)。 (7)99%個體的取值與平均數(shù)的距離在2.58個標(biāo)準(zhǔn)差。 17 三、標(biāo)準(zhǔn)正態(tài)分布(Standard Normal Distribution) 將原來的正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。 X 在SPSS中的Descriptive過程可以將原變量轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布的得分, 只需要選中主對話框左下角的Save standardized values as vari

12、ables 復(fù)選框即可。 18 四、偏度和峰度 (1)偏度(Skewness):偏度是用來描述變量取值分布形 態(tài)的統(tǒng)計(jì)量,指分布不對稱的方向和程度。樣本偏度系數(shù): 3 3 1 / 1 sxx n n i i 分布為對稱分布。 偏右;即長尾巴在左邊,峰尖分布,為負(fù)偏或左偏, 偏左;即長尾巴在右邊,峰尖分布,為正偏或右偏, 0 0 0 偏態(tài)的方向指的應(yīng)當(dāng)是長尾的方向,而不是高峰的位置。 19 (2)峰度(Kurtosis):峰度用來描述變量取值分布形態(tài)陡緩的 統(tǒng)計(jì)量,是指分布圖形的的尖削程度或峰凸程度。樣本的峰 度系數(shù): 3/ 1 4 4 1 SXX n n i i 分布為正態(tài)峰。 峰平坦。即形狀

13、要比正態(tài)分布的 分布為低峰度的, ,峰的形狀也比較尖。即比正態(tài)分布峰要陡峭 分布為高峰度的, 0 0 0 20 2 參數(shù)的點(diǎn)估計(jì) 參數(shù)的點(diǎn)估計(jì)就是選定一個適當(dāng)?shù)臉颖窘y(tǒng)計(jì)量作為參數(shù)的估計(jì)量,并計(jì) 算出估計(jì)值。 對于所選統(tǒng)計(jì)量是否適于作參數(shù)估計(jì)量,有無偏性、一致性和有效性三 個評選標(biāo)準(zhǔn)。 無偏性是指雖然估計(jì)量的值不全等于參數(shù),但應(yīng)在真實(shí)值附近擺動。 一致性是指樣本容量越大,估計(jì)值離真實(shí)值的差異應(yīng)當(dāng)越小。 有效性是指如果兩個統(tǒng)計(jì)量都符合上述要求,則應(yīng)當(dāng)選取誤差更小的一 個作為估計(jì)值。 在許多種情況下,樣本統(tǒng)計(jì)量本身往往就是相應(yīng)的總體參數(shù)的最佳估計(jì), 此時就可以直接取相應(yīng)的樣本統(tǒng)計(jì)量作為總體參數(shù)的點(diǎn)估

14、計(jì)。 一、矩法一、矩法 21 二、極大似然估計(jì)法 該方法的原理是在已知總體的分布,但未知其參數(shù)值時,在 待估參數(shù)的可能取值范圍內(nèi)進(jìn)行搜索,使似然函數(shù)值最大的 那個數(shù)值為極大似然估計(jì)值。 三、穩(wěn)健估計(jì)值 穩(wěn)健估計(jì)值的是該統(tǒng)計(jì)量具有穩(wěn)健性,當(dāng)數(shù)據(jù)存在異常值時 受影響較小,而且對大部分的分布而言都很好。 22 穩(wěn)健估計(jì)有M估計(jì)、R估計(jì)等不同方法。 SPSS中數(shù)出的M估計(jì)量有4種,它們分別是Huber、Andrews、Hampel 和Tukey所提出的,實(shí)際上就是所用的函數(shù)不同。一般而言,Huber適 用于數(shù)據(jù)接近正態(tài)分布的情況,另外三種則適用于數(shù)據(jù)中許多異常值的 情況。如果M估計(jì)量里平均數(shù)和中位數(shù)較

15、遠(yuǎn),則數(shù)據(jù)中可能存在異常值。 此時,應(yīng)該用M估計(jì)量替代平均數(shù)以反映集中趨勢。 23 3 參數(shù)的區(qū)間估計(jì) 一、標(biāo)準(zhǔn)誤 標(biāo)準(zhǔn)誤就是用來描述參數(shù)估計(jì)值可能離真實(shí)值究竟有多遠(yuǎn)的統(tǒng) 計(jì)量。 二、區(qū)間估計(jì)的計(jì)算 結(jié)合樣本統(tǒng)計(jì)量和標(biāo)準(zhǔn)誤可以確定一個具有較大的可信度包含 總體參數(shù)的區(qū)間,該區(qū)間稱為總體參數(shù)的1-a可信區(qū)間或置 信區(qū)間(Confidence Interval)。 對于任意可信度的區(qū)間情況,總體均值在100(1-a)%可信區(qū) 間為: nSuXnSuX 2/2/ 24 的正態(tài)分布。、方差為 值為的抽樣分布近似服從均樣本 通常要求充分大時的隨機(jī)樣本,當(dāng)為 的總體中,抽取容量、方差為從均值 這一定理可以

16、表述為: 中心極限定理。 的。這就是統(tǒng)計(jì)學(xué)上著名總體方差的 ,方差為均值分布的數(shù)學(xué)期望為總體 于正態(tài)分布,其均值的抽樣分布都將趨 樣本從正態(tài)分布不論原來的總體是否服 通常要求的增大隨著樣本容量 n n nn n nn / X),30 ( /1 , ),30( 2 2 25 spss中的相應(yīng)功能 1、Spss的用于連續(xù)變量統(tǒng)計(jì)描述的過程,均集中在Descriptive Statistics子菜單中。 (1)Frequencies:產(chǎn)生原始數(shù)據(jù)的頻數(shù)表,并能計(jì)算各種百分位數(shù)。 26 控制頻數(shù) 表輸出范 圍類型的 最大數(shù)目 27 (2)Descriptive過程 該過程用于一般性的統(tǒng)計(jì)描述,相對于F

17、requencies過程而 言,它不能繪制統(tǒng)計(jì)圖。 28 (3)Explore 過程 該過程用于對連續(xù)性資料分布狀況不清楚時的探索性分析, 它可以計(jì)算許多描述統(tǒng)計(jì)量,給出各種統(tǒng)計(jì)圖,并進(jìn)行簡單 的參數(shù)估計(jì)。 29 30 (4)Ratio 過程 用于對兩個連續(xù)性變量計(jì)算相對比指標(biāo)。 31 32 5.3 連續(xù)變量統(tǒng)計(jì)描述實(shí)例 CCSS中的消費(fèi)者信心總指數(shù)index1,現(xiàn)狀指數(shù) index1a,預(yù)期指數(shù)index1b進(jìn)行統(tǒng)計(jì)描述,并計(jì)算 95%個體參考值范圍。 1 使用頻數(shù)過程進(jìn)行分析 2 使用描述過程進(jìn)行分析 33 一、Descriptive過程的結(jié)果 二、Frequencies過程的結(jié)果 34

18、3 使用Explore過程進(jìn)行分析 探索分析是對數(shù)據(jù)進(jìn)行初步的觀察分析,主要的分析項(xiàng)目有: 觀察數(shù)據(jù)的分布特征:可通過繪制箱圖和莖葉圖等圖形直觀 地反映數(shù)據(jù)的分布形式和數(shù)據(jù)的一些規(guī)律性,包括考察數(shù)據(jù) 中是否存在異常值等。 正態(tài)分布檢驗(yàn):檢驗(yàn)數(shù)據(jù)是否服從正態(tài)分布。 方差齊性的檢驗(yàn):用Levene檢驗(yàn)比較各組的方差是否相等。 35 1、單擊Analyze-Descriptive statistics-Explore,打開Explore主對話框: 一、分析操作一、分析操作 (3)在Display欄中選擇輸出項(xiàng),依次是Both選擇項(xiàng),輸出圖形與 描述統(tǒng)計(jì)量(系統(tǒng)默認(rèn)),只輸出描述統(tǒng)計(jì)量和只輸出圖形。本

19、例 中選擇默認(rèn)項(xiàng)。 (1)從左側(cè)的變量列表中選出變量,送入Dependent List欄。 (2)選擇” ”作為因子變量,送入Factor List欄。有了因子變量, SPSS會把所有的觀測個體按照因子變量的取值分成若干各組,再分組考 察Dependent List中的各個變量,如果不選擇因子變量,SPSS會對全部 觀測來做探索分析。 36 2、單擊Statistics統(tǒng)計(jì)量按鈕,打開Statistics對話框,選擇統(tǒng)計(jì)輸出量。 (1)Descriptives基本統(tǒng)計(jì) 描述。同時指定均值的置信 區(qū)間的置信度,系統(tǒng)默認(rèn)為 95。 (2)M-估計(jì)(M估計(jì)在計(jì)算時對所有觀測量賦予權(quán)重,隨觀測 量距分布中心的遠(yuǎn)近而變化)。 (3)Outliers輸出分析數(shù)據(jù)中五個最大值和五個最小值。 (4)Percentiles輸出百分?jǐn)?shù)。 37 3、單擊Plots 圖形按鈕,打開Plots對話框。 (1)Boxplot 箱圖選擇欄 Factor levels together因變量 按因素水平分組(系統(tǒng)默認(rèn)); Dependents together 所有因變 量生成一個并列箱圖(本例中選 擇項(xiàng));None不顯示箱圖。 (2)Descriptive 描述圖形欄 Stem-and-leaf 莖葉圖 Histogram 直方圖 (

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論