SPSS基礎第2部分學習資料_第1頁
SPSS基礎第2部分學習資料_第2頁
SPSS基礎第2部分學習資料_第3頁
SPSS基礎第2部分學習資料_第4頁
SPSS基礎第2部分學習資料_第5頁
已閱讀5頁,還剩160頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第4章連續(xù)性變量的統(tǒng)計描述與參數估計4.1連續(xù)變量的統(tǒng)計描述概述4.1.1統(tǒng)計描述中的可用工具(1)各種初步匯總描述方法頻數、百分位數。(2)各種統(tǒng)計描述指標均值、標準差、四分位數間距。(3)統(tǒng)計表(4)統(tǒng)計圖4.1.2連續(xù)變量的統(tǒng)計描述指標體系(1)集中趨勢(CentralTrend):均數(Mean)中位數(Median)眾數(Mode)總合(Sum)(4)其他趨勢百分位數指標(Percentile)、M統(tǒng)計量(M-Estimators)、極端值(Outlier)。(2)離散趨勢(DispersionTrend)標準差(Std.Deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、標準誤(S.E.Mean)(3)分布特征(DistributionTendency)偏度系數(Skewness)和峰度系數(Kurtosis)4.1.3spss中的相應功能1、Spss的用于連續(xù)變量統(tǒng)計描述的過程,均集中在DescriptiveStatistics子菜單中。(1)Frequencies:產生原始數據的頻數表,并能計算各種百分位數??刂祁l數表輸出范圍類型的最大數目(2)Descriptive過程該過程用于一般性的統(tǒng)計描述,相對于Frequencies過程而言,它不能繪制統(tǒng)計圖。(3)Explore過程該過程用于對連續(xù)性資料分布狀況不清楚時的探索性分析,它可以計算許多描述統(tǒng)計量,給出各種統(tǒng)計圖,并進行簡單的參數估計。(4)Ratio過程用于對兩個連續(xù)性變量計算相對比指標。2、Comparesmeans均值比較means過程:means過程的優(yōu)勢在于各組的描述指標被放在一起便于相互比較,并且如果需要,可以直接輸出結果,無須再次調用其它過程。4.2集中趨勢的的描述指標4.2.1算術平均算術平均(ArithmeticMean)是最常用的描述輸送距分布的集中趨勢的統(tǒng)計良??傮w均數(PopulationMean)用希臘字母表示,樣本均數常用表示。一、算術平均數的定義和性質二、均數的意義任何一個平均數值首先是同類現象的平均數。任何一個平均數總是一個平衡點。但平均數在高度概括觀測數據從而使問題簡化的同時,卻丟失了某些有用的信息,一方面它把各個觀測數據之間的差異性掩蓋了起來,另一方面由于平均數對于個別極端值反應比較靈敏,因而平均數在某些情況下可能具有一定的欺騙性。三、均數的適用范圍嚴格的講平均數指示用于定距變量。但有時對于定序變量,求平均等級也可以使用平均數。4.2.2中位數中位數(Median)是將總體各單位的標志值按大小順序排列,處于中間位置的那個標志。一、中位數的定義對于未分組的原始資料,首先必須將標志值按大小順序。設排序結果為:則中位數就可以按下列方式確定:二、中位數的適用范圍4.2.3其他集中趨勢指標一、截尾均數由于均數較易受極端之的影響,因此可以考慮將數據排序后,按照一定的比例去掉最兩端的數據,只是用中部的數據來求均數。如果截尾均數河源均數相差不大,則說明數據不存在極端值,或者兩側極端值的影響正好抵消;反之,則說明數據中有極端值,此時截為均數更好地反映數據的集中趨勢。常用的截尾均數有5%截尾均數,即兩端各去掉5%的數據。二、幾何均數幾何均數適用于原始數據分布不對稱,但經過對數轉換后稱對稱分布的資料。幾何均數世紀上就是對數轉換后的數據lgX的算術平均數的反對數。四、調和均數它實際上是觀察值X倒數之均數的倒數。三、眾數(Mode)眾數指的是樣本數據中出現頻次最多的那個數。眾數適用于任何層次的變量,特別適用于單峰對稱的情況,是比較兩個分布是否接近首先要考慮的參數。在SPSS中,眾數可以在Report子菜單和Tables子菜單的全部報表過程和制表過程中計算出來。在SPSS中,調和均數可以在Report子菜單的4個報表過程過程中計算出來。4.3離散趨勢的描述指標4.3.1全距(Range)又稱為極差,是一組數據中最大值(Maximun)與最小值(Minimum)之差。極差反映的是變量分布的差異范圍或離散程度,在總體中,任何兩個標志值之差都不可能超過極差。極差存在兩點不足:一是它僅僅取決于兩個極端之的水平,不能反映其間的變量分布情況,提供的信息太少。二是它容易受個別極端值的影響,不符合穩(wěn)健型的要求。4.3.2方差和標準差一、方差(Variance)和標準差(StandardDeviation)的定義將離均差平方和(SumofSquaresofDeviationfromMean,SS)除以觀察例數N,就得到方差:方差越大,數據分布離散程度越大。對于樣本數據而言,方差的計算公式為:將方差開方,就得到標準差。對于同性質的數據來說,標準差越小,表明數據的變異程度越小,即數據越整齊,數據的分布范圍越集中;標準差越大,表明數據的變異程度越大,即數據越參差不齊,分布越分散。二、方差和標準差的適用范圍:方差和標準差的適用范圍應當是正態(tài)分布。4.3.3百分位數、四分位數與四分位數間距分位差是對極差指標的一種改進,是從變量數列中剔除了一部分極端值后重新計算的類似于極差的指標。常用的分位差有四分位差、十分位差、百分位差。一、分位數分位數:是一種位置指標,用PX表示。一個百分位數PX將一組觀測之分為兩部分,理論上有x%的觀測值比它小,(100-x)%的觀測值比它大。四分位數(quartile)、十分位數(decile)、百分位數(percentile),他們分別是用3個點、9個點、99個點將數據4等分、10等分和100等分后各分位點上的值。二、四分位數四分位數:實際上是三個數值的總稱,分別是P25、P50、P75分位數。很顯然,中間的分位數是中位數,因此通常所說的四分位數是指第一個四分位數(下四分位數)和第三個四分位數(上四分位數)。上下四分位數的差值稱為四分位數間距:QR=Q3-Q14.3.4變異系數當需要比較兩組數據離散程度大小的時候,往往直接使用標準差來進行比較并不合適。這可以被分為兩種情況:(1)測量尺度相差太大;(2)數據量綱不同。在以上情形中,就應當消除測量尺度和量綱的影響,而變異系數(CoefficientofVariance),它是標準差和其平均數的比率。4.4連續(xù)變量統(tǒng)計描述實例4.4.1數據背景介紹4.4.2使用Explore過程進行分析探索分析是對數據進行初步的觀察分析,主要的分析項目有:觀察數據的分布特征:可通過繪制箱圖和莖葉圖等圖形直觀地反映數據的分布形式和數據的一些規(guī)律性,包括考察數據中是否存在異常值等。正態(tài)分布檢驗:檢驗數據是否服從正態(tài)分布。方差齊性的檢驗:用Levene檢驗比較各組的方差是否相等。1、單擊Analyze->Descriptivestatistics->Explore,打開Explore主對話框:一、分析操作(3)在Display欄中選擇輸出項,依次是Both選擇項,輸出圖形與描述統(tǒng)計量(系統(tǒng)默認),只輸出描述統(tǒng)計量和只輸出圖形。本例中選擇默認項。(1)從左側的變量列表中選出變量”身高”,送入DependentList欄。(2)選擇”性別”作為因子變量,送入FactorList欄。有了因子變量,SPSS會把所有的觀測個體按照因子變量的取值分成若干各組,再分組考察DependentList中的各個變量,如果不選擇因子變量,SPSS會對全部觀測來做探索分析。2、單擊Statistics統(tǒng)計量按鈕,打開Statistics對話框,選擇統(tǒng)計輸出量。(1)Descriptives基本統(tǒng)計描述。同時指定均值的置信區(qū)間的置信度,系統(tǒng)默認為95%。(2)M-估計(M估計在計算時對所有觀測量賦予權重,隨觀測量距分布中心的遠近而變化)。(3)Outliers輸出分析數據中五個最大值和五個最小值。(4)Percentiles輸出百分數。3、單擊Plots圖形按鈕,打開Plots對話框。(1)Boxplot箱圖選擇欄Factorlevelstogether因變量按因素水平分組(系統(tǒng)默認);Dependentstogether所有因變量生成一個并列箱圖(本例中選擇項);None不顯示箱圖。(2)Descriptive描述圖形欄Stem-and-leaf莖葉圖Histogram直方圖(3)Normalityplotswithtest(復選項),正態(tài)分布檢驗并輸出Q-Q圖。None:不產生回歸直線的斜率和方差齊性檢驗;PowerEstimation轉換冪值估計(對每組數據產生一個中位數自然對數及四個分位數的自然對數的散點圖)選項;Transformed變換原始數據選擇項;Untransformed不變換變換原始數據選擇項。(4)SpreadvslevelwithLeveneTest欄,對所有的散布—層次圖,同時輸出回歸直線的斜率以及方差齊性的Levene

s檢驗。4、單擊Option按紐,打開Option對話框如圖所示??蛇x擇缺失值的處理方式,SPSS提供三種處理方式:(1)Excludecaseslistwies剔除帶缺失值的觀測量(系統(tǒng)默認)。(2)Excludecasespairwise剔除帶缺失值的觀測量時還一并剔除與缺失值有成對關系的觀測量。(3)Reportvalues輸出頻數表時同時輸出缺失值。5、單擊OK,得到相應的輸出結果如表所示。二、基本的分析結果三、輸出百分位數和極端值列表身高Stem-and-LeafPlotforsex=男

FrequencyStem&Leaf1.0015.9.0016.9.0016.55577899920.0017.0000000001111233444424.0017.55555555555667777778888912.0018.0000001222343.0018.668Stemwidth:10Eachleaf:1case(s)箱圖中,最底部的水平線段是數據的最小值(奇異點除外),頂部的水平線段是數據的最大值(奇異點除外),中間矩形箱子的底所在位置是數據的第一個四分位數(即25%分位數),箱子頂部所在位置是數據的第三個四分位數據(即75%分位數)。箱子中間的水平線段刻畫的是數據的中位數(即50%分位數)。4.4.3使用其他過程過程進行分析一、Descriptive過程的結果二、Frequencies過程的結果4.5連續(xù)性變量的參數估計根據樣本數據對總體的客觀規(guī)律性作出合理估計的過程被稱為統(tǒng)計推斷(StatisticalInference),它可以被分為參數估計和假設檢驗兩大類。4.5.1正態(tài)分布一、正態(tài)分布的定義若連續(xù)性隨即變量X的概率分布密度函數為則稱隨機變量X服從正態(tài)分布(NormalDistribution)二、正態(tài)分布的特征(1)正態(tài)分布是一條對稱曲線,關于均數對稱,因此均數被稱為正態(tài)分布的位置參數。(2)曲線是單峰,在均值出達到最高點。(3)正態(tài)分布曲線的尖削與標準差有關。因此標準差被稱為正態(tài)分布曲線的尺度參數。(4)曲線無論向左或向右延伸,都越來越接近橫軸,但不會與橫軸相交,以橫軸為漸近線。(5)約68%的個體的取值與平均數在距離一個標準差之內。(6)約95%的個體取值與平均數的距離在1.96個標準差之內。(7)99%個體的取值與平均數的距離在2.58個標準差。三、標準正態(tài)分布(StandardNormalDistribution)將原來的正態(tài)分布轉換為標準正態(tài)分布。在SPSS中的Descriptive過程可以將原變量轉換為標準正態(tài)分布的得分,只需要選中主對話框左下角的Savestandardizedvaluesasvariables復選框即可。四、偏度和峰度(1)偏度(Skewness):偏度是用來描述變量取值分布形態(tài)的統(tǒng)計量,只分布不對稱的方向和程度。樣本偏度系數:偏態(tài)的方向指的應當是長尾的方向,而不是高峰的位置。(2)峰度(Kurtosis):峰度用來描述變量取值分布形態(tài)陡緩的統(tǒng)計量,是指分布圖形的的尖削程度或峰凸程度。樣本的峰度系數:4.5.2參數的點估計參數的點估計就是選定一個適當的樣本統(tǒng)計量作為參數的估計量,并計算出估計值。對于所選統(tǒng)計量是否適于作參數估計量,有無偏性、一致性和有效性三個評選標準。無偏性是指雖然估計量的值不全等于參數,但應在真實值附近擺動。一致性是指樣本容量越大,估計值離真實值的差異應當越小。有效性是指如果兩個統(tǒng)計量都符合上述要求,則應當選取誤差更小的一個作為估計值。在許多種情況下,樣本統(tǒng)計量本身往往就是相應的總體參數的最佳估計,此時就可以直接取相應的樣本統(tǒng)計量作為總體參數的點估計。一、矩法二、極大似然估計法該方法的原理是在已知總體的分布,但未知其參數值時,在待估參數的可能取值范圍內進行搜索,使似然函數值最大的那個數值為極大似然估計值。三、穩(wěn)健估計值穩(wěn)健估計值的是該統(tǒng)計量具有穩(wěn)健性,當數據存在異常值時受影響較小,而且對大部分的分布而言都很好。文件估計有M估計、R估計等不同方法。SPSS中數出的M估計量有4種,它們分別是Huber、Andrews、Hampel和Tukey所提出的,實際上就是所用的函數不同。一般而言,Huber適用于數據接近正態(tài)分布的情況,另外三種則適用于數據中許多異常值的情況。如果M估計量里平均數和中位數較遠,則數據中可能存在異常值。此時,應該用M估計量替代平均數以反映集中趨勢。。4.5.3參數的區(qū)間估計一、標準誤標準誤就是用來描述參數估計值可能離真實值究竟有多遠的統(tǒng)計量。二、區(qū)間估計的計算結合樣本統(tǒng)計量和標準誤可以確定一個具有較大的可信度包含總體參數的區(qū)間,該區(qū)間稱為總體參數的1-a可信區(qū)間或置信區(qū)間(ConfidenceInterval)。對于任意可信度的區(qū)間情況,總體均值在100(1-a)%可信區(qū)間為:第5章分類變量的統(tǒng)計描述與參數估計5.1分類變量的統(tǒng)計描述概述5.1.1分類變量的統(tǒng)計描述指標體系一、頻數分布情況描述各個類別的樣本數和所占比例分別稱為頻數(絕對頻數)和百分比(構成比)。累計頻數是指本類別及較低類別出現的次數之和,累計百分比則是指本類別及較低類別出現的次數之和占總次數的百分比。根據類別的有序性,分類變量可以分為有序分類變量(OrdinalVariable)和無序分類變量(NominalVariable)。當集中趨勢顯著時,用眾數(Mode)作為總體的代表值。二、集中趨勢的描述所謂眾數,使之出現次數最多的那個數。如果只有一個眾數稱為單眾數,多于一個的稱為復眾數。(1)比(Ratio):比指的是兩個有關指標之比A/B,用于反映兩個指標在數量/頻數上的大小關系。三、使用相對數進行深入描述(2)構成比(Proportion)率是一個時間概念,或者說具有速度、強度含義的指標,用于說明某個時間發(fā)生的頻率或強度。分觀察對象為K部分(A1、A2、……Ak),其中某一個/多個部分的例數占總例的比例未構成比,它描述某個事物內部各構成部分所占的比重。(3)率(Rate)5.1.2分類變量的聯合描述當一共有兩個分類變量時,這匯總因分類變量的各類別交叉而成的復合頻數表被稱為行*列表,也稱列聯表。當觀察的現象與兩個因素有關時,如某種服裝的銷量受價格和居民收入影響;某種產品的生產成本受原材料價格和產量的影響等等,交叉列聯表分析可以比較好的反映出兩個因素之間有無關聯性,兩因素與現象之間的相關關系。因此,數據交叉列聯表分析主要包括兩個基本任務:1、根據收集的樣本數據,產生二維或多維交叉列聯表;2、在交叉列聯表的基礎上,對兩兩變量間是否存在關聯性進行檢驗。5.2分類變量的統(tǒng)計描述實例5.2.1使用Frequencies過程輸出頻數表具體操作:AnalysisDescriptiveStatisticsFrequencies1、打開數據,單擊Analyze

DescriptiveStatistics

Crosstabs對話框。2、如果是二維列聯表分析,可以將行變量選擇進入Row(s)中,將列變量選擇進入Column(s)框中。如進行三維以上的列聯表,可以將其它變量作為控制變量選到Layer框中。多控制變量可以是同層次的也可以是逐層疊加的。5.2.2使用Crosstabs過程輸出列聯表3、Displayclusteredbarchart選擇項,可以指定繪制各變量交叉頻數分布柱形圖。Suppresstable表示不輸出列聯表,只有在分析行列變量間關系時選擇此項。此例中不選擇這一項。4、單擊Cell按紐,打開Crosstabs:CellDisplay對話框,如圖所示。從對話框中指定列聯表單元格中的輸出內容。在Counts框中選擇Observed觀察值(系統(tǒng)默認)或Expected期望頻數。在Percentages框內選擇Row行百分比、Column列百分比及Total總百分比。在Residuals框中選擇輸出殘差。其中Standardize為標準化殘差。Adj.standardize為修正的標準化殘差。5.3多選題的統(tǒng)計描述5.3.1多選題的描述指標體系在多選題分析中比較特別的描述指標有:(1)應答人數:是指選擇了本項人數。(2)應答人數百分比(PercentofCases):選擇該項的人占總人數的比例。(3)應答人次:選擇本選項的人次。(4)應答次數百分比(PercentofResponses):在作出的選擇中,選擇該項的人數占總次數的比例。5.3.2分析實例操作步驟:AnalyzeMultipleResponseFrequencies1、DefineSets過程該過程指定變量組成一個多重響應或多重兩分數集,并應用于頻數表和交叉列表。2、Frequencies過程該過程對定義的多重響應或多重兩分數提供一個頻數表。3、Crosstabs過程該過程提供帶有另一種變量的,已定義的多重或多重兩分數據集交叉表。5.4分類變量的參數估計5.4.1二項分布的參數估計一、二項分布二項分布又稱為貝努里(Bernoulli)分布,是一種具有廣泛應用的離散型隨機變量的概率分布。二項分布研究的是試驗僅有兩種結果的分布(這種試驗稱為貝努里試驗),如某產品質量合格與不合格等。其定義為:設有n次試驗,各次試驗是相互獨立的,每次試驗某事件出現的概率都是p,某事件不出現的概率都是1-p,記為q,則對于某事件出現k(k=0,1,2,?,n)次的概率分布為:二、二項分布檢驗(BinomialTest)當研究對象屬于二項總體時,可以用二項分布來檢驗假設,判斷所抽取的樣本是否來自具有既定值的總體。其檢驗步驟如下:1、提出假設2、計算統(tǒng)計量值和p值3、根據p值作出統(tǒng)計判斷。[例]擲一枚球類比賽用的挑邊器40次,出現A面和B面在上的次數。如表所示,試問這枚挑邊器是否均勻?解:(1)在SPSS中輸入表中的數據(變量名為Y)。選擇主菜單的[Analyze]=>[NonparametricTests]=>[BinomialTest]。(2)顯示如圖所示的[BinomialTest(二項檢驗)]主對話框,把Y選入[TestVariable],其它選項采用默認值。(3)單擊主對話框中的[OK]按鈕,輸出結果如下:從結果可以看出,p=0.017<α=0.05,認為該挑邊器不是均勻的。第6章數據報表的呈現6.1spss報表概述6.1.1spss中的報表功能1、base模塊2、original模塊3、CustomTables模塊6.1.2報表的基本繪制步驟6.2表格入門6.2.1表格基本框架行(Row)指的是形成表格的橫行元素;列(Column)指的是形成表格縱列的元素;行、列元素相交就會形成一個最簡單的二維表,行、列元素不同取值的組合就確定了一個單元格(Cell)。層(Layer)指的是表格中的第三個維度。6.2.3單元格的數據類型1、分類變量.包括了名義型和有序尺度兩大類。2、連續(xù)變量包括間距尺度和比率尺度兩大類。(1)集中趨勢指標:均數、中位數、眾數、最大值、最小值。(2)離散趨勢指標:全距、標準誤、標準差、方差。(3)百分位數:第5、25、75、95、99百分位數其任一指定的百分位數。(4)百分比:按相應合計方向當前變量的行、列、層、表格合計百分比。(5)其他:例數、有效例數、綜合等。3、匯總項6.2.4集中基本表格類型1、疊加表(Stacking)疊加表指的是在同一張表格中對兩個變量進行描述,或者說表格中有一個維度的元素是由兩個以上的變量構成。2、交叉表(Crosstabulation)它的兩個維度都是由兩個分類變量的各類別構成。3、嵌套表(Nesting)兩個變量被放置在同一個表格維度中,即該維度是由兩個變量的各種類別組合而成。4、多層表(Layers)如果制定了層元素,表格就由二維擴展到三維,即多層表。5、復合表格6.3用OriginalTables模塊制表6.3.1功能簡介(1)MultipleResponseSets(2)BasicTables(3)GeneralTables(4)MultipleResponseTables(5)TablesofFrequencies6.3.2BasicTables過程例2:請將數據文件Cars.sav中的汽車數據分為不同的產地和氣缸數計算其引擎功率、引擎重量的頻數和均數,用適當的報表形式給出,并要求給出類別合計。1、表格框架的設定2、統(tǒng)計量的添加與格式的設置3、添加匯總項4、空單元格的設置5、添加標題與說明文字6、標簽排列格式的調整7、最終完成表格繪制6.3.3GeneralTables過程1、表格框架的設定2、添加匯總項6.4用CustomTables模塊自由制作6.4.1操作主界面6.4.2簡單實例分析1、表格框架的繪制:選中左側列表中變量的圖標,按下左鍵不放,移動鼠標,此時鼠標攜帶著變量圖標一起移動。將其拖入畫布內,當鼠標接近行/列邊框時,相應地邊框會變紅,表明該變量已經找到位置。2、連續(xù)變量統(tǒng)計量的設置(1)選中畫布上的Horsepower圖標,此時界面左下方Define框組中的SummaryStatistics浮動鈕已經可以用,單擊該鈕后即彈出連續(xù)變量匯總統(tǒng)計量設定的對話框圖。(2)如果計算某一個統(tǒng)計量,使用連接兩框的統(tǒng)計按鈕將其移入右側。例如如果希望先計算頻數,則在用最右側的上下移動鈕將其移動到均數上方即可。3、分類變量匯總項的設置選擇分類變量Cylinder,則Define框組中的該浮動按鈕可用,單擊后彈出如下界面:TotalsandSubtotalsAppear框組:用于設定匯總和子項匯總的標簽是在左上部顯示還是在右下部顯示。Show框組:用于設定某項是否顯示,Ttotal選項用于要求計算匯總欄,Missing選項要求將用戶定義的的缺失值按缺失值處理方式處理,該選擇不影響系統(tǒng)缺失。Empty選項用于控制是否在表格中輸出無案例的類別。而最右側的Other選項則控制是否顯示未提供值標簽的類別。Exclude框:用于指定部顯示某些類別。Display框組:直觀的顯示該分類變量各類的顯示方式、順序、匯總等。4、顯示標簽的調整將表格畫布切換為正常視圖,然后在Cylingder的變量名標簽出單擊右鍵,則彈出相應的右鍵菜單。6.4.3其他選項卡功能1、TestStatistics功能2、Titles選項卡3、Options選項卡6.5表格的編輯6.5.1基本編輯操作1、兩種不同的編輯窗口(1)嵌套窗口編輯模式選中相應表格使用右鍵菜單上的SPSSPivottableObjectEdit,或者雙擊鼠標左鍵。(2)單獨窗口編輯模式選中相應表格使用右鍵菜單上的SPSSPivottableObjectOpe。,2、表格元素的選擇方式3、單元格內容編輯6.5.2主要編輯菜單功能介紹1、Edit菜單2、format菜單對單元格的字體、陰影、顏色等屬性修改對表格進行各個選項的精細設置對單元格的字體、陰影、顏色等屬性修改對表格進行各個選項的精細設置選用新的表格模版表格的行、列自動按內容多少調整為最小。將列標題縱向顯示3、View菜單和Insert菜單4、Pivot菜單6.5.3表格屬性的詳細設置單擊菜單Format到TableProperties即可彈出表格屬性對話框。(1)general選項卡(2)Footnotes選項卡(3)CellFormats選項卡(4)Borders選項卡6.6參數估計6.6.1參數估計的一般問題一、估計量與估計值所謂參數估計(Parameterestimation)就是用樣本統(tǒng)計量去估計總體的參數。如果我們將總體參數籠統(tǒng)地用一個符號來表示,參數估計也就是如何用樣本統(tǒng)計量來估計總體參數。用于估計的樣本統(tǒng)計量用符號表示,我們把稱為統(tǒng)計量(estimator)。估計值(estimatedvalue)就是用來估計總體參數時計算出來的估計量的具體數值。二、點估計與區(qū)間估計參數的估計方法有點估計(pointestimate)和區(qū)間估計(intervalestimate)兩種。(一)點估計所謂點估計就是由樣本x1,x2,…xn確定一個統(tǒng)計量

用它來估計總體的未知參數,稱為總體參數的估計量。當具體的樣本抽出后,可求出樣本統(tǒng)計量的值。用它作為總體參數的估計值,稱作總體參數的點估計。

某連續(xù)生產線上生產的燈泡的使用壽命X服從正態(tài)分布N(μ,δ2),其中μ和δ2是未知總體參數。從中隨機抽取5只燈泡,測得使用壽命分別為1529小時、1513小時、1600小時、1527小時、1111小時。試估計μ和δ2。從總體中抽取一個樣本,構造適當的統(tǒng)計量,來估計對應的總體參數。評價點估計量優(yōu)劣的標準:1、無偏性(unbiasedness)無偏性是指估計量的抽樣分布的數學期望等于被估計的總體參數。參數θ不等于抽樣分布的均值(有偏估計量)參數θ等于抽樣分布的均值(無偏估計量)偏差2、有效性(Efficiency)參數的抽樣分布的抽樣分布

自正態(tài)總體抽樣時,總體均值與總體中位數相同,而中位數的標準誤差大約比均值的標準誤差大25%。因此,樣本均值更有效。的抽樣分布的抽樣分布3、一致性(consistency)兩個不同容量樣本的點估計量的抽樣分布(二)區(qū)間估計的樣本使得置信度1-α區(qū)間估計是在點估計的基礎上,給出總體參數估計的一個區(qū)間范圍,該區(qū)間通常是由樣本統(tǒng)計量加減抽樣誤差得到的。6.6.2一個總體參數的區(qū)間估計(一)總體方差已知時總體均值的區(qū)間估計一、總體均值的區(qū)間估計當總體服從正態(tài)分布且方差已知時,或者總體不是正態(tài)分布但大樣本時,樣本均值的抽樣分布均為正態(tài)分布,期數學期望為總體均值,方差為。而樣本均值經過標準化以后的隨機變量則服從標準正態(tài)分布。顯著性水平置信度顯著性水平α下,μ在1-α置信水平下的置信區(qū)間:例題:一批零件的長度服從正態(tài)分布,從中隨機抽取9件,測得其平均長度為21.4毫米。已知該批零件長度的標準差為0.15毫米,試以95%的把握程度,估計該批零件平均長度的存在區(qū)間。例題:某大學從該校學生中隨機抽取100人,調查到他們平均每天參加體育鍛煉為26分鐘。試以95%的置信水平估計該大學全體學生平均每天參加體育鍛煉的時間(已知總體方差為36)。例題:一家保險公司收集到36個投保人組成的隨機樣本,得到每個投保人的年齡如表:233539273644364246433133425345544724342839364440394938344850343945484532試建立投保人年齡的90%置信區(qū)間。(二)總體方差未知時總體均值的區(qū)間估計如果總體服從正態(tài)分布,則無論樣本容量如何,樣本均值的抽樣分布都服從正態(tài)分布。這時,只要總體方差已知,即使在小樣本的情況下,也可以建立總體均值的置信區(qū)間。但是,如果總體方差未知,而且是在小樣本的情況下,則需要用樣本方差替代總體方差,這時樣本均值經過標準化以后的隨機變量則服從自由度為(n-1)的t分布。-3-2-101230.00.10.20.30.4標準正態(tài)分布自由度為20的t-分布自由度為10的t-分布顯著性水平α下,μ的1-α置信區(qū)間:例題:已知某燈泡的壽命副總正態(tài)分布,現從一批燈泡中隨機抽取16只,測得其壽命如下:1510145014801460152014801490146014801510153014701500152015101470試建立該批燈泡使用壽命95%的置信區(qū)間。是否為大樣本n≥30σ值是否已知σ值是否已知總體是否近似正態(tài)分布用樣本標準差s估計δ用樣本標準差s估計δ將樣本容量增加到n≥30以便進行區(qū)間估計是是是是否否否否總體均值區(qū)間估計程序二、總體比例的區(qū)間估計顯著性水平α下,P在1-α置信水平下的置信區(qū)間:

某企業(yè)在一項關于職工流動原因的研究中,從企業(yè)前職工的總體中隨機抽選了200人組成一個樣本。在對其進行訪問時,有140說他們離開該企業(yè)是由于同管理人員不能融洽相處。試對由于這種原因而離開企業(yè)的人員的真正比率構造95%的置信區(qū)間。三、總體方差的區(qū)間估計自由度為50自由度為2自由度為10顯著性水平α下,σ2的置信區(qū)間0=2.7044=19.02280.0250.025自由度為9的χ2分布

對某種金屬的10個樣品所組成的一個隨機樣本作抗拉強度試驗。從試驗數據算出的方差為4,試求σ2的95%值信區(qū)間。四、樣本容量的確定允許誤差(permissible)

用歷史數據代替。若有若干個歷史數據,應以較大者代替。

一家廣告公司想估計某類商店去年所花的平均廣告費有多少。經驗表明,總體方差為1800000。如置信度取95%,并要使估計值處在總體平均值附近500元的范圍內,這家廣告公司應取多大的樣本?

一家市場調研公司想估計某地區(qū)有彩色電視機的家庭所占的比率。該公司希望對P的估計誤差不超過0.05,要求可靠程度為95%,應取多大容量的樣本?總體方差最大值為0.5×0.5=0.25關鍵術語無放回抽樣(samplingwithoutreplacement)一個元素一旦選入樣本,就從總體中剔除,不能再次被選入放回抽抽樣(samplingwithreplacement)一個元素一旦被選入樣本,仍被放回總體中。先前被選入的元素可能再次被抽到,并且在本樣中可能出現多次抽樣分布(samplingdistribution)樣本統(tǒng)計量所有可能值構成的概率分布點估計(pointestimate)用做總體參數估計量的值。它是點估計量的具體的取值點估計量(pointestimator)提供總體參數點估計的樣本統(tǒng)計量標準誤差(standarderror)點估計量的標準差中心極限定理(centrallimittheorem)當樣本容量大的時候,用正態(tài)分布近似樣本均值的分布和樣本比率的抽樣分布區(qū)間估計(intervalestimate)總體參數估計值的一個范圍,確信該范圍包括參數的值在內抽樣誤差(sampleerror)無偏估計值(如樣本均值)與所估計的總體值(如總體均值)之差的絕對值置信水平(confidencelevel)與區(qū)間估計相聯系的置信度邊際誤差(marginerror)置信區(qū)間中從點估計值中所加上或減去的值t分布(tdistribution)概率分布的一族,當總體是正態(tài)或者近似正態(tài)概率分布,并且總體標準差未知情況下,對總體均值進行區(qū)間估計時常用到該分布自由度(degreesoffreedom)t分布的參數,計算總體均值的區(qū)間估計中所用的t分布的自由度為n-1,其中n是簡單單隨機樣本的樣本容量第十章統(tǒng)計繪圖@文彤老師SPSS提供的統(tǒng)計繪圖功能SPSS統(tǒng)計圖的三種版本12.0版以前的統(tǒng)計圖系統(tǒng)、8.0版之后新增的交互圖系統(tǒng),以及目前采用的統(tǒng)計圖系統(tǒng)。統(tǒng)計圖的三種對話框操作方式可視化的圖形生成器。圖形的可視化模版:是一個類似于繪圖向導的可視化界面,很多操作細節(jié)非常類似與交互圖。繼承自老版本的傳統(tǒng)對話框:注意有些特殊圖形只能用該界面生成2025年3月19日@文彤老師1302025年3月19日@文彤老師131132標題文本區(qū)數據區(qū)(內框區(qū))圖例區(qū)外框區(qū)自由靈活的圖形框架外框區(qū)和內框區(qū)選中后出現控制框,利用鼠標可進行框區(qū)大小的改變和位置的移動改變外框區(qū)大小時將對稱的改變除文本外所有圖形元素的大小在改變大小時圖形長寬比例不再固定,完全做到了隨心所欲2025年3月19日@文彤老師133自由靈活的圖形框架其余各區(qū)域區(qū)域的相對位置完全自由,可拖動到任意位置,區(qū)域內元素的各種設置保持不變從右側示意圖可見標題和圖例均被自由拖動到了圖形中的其他位置上2025年3月19日@文彤老師134自由的元素選擇方式單擊圖形元素,選中所有同類元素二次單擊,則選中同組元素三次單擊,則只選中該圖形元素對圖例元素的選擇方式不在此列,單擊圖例則選中所有相應的圖形元素2025年3月19日@文彤老師135自由的元素選擇方式單獨設置某一個圖形元素的格式包括單獨標出具體的數值、ID號等注意:并非所有操作都可以用于單獨的圖形元素,許多選項只能整個圖形一起使用三維效果等2025年3月19日@文彤老師136統(tǒng)計圖的分類統(tǒng)計圖的分類方法有許多種,但和統(tǒng)計學體系最為貼近的分類方法是首先按照其呈現變量的數量,從而可以將統(tǒng)計圖大致分為單變量圖、雙變量圖、多變量圖等,隨后再根據相應變量的測量尺度進行更細的區(qū)分。2025年3月19日@文彤老師137單變量圖連續(xù)性變量2025年3月19日@文彤老師138單變量圖分類變量2025年3月19日@文彤老師139雙變量圖連續(xù)應變量2025年3月19日@文彤老師140雙變量圖分類應變量自變量為連續(xù)時,常見的處理方式是將自/應變量交換后使用條圖來進行呈現。自變量也是分類變量時,

基本以條圖為主。復式條圖:呈現兩個分類

變量各個類別組合情況下

的頻數2025年3月19日@文彤老師141雙變量圖其它雙變量條圖分段條圖:主要突出一個分類變量各類別的頻數,并在此基礎上表現兩個類別的組合頻數情況馬賽克圖:呈現在一個變量不同類別下,另一個變量各類別的百分比變化情況2025年3月19日@文彤老師142更復雜的多變量圖形最常見的方式為采用圖例對二維圖進行擴充組合統(tǒng)計圖:根據實際需要自行設計統(tǒng)計地圖:與地圖數據相結合其他特殊用途的統(tǒng)計圖質量控制圖、ROC曲線等2025年3月19日@文彤老師143注意:圖形并非越復雜越好!Themostcommondisasterinillustratingistoincludetoomuchinformationinonefigure.Themorepointsmadeinanillustration,themoretheriskofconfusinganddiscouragingthereviewer.

--Briscoe,19902025年3月19日@文彤老師144直方圖與莖葉圖案例:繪制消費者信心值的直方圖直方圖組的繪制累積直方圖的繪制分段直方圖(StackedHistogram)面積直方圖(頻數多邊形,FrequencyPolygon)人口金字塔(PopulationPyramid)莖葉圖2025年3月19日@文彤老師145箱

圖案例:用箱圖分月份考察消費者信心的分布每個箱形都由最中間的粗線,一個方框、外延出來的兩條細線和最外端可能有的單獨散點組成。在箱圖中,凡是與四分位數值(圖中即為方框上下界)的距離超過1.5倍四分位間距的都會被定義為異常值,其中離方框上/下界的距離超過四分位數間距1.5倍的為離群值,在圖中以“O”表示;超過3倍的則為極值,用“*”表示。散點旁邊默認標出相應案例號備查。特色功能選擇性顯示某些標簽2025年3月19日@文彤老師146餅

圖案例:分城市、月份考察樣本性別比例由于需要分城市、月份進行考察,因此可以考慮將這兩個變量分別設定為行面板和列面板變量,且從使用習慣上講,月份這一有序分類變量應當被設置為列面板變量更為妥當。特色功能旋轉方向餅塊的突出顯示與合并2025年3月19日@文彤老師147條圖與誤差圖案例:比較不同職業(yè)人群的消費者信心值案例:分職業(yè)進一步比較不同人群的現狀和預期指數分段條圖與百分條圖案例:比較不同月份的A3a選項比例分布特色功能條圖與其他統(tǒng)計圖形的相互轉換復式條圖和分段條圖的相互轉換分段條圖和百分條圖的相互轉換帶誤差線的條圖與誤差圖2025年3月19日@文彤老師148線圖、面積圖、點圖與垂線圖案例:分城市比較信心指數隨時間的變化趨勢基本波動趨勢。北上廣三地的信心指數變化規(guī)律。三地信心的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論