統(tǒng)計(jì)學(xué)資料3.ppt_第1頁
統(tǒng)計(jì)學(xué)資料3.ppt_第2頁
統(tǒng)計(jì)學(xué)資料3.ppt_第3頁
統(tǒng)計(jì)學(xué)資料3.ppt_第4頁
統(tǒng)計(jì)學(xué)資料3.ppt_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章是數(shù)據(jù)描述。在對數(shù)據(jù)進(jìn)行深度處理之前,我們應(yīng)該一直對數(shù)據(jù)印象深刻。數(shù)據(jù)的某些特征可以通過圖形和簡單的操作來理解。因?yàn)閿?shù)據(jù)是從整體產(chǎn)生的,它的特征也反映了整體的特征。數(shù)據(jù)的描述也是整體的近似描述。3.1如何用圖形表示數(shù)據(jù)?3.1.1定量變量:1的圖形表示。直方圖,對于一個(gè)定量變量,如某個(gè)區(qū)域(1區(qū)),測量163名高三男生的身高(S3height1.txt)。用圖表來表示這些數(shù)據(jù)并讓人們看到這些數(shù)據(jù)的總體分布或“形狀”的一種方法是繪制直方圖。圖3.1是SPSS軟件使用這些數(shù)據(jù)繪制的直方圖。該圖的橫坐標(biāo)是高度間隔,其中每個(gè)網(wǎng)格代表5厘米的高度范圍(網(wǎng)格寬度取決于不同的數(shù)據(jù)屬性或要求,這里的網(wǎng)格

2、寬度是5厘米),縱坐標(biāo)是各種高度間隔的高度頻率。直方圖,3.1.1定量變量的圖形代表:2。箱線圖(boxplot,也稱為box plot、box line graph和box plot)更簡單。圖3.2的左側(cè)是根據(jù)1區(qū)高中男生身高數(shù)據(jù)繪制的方框圖;右邊的數(shù)字代表高度(height.txt,height.sav,第3章示例。xls)在另一個(gè)區(qū)域(區(qū)域2)的高三學(xué)生。方框圖,方框的中間水平線為數(shù)據(jù)的中值,封閉方框的上下水平線(邊)為上下四分位數(shù)(點(diǎn));根據(jù)SPSS的默認(rèn)選項(xiàng),如果所有樣本中的數(shù)字都在從四分位開始的盒子長度的1.5倍以內(nèi),則線的端點(diǎn)為最大值和最小值;否則,線長度是盒子長度的1.5倍(

3、盒子長度被稱為四分位數(shù)間距),并且在它之外的測量被單獨(dú)指出。3.1.1定量變量的圖表代表33603。莖葉圖,很難恢復(fù)直方圖和方框圖中數(shù)據(jù)的原始外觀。另一種圖表:莖葉圖可以恢復(fù)數(shù)據(jù)。以1區(qū)三年級(jí)男生的身高為例(圖3.3)。莖葉圖不僅顯示了分布形態(tài),而且有原始數(shù)據(jù)。它就像一片有莖的葉子。莖是大量的數(shù)字,葉是少量的數(shù)字。莖和葉圖,其中莖的單位是10厘米,葉的單位是1厘米。例如,因?yàn)榈谝恍械那o是150厘米,所以葉子中的九個(gè)數(shù)字001223344代表九個(gè)數(shù)字150、150、151、152、152、153、153、154、154厘米等。每行左側(cè)都有一個(gè)頻率(例如,第一行有9個(gè)數(shù)字,第二行有17個(gè)數(shù)字,等等

4、)。);可以看出,最長的線是從165厘米到169厘米的一段(有35個(gè)數(shù)字)。3.1.1定量變量的圖表代表:4。散點(diǎn)圖,數(shù)據(jù)將有兩個(gè)變量,如美國男人和女人的第一個(gè)結(jié)婚年份。這些數(shù)據(jù)描述了從1900年到1998年第一次男女婚姻的持續(xù)時(shí)間。在這里,年份是一個(gè)變量,婚姻持續(xù)時(shí)間是第二個(gè)變量。因?yàn)椴豢赡芙o出所有人的結(jié)婚年數(shù),所以每年取一個(gè)中間值(中位數(shù))作為代表。3.1.2定性變量的圖形表示:餅圖、定性變量(或?qū)傩宰兞?、分類變?不能指出直方圖、散點(diǎn)圖或莖葉圖,但它們可以描述各種類型的比例。由SPSS繪制的下圖3.5(餅狀圖)顯示了使用世界主要語言的人口比例。餅圖3.1.2顯示了定性變量:條形圖,而用相

5、同數(shù)據(jù)繪制的圖3.6稱為條形圖。從每篇文章中可以看到各種語言的實(shí)際使用者人數(shù),以及每種語言的母語使用者和日常使用者人數(shù)(在圖中并列)。條形圖不如餅圖直觀。條形圖,3.2如何用幾個(gè)數(shù)字總結(jié)數(shù)據(jù)?大量的數(shù)字既麻煩又不直觀;我們需要根據(jù)人們的時(shí)間和耐心來簡化數(shù)據(jù)。我們可以用“平均”、“差距”或百分比來概括大量的數(shù)字。因?yàn)槎ㄐ宰兞恐饕怯?jì)數(shù),這相對簡單,通常的概括是比例或百分比。下面主要介紹定量變量的數(shù)值描述。3.2如何用幾個(gè)數(shù)字總結(jié)數(shù)據(jù)?少量的所謂匯總統(tǒng)計(jì)或匯總統(tǒng)計(jì)可以用來描述定量變量的數(shù)據(jù)。這些數(shù)字來自樣本數(shù)據(jù),因此它們也是樣本的函數(shù)。任何樣本函數(shù),只要不包含整體的未知參數(shù),就稱為統(tǒng)計(jì)量。樣本的隨

6、機(jī)性決定了統(tǒng)計(jì)的隨機(jī)性(統(tǒng)計(jì)也是隨機(jī)變量)。3.2如何用幾個(gè)數(shù)字總結(jié)數(shù)據(jù)?匯總統(tǒng)計(jì)通常對應(yīng)于整個(gè)人口中一些不可觀察的參數(shù)。此時(shí),統(tǒng)計(jì)數(shù)據(jù)可用作這些參數(shù)的估計(jì)值。一些統(tǒng)計(jì)數(shù)據(jù)也可以用來檢驗(yàn)樣本是否與假設(shè)一致。3.2如何用幾個(gè)數(shù)字總結(jié)數(shù)據(jù)?注:有些統(tǒng)計(jì)數(shù)據(jù)有時(shí)以“樣本”一詞開頭,以區(qū)別于與整個(gè)人口同名的參數(shù)。如“樣本均值”和“樣本標(biāo)準(zhǔn)差”,以區(qū)別于總體均值和總體標(biāo)準(zhǔn)差;但是當(dāng)沒有混淆時(shí),我們只能說“平均”和“標(biāo)準(zhǔn)偏差”。3.2.1數(shù)據(jù)的“位置”,數(shù)據(jù)有位置嗎?這里三個(gè)數(shù)據(jù)的位置是一樣的嗎?3.2.1數(shù)據(jù)的“位置”通常指數(shù)據(jù)中變量的觀察值的“中心位置”或數(shù)據(jù)分布的中心(中心或中心溫柔度)。與這種“位

7、置”相關(guān)的統(tǒng)計(jì)稱為位置統(tǒng)計(jì)。當(dāng)然,位置統(tǒng)計(jì)不一定描述“中心”,如k百分位(或k分位數(shù))。3.2.1數(shù)據(jù)的“位置”,最常用的位置統(tǒng)計(jì)是在小學(xué)學(xué)習(xí)的算術(shù)平均數(shù),稱為平均數(shù));統(tǒng)計(jì)學(xué);嚴(yán)格地說,它被稱為樣本均值,它不同于總體均值。如果樣本中的觀察值為x1、xn,則樣本均值定義為(樣本)中值是根據(jù)大小排列數(shù)據(jù)后中間的數(shù)字(如果樣本大小為奇數(shù)),或中間兩個(gè)數(shù)字的平均值(如果樣本大小為偶數(shù))。因?yàn)橹形粩?shù)不容易受到極值的影響,所以中位數(shù)比平均值更穩(wěn)健。3.2.1數(shù)據(jù)的“位置”,上、下四分位數(shù)(或第一分位數(shù)、第三分位數(shù))分別位于數(shù)據(jù)的上、下四分位數(shù)(按大小排列)。3.2.1數(shù)據(jù)“位置”,3.2.1數(shù)據(jù)“位置”

8、,一般也稱為上四分位數(shù)是75個(gè)百分點(diǎn)(75個(gè)百分點(diǎn),其中75個(gè)觀察值小于它),而下四分位數(shù)是25個(gè)百分點(diǎn)(其中25個(gè)觀察值小于它)。一般來說,k百分位意味著k的觀測值小于它。如果a=k%,k百分位也被稱為a-分位數(shù)。樣本中最大的數(shù)字稱為模式),3.2.2數(shù)據(jù)的“比例”。這兩個(gè)數(shù)據(jù)“胖”和“瘦”一樣嗎?3.2.2數(shù)據(jù)的“標(biāo)度”,以及數(shù)據(jù)中數(shù)字的離散程度用標(biāo)度統(tǒng)計(jì)來描述。規(guī)模統(tǒng)計(jì)是描述數(shù)據(jù)傳播的一種手段,即描述集中和分散的程度或可變性。3.2.2數(shù)據(jù)的“比例”,來自前兩個(gè)高三男生身高數(shù)據(jù)的方框圖。左邊的數(shù)據(jù)平均要高一些,但是右邊的數(shù)據(jù)要小得多。統(tǒng)計(jì)學(xué)中有許多標(biāo)度統(tǒng)計(jì)。一般來說,數(shù)據(jù)越分散,規(guī)模統(tǒng)計(jì)

9、的價(jià)值就越大。3.2.2“標(biāo)度”和范圍);數(shù)據(jù);最大值和最小值之差。前兩個(gè)高三男生的身高數(shù)據(jù)分別是50厘米和32厘米。方框圖的長度是兩個(gè)四分位數(shù)之間的差值,稱為四分位數(shù)范圍或分位數(shù)之間的范圍。它描述了觀察值的中間一半的分散。事實(shí)上,范圍和四分位數(shù)范圍只取決于兩個(gè)值,信息量太小。3.2.2“標(biāo)度”的數(shù)據(jù),另一種常用的標(biāo)度統(tǒng)計(jì)是標(biāo)準(zhǔn)差。從樣本中的每個(gè)值到平均值的距離的平均度量。標(biāo)準(zhǔn)偏差實(shí)際上是方差的平方根。如果樣本中的觀察值為x1,xn,樣本方差為數(shù)據(jù)的3.2.2“標(biāo)度”,兩個(gè)平均值相同,但右邊的應(yīng)該是“胖”,方差是左邊的兩倍。3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)分?jǐn)?shù),假設(shè)兩個(gè)級(jí)別相似的班級(jí)(1班和2班)參加同一

10、個(gè)班級(jí),但由于兩個(gè)約會(huì),3.2.3第一個(gè)班級(jí)分?jǐn)?shù)的平均值和標(biāo)準(zhǔn)偏差分別為78.53和9.43,而第二個(gè)班級(jí)的平均值和標(biāo)準(zhǔn)偏差分別為70.19和7.00。得了90分的張穎比得了82分的劉樹成好嗎?比較怎么可能合理?3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)分?jǐn)?shù)。雖然不同均值和標(biāo)準(zhǔn)差的數(shù)據(jù)不能直接比較,但可以先進(jìn)行標(biāo)準(zhǔn)化,然后與標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行比較。一種標(biāo)準(zhǔn)化的方法是將樣本的原始觀察值(也稱為分?jǐn)?shù))與樣本平均值之間的差值除以樣本的標(biāo)準(zhǔn)偏差;獲得的度量稱為標(biāo)準(zhǔn)分?jǐn)?shù)(也稱為z分?jǐn)?shù))。3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)分?jǐn)?shù)定義為3.2.3數(shù)據(jù)的標(biāo)準(zhǔn)分?jǐn)?shù)。在我們的例子中,張穎的標(biāo)準(zhǔn)分?jǐn)?shù)是(90-78.53)/9.431.22,而劉舒的標(biāo)準(zhǔn)分?jǐn)?shù)是(82-70.19)/。顯然,如果兩個(gè)班

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論