統(tǒng)計學的基礎知識學習教案_第1頁
統(tǒng)計學的基礎知識學習教案_第2頁
統(tǒng)計學的基礎知識學習教案_第3頁
統(tǒng)計學的基礎知識學習教案_第4頁
統(tǒng)計學的基礎知識學習教案_第5頁
已閱讀5頁,還剩107頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、會計學1第一頁,共112頁。統(tǒng)計學statistics統(tǒng)計學是收集、分析、解釋(jish)與報告數據資料的一門科學?!癮 science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 國際(guj)大辭典第1頁/共112頁第二頁,共112頁。1. 總體與樣本2. 變量(binling)與隨機變量(binling)3. 同質與變異4. 參數與統(tǒng)計量5. 誤差與錯誤6. 準確性與精確性第2頁/共112頁第三頁,共112頁。樣本

2、:從總體中隨機抽取的部分(b fen)觀察單位。如某單位男士的身高總體:根據研究目的確定的同質(tn zh)研究對象的全體(集合)。如成年人的身高。分有限總體與無限總體第3頁/共112頁第四頁,共112頁。第4頁/共112頁第五頁,共112頁。p變量可以測量的任何特征或屬性(shxng)。Any characteristic or attribute that can be measured。p 如熱量值、蛋白質含量、碳水化合物含量。p隨機變量在概率論中稱變量為隨機變量 2、變量(binling)與隨機變量(binling)Variable and random variable第5頁/共11

3、2頁第六頁,共112頁。第6頁/共112頁第七頁,共112頁。參數(cnsh):總體的統(tǒng)計指標,如總體均數、標準差,采用希臘字母分別記為、。通常是固定的常數。 抽樣 統(tǒng)計量 參 數 推斷統(tǒng)計量:樣本的統(tǒng)計指標,如樣本均數、標準差,采用拉丁字母分別記為 。 參數附近波動的隨機變量 。SX、第7頁/共112頁第八頁,共112頁。誤差:試驗中不可控因素所引起的實際觀察值與客觀(kgun)真實值(真值)之差p 系統(tǒng)誤差 systematic errorp 隨機誤差 random error錯誤:試驗過程中,人為作用引起(ynq)的差錯 如藥品稱量錯誤,數據錄入錯誤等第8頁/共112頁第九頁,共112頁

4、。 誤差(wch)(Error)測量值 = 真值 + 隨機誤差(wch) +非隨機誤差(wch) Xi = i + i 1隨機誤差(wch)(抽樣誤差(wch)): 影響因素眾多,變化無方向性,不可避免,但可用統(tǒng)計方法進行分析。 2系統(tǒng)誤差(wch) 受確定因素影響,大小變化有方向性。 3非系統(tǒng)誤差(wch)(錯誤) 研究者偶然失誤而造成的誤差(wch)。偏差bias可以(ky)避免第9頁/共112頁第十頁,共112頁。一致百分率、Kappa值)。第10頁/共112頁第十一頁,共112頁。系統(tǒng)誤差使數據(shj)偏離了其理論值,影響數據(shj)的準確度。隨機誤差使數據(shj)相互分散,影響

5、了數據(shj)的精密度。準確度和精密度都好 準確度差、精密度好 準確度?精密度差 準確度和精密度都差 第11頁/共112頁第十二頁,共112頁。第二節(jié) 計量(jling)資料的統(tǒng)計描述 連續(xù)型變量(可測量的變量)頻數表與頻數分布平均指標(算術均數、幾何均數、中位數、眾數)變異指標(極差、百分位數與四分(s fn)位間距、方差、標準差、變異系數)第12頁/共112頁第十三頁,共112頁。第13頁/共112頁第十四頁,共112頁。第14頁/共112頁第十五頁,共112頁。第15頁/共112頁第十六頁,共112頁。男子(nnz)血清總膽固醇水平(mmol/L) Stem-and-Leaf Plot

6、 Frequency Stem & Leaf 5.00 2 . 78999 34.00 3 . 5555555566666666777778888999999999 35.00 4 . 55555555566666666677777888888899999 10.00 5 . 5555677899 4.00 6 . 0022 Each leaf: 1 case (s)第16頁/共112頁第十七頁,共112頁??偡Q為平均數(average)反映了資料的集中趨勢(central tendency)。常用的有: 1. 算術均數(arithmetic mean),簡稱均數(mean) 2. 幾

7、何均數(geometric mean) 3. 中位數 (median) 4. 眾數(zhn sh)(mode) 5. 調和均數(harmonic mean) 6. 截尾平均值(5% trimmed mean)第17頁/共112頁第十八頁,共112頁。nXnXXXXn21iiikkkfXfffffXfXfXfXfX321332211適用條件:資料(zlio)呈正態(tài)或近似正態(tài)分布的資料(zlio)第18頁/共112頁第十九頁,共112頁。nXXnXXXXnXGnGlglglg)lglg(lg1lg121nnGXXXX21第19頁/共112頁第二十頁,共112頁。適用條件:呈倍數關系的等比資料或對數

8、(du sh)正態(tài)分布(正偏態(tài))資料;如增長速度、抗體滴度資料抗體的效價滴度的倒數(do sh)分別為:10、100、1000、10000、100000,求幾何均數。1000510lg10lg10lg10lg10lglg543211GX此例的算術均數為22222,顯然不能代表滴度的平均水平。對于同一資料,幾何均數 中位數眾數(zhn sh)負偏態(tài)分布時:均數中位數眾數(zhn sh)第25頁/共112頁第二十六頁,共112頁。xnxxxnnH1111111)(121第26頁/共112頁第二十七頁,共112頁。 某種轉基因魚不同世代(shdi)魚群保種的規(guī)模分別為:F0代200尾,F(xiàn)1代400尾

9、,F(xiàn)2代600尾;F3代900尾,F(xiàn)4代1500尾,試求其平均規(guī)模。4570.002191(0.0109)1)(1H5115001900160014001200151第27頁/共112頁第二十八頁,共112頁。幾種(j zhn)平均數之間的關系第28頁/共112頁第二十九頁,共112頁。5% trimmed mean:將一組數中去掉(q dio)最小的5數值,再去掉(q dio)最大的5,然后將剩余的90計算平均值得出的數值。減小了極端值的影響。 截尾(ji wi)平均值第29頁/共112頁第三十頁,共112頁。 反映數據(shj)的離散度(Dispersion )。即個體觀察值的變異程度。常

10、用的指標有: 1. 極差(Range) (全距) 2. 百分位數與四分位數間距 Percentile and Quartile range 3. 方差 Variance 4. 標準差 Standard Deviation 5. 變異系數 Coefficient of Variation第30頁/共112頁第三十一頁,共112頁。minmaxXXR優(yōu)點:簡便缺點:1. 只利用了兩個(lin ) 極端值 2. n大,R也會大 3. 不穩(wěn)定第31頁/共112頁第三十二頁,共112頁。百分位數 :數據從小到大排列,在百分尺度下,所占百分比對應(duyng)的值。記為Px。 四分位間距Quartile

11、range:QRP75 P25四分位半間距Quartile deviation:QDQR/2XFrequency 25%75%第32頁/共112頁第三十三頁,共112頁。 方差 (variance)也稱均方差(mean square deviation),樣本(yngbn)觀察值的離均差平方和的均值。表示一組數據的平均離散情況。NXXSSXxxxn22221)-()-(square of Sum0)-()(.)()(總體方差)離均差平方和(離均差和11)(2222nnXXnXXS樣本方差第33頁/共112頁第三十四頁,共112頁。11)(222nnXXnXXS樣本標準差 標準差 (Standa

12、rd deviation, Std, SD)即方差的正平方根;其單位與原變量(binling)X的單位相同。NX2)(總體(zngt)標準差第34頁/共112頁第三十五頁,共112頁。與自由度(degrees of freedom)有關。自由度是數學名詞,在統(tǒng)計學中,n個數據如不受任何(rnh)條件的限制,則n個數據可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(nk)個自由度了。例如一個有5個觀察值的樣本,因為受到統(tǒng)計數的約束,在5個離均差中,只有4個數值可以在一定范圍內自由變動取值,而第五個離均差必須滿足 這一限制(xinzh)條件。0)(_xxx第35頁/共112頁第三十六頁

13、,共112頁?;靖拍睿簶颖?yngbn)容量及樣本(yngbn)個數 樣本容量(n):指一個樣本所包含(bohn)的單位數。 一般將樣本單位數不少于三十個(50?)的樣本稱為大樣本,樣本單位數不到三十個的樣本稱為小樣本。 樣本個數(g):又稱樣本可能數目,是指從一個總體中抽取了多少個樣本。第36頁/共112頁第三十七頁,共112頁?;靖拍睿撼闃诱`差 抽樣誤差:指按照隨機原則抽樣時,樣本指標與總體指標之間存在(cnzi)的誤差。 主要包括: 總體平均數和樣本平均數的誤差; 總體標準差和樣本標準差的誤差。第37頁/共112頁第三十八頁,共112頁?;靖拍睿撼闃?chu yn)平均誤差 為什么

14、要研究(ynji)抽樣平均誤差? 未知 實際誤差未知: 即使知道,由于樣本均值是隨機的,每次的誤差也不一樣。)(x第38頁/共112頁第三十九頁,共112頁。均數的抽樣誤差與標準(biozhn)誤例如,從總體均數=4.136 mmol/L、標準差=0.817 mmol /L的正態(tài)分布總體N(4.136, 0.8172)中,隨機抽取n人為一個樣本(n=5, 10, 20, 30),并計算該樣本的均數、標準差。如此重復(chngf)抽取1000次(g=1000),可得到1000份樣本,可得到1000份均數 和標準差S。X第39頁/共112頁第四十頁,共112頁。10001000份樣本份樣本(yng

15、bn)(yngbn)的均數的均數和標準差和標準差均數的抽樣誤差與標準(biozhn)誤第40頁/共112頁第四十一頁,共112頁。 將這1000份樣本的均數看成(kn chn)新變量值,按頻數分布方法,得到這1000份樣本均數的直方圖。隨機抽樣所得隨機抽樣所得(su d)1000(su d)1000份樣本均數的分布份樣本均數的分布當n5時第41頁/共112頁第四十二頁,共112頁。當n10時第42頁/共112頁第四十三頁,共112頁。當n20時第43頁/共112頁第四十四頁,共112頁。當n30時第44頁/共112頁第四十五頁,共112頁。 1000份樣本均數的抽樣(chu yn)分布特點樣本

16、(yngbn)含量 均數 均數標準差 n mean sd 5 4.14030 10 4.14039 20 4.13859 30 4.14173 總體(zngt)均數 總體標準差 0.817 /50.36540.817 /100.25840.817 /200.18270.817 /300.1492XSn理論上,樣本均數的標準差第45頁/共112頁第四十六頁,共112頁。 1000份樣本均數的抽樣分布特點(tdin): 1000份樣本均數中,各樣本均數間存在差異,但各樣本均數在總體均數周圍波動。 樣本均數的分布曲線為中間高,兩邊低,左右對稱,近似服從正態(tài)分布。 隨著樣本量增加,樣本均數的標準差明顯

17、變小:4.136(4.140,4.140,4.138,4.141)X0.817(0.365,0.258,0.183,0.149XSn第46頁/共112頁第四十七頁,共112頁。10;0.2584XnS30;0.1492XnS5;0.3654XnS20;0.1827XnS 通過(tnggu)增加樣本含量n來降低抽樣誤差。第47頁/共112頁第四十八頁,共112頁。%100XSCV(Coefficient of variation,CV)適用條件: 觀察指標單位不同,如身高(shn o)、體重 同單位資料,但均數相差懸殊第48頁/共112頁第四十九頁,共112頁。6. 數據的標準(biozhn)得

18、分假定兩個水平類似的班級(一班和二班)上同一門課,但是由于兩個任課老師的評分標準不同,使得兩個班成績的均值和標準差都不一樣(SPSS數據:)。 分數的均值 標準差 CV一班 78.53 9.43 12%二班 10%那么得到90分的一班的張穎是不是比得到82分的二班的劉濤成績更好呢?怎么比較才能(cinng)合理呢? 第49頁/共112頁第五十頁,共112頁。數據的標準(biozhn)得分均值和標準差不同的數據(shj)不能夠直接比較,但是可以把它們進行標準化,然后再比較標準化后的數據(shj)。 一個標準化的方法是把原始觀測值(亦稱得分,score)和均值之差除以標準差;得到的度量稱為標準得分

19、(standard score,又稱為z-score)。 即:SXXscorez第50頁/共112頁第五十一頁,共112頁。數據(shj)的標準得分然后可以比較來自不同樣本的標準得分。 這樣: 張穎的標準得分為 劉濤的標準得分為 顯然如果兩個班級水平差不多,劉濤的成績(chngj)應該優(yōu)于張穎的成績(chngj);這是在標準化之前的數據中不易看到的。 第51頁/共112頁第五十二頁,共112頁。n原始數據是在各自(gz)的均值附近,散布也不一樣。但它們的標準得分則在0周圍散布,而且散布也差不多。 n實際上,任何樣本經過這樣的標準化后,就都變換成均值為0、方差為1的樣本。標準化后不同樣本觀測值的

20、比較只有相對意義,沒有絕對意義。 第52頁/共112頁第五十三頁,共112頁。第53頁/共112頁第五十四頁,共112頁。第54頁/共112頁第五十五頁,共112頁。統(tǒng)計(tngj)軟件的種類SPSS:這是一個很受歡迎的統(tǒng)計軟件;容易操作(cozu),輸出漂亮,功能齊全;對于非統(tǒng)計工作者是很好的選擇。 Excel:作為數據表格軟件,有一定統(tǒng)計計算功能;對于簡單分析比較方便;對于較復雜的分析,需要使用函數,甚至根本沒有相應的方法了。多數專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。第55頁/共112頁第五十六頁,共112頁。統(tǒng)計(tngj)軟件的種類SAS:功能非常齊全的軟件;功能非常齊

21、全的軟件;某些美國政府機構認可;某些美國政府機構認可;需要一定的訓練才可以使用,對于非專業(yè)統(tǒng)計人需要一定的訓練才可以使用,對于非專業(yè)統(tǒng)計人員不那么方便。員不那么方便。 S-plus:統(tǒng)計學家喜愛的軟件;統(tǒng)計學家喜愛的軟件;其功能齊全,具有強大的編程功能;其功能齊全,具有強大的編程功能;專業(yè)統(tǒng)計人員可以編制自己的程序來實現(xiàn)專業(yè)統(tǒng)計人員可以編制自己的程序來實現(xiàn)(shxin)自己的理論和方法。自己的理論和方法。第56頁/共112頁第五十七頁,共112頁。統(tǒng)計軟件(run jin)的種類Statistica:容易操作(cozu);統(tǒng)計資料分析、圖表、資料管理;應用程序開發(fā)。Origin:容易操作(co

22、zu);輸出圖形的清晰度高(很多雜志要求)。第57頁/共112頁第五十八頁,共112頁。一 概率的有關(yugun)概念 二 概率分布概述(i sh)三 離散型隨機變量的概率分布四 正態(tài)分布五 常用的抽樣分布第58頁/共112頁第五十九頁,共112頁。一 概率的有關(yugun)概念 第59頁/共112頁第六十頁,共112頁。 樣本的實際發(fā)生率稱為(chn wi)頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現(xiàn)f 次,則事件A出現(xiàn)的頻率為f/n。 概率:隨機事件發(fā)生的可能性大小,用大寫的P 表示;取值0,1。 樣本含量n越大,頻率的波動幅度越小,頻率越接近概率。 第60頁/共112頁第六

23、十一頁,共112頁。必然事件 P = 1隨機事件 0 P 0;若分布是左偏的,則偏度系數 0。第91頁/共112頁第九十二頁,共112頁。a.尖峭(jin qio)峰 b.正態(tài)峰c.平闊峰第92頁/共112頁第九十三頁,共112頁。峰度系數(xsh)(kurtosis):Skewness.088kurtosis15血清(xuqng)總膽固醇.sav第93頁/共112頁第九十四頁,共112頁。第94頁/共112頁第九十五頁,共112頁。第95頁/共112頁第九十六頁,共112頁。,此稱為中心極限定理。nXn第96頁/共112頁第九十七頁,共112頁。均為連續(xù)型隨機變量(su j bin lin)分布,分布只與自由度,即樣本含量有關。第97頁/共112頁第九十八頁,共112頁。(0,1)iiXNn第98頁/共112頁第九十九頁,共112頁。這里,為自由度,取值為n-1由W.S. Go

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論