




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、描述統(tǒng)計學及其應用,目錄,第一 :導論 第二 :數(shù)據(jù)的概括性度量:均值和標準差 第三 : 統(tǒng)計學的應用:相關(guān)分析與回歸分析,1 導論,1.1 統(tǒng)計及其應用領(lǐng)域 1.2 統(tǒng)計數(shù)據(jù)的類型 1.3 統(tǒng)計中的幾個基本概念,引言:什么是統(tǒng)計,搜集、整理、分析數(shù)據(jù)的科學就是統(tǒng)計,統(tǒng)計的核心問題就是關(guān)于數(shù)據(jù)的問題 統(tǒng)計是從數(shù)據(jù)中找出信息,并且做出結(jié)論。我們用的工具是圖表和計算,加上常識判斷。 統(tǒng)計結(jié)論是對一群個體“平均來說”(on the average)的結(jié)論。但對于任何特定的個體,可就沒說什么。 結(jié)論并不是百分之百的數(shù)學定律不能百分百確實的用在現(xiàn)實生活里,能百分百確實地用數(shù)學定律描述的,就不是現(xiàn)實生活。
2、,什么是統(tǒng)計學? (statistics),統(tǒng)計學是收集、分析、表述和解釋數(shù)據(jù)的科學(不列顛百科全書) 統(tǒng)計是一門收集、分析、解釋和提供數(shù)據(jù)的科學(韋伯斯特國際辭典第3版) 統(tǒng)計指的是一組方法,用來設計實驗、獲得數(shù)據(jù),然后在這些數(shù)據(jù)的基礎上組織、概括、演示、分析、解釋和得出結(jié)論(Mario F.Triola,初級統(tǒng)計學),統(tǒng)計研究的過程,實際問題,統(tǒng)計方法,描述統(tǒng)計(descriptive statistics),研究數(shù)據(jù)收集、整理和描述的統(tǒng)計學分支 內(nèi)容 收集數(shù)據(jù) 整理數(shù)據(jù) 展示數(shù)據(jù) 描述性分析 目的 描述數(shù)據(jù)特征 找出數(shù)據(jù)的基本規(guī)律,推斷統(tǒng)計 (inferential statistics
3、),研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計學分支 內(nèi)容 參數(shù)估計 假設檢驗 目的 對總體特征作出推斷,描述統(tǒng)計與推斷統(tǒng)計的關(guān)系,反映客觀現(xiàn)象的數(shù)據(jù),描述統(tǒng)計 (數(shù)據(jù)的收集、整理、顯示和分析等),統(tǒng)計的應用領(lǐng)域,經(jīng)濟學,管理學,醫(yī)學,工程學,社會學,統(tǒng)計學,1.2 統(tǒng)計數(shù)據(jù)的類型,1.2.1 分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù) 1.2.2 觀測數(shù)據(jù)和實驗數(shù)據(jù) 1.2.3 截面數(shù)據(jù)和時間序列數(shù)據(jù),統(tǒng)計數(shù)據(jù)的分類,統(tǒng)計數(shù)據(jù)的分類,統(tǒng)計數(shù)據(jù)的分類 (按計量尺度分),分類數(shù)據(jù)(categorical data) 只能歸于某一類別的非數(shù)字型數(shù)據(jù) 對事物進行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來表述 例如,人口
4、按性別分為男、女兩類 2. 順序數(shù)據(jù)(rank data) 只能歸于某一有序類別的非數(shù)字型數(shù)據(jù) 對事物類別順序的測度,數(shù)據(jù)表現(xiàn)為類別,用文字來表述 例如,產(chǎn)品分為一等品、二等品、三等品、次品等 3. 數(shù)值型數(shù)據(jù)(metric data) 按數(shù)字尺度測量的觀察值 結(jié)果表現(xiàn)為具體的數(shù)值,對事物的精確測度 例如:身高為175cm、168cm、183cm,統(tǒng)計數(shù)據(jù)的分類(按收集方法分),觀測的數(shù)據(jù)(observational data) 通過調(diào)查或觀測而收集到的數(shù)據(jù) 在沒有對事物人為控制的條件下而得到的 有關(guān)社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù) 試驗的數(shù)據(jù)(experimental data) 在試
5、驗中控制試驗對象而收集到的數(shù)據(jù) 比如,對一種新藥療效的試驗,對一種新的農(nóng)作物品種的試驗等 自然科學領(lǐng)域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù),統(tǒng)計數(shù)據(jù)的分類(按時間狀況分),截面數(shù)據(jù)(cross-sectional data) 在相同或近似相同的時間點上收集的數(shù)據(jù) 描述現(xiàn)象在某一時刻的變化情況 比如,2005年我國各地區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù) 時間序列數(shù)據(jù)(time series data) 在不同時間上收集到的數(shù)據(jù) 描述現(xiàn)象隨時間變化的情況 比如,2000年至2005年國內(nèi)生產(chǎn)總值數(shù)據(jù),1.3 統(tǒng)計中的幾個基本概念,1.3.1 總體和樣本 1.3.2 參數(shù)和統(tǒng)計量 1.3.3 變量,總體和樣本,總體(popu
6、lation) 所研究的全部個體(數(shù)據(jù)) 的集合,其中的每一個個體也稱為元素 分為有限總體和無限總體 有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的 無限總體所包括的元素是無限的,不可數(shù)的 樣本 (sample) 從總體中抽取的一部分元素的集合 構(gòu)成樣本的元素的數(shù)目稱為樣本容量或樣本量 (sample size),參數(shù)和統(tǒng)計量,參數(shù)(parameter) 描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值 所關(guān)心的參數(shù)主要有總體均值()、標準差()、總體比例()等 總體參數(shù)通常用希臘字母表示 統(tǒng)計量(statistic) 用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計算出
7、來的一些量,是樣本的函數(shù) 所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)等 樣本統(tǒng)計量通常用小寫英文字母來表示,變 量(variable),說明現(xiàn)象某種特征的概念 如商品銷售額、受教育程度、產(chǎn)品的質(zhì)量等級等 變量的具體表現(xiàn)稱為變量值,即數(shù)據(jù) 變量可以分為 分類變量(categorical variable) :說明事物類別的名稱 順序變量(rank variable):說明事物有序類別的名稱 數(shù)值型變量(metric variable) :說明事物數(shù)字特征的名稱 離散變量:取有限個值 連續(xù)變量:可以取無窮多個值,變 量(其他分類),隨機變量和非隨機變量 經(jīng)驗變量(empi
8、rical variables)和理論變量(theoretical variables) 經(jīng)驗變量所描述的是我們周圍可以觀察到的事物 理論變量則是由統(tǒng)計學家用數(shù)學方法所構(gòu)造出來的一些變量,比如,z 統(tǒng)計量、t 統(tǒng)計量、2統(tǒng)計量、F 統(tǒng)計量等,變量及其類型,統(tǒng)計中的幾個基本概念,幾種常用的統(tǒng)計軟件(software),典型的統(tǒng)計軟件 SAS SPSS MINITAB STATISTICA Excel,2、數(shù)據(jù)的概括性度量,2.1集中趨勢的度量 2.2離散程度的度量 2.3 偏態(tài)與峰態(tài),數(shù)據(jù)分布的特征,2.1集中趨勢的度量,2.1.1 分類數(shù)據(jù):眾數(shù) 2.1.2 順序數(shù)據(jù):中位數(shù)和分位數(shù) 2.1.
9、3 數(shù)值型數(shù)據(jù):平均數(shù) 2.1.4 眾數(shù)、中位數(shù)和平均數(shù)的比較,集中趨勢(central tendency),眾數(shù)(mode) 中位數(shù)(median) 平均數(shù) (mean),眾數(shù)(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值 適合于數(shù)據(jù)量較多時使用 不受極端值的影響 一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù) 主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),中位數(shù)(median),排序后處于中間位置上的值,不受極端值的影響 主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù) 各變量值與中位數(shù)的離差絕對值之和最小,即,中位數(shù)(位置和數(shù)值的確定),位置確定,數(shù)值確定,平均數(shù)(mean),也稱為均值 集中趨
10、勢的最常用測度值 一組數(shù)據(jù)的均衡點所在 4. 體現(xiàn)了數(shù)據(jù)的必然性特征 5. 易受極端值的影響 6. 有簡單平均數(shù)和加權(quán)平均數(shù)之分 7. 根據(jù)總體數(shù)據(jù)計算的,稱為平均數(shù),記為;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本平均數(shù),記為x,簡單平均數(shù)(Simple mean),設一組數(shù)據(jù)為:x1 ,x2 , ,xn (總體數(shù)據(jù)xN),樣本平均數(shù),總體平均數(shù),加權(quán)平均數(shù) (Weighted mean),設各組的組中值為:M1 ,M2 , ,Mk 相應的頻數(shù)為: f1 , f2 , ,fk,樣本加權(quán)平均,總體加權(quán)平均,加權(quán)平均數(shù) (例題分析),加權(quán)平均數(shù)(權(quán)數(shù)對均值的影響),甲乙兩組各有10名學生,他們的考試成績及其分
11、布數(shù)據(jù)如下 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ):1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ):8 1 1,統(tǒng)計函數(shù)AVERAGE,平均數(shù)(數(shù)學性質(zhì)),1.各變量值與平均數(shù)的離差之和等于零,2. 各變量值與平均數(shù)的離差平方和最小,幾何平均數(shù)(geometric mean),n 個變量值乘積的 n 次方根 適用于對比率數(shù)據(jù)的平均 主要用于計算平均增長率 計算公式為,5. 可看作是平均數(shù)的一種變形,幾何平均數(shù) (例題分析),【例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增
12、長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率,年平均增長率114.91%-1=14.91%,幾何平均數(shù) (例題分析),【例】一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內(nèi)的平均收益率,算術(shù)平均:,幾何平均:,統(tǒng)計函數(shù)GEOMEAN,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,眾數(shù)、中位數(shù)、平均數(shù)的特點和應用,眾數(shù) 不受極端值影響 具有不惟一性 數(shù)據(jù)分布偏斜程度較大且有明顯峰值時應用 中位數(shù) 不受極端值影響 數(shù)據(jù)分布偏斜程度較大時應用 平均數(shù) 易受極端值影響 數(shù)學性質(zhì)優(yōu)良 數(shù)據(jù)對稱分
13、布或接近對稱分布時應用,2.2 離散程度的度量,2.2.1 分類數(shù)據(jù):異眾比率 2.2.2 順序數(shù)據(jù):四分位差 2.2.3 數(shù)值型數(shù)據(jù):方差和標準差 2.2.4 相對離散程度:離散系數(shù),離中趨勢,數(shù)據(jù)分布的另一個重要特征 反映各變量值遠離其中心值的程度(離散程度) 從另一個側(cè)面說明了集中趨勢測度值的代表程度 不同類型的數(shù)據(jù)有不同的離散程度測度值,極差(range),一組數(shù)據(jù)的最大值與最小值之差 離散程度的最簡單測度值 易受極端值影響 未考慮數(shù)據(jù)的分布,R = max(xi) - min(xi),計算公式為,平均差(mean deviation),各變量值與其平均數(shù)離差絕對值的平均數(shù) 能全面反映
14、一組數(shù)據(jù)的離散程度 數(shù)學性質(zhì)較差,實際中應用較少,計算公式為,未分組數(shù)據(jù),組距分組數(shù)據(jù),平均差 (例題分析),平均差 (例題分析),含義:每一天的銷售量平均數(shù)相比, 平均相差17臺,統(tǒng)計函數(shù)AVEDEV,方差和標準差(variance and standard deviation),數(shù)據(jù)離散程度的最常用測度值 反映了各變量值與均值的平均差異 根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差,記為2();根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差,記為s2(s),樣本方差和標準差 (simple variance and standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分
15、組數(shù)據(jù),方差的計算公式,標準差的計算公式,樣本標準差 (例題分析),樣本標準差 (例題分析),含義:每一天的銷售量與平均數(shù)相比, 平均相差21.58臺,統(tǒng)計函數(shù)STDEV,總體方差和標準差 (Population variance and Standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計算公式,標準差的計算公式,相對位置的度量:標準分數(shù),標準分數(shù)(standard score),1. 也稱標準化值 2.對某一個值在一組數(shù)據(jù)中相對位置的度量 3.可用于判斷一組數(shù)據(jù)是否有離群點(outlier) 4.用于對變量的標準化處理 5. 計算公式為,標準
16、分數(shù)(性質(zhì)),均值等于0 2.方差等于1,標準分數(shù)(性質(zhì)),z分數(shù)只是將原始數(shù)據(jù)進行了線性變換,它并沒有改變一個數(shù)據(jù)在改組數(shù)據(jù)中的位置,也沒有改變該組數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標準差為1,標準分數(shù) (例題分析),切比雪夫不等式(Chebyshevs inequality ),對于k=2,3,4,該不等式的含義是 至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍之內(nèi) 至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍之內(nèi) 至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍之內(nèi),思考題,一家公司在招聘收職員時,首先要通過兩項能力測試。在A項測試中,其平均分數(shù)是100分,標準差是15分
17、;在B項測試中,其平均分數(shù)是400分,標準差是50分。一位應試者在A項測試中得了115分,在B項測試中得了425分。與平均分數(shù)相比,該位應試者哪一項測試更為理想?,2.3 偏態(tài)與峰態(tài)的度量,2.3.1 偏態(tài)及其測度 2.3.2 峰態(tài)及其測度,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),數(shù)據(jù)分布特征和描述統(tǒng)計量,3、統(tǒng)計學的應用:相關(guān)與回歸分析,3.1 相關(guān)分析 3.2 回歸分析,3.1變量間關(guān)系的度量,3.1.1 變量間的關(guān)系 3.1.2 相關(guān)關(guān)系的描述與測度 3.1.3 相關(guān)系數(shù)的顯著性檢驗,變量間的關(guān)系,函數(shù)關(guān)系,是一一對應的確定關(guān)系 設有兩個變量 x 和 y ,變量 y 隨變量 x 一起變化,并完
18、全依賴于 x ,當變量 x 取某個數(shù)值時, y 依確定的關(guān)系取相應的值,則稱 y 是 x 的函數(shù),記為 y = f (x),其中 x 稱為自變量,y 稱為因變量 各觀測點落在一條線上,相關(guān)關(guān)系(correlation),變量間關(guān)系不能用函數(shù)關(guān)系精確表達 一個變量的取值不能由另一個變量唯一確定 當變量 x 取某個值時,變量 y 的取值可能有幾個 各觀測點分布在直線周圍,相關(guān)關(guān)系(幾個例子),父親身高y與子女身高x之間的關(guān)系 收入水平y(tǒng)與受教育程度x之間的關(guān)系 糧食單位面積產(chǎn)量y與施肥量x1 、降雨量x2 、溫度x3之間的關(guān)系 商品的消費量y與居民收入x之間的關(guān)系 商品銷售額y與廣告費支出x之間的
19、關(guān)系,相關(guān)關(guān)系(類型),相關(guān)關(guān)系的描述與測度(散點圖),散點圖(scatter diagram),相關(guān)分析及其假定,相關(guān)分析要解決的問題 變量之間是否存在關(guān)系? 如果存在關(guān)系,它們之間是什么樣的關(guān)系? 變量之間的關(guān)系強度如何? 樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系? 為解決這些問題,在進行相關(guān)分析時,對總體有以下兩個主要假定 兩個變量之間是線性關(guān)系 兩個變量都是隨機變量,散點圖(例題分析),【例】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產(chǎn)投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)
20、務的發(fā)展帶來較大壓力。為弄清不良貸款形成的原因,管理者希望利用銀行業(yè)務的有關(guān)數(shù)據(jù)進行定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務數(shù)據(jù),散點圖(例題分析),散點圖(不良貸款對其他變量的散點圖),協(xié)方差:變量x與y之間關(guān)系密切程度,協(xié)方差統(tǒng)計含義的圖示:,相關(guān)系數(shù)(correlation coefficient),度量變量之間關(guān)系強度的一個統(tǒng)計量 對兩個變量之間線性相關(guān)強度的度量稱為簡單相關(guān)系數(shù) 若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為 若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),簡稱為相關(guān)系數(shù),記為 r 也稱為線性相關(guān)系數(shù)(linear correlation coefficient) 或稱為Pearson相關(guān)系數(shù) (Pearsons correlation coefficient),相關(guān)系數(shù) (計算公式), 樣本相關(guān)系數(shù)的計算公式,或化簡為,相關(guān)系數(shù)的性質(zhì),r 的取值范圍是 -1,1 |r|=1,為完全相關(guān) r =1,為完全正相關(guān) r =-1,為完全負正相關(guān) r = 0,不存在線性相關(guān)關(guān)系 -1r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廠長職位聘任與勞動合同
- 美食街運營管理合作協(xié)議范本
- 鄉(xiāng)下人家教學課件下載
- 2024-2025學年山東省聊城市高一下學期期中考政治試題及答案
- 高中一年級生物《基因指導蛋白質(zhì)的合成(第1課時)》
- 建筑信息模型與人工智能融合技術(shù)考核試卷
- 化妝品中的酒精成分對皮膚屏障損害研究考核試卷
- 國際體育賽事規(guī)則與賽事轉(zhuǎn)播限制考核試卷
- 高中英文試題及答案
- 智能家居紡織品應用分析考核試卷
- 攝影設備采購合同范例
- 2022 消化內(nèi)科專業(yè) 藥物臨床試驗GCP管理制度操作規(guī)程設計規(guī)范應急預案
- 三級安全教育試題(公司級、部門級、班組級)
- 整流器并聯(lián)運行控制策略
- 農(nóng)業(yè)土壤檢測技術(shù)行業(yè)發(fā)展前景及投資風險預測分析報告
- 廣東省深圳市羅湖區(qū)2023-2024學年二年級下學期期末考試數(shù)學試題
- 初級美發(fā)師題庫
- DZ∕T 0214-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 銅、鉛、鋅、銀、鎳、鉬(正式版)
- 博奧工程量清單計價軟件操作指南
- 2024年度-《醫(yī)療事故處理條例》解讀
- (2024年)面神經(jīng)炎課件完整版
評論
0/150
提交評論