數(shù)據(jù)分布特征的統(tǒng)計描述.ppt_第1頁
數(shù)據(jù)分布特征的統(tǒng)計描述.ppt_第2頁
數(shù)據(jù)分布特征的統(tǒng)計描述.ppt_第3頁
數(shù)據(jù)分布特征的統(tǒng)計描述.ppt_第4頁
數(shù)據(jù)分布特征的統(tǒng)計描述.ppt_第5頁
已閱讀5頁,還剩178頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1,除了統(tǒng)計圖和統(tǒng)計表之外,還可以用少量的特征值(代表值)對數(shù)據(jù)分布的數(shù)量規(guī)律進行精確、簡潔的描述。,第三章 數(shù)據(jù)分布特征的統(tǒng)計描述,2,大量的數(shù)據(jù)經過整理后,已經能初步反映總體分布的特征。 為了更加準確的了解數(shù)據(jù)分布的特征和規(guī)律,需要找到反映數(shù)據(jù)分布特征的代表值,三類:集中趨勢、離中趨勢、分布形態(tài),說明:,3,集中趨勢:即反映各數(shù)據(jù)向中心值靠攏的程度,返回本節(jié)首頁,4,離中趨勢:即反映各數(shù)據(jù)遠離中心值的程度,兩個不同的曲線表示兩個不同的總體,它們的 集中趨勢相同但離中趨勢不同。,因為即使現(xiàn)象的集中趨勢相同,其離中趨勢 也可能不同。,5,實際中還會遇到:集中趨勢和離中趨勢均相同的現(xiàn)象,其分布的形態(tài)也可能不同。,這表明:除了集中和離中趨勢外,分布還有其他方面的特征:分布的形態(tài)。,指:數(shù)據(jù)分布的對稱程度和扁平(高低)程度,測度指標是偏度,測度指標是峰度,是相對于對稱分布而言,相對于正態(tài)分布而言,6,偏度:測定分布的偏斜程度的指標,偏斜是相對于對稱分布而言,峰度:測定分布的高低(尖峭)程度的指標,尖峭是相對于正態(tài)分布而言,7,正態(tài)分布,對稱分布,8,峰態(tài),偏態(tài),與對稱分 布比較,9,正態(tài)分布中有兩個參數(shù):,一般記為:,、2 是正態(tài)分布的參數(shù),不確定常數(shù)。 不同的、不同的2對應不同的正態(tài)分布,10,標準正態(tài)分布是正態(tài)分布中的一種,記為:,11,本章內容,第一節(jié) 集中趨勢的測度 第二節(jié) 離散程度的測度 第三節(jié) 偏度與峰度,12,第一節(jié) 集中趨勢的測度,集中趨勢是指一組數(shù)據(jù)向其中心值靠攏的傾向 測度集中趨勢就是尋找一組數(shù)據(jù)的代表值或中心值,在統(tǒng)計中是使用平均指標來測度的。,13,本節(jié)內容,一、平均指標含義 二、平均指標的計算 (一)算術平均數(shù) (二)調和平均數(shù) (三)幾何平均數(shù) (四)眾數(shù) (五)中位數(shù) 三、各種平均數(shù)之間的相互關系,數(shù)值平均,位置平均,14,一、平均指標含義,1、定義:又稱平均數(shù)。 是將同質總體內各單位的數(shù)量差異抽象化,以反映總體的一般水平。,被平均的對象必須具有同質性,15,2、平均指標有兩大類,數(shù)值平均:,位置平均:,根據(jù)總體內全部數(shù)據(jù)計算:算術平均、調和平均、幾 何平均。,根據(jù)數(shù)據(jù)在分配數(shù)列中的位置確定:眾數(shù)、中位數(shù)。,16,3、平均指標作用,a、反映總體各單位變量值分布的集中趨勢 b、比較同一現(xiàn)象在不同空間或不同時間的發(fā)展 水平 c、分析現(xiàn)象間的依存關系,17,集中趨勢:,總體中各單位某一標志值的具體表現(xiàn)是各不相 同的,但一般呈正態(tài)分布,即很小或很大的標 志值出現(xiàn)的次數(shù)較少,接近平均數(shù)的標志值出 現(xiàn)的次數(shù)較多,大多數(shù)的標志值都圍繞著平均 數(shù)左右波動。,返回本節(jié)首頁,18,現(xiàn)象間的依存關系:,19,二、平均指標計算,(一)算術平均數(shù),又稱均值。根據(jù)掌握的資料不同: 簡單法和加權法。,20,1、簡單法:適用于沒有分組的原始數(shù)據(jù),均值,即算術平均數(shù),x 標志值或變量值,見49頁例題,21,2、加權法:分組且各組標志值出現(xiàn)的次數(shù) (權數(shù) f )不相等時,公式:,返回本節(jié)首頁,x 為標志值,又稱變量值; f 為各組標志值出現(xiàn)的次數(shù),22,計算平均日產量,23,24,用統(tǒng)計功能的計算器計算: 2ndF,ON, 201M+ 224M+ 246M+ 268M+ 2812M+ 3010M+, xM 結果為26.73,25,例1:用計算器對下列數(shù)據(jù)求平均,26,mode2 Shift scl = 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90DT 55 Shift;30 DT Shift,注意: DT是儲存功能的加號,27,注意:當各組權數(shù)均相等時,加權算術平均數(shù) 等于簡單算術平均數(shù):,返回本節(jié)首頁,28,可用簡單式計算均值,各組權數(shù)都相等的數(shù)列,29,對稱數(shù)列:,可用簡單式計算均值,30,3、權數(shù),加權均值的大小受兩個因素的影響: 各組變量值(x) 各組次數(shù),即權數(shù)(f),31,(1)權數(shù)的定義,權數(shù):即次數(shù),分布在各組間的總體單位數(shù), 因為它對均值的大小起權衡輕重的作 用,故又稱權數(shù)。,出現(xiàn)次數(shù)多的標志值 對平均數(shù)的影響大,32,(2)權數(shù)的表現(xiàn)及應用,絕對數(shù)權數(shù) f 相對數(shù)權數(shù),第一、權數(shù)表現(xiàn):有兩種形式:,33,絕對權數(shù):,相對權數(shù):,計算公式:,例題見教科書51頁表33,34,第二、權數(shù)的實質,是相對數(shù)權數(shù)。 即權數(shù)對均值的影響作用,取決于相對權數(shù)而非絕對權數(shù)。,舉例:,35,計算平均獎金額,雖然各組絕對人數(shù)變化了,但各組人數(shù)的比重未變,比重%,10,37.5,52.5,100,36,4、平均數(shù)應用舉例:,統(tǒng)計中有三大綜合指標: 總量指標、相對指標和平均指標,反映現(xiàn)象總規(guī)模、總水平,用絕對數(shù)表示 如:2010年中國GDP 39.8萬億元人民幣,相對指標是兩個有聯(lián)系的指標值對比的比率, 如:三次產業(yè)比重、企業(yè)勞動生產率、產出的 計劃完成百分數(shù)、經濟發(fā)展速度和增長速度,37,例1、10個企業(yè)資金利潤率資料:,求:10個企業(yè)的平均利潤率,“企業(yè)的平均利潤率” 等同于 “企業(yè)的總利潤率”,企業(yè)的總利潤率 = 利潤總額 / 資金總額,39,利潤總額,資金總額,40,計算150個企業(yè)的平均計劃完成百分數(shù),例2、150個企業(yè)的資料:,“150個企業(yè)的平均計劃完成百分數(shù)” 就是“150個企 業(yè)總的計劃完成百分數(shù)”。,企業(yè)總計劃完成百分數(shù) = 總實際數(shù) / 總計劃數(shù),42,實際產值,計劃產值,43,5、算術平均數(shù)的數(shù)學性質,見52頁,44,(二)調和平均數(shù),1、含義:總體內各個變量值倒數(shù)的算術平均 數(shù)的倒數(shù),又稱倒數(shù)平均數(shù)。,如有三個變量值: 8、10、12,求調和平均數(shù)。步驟如下:,45,、,、,即為調和平均數(shù),公式:,46,(1)簡單式:,(2)加權式:,各變量值出現(xiàn)次數(shù)相等,各變量值出現(xiàn)次數(shù)不等,設 m為次數(shù),2、 調和平均數(shù)的計算,47,舉例:,某蔬菜單價早中晚分別為0.5、0.4、 0.25(元/斤) (1)早中晚各買1元,求平均價格 (2)早中晚各買1斤,求平均價格 (3)早中晚各買2元、3元、4元,求平均價格 (4)早中晚各買2斤、3斤、4斤,求平均價格,48,(1)問:用調和平均。先求早、中、晚購買的斤 數(shù)。早 1/0.5=2(斤) 、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤),(2)問:用算術平均,49,(3)問:用加權調和平均,(4)問:用加權算術平均,50,3、調和平均數(shù)和算術平均數(shù)間的關系,調和平均數(shù)是一種特殊的均值,(1)兩者存在著變形關系:,51,(2)當掌握的資料無法直接計算算術平均數(shù)時,可用調和法計算。,這時兩者計算結果相同,只是根據(jù)已知 條件不同,需選擇不同的公式。,52,已知對比分母,將分母定為f,求分子xf,然后用加權算術公式,即:,已知對比分子,將分子定為m,求分母mx 用加權調和公式,即 :,53,某公司下屬三個部門銷售利潤資料,求三個部門的平均利潤率。,54,思考: 如果已知銷售利潤率和銷售額資料, 該如何計算?,55,56,計算:20個商店平均銷售計劃完成程度及總的流通費用率。,57,58,(1)20個商店的平均銷售計劃完成程度,(2)20個商店總的流通費用率,59,(三)幾何平均數(shù),1.定義: n 個變量值乘積的 n 次方根,60,3、計算方法,簡單法:,加權法:,61,例1:2004-2008年我國某工業(yè)品產量環(huán)比發(fā) 展速度分別為107.6%、102.5%、100.6%、 102.7%、102.2%。計算平均每年的發(fā)展速度,62,按計算器:1.076,1.025, ,1.006, ,1.027, ,1.022,=,2ndF, 5,=,出現(xiàn)結果:1.0309 即103.1%,63,例2:某廠有四個流水連續(xù)作業(yè)車間,某月的合格率分別為:0.95,0.92,0.90,0.80,求四個車間的平均合格率。,64,例3:某地區(qū)25年的年經濟發(fā)展速度分別是: 1年103%,4年105%,8年108%, 10年 110%,2年115%, 求該地區(qū)經濟的平均年發(fā)展速度。,65,1.03,(,1.05,yx,4,),(,1.08,yx,8,), ,(,1.1,yx,10,),(,1.15,yx,2,), =,2ndF, 25,=,出現(xiàn)結果:1.086 即108.6%,66,4、使用幾何平均法注意問題,第一、變量值要是相對數(shù),且不能為負值或零,第二、這些相對數(shù)的連乘積要等于總速度或總比率,幾何平均法適用于對比率數(shù)據(jù)(相對數(shù))的平均, 主要用于計算平均比率和平均速度,67,幾何平均數(shù)是一種特殊的均值:,可寫成:,68,(四)眾數(shù),1、定義: 一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值,2、計算:分兩種情況:,品質數(shù)列和單項式數(shù)列 組距式數(shù)列,69,Mo可口可樂,(1)品質數(shù)列計算眾數(shù),定性變量,70,Mo不滿意,甲城市家庭對住房狀況評價的頻數(shù)分布,71,眾數(shù)是數(shù)列中出現(xiàn)次數(shù)最多的變量值,眾數(shù),(2)單項數(shù)列計算眾數(shù),定性變量,72,(3)組距式數(shù)列計算眾數(shù),先確定眾數(shù)所在的組,然后用公式計算 分:上限公式和下限公式,返回本節(jié)首頁,定性變量,73,分數(shù)x 人數(shù) f 60以下 2 6070 7 7080 15 8090 10 90以上 6 合計 40,fm-1,fm+1,fm,L :眾數(shù)所在組的下限 U :眾數(shù)所在組的上限,74,上限公式:,下限公式:,75,76,3、眾數(shù)說明,(1)不受極端值的影響 (2)既適用于品質數(shù)列,也適用于變量數(shù)列 (3)一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù),返回本節(jié)首頁,77,無眾數(shù) 原始數(shù)據(jù): 10 5 9 12 6 8,多于一個眾數(shù) 原始數(shù)據(jù): 25 28 28 36 42 42,一個眾數(shù) 原始數(shù)據(jù): 6 5 9 8 5 5,78,(五)中位數(shù),1、中位數(shù)的含義: 將各單位標志值按大小排列,居于中間位 置的那個標志值。,返回本節(jié)首頁,79,2、中位數(shù)的計算,分兩種情況: (1)未分組原始資料 (2)組距式數(shù)據(jù),返回本節(jié)首頁,80,(1)未分組原始資料,先將數(shù)據(jù)從小到大排序,項數(shù)為奇數(shù)時,中間位置 上的標志值即為中位數(shù),項數(shù)為偶數(shù)時,中間位置 上2個標志值的平均為中位數(shù),81,有9個數(shù)值: 2、3、5、6、9、10、11、13、14 中位數(shù)為第5個,即9 有10個數(shù)值: 2、3、5、6、9、10、11、13、14、15 中位數(shù)為第5、第6個數(shù)據(jù)的平均值,即9.5,82,(2)組距數(shù)列,fm,SMe+1,SMe-1,83,B、確定中位數(shù)所在的組: 本例為: 40/2=20,即中位數(shù)應在將分數(shù)從 高到低排列后的第20個學生的分數(shù)上,A、先將次數(shù)進行累計,C、利用公式計算中位數(shù) ( 公式 見56頁 ),84,公式:,下限公式= 上限公式=,85,帶入資料得:,(分) (分),86,附:四分位數(shù),四分位數(shù):是指位于全部數(shù)據(jù) 位置和 位 置上的數(shù)據(jù),分別稱為下四分位數(shù)和上四分位 數(shù)。也稱為第一個四分位數(shù) 和 第三個四分位數(shù)。,即:排序后處于25%和75%位置上的值。 實際上,中位數(shù)就是第二個四分位數(shù),87,四分位的位置:,88,箱線圖:可以觀察數(shù)據(jù)分布的特征,4,6,8,10,12,Median/Quart./Range箱線圖,Me,89,某電腦公司2005年前四個月120天的銷售量數(shù)據(jù),試利用箱線圖對數(shù)據(jù)分布特征進行分析。,90,未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖,91,某電腦公司銷量分組表,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖,從某大學經濟管理專業(yè)二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試通過多批箱線圖分析各科考試成績的分布特征。,93,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖,8門課程考試成績的Median/Quart./Range箱線圖,94,11名學生8門課程考試成績的Median/Quart./Range箱線圖,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖,95,96,三、各種平均數(shù)之間的關系,兩者都屬于抽象化的代表值,但有區(qū)別, 前者容易受極端值的影響,后者不會。,1、數(shù)值平均數(shù)和位置平均數(shù)的比較:,97,某公司中層干部2010年的收入,求平均收入,職位 收入(元) 財務部經理 10 000 市場部經理 450000 人事部經理 90 000 研發(fā)部經理 100 000 生產部經理 10 000,實際中可利用切尾平均法:去掉極端值, 將剩余的數(shù)據(jù)求平均。,98,收入(元) 人數(shù) 1000 5 3000 25 5000 56 10000 10 50000 3 30000000 1,計算其平均收入時, 位置平均和數(shù)值平均哪一種方法更合適?,99,2、三種平均數(shù)之間的關系,有極小值,拉動均 值向極小值靠近,有極大值,拉動均值向極大值靠近,100,眾數(shù)、中位數(shù)、平均數(shù)的特點和應用,眾數(shù):不受極端值影響 具有不惟一性 數(shù)據(jù)分布偏斜程度較大且有明顯峰值時應用 中位數(shù):不受極端值影響 數(shù)據(jù)分布偏斜程度較大時應用 平均數(shù):易受極端值影響 數(shù)據(jù)對稱分布或接近對稱分布時應用,101,離散程度是測定數(shù)據(jù)分布特征的另一重要指標,第二節(jié) 離散程度測度,統(tǒng)計是使用變異指標來測度分布的離散程度,用于測定一組數(shù)據(jù)中各數(shù)值之間的差異程度, 即:在一個分布中各數(shù)值與均值的離差程度,102,三個集中趨勢相同但離中趨勢不同的總體,離散程度指標可從另一個角度說明集中趨勢測度值的代表程度。,103,一、變異指標的意義和作用 二、變異指標的種類 (一)全距(極差) (二)平均差 (三)標準差 (四)離散系數(shù),返回本章首頁,本節(jié)內容,104,一、變異指標的意義和作用,變異指標的含義 又稱標志變動度、離散程度或離中程度。 是描述總體內各數(shù)據(jù)之間差別大小程度的指標,返回本節(jié)首頁,甲:20,40,60,70,80,100,120 乙:67,68,69,70,71,72,73,如兩組數(shù)據(jù),請直觀判斷哪一組的離散程度大,105,70,70,返回本節(jié)首頁,106, 標志變動度的作用,2、能衡量現(xiàn)象變動的均衡性或穩(wěn)定性,3、能反映各變量值分布的離散程度(離中趨勢),1、是評價平均數(shù)代表性的依據(jù),甲企業(yè) 25 25 25 25 均勻、協(xié)調 乙企業(yè) 10 15 20 55 丙企業(yè) 5 10 15 70 不均勻。,企業(yè)產值各季度計劃完成情況,107,平均數(shù)的代表性和標志變動度的關系,標志變動度大,平均數(shù)的代表性就??; 反之 ,平均數(shù)的代表性就大 例如:三組學生的年齡(歲) 20 20 20 20 20 -差距最小,20歲的代表性最好 18 19 20 21 22 15 16 20 24 25-差距最大,20 歲的代表性最差,108,二、標志變異指標的種類,全距 1、含義:總體各單位標志的最大值和最小值之差。 R = Xmax-Xmin,109,2、全距的優(yōu)點和缺點,優(yōu)點:計算簡單、涵義直觀,缺點:易受極端數(shù)值的影響 不能反映中間標志值的變動,110,附:四分位差(見 60 頁),四分位差Qd = Q3 - Q1,111,(二)平均差,1、含義 是各變量值與其算術平均數(shù)離差絕對值 的算術平均數(shù),即:,平均差能全面反映一組數(shù)據(jù)的離散狀況,112,2、平均差計算:,返回本節(jié)首頁,簡單式:,加權式:,113,18 19 20 21 22,-2 -1 0 1 2,2 1 0 1 2,x,合計 - 6,一組學生年齡: 18 19 20 21 22 求平均差。,114,某廠200個工人產量資料(單位:公斤),日產量 30以下 3040 4050 50以上 合計 求A.D,工人數(shù) 10 70 90 30 200,115,X 25 35 45 55 合計,-17 -7 3 13 -,f 10 70 90 30 200,17 7 3 13 -,170 490 270 390 1320,250 2450 4050 1650 8400,116,結論: 該廠工人平均日產量為42公斤,但各工人生產水平有差異,其差異平均為6.6公斤。,117,3、平均差的優(yōu)缺點,優(yōu)點:和全距相比,彌補了全距不足,能反 映中間標志值的變動。 缺點:加絕對值號為計算帶來了不便。,118,(三)標準差(均方差),1、概念 是各變量值與其算術平均數(shù)離差平方的算術 平均數(shù)的平方根,又稱均方差。,119,2、計算: 已知資料不同采用不同方法:,加權式:,簡單式:,120,標準差的平方即為方差,121,一組學生年齡: 18 19 20 21 22 18 -2 4 19 -1 1 20 0 0 21 1 1 22 2 4 合計 - 10,簡單式舉例:,122,某廠200個工 人產量資料: (單位:公斤),日產量 30以下 3040 4050 50以上 合計,工人數(shù) 10 70 90 30 200,求標準差,加權式舉例:,123,x 25 35 45 55 合計,-17 -7 3 13 -,f 10 70 90 30 200,289 49 9 169 -,2890 3430 810 5070 12200,250 2450 4050 1650 8400,124,標準差的計算可以用統(tǒng)計功能的計算器。,結論: 各工人生產產量與平均產量相比,平均相差7.8公斤。,125,計算器的使用,開機:ON,2ndF,ON 進入到統(tǒng)計功能后,用計算平均數(shù)的方法輸數(shù)據(jù) 所有的數(shù)據(jù)輸完后,按 2ndF 鍵, 再按xM 健,即為標準差,注意:所有的數(shù)據(jù)輸完后,如果直接 按xM 健,即為平均數(shù)。,126,統(tǒng)計功能的計算器的使用 Mode2 Shift scl = 25 Shift;10 DT 35 Shift;70 DT 45 Shift;90 DT 55 Shift;30 DT Shift,127,3、標準差的優(yōu)缺點,優(yōu)點:彌補了平均差和全距的不足。 缺點:利用標準差不能比較性質不同的數(shù)列(即水平高低不等和計量單位不同)離散程度的大小。,128,如:兩組動物體重(單位:公斤),甲: , , 乙:, 試比較平均數(shù)的代表性。,129,130,上述結論不一定正確,因為:兩組數(shù)據(jù)性質不同(水平高低不等或者計量單位不同),不能直接用標準差(或平均差)比較平均數(shù)的代表性。須用相對離散程度指標 離散系數(shù)。,131,(四)離散系數(shù),又稱變異系數(shù),是一組相對數(shù)形式的變異指標 有全距系數(shù)、平均差系數(shù)、標準差系數(shù)等等 以標準差系數(shù)為例說明其計算。,132,對于上例,133,總結:,比較兩組數(shù)據(jù)的離散程度,即比較平均數(shù)的代表性時: 如果兩組數(shù)據(jù)的平均數(shù)相等且計量單位相同,可直接使用標準差比較; 除此之外,均需使用標準差系數(shù)比較。,134,對稱鐘形分布特點:以均值為中心兩邊對稱, 且中間數(shù)據(jù)出現(xiàn)的頻數(shù)多而兩尾出現(xiàn)的頻數(shù)少。,附:標準差的應用,約有68%數(shù)據(jù)在均值加減1個標準差的范圍之內 約有95%數(shù)據(jù)在均值加減2個標準差的范圍之內 約有99%數(shù)據(jù)在均值加減3個標準差的范圍之內,1、對稱鐘形分布中的,法則:,135,1、求是非標志(交替標志)的標準差,按品質標志分組且只有兩種表現(xiàn)的標志,136,是否是是非標志?,137,是非標志 變量 x 次數(shù) 是 1 否 0 求是非標志的平均數(shù)及方差,138,139,140,3、標準化值(數(shù)據(jù)的標準得分),有兩個班(1、2班)的同一門課成績,假定兩個班水平類似,但由于兩個任課老師的評分標準不同,使得兩個班成績的均值和標準差都不同:,那么1班得90分的張英和2班得82分的劉抒成績能否比較?,1班均值:78.53,標準差:9.43 2班均值:70.19,標準差:7.0,不能直接比,但可以將它們進行標準化后再對比。,141,標準化的方法:,劉抒標準得分:,張英的標準得分:,劉抒的成績優(yōu)于張英。,142,標準化值實際上是將不同均值和標準差的 總體都轉化為均值為0 ,標準差為1 的總體。,如:一組數(shù)據(jù):25、28、31、34、37、40、43。試計算其標準化值。,首先計算出均值為34,標準差為6,143,均值為34,標準差為6,均值為0,標準差為1,標準化后的數(shù)據(jù)雖然均值和標準差發(fā)生了改變 但數(shù)據(jù)內部點的相對位置是沒有變化的。,144,科目 平均分 標準差 甲生 乙生 語文 70 8 91 71 數(shù)學 56 4 50 64 外語 42 5 40 51 政治 80 10 85 80 物理 50 4 60 70 化學 40 12 75 45 合計 - - 401 381,原始成績,例:已知某年高考全部考生分科總平均成績和 標準差值,又知兩名考生的實際成績如下:,計算兩考生的標準化值,并進行比較。,145,146,第一、甲考生偏科,數(shù)學和英語成績均低于 平均成績;乙考生比較全面,各科成績都不 低于平均成績。,原因:,第二、乙考生在平均分偏低且水平差距較?。藴什睿┑奈锢怼?shù)學和英語等科目中取得了較好的成績,甲考生則在這些科目上表現(xiàn)不好,影響了其標準成績。,147,3、總方差、組間方差和組內方差,在總體分組的情況下會產生上述三種方差 總方差:各標志值與總平均數(shù)的離差 組間方差:各組平均數(shù)與總平均數(shù)的離差 組內方差:各組組內的標志值與各組內平均數(shù)的離差,三者關系: 總方差 = 組間方差 + 組內方差的算術平均數(shù),148,其中 i 代表總體內的組數(shù),149,150,舉例:,某公司7個門市部營業(yè)額數(shù)據(jù): 88、90、96、98、110、140、200 分成兩組: 88、90、96、98 110、140、200 計算總方差、組內方差和組間方差,151,152,組內方差的算術平均數(shù):,153,第三節(jié) 分布形態(tài)的測定 (偏度和峰度),集中趨勢和離中趨勢是數(shù)據(jù)分布的兩個重要 特征。但即使集中趨勢和離中趨勢均相同的現(xiàn)象,其分布的形態(tài)也有可能不同。,這表明:除了集中趨勢和離中趨勢外,分 布還有其他方面的特征:分布的形態(tài)。,154,反映數(shù)據(jù)分布形狀的指標有兩個:偏態(tài)和峰度,偏態(tài):是測定分布的偏斜方向和偏斜程度的指標,是相對于對稱分布而言,峰度:是測定分布的尖峭程度的指標,是相對于正態(tài)分布而言,155,正態(tài)分布,對稱分布,156,首先介紹“矩”的概念,矩:又稱動差,物理學上的術語。統(tǒng)計上用 來刻畫數(shù)據(jù)分布特征的的指標的統(tǒng)稱。,K 階矩:所有變量值與數(shù)值a之離差的K 次方 的平均數(shù)稱為變量 x 關于 a 的K 階矩,當:a等于0時稱為 K 階原點矩 a等于 時稱為 K 階原點矩,一階原點階矩就是算術平均數(shù) 二階中心距就是方差,157,一階原點矩 即為均值,二階中心矩 即為方差,158,1、偏態(tài):,偏態(tài):是對分布的偏斜方向和偏斜程度的測定,測定偏態(tài)程度的指標稱為偏態(tài)系數(shù),如果次數(shù)的分布是完全對稱的,稱為對稱分布 否為非對稱分布,即偏態(tài)分布,分左偏和右偏,和 對稱分布比較而言,159,偏態(tài)系數(shù):用三階中心矩定義,該系數(shù)為0時,為對稱分布 大于0時,為右偏態(tài)分布 小于0時,為左偏態(tài)分布 越接近0,偏斜程度就越低,若分布不對稱,只有一階中心矩為0,其余的奇數(shù)階中心矩都不為0。若分布對稱,所有奇數(shù)階中心矩應為0,,消除 量綱,160,2、峰度,峰度:是指分布圖形的尖峭程度。,和標準正態(tài)分布比較而言的,實際中,標準正態(tài)分布曲線的峰頂為正態(tài)峰, 和標準正態(tài)分布曲線相比,陡峭的為尖峰, 平緩的為平峰頂。,測定峰度的指標稱為 峰度系數(shù)。,161,峰態(tài),162,峰度系數(shù):用四階中心矩定義。因為分布的尖峭程度和偶數(shù)階中心矩數(shù)值大小有關.,所以該系數(shù)和3比:等于3,為正態(tài)分布; 大于3時,為尖峰分布;小于3時,平峰分布,消除量綱,因為:正態(tài)分布曲線的四階中心 矩和標準差的4次方之比為3,163,尖頂分布(K3),平頂分布(K3),正態(tài)分布(K=3),164,因為對于正態(tài)分布,所以,峰度的標準測定公式為:,165, 用EXCEL計算描述統(tǒng)計量,用EXCEL計算平均數(shù)、標準差等描述性統(tǒng)計 量有兩種方法: 一是用函數(shù) 二是用“數(shù)據(jù)分析”工具,166,第一、函數(shù),均值:average 中位數(shù):median 眾數(shù):mode 標準差: 總體標準差:stdevp; 樣本標準差: stdev 分位數(shù):quartile,Excel用于計算描述統(tǒng)計量的函數(shù):,167,168,分位數(shù)quartile的語法結構,Quartile(array, quart),Array:計算四分數(shù)的數(shù)據(jù)區(qū)域。輸入待計算數(shù)據(jù)的地址即可。,Quart:計算的是第幾個四分數(shù) 可輸入:0、1、2、3、4。分別表示最小值、第1、2、3個四分位數(shù)和最大值。,169,第二、 “數(shù)據(jù)分析”工具,第一次使用“數(shù)據(jù)分析”時,需在EXCEL工具 菜單中選“加載宏”,選“分析工具庫”。 這樣在“工具”菜單中就會出現(xiàn)“數(shù)據(jù)分析”。,170,選擇“網(wǎng)上沖浪”工作表。 打開“工具”菜單,選擇“數(shù)據(jù)分析”選項,打開數(shù)據(jù)分析對話框如圖所示。,171,雙擊“描述統(tǒng)計”項或先單擊此項再選擇“確定”按鈕,描述統(tǒng)計對話框打開如圖所示。 在“輸入?yún)^(qū)域”中輸入A1:A21。,172,由于所選數(shù)據(jù)范圍包括一個標志名稱,單擊“標志位于第一行”選項邊上的復選框。 單擊“輸出區(qū)域”項,旁邊出現(xiàn)了一個輸入框,單擊此框出現(xiàn)插入符,單擊C1,在輸入框中出現(xiàn)輸出地址“$B$1”,這是輸出結果的左上角起始位置。 單擊“匯總統(tǒng)計”,如不選此項,則Excel省略部分輸出結果。,173,平均 38.75 標準誤差 2.435348 中位數(shù) 38.5 眾數(shù) 29 標準差 10.89121 方差 118.6184 峰度 -1.0812 偏度 0.277013 區(qū)域 36 最小值 22 最大值 58 求和 775 觀測數(shù) 20,單擊“確定”按鈕,輸出結果如下圖所示:,174,案例研究 “Old Faithful”間歇噴泉的噴發(fā),間歇噴泉是一種向空中噴出熱水和熱氣的溫泉,其名字的由來是因為這種噴泉要經過一段相對穩(wěn)定的狀態(tài)后才能噴發(fā)。有時它噴射的時間間隔不太穩(wěn)定。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論