R語(yǔ)言入門數(shù)據(jù)特征的描述_第1頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第2頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第3頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第4頁(yè)
R語(yǔ)言入門數(shù)據(jù)特征的描述_第5頁(yè)
已閱讀5頁(yè),還剩85頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、實(shí)驗(yàn)?zāi)康膶?shí)驗(yàn)?zāi)康膶?shí)驗(yàn)內(nèi)容實(shí)驗(yàn)內(nèi)容學(xué)習(xí)如何應(yīng)用學(xué)習(xí)如何應(yīng)用R R軟件描述數(shù)據(jù)特征軟件描述數(shù)據(jù)特征1 1、方法方法簡(jiǎn)介簡(jiǎn)介 2 2、應(yīng)用實(shí)例、應(yīng)用實(shí)例3 3、實(shí)驗(yàn)作業(yè)、實(shí)驗(yàn)作業(yè)第八講第八講 數(shù)據(jù)特征的描述數(shù)據(jù)特征的描述 3 數(shù)據(jù)分布特征的測(cè)度3.1 集中趨勢(shì)的測(cè)度集中趨勢(shì)的測(cè)度 3.2 離散程度的測(cè)度離散程度的測(cè)度3.3 偏態(tài)與峰態(tài)的測(cè)度偏態(tài)與峰態(tài)的測(cè)度學(xué)習(xí)目標(biāo)1. 集中趨勢(shì)各測(cè)度值的計(jì)算方法集中趨勢(shì)各測(cè)度值的計(jì)算方法2. 集中趨勢(shì)各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合集中趨勢(shì)各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合3. 離散程度各測(cè)度值的計(jì)算方法離散程度各測(cè)度值的計(jì)算方法4. 離散程度各測(cè)度值的特點(diǎn)及應(yīng)用場(chǎng)合離散程度各測(cè)度值

2、的特點(diǎn)及應(yīng)用場(chǎng)合偏態(tài)與峰態(tài)的測(cè)度方法偏態(tài)與峰態(tài)的測(cè)度方法5. 用用R計(jì)算描述統(tǒng)計(jì)量并進(jìn)行分析計(jì)算描述統(tǒng)計(jì)量并進(jìn)行分析數(shù)據(jù)分布的特征數(shù)據(jù)分布特征的測(cè)度數(shù)據(jù)特征的測(cè)度數(shù)據(jù)特征的測(cè)度分布的形狀分布的形狀集中趨勢(shì)集中趨勢(shì)離散程度離散程度3.1 集中趨勢(shì)的測(cè)度一一. 分類數(shù)據(jù):眾數(shù)分類數(shù)據(jù):眾數(shù)二二. 順序數(shù)據(jù):中位數(shù)和分位數(shù)順序數(shù)據(jù):中位數(shù)和分位數(shù)三三. 數(shù)值型數(shù)據(jù):均值數(shù)值型數(shù)據(jù):均值四四. 眾數(shù)、中位數(shù)和均值的比較眾數(shù)、中位數(shù)和均值的比較集中趨勢(shì)(Central tendency)眾數(shù)(mode)出現(xiàn)次數(shù)最多的變量值不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)

3、和數(shù)值型數(shù)據(jù)眾數(shù)(不唯一性)無(wú)眾數(shù)無(wú)眾數(shù)原始數(shù)據(jù): 10 5 9 12 6 8分類數(shù)據(jù)的眾數(shù) (例題分析)不同品牌飲料的頻數(shù)分布不同品牌飲料的頻數(shù)分布 飲料品牌飲料品牌頻數(shù)頻數(shù)比例比例百分比百分比(%) 可口可樂可口可樂 旭日升冰茶旭日升冰茶 百事可樂百事可樂 匯源果汁匯源果汁 露露露露15119690.3020.183022181218合計(jì)合計(jì)501100順序數(shù)據(jù)的眾數(shù) (例題分析)甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)百分比百分比 (%) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意

4、 非常滿意非常滿意24108934530836311510合計(jì)合計(jì)300100.0中位數(shù)(median)排序后處于中間位置上的值min1nieiMx中位數(shù)(位置的確定)21n中位數(shù)位置2n中位數(shù)位置順序數(shù)據(jù)的中位數(shù) (例題分析)甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計(jì)頻數(shù)累計(jì)頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計(jì)合計(jì)300數(shù)值型數(shù)據(jù)的中位數(shù) (9個(gè)數(shù)據(jù)的算例)【例例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù)原始數(shù)據(jù):1500 75

5、0 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9521921n位置數(shù)值型數(shù)據(jù)的中位數(shù) (10個(gè)數(shù)據(jù)的算例)【例例】:10個(gè)家庭的人均月收入數(shù)據(jù)排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 5 . 5211021n位置102021080960中位數(shù)四分位數(shù)(quartile)排序后處于25%和75%位置上的值四分位數(shù)(位置的確定)4)

6、 1(341nQnQUL位置位置434nQnQUL位置位置順序數(shù)據(jù)的四分位數(shù) (例題分析)甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計(jì)頻數(shù)累計(jì)頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計(jì)合計(jì)300數(shù)值型數(shù)據(jù)的四分位數(shù) (9個(gè)數(shù)據(jù)的算例)【例例】:9個(gè)家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排排 序序: 750 780 850 960 1080 1250 1

7、500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 95 . 74) 19( 35 . 2419位置位置ULQQ15652163015008152850780ULQQ數(shù)值型數(shù)據(jù)的四分位數(shù) (10個(gè)數(shù)據(jù)的算例)【例例】:10個(gè)家庭的人均月收入數(shù)據(jù)排排 序序: 660 750 780 850 960 1080 1250 1500 1630 2000位位 置置: 1 2 3 4 5 6 7 8 9 10 25. 84) 110( 375. 24110位置位置ULQQ5 .1532)15001630(25. 015005 .772)750780(75. 0750ULQQ均值(mea

8、n)集中趨勢(shì)的最常用測(cè)度值一組數(shù)據(jù)的均衡點(diǎn)所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)簡(jiǎn)單均值與加權(quán)均值(simple mean / weighted mean)nxnxxxxniin121nfMffffMfMfMxkiiikkk1212211已改至此!已改至此!某電腦公司銷售量數(shù)據(jù)分組表某電腦公司銷售量數(shù)據(jù)分組表按銷售量分組按銷售量分組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)Mi fi 14015015016016017017018018019019020020021021022022023023024014515516517518519520521522

9、523549162720171084558013952640472537003315205017209001175合計(jì)合計(jì)12022200185120222001nfMxkiii加權(quán)均值(權(quán)數(shù)對(duì)均值的影響) 甲乙兩組各有10名學(xué)生,他們的考試成績(jī)及其分布數(shù)據(jù)如下 甲組:甲組: 考試成績(jī)(考試成績(jī)(x ): 0 20 100 人數(shù)分布(人數(shù)分布(f ):):1 1 8 乙組:乙組: 考試成績(jī)(考試成績(jī)(x): 0 20 100 人數(shù)分布(人數(shù)分布(f ):):8 1 1)(82108100120101分甲nxxnii)(12101100120801分乙nxxnii均值(數(shù)學(xué)性質(zhì))1.各變量值與均

10、值的離差之和等于零niixx12min)(niixx10)(調(diào)和平均數(shù)(harmonic mean)均值的另一種表現(xiàn)形式易受極端值的影響計(jì)算公式為iiiiiiiimffMMfMfMH調(diào)和平均數(shù) (例題分析)某日三種蔬菜的批發(fā)成交數(shù)據(jù)某日三種蔬菜的批發(fā)成交數(shù)據(jù)蔬菜蔬菜名稱名稱批發(fā)價(jià)格批發(fā)價(jià)格(元元) Mi成交額成交額(元元) Mi fi成交量成交量(公斤公斤)fi甲甲乙乙丙丙1.200.500.801800012500640015000250008000合計(jì)合計(jì)3690048000(元)批發(fā)價(jià)格成交額成交額769. 04800036900mH幾何平均數(shù)(geometric mean) n 個(gè)變量

11、值乘積的 n 次方根適用于對(duì)比率數(shù)據(jù)的平均主要用于計(jì)算平均增長(zhǎng)率計(jì)算公式為nniinnmxxxxG121nxxxxnGniinm121lg)lglg(lg1lg幾何平均數(shù) (例題分析)【例例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬(wàn)噸,2000年與1999年相比增長(zhǎng)率為9%,2001年與2000年相比增長(zhǎng)率為16%,2002年與2001年相比增長(zhǎng)率為20%。求各年的年平均增長(zhǎng)率。%91.114%120%116%109321nnmxxxG001(1)(1)nnniiPxPPx幾何平均數(shù) (例題分析)【例例】一位投資者購(gòu)持有一種股票,在2000、2001、2002和2003年收益率分別為4.5

12、%、2.1%、25.5%、1.9%。計(jì)算該投資者在這四年內(nèi)的平均收益率 %0787. 81%9 .101%5 .125%1 .102%5 .1044G%5 . 84%9 . 1%5 .25%1 . 2%5 . 4G眾數(shù)、中位數(shù)和均值的關(guān)系眾數(shù)、中位數(shù)和均值的特點(diǎn)和應(yīng)用眾數(shù)不受極端值影響具有不唯一性數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時(shí)應(yīng)用均值易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用數(shù)據(jù)類型與集中趨勢(shì)測(cè)度值數(shù)據(jù)類型和所適用的集中趨勢(shì)測(cè)度值數(shù)據(jù)類型和所適用的集中趨勢(shì)測(cè)度值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)間隔數(shù)據(jù)間隔數(shù)據(jù)比率數(shù)據(jù)比率數(shù)

13、據(jù)適適用用的的測(cè)測(cè)度度值值眾數(shù)眾數(shù)中位數(shù)中位數(shù)均值均值均值均值四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)調(diào)和平均數(shù)調(diào)和平均數(shù)眾數(shù)眾數(shù)中位數(shù)中位數(shù)幾何平均數(shù)幾何平均數(shù)四分位數(shù)四分位數(shù) 中位數(shù)中位數(shù)四分位數(shù)四分位數(shù)眾數(shù)眾數(shù)3.2 離散程度的測(cè)度 分類數(shù)據(jù):異眾比率分類數(shù)據(jù):異眾比率 順序數(shù)據(jù):四分位差順序數(shù)據(jù):四分位差 數(shù)值型數(shù)據(jù):方差及標(biāo)準(zhǔn)差數(shù)值型數(shù)據(jù):方差及標(biāo)準(zhǔn)差 相對(duì)位置的測(cè)量:標(biāo)準(zhǔn)分?jǐn)?shù)相對(duì)位置的測(cè)量:標(biāo)準(zhǔn)分?jǐn)?shù) 相對(duì)離散程度:離散系數(shù)相對(duì)離散程度:離散系數(shù)離中趨勢(shì)異眾比率(variation ratio)1.對(duì)分類數(shù)據(jù)離散程度的測(cè)度2.非眾數(shù)組的頻數(shù)占總頻數(shù)的比率3.計(jì)算公式為imimirfffffv1異眾比

14、率 (例題分析)%707 . 050151501550rv不同品牌飲料的頻數(shù)分布不同品牌飲料的頻數(shù)分布 飲料品牌飲料品牌頻數(shù)頻數(shù)比例比例百分比百分比(%) 可口可樂可口可樂 旭日升冰茶旭日升冰茶 百事可樂百事可樂 匯源果汁匯源果汁 露露露露15119690.3020.183022181218合計(jì)合計(jì)501100四分位差(quartile deviation)對(duì)順序數(shù)據(jù)離散程度的測(cè)度也稱為四分間距(inter-quantile range)上四分位數(shù)與下四分位數(shù)之差 QD = QU QL 反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性四分位差 (例題分

15、析)甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布甲城市家庭對(duì)住房狀況評(píng)價(jià)的頻數(shù)分布回答類別回答類別甲城市甲城市戶數(shù)戶數(shù) (戶戶)累計(jì)頻數(shù)累計(jì)頻數(shù) 非常不滿意非常不滿意 不滿意不滿意 一般一般 滿意滿意 非常滿意非常滿意2410893453024132225270300合計(jì)合計(jì)300極差(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布平均差(mean deviation)各變量值與其均值離差絕對(duì)值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差,實(shí)際中應(yīng)用較少nxxMniid1nfxMMkiiid1平均差 (例題分析)某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表某電腦公司

16、銷售量數(shù)據(jù)平均差計(jì)算表 按銷售量分組按銷售量分組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)14015015016016017017018018019019020020021021022022023023024014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計(jì)合計(jì)1202040 xMiiifxM 平均差 (例題分析)(1712020401臺(tái)nfxMMkiiid方差和標(biāo)準(zhǔn)差(variance and standard deviation)數(shù)據(jù)離散程度的最常用測(cè)度值反

17、映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計(jì)算的,稱為樣本方差或標(biāo)準(zhǔn)差樣本方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation)未分組數(shù)據(jù):1)(122nxxsnii1)(122nfxMskiii1)(12nxxsnii1)(12nfxMskiii樣本方差自由度(degree of freedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為 n 時(shí),若樣本均值x 確定后,只有n-1個(gè)數(shù)據(jù)可以自由取值,其中必有一個(gè)數(shù)據(jù)則不能自由取值例如,樣本有3個(gè)數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x

18、 = 5 確定后,x1,x2和x3有兩個(gè)數(shù)據(jù)可以自由取值,另一個(gè)則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面來(lái)解釋,從實(shí)際應(yīng)用角度看,在抽樣估計(jì)中,當(dāng)用樣本方差s2去估計(jì)總體方差2時(shí), s2是2的無(wú)偏估計(jì)量樣本標(biāo)準(zhǔn)差 (例題分析)某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表某電腦公司銷售量數(shù)據(jù)平均差計(jì)算表 按銷售量分組按銷售量分組組中值組中值(Mi)頻數(shù)頻數(shù)(fi)1401501501601601701701801801901902002002102102202202302302401451551651751851952052152252

19、3549162720171084540302010010203040501602703202700170200240160250合計(jì)合計(jì)120554002xMiiifxM2樣本標(biāo)準(zhǔn)差 (例題分析)(58.211120554001)(12臺(tái)nfxMskiii標(biāo)準(zhǔn)分?jǐn)?shù)(standard score)1. 也稱標(biāo)準(zhǔn)化值2.對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量3.可用于判斷一組數(shù)據(jù)是否有離群點(diǎn)4.用于對(duì)變量的標(biāo)準(zhǔn)化處理5. 計(jì)算公式為sxxzii標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì))均值等于02. 方差等于1001)(1snsxxnnzzii1)(1)0()(22222222sssxxnnznznzzsiiiz標(biāo)準(zhǔn)分?jǐn)?shù)(性

20、質(zhì)) z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換,它并沒有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置,也沒有改變?cè)摻M數(shù)分布的形狀,而只是將該組數(shù)據(jù)變?yōu)榫禐?,標(biāo)準(zhǔn)差為1。 標(biāo)準(zhǔn)化值 (例題分析)9個(gè)家庭人均月收入標(biāo)準(zhǔn)化值計(jì)算表個(gè)家庭人均月收入標(biāo)準(zhǔn)化值計(jì)算表 家庭編號(hào)家庭編號(hào)人均月收入(元)人均月收入(元) 標(biāo)準(zhǔn)化值標(biāo)準(zhǔn)化值 z 123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996經(jīng)驗(yàn)法則經(jīng)驗(yàn)法則表明:當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí)約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有95%的數(shù)據(jù)

21、在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 切比雪夫不等式(Chebyshevs inequality )如果一組數(shù)據(jù)不是對(duì)稱分布,經(jīng)驗(yàn)法則就不再使用,這時(shí)可使用切比雪夫不等式,它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”對(duì)于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值,但不一定是整數(shù)2211) )var(|(|1) )var(|(|kXkEXXPkXkEXXP切比雪夫不等式(Chebyshevs inequality )對(duì)于k=2,3,4,該不等式的

22、含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)離散系數(shù)(coefficient of variation)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響4. 用于對(duì)不同組別數(shù)據(jù)離散程度的比較5. 計(jì)算公式為xsvs離散系數(shù) (例題分析)某管理局所屬某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號(hào)企業(yè)編號(hào)產(chǎn)品銷售額(萬(wàn)元)產(chǎn)品銷售額(萬(wàn)元)x1銷售利潤(rùn)(萬(wàn)元)銷售利潤(rùn)(萬(wàn)元)x2123456781702203904304806

23、5095010008.112.518.022.026.540.064.069.0離散系數(shù) (例題分析)(19.309)(25.53611萬(wàn)元萬(wàn)元sx)(09.23)(5215.3222萬(wàn)元萬(wàn)元sx數(shù)據(jù)類型與離散程度測(cè)度值數(shù)據(jù)類型和所適用的離散程度測(cè)度數(shù)據(jù)類型和所適用的離散程度測(cè)度值值數(shù)據(jù)類型數(shù)據(jù)類型分類數(shù)據(jù)分類數(shù)據(jù) 順序數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)值型數(shù)據(jù)適適用用的的測(cè)測(cè)度度值值異眾比率異眾比率四分位差四分位差 方差或標(biāo)準(zhǔn)差方差或標(biāo)準(zhǔn)差 異眾比率異眾比率 離散系數(shù)(比較時(shí)用)離散系數(shù)(比較時(shí)用) 平均差平均差 極差極差 四分位差四分位差 異眾比率異眾比率3.3 偏態(tài)與峰態(tài)的測(cè)度偏態(tài)與峰態(tài)分布的形狀

24、偏態(tài)(skewness)統(tǒng)計(jì)學(xué)家Pearson于1895年首次提出 數(shù)據(jù)分布偏斜程度的測(cè)度偏態(tài)系數(shù)=0為對(duì)稱分布偏態(tài)系數(shù) 0為右偏分布偏態(tài)系數(shù) 0為左偏分布偏態(tài)系數(shù) (skewness coefficient)根據(jù)原始數(shù)據(jù)計(jì)算根據(jù)分組數(shù)據(jù)計(jì)算33)2)(1(snnxxnSKi313)(nsfxMSKkiii偏態(tài)系數(shù) (例題分析) 某電腦公司銷售量偏態(tài)及峰度計(jì)算表某電腦公司銷售量偏態(tài)及峰度計(jì)算表 按銷售量份組按銷售量份組(臺(tái)臺(tái)) 組中值組中值(Mi)頻數(shù)頻數(shù) fi1401501501601601701701801801901902002002102102202202302302401451551

25、65175185195205215225235491627201710845-256000-243000-128000-270000170008000021600025600062500010240000729000025600002700000170000160000064800001024000031250000合計(jì)合計(jì)120540000 70100000 iifxM3iifxM4偏態(tài)系數(shù) (例題分析)448. 0)58.21(120540000)58.21(120)185()(331013313iiikiiifMnsfxMSK偏態(tài)與峰態(tài)(從直方圖上觀察)峰態(tài)(kurtosis)統(tǒng)計(jì)學(xué)家P

26、earson于1905年首次提出數(shù)據(jù)分布扁平程度的測(cè)度峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)0為尖峰分布峰態(tài)系數(shù) (kurtosis coefficient)根據(jù)原始數(shù)據(jù)計(jì)算根據(jù)分組數(shù)據(jù)計(jì)算4224) 3)(2)(1() 1()(3)() 1(snnnnxxxxnnKii3)(414nsfxMKkiii峰態(tài)系數(shù) (例題分析)306. 03694. 23)58.21(120701000003)(4414nsfxMKkiii簡(jiǎn)單統(tǒng)計(jì)量簡(jiǎn)單統(tǒng)計(jì)量sum, mean, var, sd, min, max, range, median, IQR(四分位間距)等為統(tǒng)計(jì)量,sort,order,rank與排序有關(guān)

27、,其它ave,fivenum,mad,quantile,stem等。aggregate:計(jì)算各數(shù)據(jù)子集的概括統(tǒng)計(jì)量用R計(jì)算描述統(tǒng)計(jì)量 fivenum package:stats R Documentation Tukey Five-Number Summaries Description: Returns Tukeys five number summary (minimum, lower-hinge, median, upper-hinge, maximum) for the input data. Usage: fivenum(x, na.rm = TRUE) Arguments: x:

28、numeric, maybe including NAs and +/-Infs. na.rm: logical; if TRUE, all NA and NaNs are dropped, before the statistics are computed. Value: A numeric vector of length 5 containing the summary information. See boxplot.stats for more details. See Also: IQR, boxplot.stats, median, quantile, range. Examp

29、les: fivenum(c(rnorm(100),-1:1/0) quantile package:stats R Documentation Sample Quantiles Description: The generic function quantile produces sample quantiles corresponding to the given probabilities. The smallest observation corresponds to a probability of 0 and the largest to a probability of 1. U

30、sage: quantile(x, .) # Default S3 method: quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE, names = TRUE, type = 7, .) Arguments: x: numeric vectors whose sample quantiles are wanted. Missing values are ignored. probs: numeric vector of probabilities with values in 0,1. na.rm: logical; if true, an

31、y NA and NaNs are removed from x before the quantiles are computed. names: logical; if true, the result has a names attribute. Set to FALSE for speedup with many probs. type: an integer between 1 and 9 selecting one of the nine quantile algorithms detailed below to be used. .: further arguments pass

32、ed to or from other methods. Details: A vector of length length(probs) is returned; if names = TRUE, it has a names attribute. NA and NaN values in probs are propagated to the result. Types: quantile returns estimates of underlying distribution quantiles based on one or two order statistics from the

33、 supplied elements in x at probabilities in probs. One of the nine quantile algorithms discussed in Hyndman and Fan (1996), selected by type, is employed. Sample quantiles of type i are defined by Qi(p) = (1 - gamma) xj + gamma xj+1, where 1 = i = 9, (j-m)/n = p (j-m+1)/ n, xj is the jth order stati

34、stic, n is the sample size, and m is a constant determined by the sample quantile type. Here gamma depends on the fractional part of g = np+m-j. For the continuous sample quantile types (4 through 9), the sample quantiles can be obtained by linear interpolation between the kth order statistic and p(

35、k): p(k) = (k - alpha) / (n - alpha - beta + 1), where alpha and beta are constants determined by the type. Further, m = alpha + p(1 - alpha - beta), and gamma = g. *Discontinuous sample quantile types 1, 2, and 3* Type 1 Inverse of empirical distribution function. Type 2 Similar to type 1 but with

36、averaging at discontinuities. Type 3 SAS definition: nearest even order statistic. *Continuous sample quantile types 4 through 9* Type 4 p(k) = k / n. That is, linear interpolation of the empirical cdf. Type 5 p(k) = (k - 0.5) / n. That is a piecewise linear function where the knots are the values m

37、idway through the steps of the empirical cdf. This is popular amongst hydrologists. Type 6 p(k) = k / (n + 1). Thus p(k) = EF(xk). This is used by Minitab and by SPSS. Type 7 p(k) = (k - 1) / (n - 1). In this case, p(k) = modeF(xk). This is used by S. Type 8 p(k) = (k - 1/3) / (n + 1/3). Then p(k) =

38、 medianF(xk). The resulting quantile estimates are approximately median-unbiased regardless of the distribution of x. Type 9 p(k) = (k - 3/8) / (n + 1/4). The resulting quantile estimates are approximately unbiased if x is normally distributed. Hyndman and Fan (1996) recommend type 8. The default me

39、thod is type 7, as used by S and by R = 2.0.0, Ivan Frohne and Rob J Hyndman. References: Examples: quantile(x - rnorm(1001)# Extremes & Quartiles by default quantile(x, probs=c(.1,.5,1,2,5,10,50, NA)/100) # Compare different types p - c(0.1,0.5,1,2,5,10,50)/100 res - matrix(as.numeric(NA), 9, 7) fo

40、r(type in 1:9) restype, - y - quantile(x, p, type=type) dimnames(res) quantile(Edata$SALARY,0.25) 25% 24000 quantile(Edata$SALARY,(1:20)/20) 5% 10% 15% 20% 25% 30% 35% 40% 19492.5 21045.0 22050.0 22950.0 24000.0 24885.0 26032.5 26700.0 45% 50% 55% 60% 65% 70% 75% 80% 27750.0 28875.0 30000.0 30750.0

41、32017.5 34500.0 36937.5 40920.0 85% 90% 95% 100% 50027.5 59392.5 70000.0 135000.0 例例1 讀取某公司雇員數(shù)據(jù)(讀取某公司雇員數(shù)據(jù)(R數(shù)據(jù)文件)數(shù)據(jù)文件),分析收入的分析收入的數(shù)據(jù)特征。數(shù)據(jù)特征。 fivenum(Edata$SALARY) 1 15750 24000 28875 37050 135000 IQR(Edata$SALARY) 1 12937.5 summary(Edata$SALARY) Min. 1st Qu. Median Mean 3rd Qu. Max. 15750 24000 28880

42、34420 36940 135000 例例2 分析公司不同性別、是否少數(shù)民族、工作類型條件分析公司不同性別、是否少數(shù)民族、工作類型條件下收入的數(shù)據(jù)特征。下收入的數(shù)據(jù)特征。 tapply(Edata$SALARY,Edata$GENDER,mean) f m 26031.92 41441.78 tapply(Edata$SALARY,Edata$JOBCAT,mean) 經(jīng)理經(jīng)理 保管員保管員 服務(wù)員服務(wù)員 63977.80 30938.89 27838.54 tapply(Edata$SALARY,Edata$MINORITY,mean) Yes No 28713.94 36023.31 ta

43、pply(Edata$SALARY,Edata$GENDER,fivenum) $f 1 15750 21525 24300 28500 58125 $m 1 19650 28050 32850 50550 135000例例2 分析公司不同性別、是否少數(shù)民族、工作分析公司不同性別、是否少數(shù)民族、工作類型條件下收入的數(shù)據(jù)特征。類型條件下收入的數(shù)據(jù)特征。 tapply(Edata$SALARY,Edata$JOBCAT,fivenum) 經(jīng)理經(jīng)理 1 34410.0 51787.5 60500.0 71687.5 135000.0 保管員保管員 1 24300 30150 30750 30975

44、35250 服務(wù)員服務(wù)員1 15750 22800 26550 31200 80000 tapply(Edata$SALARY,Edata$MINORITY,fivenum) $Yes 1 16350 23625 26625 30675 100000 $No 1 15750 24150 29925 40350 135000例例3分析公司不同性別及工作類型條件下收入的數(shù)分析公司不同性別及工作類型條件下收入的數(shù)據(jù)特征。據(jù)特征。 tapply(Edata$SALARY,list(Edata$JOBCAT,Edata$GENDER),mean) tapply(Edata$SALARY,list(Eda

45、ta$JOBCAT,Edata$GENDER),fivenum) y y1,1 attributes(y)1、對(duì)公司雇員數(shù)據(jù),分析不同性別及民族之間的收入、收入增長(zhǎng)(目前工資與起始工資差)數(shù)據(jù)特征,求出主要統(tǒng)計(jì)量(mean, IQR,fivnum,range,var,std);寫出分析報(bào)告。作業(yè)作業(yè):要求:需給出程序、結(jié)果,存成要求:需給出程序、結(jié)果,存成word文檔文檔 發(fā)送到發(fā)送到 52 用戶名:用戶名:r 密碼:密碼: 123456 tapply package:base R Documentation Apply a Function Over a Rag

46、ged Array Description: Apply a function to each cell of a ragged array, that is to each (non-empty) group of values given by a unique combination of the levels of certain factors. Usage: tapply(X, INDEX, FUN = NULL, ., simplify = TRUE) Arguments: X: an atomic object, typically a vector. INDEX: list

47、of factors, each of same length as X. FUN: the function to be applied. In the case of functions like +, %*%, etc., the function name must be quoted. If FUN is NULL, tapply returns a vector which can be used to subscript the multi-way array tapply normally produces. .: optional arguments to FUN. simp

48、lify: If FALSE, tapply always returns an array of mode list. If TRUE (the default), then if FUN always returns a scalar, tapply returns an array with the mode of the scalar. Value: When FUN is present, tapply calls FUN for each cell that has any data in it. If FUN returns a single atomic value for each cell (e.g., functions mean or var) and when s

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論