版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一章統(tǒng)計數(shù)據(jù)的收集與整理
1.1算術(shù)平均數(shù)是怎樣計算的?為什么要計算平均數(shù)?
n
Ez-
y=——
答:算數(shù)平均數(shù)由下式計算:"〃,含義為將全部觀測值相加再被觀測值的個數(shù)除,所得之商稱為
算術(shù)平均數(shù)。計算算數(shù)平均數(shù)的目的,是用平均數(shù)表示樣本數(shù)據(jù)的集中點,或是說是樣本數(shù)據(jù)的代表。
1.2既然方差和標準差都是衡量數(shù)據(jù)變異程度的,有了方差為什么還要計算標準差?
答:標準差的單位與數(shù)據(jù)的原始單位一致,能更直觀地反映數(shù)據(jù)地離散程度。
1.3標準差是描述數(shù)據(jù)變異程度的量,變異系數(shù)也是描述數(shù)據(jù)變異程度的量,兩者之間有什么不同?
答:變異系數(shù)可以說是用平均數(shù)標準化了的標準差。在比較兩個平均數(shù)不同的樣本時所得結(jié)果更可靠。
1.4完整地描述一組數(shù)據(jù)需要哪幾個特征數(shù)?答:平均數(shù)、標準差、偏斜度和峭度。
1.5下表是我國青年男子體重(kg)。由于測量精度的要求,從表面上看像是離散型數(shù)據(jù),不要忘記,
體重是通過度量得到的,屬于連續(xù)型數(shù)據(jù)。根據(jù)表中所給出的數(shù)據(jù)編制頻數(shù)分布表。
66oz964oz564or6oz865or2oz4oz9oz1or1oz8oz657oz6oz9ox665
70z458r766z6z766r6z2r6z6r4z2r265z4z5r672
oooooooooooooo
60oz665oz161oz6oz762or5oz5oz1oz4or26^4or562oz5oz8or865
67r862r370r5r465z2z6r2z3r8z5z857z7'6r863
ooooooooooooOo
64oz668oz463ox0bx469oz5oz6oz7or7or7oz5or767or6oz8oz467
59or665or356or663oz3or6or76-3706770O'264726967or7
66or864571or163or1or4oz4or7697066or465646370oz4
536
62oz970or86oz65oror4or8or9656367or370656867or9
66r567r674r469r5r4r5r5686765-566677265r7
ooooooo6o
62or771or965or575or26-9or8or86563666-665626168or5
6467or6or4oz0or1or8oz7oz35965oz0or4or3or96271or9or063
68
5967or1or8oz9ozoz4oz9oz56867oz4or4oz6oz9736or0or063
7
3862ozoz5or5oz9oz5oz7oz57266ox7oz4DZ1or46663oz3oz666
8
6663oz5oz3oz7oz8oz6oz2or36166oz1or3ozor56669oz4oz670
61
6970oz3oz4ox5oz4oz7or7oz5662ozor5oz5or06365oz2oz664
答:首先建立一個外部數(shù)據(jù)文件,名稱和路徑為:E:\data\ex6E-5e.dat。所用的SAS程序和計算結(jié)果
如下:
procformat;
valuehfmt
56—57=/56-57’58-59=,58-59/60-61=,60-6y
62-63=z62-63,64-65=/64-65,66-67=,66-67,
68-69=,68-69,70-71=,70-71,72-73='72-73’
74-75=/74-75’;
run;
dataweight;
infile'E:\data\ex6rl-5e.dat';
inputbw破;
run;
procfreq;
tablebw;
formatbwhfmt.;
run;
TheSASSystem
Cumulative
Cumulative
BWFrequencyPercentFrequency
Percent
56-5731.03
1.0
58-5941.37
2.3
60-61227.329
9.7
62-634615.375
25.0
64-658327.7158
52.7
66-677725.7235
78.3
68-694515.0280
93.3
70-71134.3293
97.7
72-7351.7298
99.3
74-7520.7300
100.0
1.6將上述我國男青年體重看作一個有限總體,用隨機數(shù)字表從該總體中隨機抽出含量為10的兩個樣
本,分別計算它們的平均數(shù)和標準差并進行比較。它們的平均數(shù)相等嗎?標準差相等嗎?能夠解釋為什
么嗎?答:用means過程計算,兩個樣本分別稱為必和為,結(jié)果見下表:
TheSASSystem
VariableNMeanStdDev
Y11064.50000003.5039660
Y21063.90000003.1780497
障機抽出的兩個樣本,它們的平均數(shù)和標準差都不相等。因為樣本平均數(shù)和標準差都是統(tǒng)計量,統(tǒng)計量
有自己的分布,很難得到平均數(shù)和標準差都相等的兩個樣本。
1.7從一個有限總體中采用非放回式抽樣,所得到的樣本是簡單的隨機樣本嗎?為什么?本課程要求
的樣本都是隨機樣本,應(yīng)當采用哪種抽樣方法,才能獲得一隨機樣本?
答:不是簡單的隨機樣本。從一個有限總體中以非放回式抽樣方法抽樣,在前后兩次抽樣之間不是相互
獨立的,后一次的抽樣結(jié)果與前一次抽樣的結(jié)果有關(guān)聯(lián),因此不是隨機樣本。應(yīng)采用隨機抽樣的方法抽
取樣本,具體說應(yīng)當采用放回式抽樣。
才(乂-歹丫(%-力I其中y;=y±c。/=—/cv
i.8證明普仁若用c或y=編碼時,前式是否仍然相
等?
答:(1)令y:=y,±c
則y=y+C平均數(shù)特性之③。
Z(x-r)2
i=l
-Z[(x±c)-(y±c)]2
i=l
=£U-y)2
/=1
y'="
辨“C
則,c平均數(shù)特性之②。
1(/-F)2
sfe-9
£(y—y
_/=1___________
_c2
用第二種編碼方式編碼結(jié)果,兩式不再相等。
1.9有一個樣本:如為,…,%,設(shè)8為其中任意一個數(shù)值。證明只有當8=》時,
£(一)2
/=1最小。這是平均數(shù)的一個重要特性,在后面講到一元線型回歸時還會用到該特性。
五—0
答:令p=X(y-8)1
為求使P達最小之反令5B
則2工(一)=。B=-y
n.
1.10檢測菌肥的功效,在施有菌肥的土壤中種植小麥,成苗后測量苗高,共100株,數(shù)據(jù)如下2
10.09.37.29.8.58.010.510.69.610.1
1
7.06.79.57.10.57.98.19.67.69.4
8
10.07.57.25.7.38.77.16.15.26.8
0
10.09.97.54.7.67.09.76.28.06.9
5
8.38.610.04.4.97.08.38.47.87.5
8
6.610.06.59.8.511.09.76.610.05.0
5
6.58.08.48.7.47.48.17.77.57.1
3
7.87.68.66.7.06.46.76.36.411.0
0
10.57.85.08.7.07.45.26.79.08.6
0
4.66.93.56.9.76.45.86.49.36.4
編制苗高的頻數(shù)分布表,繪制頻數(shù)分布圖,并計算出該樣本的四個特征數(shù)。
答:首先建立一個外部數(shù)據(jù)文件,名稱和路徑為:E:\data\exrl-10e.dat。SAS程序及結(jié)果如下:
optionsnodate;
procformat;
valuehfmt
3.5-4.4=,3.5-4.4,4.5-5.4='4.5-5.4,5.5-6.4=,5.5-6.4,
6.5-7.4=,6.5-7.4,7.5-8.4=z7.5-8.4,8.5-9.4=z8.5-9.4,
9.5-10.4=,9.5-10.4,10.5-11.4=z10.5-11.4,;
run;
datawheat;
infile7E:\data\exrl-10e.datz;
inputheight93;
run;
procfreq;
tableheight;
formatheighthfmt.;
run;
proccapabi1itygraphicsnoprint;
varheight;
histogram/vscale=count;
insetmeanvarskewnesskurtosis;
run;
TheSASSystem
TheFREQProcedure
CumulativeCumulative
heightFrequencyPercentFrequencyPercent
-4411
5491.00101.00
-.
-64119.002110.00
.11.0021.00
-7.42344
-8.42423.006844.00
-941124.007968.00
-1o41511.009479.00
-
114615.000094.00
.6.00100.00
heilM
1.11北太平洋寬吻海豚羥丁酸脫氫酶(HDBH)數(shù)據(jù)的接收范圍頻數(shù)表⑵如下:(略作調(diào)整)
HDBH數(shù)據(jù)的接收范圍
頻數(shù)
/(U'L")
<2141
<245.90913
<277.818211
<309.727319
<341.636426
<373.545522
<405.454511
<437.363613
<469.27276
<501.18183
<533.09092
根據(jù)上表中的數(shù)據(jù)作出直方圖。
答:以表中第一列所給出的數(shù)值為組界,直方圖如下:
1.12靈長類手掌和腳掌可以握物一側(cè)的皮膚表面都有突起的皮膚紋崎。紋崎有許多特征,這些特征在
胚胎形成之后是終生不變的。人類手指尖的紋型,大致可以分為弓、箕和斗三種類型。在手指第一節(jié)的
基部可以找到一個點,從該點紋崎向三個方向輻射,這個點稱為三叉點。弓形紋沒有三叉點,箕形紋有
一個三叉點,斗形紋有兩個三叉點,記錄從三叉點到箕或斗中心的紋崎數(shù)目稱為紋崎數(shù)(fingerridge
count,FRC)。將雙手十個指尖的全部箕形紋的紋靖■數(shù)和/或斗形紋兩個紋崎■數(shù)中較大者相加,稱為總紋
崎數(shù)(totalfingerridgecount,TFRC)o下表給出了大理白族人群總紋崎數(shù)的頻數(shù)分布⑶:
TFRC分組中值頻數(shù)
113020
315040
517060
71908029
9111010054
11113012063
1912102006
首先判斷數(shù)據(jù)的類型,然后繪出樣本頻數(shù)分布圖,計算樣本的四個特征數(shù)并描述樣本分布形態(tài)。
答:總紋脊數(shù)屬計數(shù)數(shù)據(jù)。
計數(shù)數(shù)據(jù)的頻數(shù)分布圖為柱狀圖,頻數(shù)分布圖如下:
樣本特征數(shù)(以TFRC的中值計算)SAS程序:
optionsnodate;
datatfrc;
doi=lto10;inputy弧;
inputn0?;
doj=lton;
output;
end;
end;
cards;
202
401
608
8029
10054
12063
14068
16051
18018
2006
run;
procmeansmeanstdskewnesskurtosis;
vary;
run;
結(jié)果見下表:
TheSASSystem
AnalysisVariable:Y
MeanStdDevSkewness
Kurtosis
126.533333332.8366112-0.2056527
-0.0325058
從頻數(shù)分布圖可以看出,該分布的眾數(shù)在第七組,即總紋脊數(shù)的中值為140的那一組。分布不對稱,
平均數(shù)略小于眾數(shù),有些負偏。偏斜度為-0.2056527,偏斜的程度不是很明顯,基本上還可以認為是對
稱的,峭度幾乎為零。
1.13海南粗樨葉長度的頻數(shù)分布⑷:
葉長度/mm中值頻數(shù)
2.02.22.1390
2.22.42.31434
2.42.62.52643
2.62.82.73546
2.83.02.95692
3.03.23.15187
3.23.43.34333
3.43.63.52767
3.63.83.71677
3.84.03.91137
nag
4.04.24.1667
4.24.44.3346
4.44.64.5181
繪出頻數(shù)分布圖,并計算偏斜度和峭度。
答:表中第一列所給出的數(shù)值為組限,下圖為海南粗椎葉長度的頻數(shù)分布圖。
計算偏斜度和峭度的SAS程序和計算結(jié)果如下:
optionsnodate;
datalength;
doi=lto13;inputy
inputn??;
doj=lton;
output;
end;
end;
cards;
2.1390
2.31434
2.52643
2.73546
2.95692
3.15187
3.34333
3.52767
3.71677
3.91137
4.1667
4.3346
4.5181
run;
procmeansnskewnesskurtosis;
vary;
run;
TheSASSystem
AnalysisVariable:Y
nSkewness
Kurtosis
300000.4106458
0.0587006
樣本含量〃=30000,是一個很大的樣本,樣本的偏斜度和峭度都已經(jīng)很可靠了。偏斜度為0.41,有一
個明顯的正偏。
1.14馬邊河貝氏高原穌火繁殖群體體重分布如下⑸:
~體質(zhì)量/g雌魚雄魚
14
2.003.002.5067
3.004.003.501311
4.005.004.503025
5.006.005.502525
6.007.006.50
1623
7.008.007.502117
8.009.008.501816
9.0010.09.50
0124
10.0011.010.501
11.0012.011.503
0
12.0013.012.502
0
首先判斷數(shù)據(jù)的類型,然后分別繪制雌魚和雄魚的頻數(shù)分布圖,計算樣本平均數(shù)、標準差、偏斜度和峭
度并比較兩者的變異程度。
答:魚的體重為度量數(shù)據(jù),表中第一列所給出的數(shù)值為組限。在下面的分布圖中雌魚和雄魚的分布
繪在了同一張圖上,以不同的顏色表示。
計算統(tǒng)計量的SAS程序與前面的例題類似,這里不再給出,只給出結(jié)果。
雌魚:__________________________________________________________________
TheSASSystem
AnalysisVariable:Y
NMeanStdDevSkewness
Kurtosis
1477.24149662.14568200.2318337
-0.6758677
雄魚:__________________________________________________________________
TheSASSystem
AnalysisVariable:Y
NMeanStdDevSkewness
Kurtosis
1326.78030301.9233971-0.1322816
-0.5510332
直觀地看,雄魚的平均體重低于雌魚。雌魚有一正偏,雄魚有一負偏。因此,相對來說雌魚低體重者較
多,雄魚高體重者較多。但兩者都有很明顯的負峭度,說明“曲線”較平坦,兩尾翹得較高。
1.15黃胸鼠體重的頻數(shù)分布⑹:
組界/g頻數(shù)
10
0<><1526
15<y<3030
30<y<4522
45<y<6022
60<y<75
15<y<9017
9oc<16
105
105。<14
120
120c<6
135
135。<4
150
150C<2
165
總數(shù)169
繪制頻數(shù)分布圖,從圖形上看分布是對稱的嗎,說明什么問題?
答:下面是頻數(shù)分布圖:
從上圖可見,圖形不是對稱的,有一些正偏。說明在該黃雄鼠群體中,低體重者分布數(shù)量,高于高體重
者的數(shù)量。另外,似乎峭度也有些低。
1.1625名患者入院后最初的白細胞數(shù)量(x103)1,1如下表:
計算白細胞數(shù)量的平均數(shù)、方差和標準差。
答:用means過程計算,程序不再給出,只給出運行結(jié)果。
TheSASSystem
AnalysisVariable:Y
NMeanVarianceStdDev
257.840000010.30666673.2103998
1.17細胞珠蛋白基因(CYGB)可能是非小細胞肺癌(NSCLC)的抑制基因之一。一個研究小組研
究了該基因的表達、啟動子甲基化和等位基因不平衡狀態(tài)等,以便發(fā)現(xiàn)它與腫瘤發(fā)病間的關(guān)聯(lián)。下面列
出了其中15名患者的基因表達(腫瘤患者/正常對照,T/N),腫瘤患者與正常對照甲基化指數(shù)差
(Mtl-Mtl,)181:
樣本號17NMtl.-Mth
358246
3o30.084o.242
3140.Ill0.364
3o80.1350.051
0.
3100.236520
0.2530.
341264zn00
38o.O.03
4315X1
3230.359O.167
06.O6.1
360422176
336442H37
0.
計算以上兩項指標的平均數(shù)和標準差并計算兩者的變異系數(shù),這兩個變異系數(shù)可以比較嗎?為什么?
答:記T/N為弘,仞1/廠加4為內(nèi),用means過程計算,SAS運行的結(jié)果見下表:
TheSASSystem
VariableNMeanStdDev
CV
Y1150.18580000.1505624
81.0346471
Y2150.21000000.1465274
69.7749634
兩個變異系數(shù)是可以比較的,因為它們的標準差都是用平均數(shù)標準化了的,已經(jīng)不存在不同
單位的影響了。
第二章概率和概率分布
2.1做這樣一個試臉,取一枚五分硬幣,將圖案面稱為A,文字面稱為B。上拋硬幣,觀察落下后
是A向上還是B向上。重復(fù)10次為一組,記下A向上的次數(shù),共做10組。再以100次為一組,1000
次為一組,各做10組,分別統(tǒng)計出A的頻率,驗證2.1.3的內(nèi)容。
答:在這里用二項分布隨機數(shù)模擬一個抽樣試驗,與同學(xué)們所做的抽樣試驗并不沖突。以變量N表
示圖向上的次數(shù),〃表示重復(fù)的次數(shù),勿表示組數(shù),每次落下后圖向上的概率0=1/2.SAS程序如下,
該程序應(yīng)運行3次,第一次〃=10,第二次〃=100,第三次/?=1000。
optionsnodate;
datavalue;
n=10;
m=l0;
phi=l/2;
doi=ltom;
retainseed3053177;
doj=lton;
y=ranbin(seed,n,phi);
output;
end;
end;
datadisv;
setvalue;
byi;
iffirst,ithensumy=0;
sumy+y;
meany=sumy/n;
py=meany/n;
iflast,ithenoutput;
keepnmphimeanypy;
run;
procprint;
titlezbinomialdistribution:n=10m=10/;
run;
procmeansmean;
varmeanypy;
titlezbinomialdistribution:n=10ni=10,;
run;
以下的三個表是程序運行的結(jié)果。表的第一部分為每一個組之卜的平均結(jié)果,包括平均的頻數(shù)和平
均的頻率,共10組。表的第二部分為10組數(shù)據(jù)的平均數(shù)。從結(jié)果中可以看出,隨著樣本含量的加大,
樣本的頻率圍繞0.5做平均幅度越來越小的波動,最后穩(wěn)定于0.5。
binomialdistribution:n=10m=l0
0BSNMPHIMEANY
PY
110100.55.7
0.57
210100.54.5
0.45
310100.55.1
0.51
410100.56.1
0.61
510100.56.1
0.61
610100.54.3
0.43
710100.55.6
0.56
810100.54.7
0.47
910100.55.2
0.52
1010100.55.6
0.56
binomialdistribution:n=l0m=10
VariableMean
MEANY5.2900000
PY0.5290000
binomialdistribution:n=100m=10
OBSNMPHIMEANY
PY
1100100.549.71
0.4971
2100100.549.58
0.4958
3100100.550.37
0.5037
4100100.550.11
0.5011
5100100.549.70
0.4970
6100100.550.04
0.5004
7100100.549.20
0.4920
8100100.549.74
0.4974
9100100.549.37
0.4937
10100100.549.86
0.4986
binomialdistribution:n=100m=10
VariableMean
MEANY49.7680000
PY0.4976800
binomia1distribution:n=1000m=10
OBSNMPHIMEANYPY
11000100.5499.278
0.49928
21000100.5499.679
0.49968
31000100.5499.108
0.49911
41000100.5500.046
0.50005
51000100.5499.817
0.49982
61000100.5499.236
0.49924
71000100.5499.531
0.49953
81000100.5499.936
0.49994
91000100.5500.011
0.50001
101000100.5500.304
0.50030
binomialdistribution:n=1000m=10
VariableMean
MEANY499.6946000
PY0.4996946
2.2每個人的一對第1號染色體分別來自祖母和外祖母的概率是多少?一位男性的X染色體來自外
祖父的概率是多少?來自祖父的概率呢?
答:(1)設(shè)/為一對第1號染色體分別來自祖母和外祖母的事件,則
尸⑷=lxgxlx;=:
(2)設(shè)6為男性的X染色體來自外祖父的事件,則
P(8)=lxU
(3)設(shè)1為男性的X染色體來自祖父的事件,貝1
p(c)=o
2.3假如父母的基因型分別為//和。他們的兩個孩子都是A型血的概率是多少?他們生兩個
0型血女孩的概率是多少?
網(wǎng)/人配子)=P(i配子)=5
答:父:
尸(/B配子)=P(i配子)=:
母:
(1)P(兩名A型血子女)=P(A型血)P(A型血)
=/,(/AZ)P(/A|)
=P"')P(i)P(/A)P(i)
吟
1
"16
⑵P(兩名O型血女兒)=;尸(O型血);尸(O型血)
=畀(嗚*
=;pG)p%p(i)p(i
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版美團騎手個人信息保護及隱私權(quán)合同4篇
- 2025年度虛擬貨幣代持協(xié)議模板4篇
- 2025年度綠色環(huán)保型土石方工程承包合同協(xié)議2篇
- 2025年度文化產(chǎn)品出口銷售合同(含版權(quán)保護)4篇
- 2025年度物流倉儲管理承運商合作協(xié)議范本4篇
- 二零二五年度網(wǎng)紅餐飲店品牌授權(quán)合同4篇
- 曹縣建筑加固施工方案
- 2025年度校園食堂廚師臨時用工服務(wù)合同范本4篇
- 二零二五版建筑門窗安裝與節(jié)能減排服務(wù)協(xié)議4篇
- 基于2025年度的供應(yīng)合同標的、供應(yīng)數(shù)量與質(zhì)量標準3篇
- 2024年公司保密工作制度(四篇)
- 重慶市康德卷2025屆高一數(shù)學(xué)第一學(xué)期期末聯(lián)考試題含解析
- 建筑結(jié)構(gòu)課程設(shè)計成果
- 雙梁橋式起重機小車改造方案
- 基于AR的無人機操作訓(xùn)練系統(tǒng)
- XX農(nóng)貿(mào)市場物業(yè)公司管理方案
- 纖維增強復(fù)合材料 單向增強材料Ⅰ型-Ⅱ 型混合層間斷裂韌性的測定 編制說明
- 湖北省襄陽市數(shù)學(xué)中考2024年測試試題及解答
- YYT 0308-2015 醫(yī)用透明質(zhì)酸鈉凝膠
- GB/T 44189-2024政務(wù)服務(wù)便民熱線運行指南
- YYT 0698.1-2011 最終滅菌醫(yī)療器械包裝材料 第1部分 吸塑包裝共擠塑料膜 要求和試驗方法
評論
0/150
提交評論