版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計之都COS Capital Of Statistics人大統(tǒng)計學考研歷年真題參考解答精華版 (03-09)2009 年人大統(tǒng)計學專業(yè)課初試題參考解答、設第一、二個總體均值分別為 1 與 2 ,樣本均值分別為 X1 與 X2 ,樣本方差分別為 S12與S22 。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!1統(tǒng)計之都COS Capital Of Statistics構造原假設和備擇假設H0 : 1 2 0 H1 : 1 2 0構造統(tǒng)計量。由于兩總體方差相等,且均為正態(tài)總體,則可以構造如下檢驗統(tǒng)計量(X1 X2) ( 1 2) t11Sp n1 n2其
2、中S2p22 (n1 1)S12 (n2 1)S22 n1 n2 215 64 35 4953.515 3524 201153.5( )16 364461.82017.3144 7.21113. 計算臨界值。給定顯著性水平 ,如0.05,計算臨界值 t (n1 n2 2) t0.05 (50) ,由于 5030,則 t0.05(50) z0.05 1.645 。4. 做出決策。由于 t 1.8201 1.645 ,故拒絕原假設,即認為 1、 1.對于回歸模型 Y X , 的最小二乘估計為:(XX) 1Xy 。現(xiàn)在來看它的期望E( ) E(XX)1Xy (XX) 1XE(y)(XX) 1X E(
3、X)(XX) 1X (X E( )(XX) 1XE( )從上面可以看出,要使 為無偏估計,則必須滿足 E( ) 0 ,所以只有當 E( ) 0時,才為有偏估計。2. 使 E( ) 0 的原因:遺漏了關鍵自變量,即全模型正確時,而我們誤用了選模型。用選模型建模時,使 得誤差項中含有遺漏自變量的信息,從而期望不為零。證明過程如下 HYPERLINK IN THE NAME OF STATISTICS, UNITE!2統(tǒng)計之都COS Capital Of Statisticsp 證明:假設正確模型為 Y X ,令 X (Xp,Xt),p 。而我們選用了模p t t型Y Xp p 來估計 ,得到 p
4、(XpXp) 1Xpy,則 1 E( p) E(XpXp) 1Xpy 1 (XpXp) 1XpE(y)(XpXp) 1XpXp 1 p(XpXp) 1Xp(Xp,Xt) pt p (XpXp) 1XpXt t從上式可以看出 p 是 p的有偏估計。加入了無關緊要的自變量,即選模型正確,而我們誤用了全模型,這樣會過度提取 誤差項信息,使得估計量有偏。證明過程和上式差不多。這里省略。解決辦法:在選擇自變量時,對因變量有重要影響的自變量盡量考慮全面,但自變量 又不是越多越好,應該去掉那些對因變量沒有影響或者影響很小的自變量。具體實施 辦法有前進法、后退法、逐步回歸法等。三、是平穩(wěn)過程,證明如下1E(X
5、t ) E(Acos( t ) Acos( t ) d1 Asin( t ) Asin( t )1 Asin( t )2022Var(Xt ) Var ( A cos( t ) E( A cos( t )2) E(Acos( t )22 2 2 1E( A cos( t)2)A2 cos2( t ) d21A21A2cos(2 t 2 )d A2A22A2sin(2 t 2 ) HYPERLINK IN THE NAME OF STATISTICS, UNITE!3統(tǒng)計之都COS Capital Of Statistics(t,s) cov(Xt,Xs) E(XtXs) E(Xt )E(Xs)
6、21E(XtXs)A2 cos( t )cos( t ) d1A2cos( t s) cos( t t 2 )d1 A2A2 cos( (t s) sin( t s 2 ) 222Acos( (t s)即協(xié)方差函數(shù)只與 t s有關。由平穩(wěn)過程的定義知,題中所定義的過程為平穩(wěn)過程。四、1. 先來估計各層總體的方差。在比例估計中定義Yi 10,第其i它個單元具有所考慮的特征i 0, 其它i 1,2,., N)則可得如下關于總體方差的式子2 1 N 2 1 N 2 2 S2 N1 1 i 1 (Yi Y)2 N1 1 i 1Yi2 N(Y)2N Y(1 Y) N PQN 1 N 1從上式我們可以估計
7、出各層的方差2s1N1 p1(1 p1) 0.5 0.5 0.25, s1 0.5N1 1由于 Nk 很大,故省略系數(shù) Nk 。)Nk 1N2 1N2 p2(1 p2) 0.7 0.3 0.21, s2 0.4583N3 1N3 p3(1 p3) 0.6 0.4 0.24, s3 0.48992. 考慮樣本容量為 600的簡單隨機抽樣的方差。在簡單隨機抽樣下總體比例的估計量為600p 300 0.5 180 0.7 120 0.6 0.58估計量方差的估計值為1 v(p)n1pq pq 0.58 0.42n10.00040675993. 考慮奈曼分配的情形。設抽取的樣本容量為n ,樣本量在各層
8、的分配公式為 HYPERLINK IN THE NAME OF STATISTICS, UNITE!4統(tǒng)計之都COS Capital Of Statistics WhShnh n LWhShh1代入數(shù)據(jù)得到n10.5 0.5n20.25 0.3 0.4583 0.2 0.48990.3 0.45830.5149nn0.25 0.3 0.4583 0.2 0.48990.2 0.48990.2832nn 0.25 0.3 0.4583 0.2 0.4899 則奈曼分配的估計量方差的估計為n30.2019nL2v(pst)Wh2(1 fh)h1phqhnh 1Wh2 phqh h 1nh 10.2
9、50.210.240.25 0.09 0.04 0.5149n 10.2832n 10.2019n 10.0625 0.0189 0.0096 0.23560.5149n 1 0.2832n 1 0.2019n 1 n計算 n。要使奈曼分層抽樣與簡單隨機抽樣有相同估計量方差,則必須滿足v(p) v( pst )0.23560.0004067n解得n 579五、略。六、1. 來看 t 的性質E( t) 0var( t ) E( t2) E( t)22xt2cov( t, s) E( t s ) E( t )E( s) 0(t s)由上可看出,該模型違背古典線性回歸模型的方差一致性假設,殘差存在異
10、方差性。2. 加權最小二乘法。當殘差存在異方差時,如果還是用最小二乘法估計參數(shù),會帶來嚴 重的后果,如下 HYPERLINK IN THE NAME OF STATISTICS, UNITE!5統(tǒng)計之都COS Capital Of Statistics參數(shù)估計值雖是無偏的,但不是最小方差線性無偏估計;參數(shù)的顯著性檢驗失效;回歸方差的應用效果極不理想。 鑒于此,我們必須尋求適當?shù)姆椒▽υ瓉淼墓烙嫹椒ㄟM行變換,使變換后的估計方法 滿足同方差性假設。由于異方差性導致離差平方和nQ( 0, 1)(yi E(yi )2i1中的各項的比重不一樣,地位不平等,導致使用普通最小二乘法時,回歸線就被拉向方差大的
11、項。而在此題中,殘差系列與自變量觀測值的平方成正比,即var( t ) 2xt2 因此當我們在平方和各項前面加入一個權重 wi 1/ xi2 時,各項的地位就平等了。從而 克服了普通最小二乘法的弊端,這就是加權最小二乘法。它實施起來簡單,原理清晰, 是解決本題最好的方法。七、1. 數(shù)據(jù)分析。在本題中有三個影響因素:時間、活動空間、安眠藥。因變量是老鼠的活 動狀態(tài),可以把它看成數(shù)值型變量。要研究的是時間、活動空間、安眠藥對老鼠活動 狀態(tài)是否有顯著的影響。我的分析思路是:首先,我把數(shù)據(jù)列成如下的表格吃藥后立即記錄的數(shù)據(jù)吃藥不吃藥關在一起x11jx12 j分開喂養(yǎng)x21 jx22 j吃藥后一小時記錄
12、的數(shù)據(jù)吃藥不吃藥關在一起y11 jy12j分開喂養(yǎng)y21jy22 j吃藥后兩小時記錄的數(shù)據(jù)吃藥不吃藥關在一起z11jz12 j分開喂養(yǎng)z21 jz22 j HYPERLINK IN THE NAME OF STATISTICS, UNITE!6統(tǒng)計之都COS Capital Of Statistics其中 j 1,2,.,10 表示老鼠的編號,每個組有 10 只老鼠。 x, y, z 代表時間。其次,對每個表格的數(shù)據(jù)進行有交互作用的方差分析,通過分析得到活動空間、安眠 藥是否對老鼠活動狀態(tài)有顯著的影響,也可得到它們的交互作用是否對老鼠活動狀態(tài) 有顯著的影響。通過在三個觀測時間上各自的分析,最后
13、得到安眠藥在那個時間點上 的效果最好。2. 分析步驟。(和第八題的步驟差不多,這里就不寫了。 ) 注:上述問題屬于有重復測量的方差分析問題,它與一般方差分析的不同之處在于它的 時間觀測值數(shù)據(jù)之間不是獨立的、是相關的。這里將時間分開來處理,似乎有所不妥, 特此說明,僅供參考。八、1. 本題中職稱和性別都是屬性變量,滿意度是數(shù)值型變量,要研究屬性變量對數(shù)值型的 影響,很自然會想到用方差分析方法,而本題中我們用無交互作用的雙因素方差分析 方法。問題提出:在分析一個屬性變量對一個數(shù)值型變量的影響時,我們把屬性變量的各 個水平各看成一個總體,然后比較這幾個總體的均值,看它們是否有顯著的差異, 如果有顯著
14、的差異,則說明在各個水平下得到的數(shù)據(jù)之間是有差異的,即認為屬性 變量對數(shù)值型變量有顯著影響。在本題中,比如我們要研究性別對滿意度有無顯著 影響,我們的思路是把男、女兩個水平各看成一個總體,然后根據(jù)數(shù)據(jù)設計一種方 法檢驗它們的均值有無顯著的差異,如果沒有差異,那么我們認為兩總體間的數(shù)據(jù) 沒有什么區(qū)別,即滿意度差異不大,也即性別對滿意度沒有影響?;舅枷耄涸诜讲罘治鲋形覀兗俣ㄒ蛩氐母鱾€水平服從方差相等正態(tài)分布,這樣在 每個總體下抽取樣本,由于抽樣的隨機性,會導致數(shù)據(jù)的不同,且各水平之間數(shù)據(jù) 也會不同,我們現(xiàn)在要研究的各水平數(shù)據(jù)的差異性能完全由抽樣的隨機性解釋嗎? 如果可以,我們認為個水平均值沒有差
15、異;否則,就有差異。具體的做法是,我們 引進組內(nèi)誤差和組間誤差兩個概念,它們分別用組內(nèi)平方和與組間平方和詮釋。如 果組間平方和與組內(nèi)平方和經(jīng)過平均后的數(shù)值相接近,則說明數(shù)據(jù)間的差異是由抽 樣的隨機性引起的,不存在系統(tǒng)性差異,即屬性變量對數(shù)值型變量沒有影響。分析步驟提出假設行因素假設H0 : 1 2, 性別對滿意度沒有影響H1 : 1 2 性別對滿意度有影響列因素假設H0 : 1 2 3 職稱對滿意度沒有影響H1 : 1, 2, 3不全相等 職稱對滿意度有影響構造檢驗的統(tǒng)計量kr總誤差平方和 SST(xij x)2i 1 j 1k rSSR行因素誤差平方和 SSR(xi x)2 ,均方誤差 MS
16、R SSRi 1 j 1k 1 HYPERLINK IN THE NAME OF STATISTICS, UNITE!7統(tǒng)計之都COS Capital Of Statistics TOC o 1-5 h z k rSSC列因素誤差平方和 SSC(xj x)2 ,均方誤差 MSC SSCi 1 j 1r 1剩余因素誤差平方和 SSE SST SSR SSC,均方誤差 MSE SSE(k 1)(r 1)F 統(tǒng)計量MSRMSCFR F(k 1,(k 1)(r 1), FC F(r 1,(k 1)(r 1)MSEMSE統(tǒng)計決策。給定顯著性水平,如果 FR F ,則拒絕原假設,說明行因素對觀測值有顯著的
17、影響;如果 FC F ,則拒絕原假設,說明列因素對觀測值有顯著 的影響。2. 假定:各個水平對應的總體都服從正態(tài)分布;各個總體的方差相同;各觀測值是獨立的;性別和職稱對滿意度的影響是獨立的,即它們之間沒有交互作用。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!8統(tǒng)計之都COS Capital Of Statistics2008 年人大統(tǒng)計學專業(yè)課初試題參考解答一、用中位數(shù)來描述家庭收入數(shù)據(jù)的集中趨勢有優(yōu)點亦有不足。1. 中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值,不受極端值影響,對偏斜程度較 大的順序或數(shù)值型數(shù)據(jù)代表性較好,所以它能夠排除過高收入或過
18、低收入帶來的不良 影響。2. 作為描述數(shù)據(jù)集中趨勢的指標,中位數(shù)的應用遠不及平均值廣泛,中位數(shù)只是一組數(shù) 據(jù)中的一個值,因而對整個香港家庭收入信息有較大浪費;而平均值能包含所有收入 信息,而且具有優(yōu)良的數(shù)學性質,不過它易受極端值的影響,主要適用于測度偏斜度 不大的數(shù)據(jù)。3. 用中位數(shù)作為判別低收入的指標,那么低收入的比例一直都是50%,這顯然與“比例在增長”相矛盾。二、方差分析表面上是檢驗多總體均值是否相等,本質上是研究變量間的關系,即通過各總 體均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響,其中需要分析數(shù) 據(jù)變異的來源,所以叫做方差分析。觀察到的數(shù)據(jù)一般是參差不齊的,我們用 S
19、ST(總平方和)度量數(shù)據(jù)總的變異,將它分 解為可追溯到來源的部分變異 SSE(組內(nèi)平方和)與 SSA(組間平方和)之和,若后者的 平均 MSA(組間均方)明顯比前者的平均 MSE(組內(nèi)均方)大,就認為自變量對因變量有 顯著影響。在方差分析的基本假定下,上述問題形式上就轉化為檢驗各總體均值是否相 等的問題。所謂基本假定就是,各總體服從正態(tài)分布;各總體方差相同;各觀測值相互 獨立。三、有多種預測模型可供選擇:1. 時間序列分解模型加法模型: xt Tt St It ;乘法模型: xt Tt St It ;混合模型: xt St Tt It, xt St (Tt It)。其中xt為時刻 t的序列值,
20、 Tt,St , I t分別表示趨勢、季節(jié)性、隨機波動,下同。2. 季節(jié)多元回歸模型xta0a1tb1Q1b2Q2b3Q3Itt0趨勢11 1季節(jié)2成分23 3隨機波t 動其中 Qi (i 1,2,3) 為 0-1 虛擬變量。3. ARIMA(p,q,d,T) 模型(求和自回歸移動平均模型) HYPERLINK IN THE NAME OF STATISTICS, UNITE!9統(tǒng)計之都COS Capital Of Statisticsd(B) T dxt B( ) tE( t ) 0,Var t( ) 2 E , s (t )s 0t ( )E(xs t ) 0s( t )符號說明B 為一階
21、延遲算子( Bxt xt 1 );(B) 1 1BpBp ( p 0)為自回歸系數(shù)多項式;(B) 1 1BqBq ( q 0) 為移動平均系數(shù)多項式;d (1 B)d 為d 階差分算子,用于消除趨勢成分;T 為步長為周期 T 的 T 步差分算子,用于消除季節(jié)成分。四、( 1)廠家從自身利益出發(fā),當然希望每袋平均重量250g ,這樣有利于提高產(chǎn)品銷量,于是可以把 250g 放在“被保護”的位置,而原假設正具有“被保護”的特性,于 是可提出如下檢驗假設:H0 : 250gH1 :250g(2)從消費者利益出發(fā),我們擔心每袋平均重量250g ,如果要我們相信 250g,那么廠家就得拿出充分的證據(jù)來證
22、明,所以250g 應放在“不利”的位置,即放在備擇假設中,于是有:H0 : 250gH1 :250g(3)在 0.5的顯著性水平和( 2)中的檢驗假設下, p 0.4297 意味著 250 是顯 著不成立的,即拒絕原假設,我們可以相信廠家所言。 p值的含義是當原假設為真時,檢驗統(tǒng)計量取其實現(xiàn)值以及更極端值的概率,它是 檢驗的真實顯著性水平。(4)這里的區(qū)間 (241.1,257.5) 是一個確定的區(qū)間,而食品的實際平均重量要么在其中, 要么不在其中,無概率可言。該區(qū)間是 95%的隨機置信區(qū)間的一個實現(xiàn),后者的意 思是食品的實際平均重量以 95%的概率落入其中。五、經(jīng)典多元線性回歸模型為 HYP
23、ERLINK IN THE NAME OF STATISTICS, UNITE!10統(tǒng)計之都COS Capital Of StatisticsyX其中 y是 n維隨機向量, X 是n (p 1)設計矩陣, 是 p 1維系數(shù)向量, 是n維隨機 誤差向量。關于自變量 x1, ,xp 的假設主要有:1. 自變量都是確定性變量?;貧w分析中的自變量與因變量地位是不等的,其中后者是隨 機的,這與相關分析二者都是隨機的不同。從而自變量與隨機誤差(以及因變量)也 就不相關,保證了回歸分析理論的順利進行。2. 自變量不存在多重共線性。 這就要求設計矩陣 X 列滿秩,進而觀測次數(shù)(樣本量) n必 須大于自變量個數(shù)
24、 p 。該假設保證了 的普通最小二乘估計可表示為? (XX) 1Xy并且具有良好的數(shù)學性質, 更方便了進一步的假設檢驗和回歸分析的實際操作與應用。 否則出現(xiàn)多重共線性,就會帶來上述諸多方面的麻煩。六、常見的(概率)抽樣方式有簡單隨機抽樣、分層抽樣、整群抽樣、多階段抽樣 和系統(tǒng)抽樣,其中簡單隨機抽樣是最基本的,是其他抽樣方式的基礎。所謂基本抽樣 方式,我覺得以不同的標準或不同的思維角度會得出不同的分類方式,比如:1. 如果將整群抽樣(通常指一階)看作特殊的二階段抽樣(二階段抽樣比100%),則有四種基本抽樣方式。2. 如果又將分層抽樣視為特殊的二階段抽樣(一階段抽樣比100%),則有三種基本抽樣
25、方式。3. 如果將系統(tǒng)抽樣看作特殊的分層抽樣(每層抽一個單元)或者特殊的整群抽樣(只抽 一個群),則有四種基本抽樣方式。七、貝葉斯判別分析的原理是將貝葉斯統(tǒng)計思想用于判別分析。具體說來,設有 k 個總體 G1, ,Gk ,分別有密度函數(shù) p1( x), ,pk(x)(一般假定總體都服從正態(tài)分布,協(xié)方差陣都 相等,各均值有顯著差異) ,已知出現(xiàn)這 k個總體的先驗概率為 q1, ,qk 。我們希望給出 一種判別法,也就是給出空間 Rm的一種劃分: D D1, ,Dk ,當 x落入 Di 時,將其判 給 Gi ,使得在該判別法下所帶來的平均損失kkECM(D)qi L( j |i)P( j|i)i
26、1 j 1達到最小。其中 L( j | i)為樣品來自 Gi而被判給 Gj 的錯判損失, P( j |i) pi ( x)dx為錯判Dj HYPERLINK IN THE NAME OF STATISTICS, UNITE!11統(tǒng)計之都COS Capital Of Statistics概率。(1)與聚類分析數(shù)據(jù)都是未知類別的相比,貝葉斯判別分析的數(shù)據(jù)結構中有一部分數(shù)據(jù) 是已知類別的,還有一部分屬于待判別歸類的未知類別的。(2)貝葉斯判別法最終是將樣品判給平均損失最小的總體。而其他判別法,比如距離判 別法是將樣品判給相距最小的總體;逐步判別法是先選擇最優(yōu)判別變量,再結合其 它判別法進行判別等等。
27、八、(1)建造大壩是一項復雜的工程,要綜合水利、建筑、地質、數(shù)學、統(tǒng)計等多學科的知 識,要考慮方方面面的因素。就其中壩高設計這一點來說,要考慮的主要因素我認 為有河流寬度與兩岸高度、周圍地質構造、河水各季度平均流量、地域旱澇特征, 還有建壩的預估資金和時間等等。(2)具體步驟如下:制定計算壩高的詳細計劃;確定影響壩高的主要指標;充分收集整理指標數(shù)據(jù);綜合利用各學科知識建立壩高數(shù)學模型;檢驗優(yōu)化模型;利用模型計算壩高估計值,給出置信度和置信區(qū)間。流程圖如下: HYPERLINK IN THE NAME OF STATISTICS, UNITE!12統(tǒng)計之都COS Capital Of Stati
28、stics2007 年人大統(tǒng)計學專業(yè)課初試題參考解答、(1)需假定總體是正態(tài)總體。不能用數(shù)據(jù)證明。數(shù)據(jù)至多只能檢驗該數(shù)據(jù)的分布是否接近正態(tài)分布,而不能從 理論上證明或肯定它一定就來自正態(tài)分布總體,即正態(tài)性檢驗不能提供不拒絕正 態(tài)性原假設的結論。不是。該區(qū)間是確定的區(qū)間,要么覆蓋真實總體均值,要么不覆蓋,沒有概率可 言。它是置信度為 95%的隨機置信區(qū)間的一個樣本實現(xiàn), 后者才是以 95%的概率覆 蓋真實總體均值。(2)需假定:總體服從正態(tài)分布;總體方差未知;樣本量較?。ㄒ话?0)。不能?!敖邮芰慵僭O”的說法是不妥的,否則就得負責任的給出犯第二類錯誤的概 率,而該檢驗的備選假設是“總體均值 4.
29、8 克”,據(jù)此是無法算出此概率的。所 以只能說, 在顯著水平為 0.05 時利用該數(shù)據(jù)進行檢驗不足以拒絕零假設, 不拒絕 不等同于接受。、(1)不是。因為只有員工看到并愿意答復電子郵件時才有機會進入樣本,所以每個員工 入樣的概率并不一樣,這其實是一種非概率抽樣。(2)不對。不說實話只是產(chǎn)生響應誤差的原因之一,而被調查者與調查者兩方面的因 素,都有可能導致響應誤差。調查者不當?shù)囊龑Щ蛘邌柧碓O計不科學或者被調查 者知識的局限性,都可能使被調查者對要回答的問題的理解產(chǎn)生偏差,這時候即 使他(她)說了“實話” ,也會產(chǎn)生響應誤差,因為這不是我們想要的“實話” 。 另外,拒絕回答也是一種重要原因。隨機誤
30、差是不可以避免的,因為它是由抽樣的隨機性造成的,是客觀的。(3)整體來說是不獨立的。因為同一個網(wǎng)絡公司員工加班時間一般是不獨立的,而不同 網(wǎng)絡公司員工加班時間一般是獨立的。、(1)令自駕車上班人數(shù)比例為 ,由于不能輕易否定原結論,則檢驗假設為:H0 : 30%H1 : 30%(2)令樣本量為 n ,其中駕車上班人數(shù)為 X ,假定 X 服從二項分布 B(n,0.3) ,X 的樣 本值為 x0 ,則p值 P X x0 P X 0 PX 1 P X x0檢驗統(tǒng)計量 Z X / n 0.3 近似 N(0,1) 。0.3(1 0.3)/ n 近似 假定:大樣本( X 5, n X 5 );每人駕車上班與
31、否相互獨立且服從同參數(shù) 0-1 分布。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!13統(tǒng)計之都COS Capital Of Statistics(3)統(tǒng)計上顯著并不意味著實際上顯著,要具體問題具體分析。比如,某箱牛奶經(jīng)統(tǒng)計 檢驗,含三聚氰胺的概率顯著低于 5%,但人們未必敢要這箱牛奶; 統(tǒng)計上 0.1 與 0.01 有顯著差異的時候,實際中未必有多大意義。不過統(tǒng)計顯著與實際顯著很多時候是 一致的。四、不負責。一個負責任的調查報告應該給出較詳盡的內(nèi)容,主要如下:主題; 調查時間與地點; 調查主題、客體、對象; 數(shù)據(jù)搜集方法、抽樣框、抽樣單元、樣本量、抽
32、樣方法、估計方法; 結論描述; 精度、質量評估; 責任; 參考文獻。五、無道理。如果進行第二次主成分分析,那么它處理的變量是第一次主成分分析得到的 互不相關的主成分,這樣得到的“新”的主成分其實跟第一次得到的主成分是完全一 樣的,這可以通過矩陣運算進行驗證,所以做的是無用功。變量之間相關系數(shù)多數(shù)較小(一般指 F 臨界值 8.65 ,P值 0.000002顯著性水平 =0.01,故拒絕 原假設,即認為車速對磨損程度有顯著影響。(2)同( 1)之理,可知不同供應商的輪胎之間的磨損程度有顯著差異。(3)假設:車速與供應商對輪胎的磨損程度無交互作用; 車速與供應商不同水平組合形成的總體都是正態(tài)總體;
33、上述總體方差都相同;各觀測數(shù)據(jù)相互獨立;行因素原假設 H0 : 1 5 ( i是總體均值,下同 );列因素原假設 H0 : 1 2= 3。四、簡單隨機抽樣是從單元數(shù)為 N的總體中逐個不放回等概率抽取 n 個單元或者一次性隨機 抽出 n 個單元,得到簡單隨機樣本。它是最簡單的概率抽樣方法。適用于總體總量較小 或總體方差與任意局部方差基本相當?shù)膱龊稀?如果總體總量較大或總體各單元差異較大, 就不宜單獨使用,因為此時擁有完整的抽樣框是困難的,抽樣單元也比較分散,會增加 調查費用, 而且會使總體目標量的估計產(chǎn)生較大誤差。 所以一般是與其他方法結合使用, 比如分層抽樣各層內(nèi)科采用簡單隨機抽樣,整群抽樣抽
34、取群、多階段抽樣各階的抽樣也 都可采用它。五、回歸模型: y X 。假設:解釋變量為非隨機變量; HYPERLINK IN THE NAME OF STATISTICS, UNITE!17統(tǒng)計之都COS Capital Of Statistics 解釋變量不存在多重共線性(即要求設計矩陣 X 列滿秩,樣本量大于自變量個 數(shù));Guass-Markov 假定: E( ) 0, Var( ) 2In ;正態(tài)假定: N(0, 2In) 。假設不成立之應對: 假設是回歸分析基本要求,否則就不是回歸分析; 假設若不滿足,就是多重共線性現(xiàn)象。有多種克服方法,比如剔除不重要自變量,增 大樣本量,對回歸系數(shù)進
35、行有偏估計(主成分法、嶺回歸法、偏最小二乘法等)等等。 假設若不滿足,隨機誤差 有可能出現(xiàn)異方差現(xiàn)象或自相關現(xiàn)象。若是前者,可通過 加權最小二乘法、 Box-Cox 變換法、方差穩(wěn)定性變換等方法來克服;若是后者,可通過 修改模型、增加自變量、迭代法等方法來克服。 假設若不滿足,則無法進行參數(shù)區(qū)間估計和假設檢驗??梢灾匦掠^測數(shù)據(jù)或對數(shù)據(jù)進 行正態(tài)性變換。六、意義:該模型表示原始變量被表示為公共因子和特殊因子的線性組合,展現(xiàn)了原始變 量與公共因子之間的相關關系,多數(shù)的原始變量( p個)被綜合少數(shù)的新變量( m 個,m p )公共因子, 起到了降維的效果, 簡化了問題的復雜性又抓住了問題的主要 矛盾
36、。假設:a. X 是可觀測的隨機向量, E(X) 0 ;F 是不可觀測的隨機向量, E(F) 0,D(F) Im (m p) ;E( ) 0, D( ) diag( 12, , 2p) ;Cov( ,F) 0 。七、( 1)若不考慮國外部門的影響, GDP 被分配于政府、企業(yè)、居民三個部門。 (可以對原 始收入形成、初次分配、再分配過程進行一定的闡述)(2)略。八、(1)參看高敏雪, 李靜萍. 經(jīng)濟社會統(tǒng)計 M. 北京:中國人民大學出版社 , 2003之 P75-P76 財務統(tǒng)計分析, P78 經(jīng)濟效益考核體系。(2)略。 HYPERLINK IN THE NAME OF STATISTICS
37、, UNITE!18統(tǒng)計之都COS Capital Of Statistics2005 年人大統(tǒng)計學專業(yè)課初試題參考解答、(1)圖略。(2)圖略。(3)由莖葉圖和箱線圖知,上網(wǎng)者年齡主要集中在 20-30 歲之間,離散程度較小,呈右 偏分布。、若采用兩兩配對的方式檢驗,會增加犯第一類錯誤的概率(設檢驗水平為 ,連續(xù)作 3 次兩兩檢驗犯第一類錯誤的概率為 1 (1 )3 ),另外隨著檢驗次數(shù)的增多, 偶然因素 導致差別的可能性也會增加; 而方差分析是同時考慮所有樣本, 因而排除了錯誤的累積, 減少了偶然因素的不利影響,也簡化了檢驗過程。、(1)樣本量為 36,可視為大樣本,考慮如下 95%的置信
38、區(qū)間(x z0.025s/ n,x z0.025s/ n) 代入 x 107,s 29.96 , n 36, z0.025 1.96得(97.22,116.78) (2)不一定。因為區(qū)間是一個確定的區(qū)間,餐館實際月平均用水量要么在其中,要么 不在其中,兩者只有其一。區(qū)間其實是區(qū)間的一個樣本實現(xiàn),區(qū)間是一個隨 機區(qū)間,它有 95%的可能性包含餐館實際月平均用水量。(3)餐館管理協(xié)會估計的月平均用水量 =100 噸是不能輕易否定的,應處于被“保護” 位置,則檢驗假設為H0 : 100 噸0H1 : 100 噸若拒絕原假設,也就是發(fā)生了小概率事件,那么我們有充分的理由支持備擇假設; 若不拒絕原假設,
39、并不意味著它就一定正確,只是現(xiàn)有證據(jù)不足以拒絕它而已。(4)用到了中心極限定理。它說的是獨立同分布隨機變量之和的極限分布是正態(tài)分布, 揭示了正態(tài)分布的源泉和重要地位,是參數(shù)區(qū)間估計和假設檢驗的理論基礎。四、(1)線性回歸方程為y? 207.9037 1.4378x1 0.8545x2 0.0626x3其中第 i (i 1, 2,3)個回歸系數(shù) ?i 的意義是,在其它自變量保持不變時, xi 每變動個單位, y 就平均變動 ?i 個單位。(2)由 p 值=0.00 知,回歸方程的線性關系是顯著的。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!19統(tǒng)計之都
40、COS Capital Of Statistics(3)第 1,2,3個回歸系數(shù)顯著性檢驗 p 值分別是0.0271 ,0.0083 ,0.3607故第 1,2個回歸系數(shù)顯著,第 3 個回歸系數(shù)不顯著。(4)多重判定系數(shù)2R2 SSR/ SST 70090029.08 / 75375973.33 0.93它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測值的 優(yōu)劣程度。此處 R2 0.93 ,表明回歸擬合效果很好。(5)估計標準誤差SSEsyMSE 480540.39 693.21n p 1sy是 y的標準差的股價,反映了 y (房地產(chǎn)銷售價格)的波動程度。(6)有用。雖然該
41、變量的系數(shù)沒通過顯著性檢驗,但并不意味著該變量沒用,它在經(jīng)濟 解釋上可能還是有一定意義的,方程總體顯著,說明方程包含該變量總體上是有用 的。也可能是多重共線性造成了不顯著。五、(1)圖略。(2)按照分層的觀點,劃分子總體應該是兩個子總體之間的差異盡量大,而子總體內(nèi) 部的差異盡量小,故劃分方式為:第一個子總體為 Y1 ,第二個子總體為 Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9, 。但如果要進行精度的計算,不能出現(xiàn)一個總體只含有一個單元的情況,故為了計 算精度,下面的劃分方式也是可以接受的:第一個子總體為 Y1,Y8 ,第二個子總體為 Y2,Y3,Y4,Y5,Y6,Y7,Y9, 。 此外也可
42、以應用多元統(tǒng)計中的系統(tǒng)聚類法形成兩個子總體:第一個子總體為 Y1 ,第二個子總體為 Y2,Y3,Y4,Y5,Y6,Y7,Y8,Y9, 。(3)上述數(shù)據(jù)出現(xiàn)了離群值,它是調查數(shù)據(jù)里的極端值,會于其它數(shù)據(jù)明顯不一致。其 起因一般有三個:被調查者回答有誤;調查者記錄有誤;數(shù)據(jù)本身的差異。當總體呈偏態(tài)分布時,這種情況就可能發(fā)生。例如數(shù)據(jù)是不同 公司的市場份額,那么少數(shù)公司占整個銷售額的絕大部分,其余公司占小部分的 情況是很普遍的。但是,題目強調了給定的數(shù)據(jù)是總體的全部真實數(shù)據(jù),那么第、種情況是不存 在的,所以應該是第種情況。(4)總體均值 HYPERLINK IN THE NAME OF STATIS
43、TICS, UNITE!20統(tǒng)計之都COS Capital Of Statistics19YYi 2.539 i 1 i總體方差19S2 911 i 1 (Yi Y)2 6.505)在本例應用的四種方法: 簡單隨機抽樣的不足之處在于估計精度略低。 分層抽樣的不足之處在于如果按照最優(yōu)的層內(nèi)差距盡量小、層間差距盡量大的原則 (2)之)分層會導致精度無法估計,故只能選擇次優(yōu)分層方法( (2)之) 整群抽樣的不足之處在于無法通過分群使群間差異盡量小,因為Y1 在任何一個群中 都會使該群與其它群差異較大。 此外整群抽樣的估計精度一般也比簡單隨機抽樣低; 系統(tǒng)抽樣的不足之處在于估計量方差的估計相對困難。
44、綜上所述,盡管各種抽樣方式各有不足之處,但是結合下面一道問題,我認為簡單 隨機抽樣、分層隨機抽樣和系統(tǒng)抽樣的不足之處都可以接受,但是整群抽樣的不足 之處相對顯著,而且整群抽樣在下面一道題里計算也非常困難,所以整群抽樣最不 合適。6)簡單隨機抽樣可能的樣本: (Yi ,Yj ), 1 i j 9 ;樣本均值:E(y) Y 2.53 ;樣本方差:1f2V(y)S2 2.53 。n分層隨機抽樣分層方式為( 2 )之??赡軜颖荆?Yi ,Yj ), i 1,8; j 2,3,4,5,6,7,9 ;樣本均值:E(yst ) Y 2.53;樣本方差:L 1 fV(yst)Wh2h Sh2 0.33。h 1
45、nh系統(tǒng)抽樣抽樣方式為環(huán)形等距抽樣( k 4 )??赡軜颖緸椋?Y1,Y5),(Y2,Y6),(Y3,Y7),(Y4,Y8),(Y5,Y9),(Y6,Y1),(Y7,Y2),(Y8,Y3),(Y9,Y4)樣本均值: E(ysy ) Y 2.53;樣本方差: HYPERLINK IN THE NAME OF STATISTICS, UNITE!21統(tǒng)計之都COS Capital Of Statistics2 1 k 2V(ysy) E(ysy Y)2(yr Y)2kr11(Y1Y52.53)2(Y2Y62.53)2(Y9Y42.53) 2 ( 152.53)( 262.53)( 942.53)
46、9 2 2 22.28簡單隨機抽樣 deff1 1 。分層隨機抽樣 deff2 V(yst ) 0.33 0.13。2 Vsrs(y) 2.53系統(tǒng)抽樣 deff3 V(ysy) 2.28 0.90。3 Vsrs ( y) 2.53分層隨機抽樣和系統(tǒng)抽樣的設計效應均小于1,說明這兩種方式在此情景下的抽樣效率要高于簡單隨機抽樣。此外 deff2 deff3 ,說明分層隨機抽樣的效率高于系統(tǒng)抽 樣。由于 deff2 遠小于 1,說明此情形下分層隨機抽樣的效率遠高于簡單隨機抽樣。 而deff3接近于 1,說明系統(tǒng)抽樣的效率接近于簡單隨機抽樣。六、聯(lián)系:形式接近。 y? ?0 ?1x , Ylr y
47、(X x) ; 確定方式接近?;貧w估計中若 未知,則Lxy 。Lxx區(qū)別:目的不同?;貧w方法揭示因變量和自變量的線性依賴關系,即因變量變化引起的自變量變化。抽樣里則是利用輔助變量 X 來提高對 Y 的估計精度。七、生產(chǎn)過程提供了用于分配的增加值。分配在生產(chǎn)的基礎上對增加值進行分配。使用在分 配基礎上進行消費和儲蓄。八、(1)A 地貧困者比重 20%11%9009%2001100010000.415 。20%1%9009%500B 地貧困者比重 10%A 地貧困深度 P1 1 1B 地貧困深度 P2 1 2 1 1000 1000 0.46 。2 2 10%2)A 地貧困者人數(shù)比 B地多,但是由
48、貧困深度反映出 A 的貧困人員在整體收入水平上 比 B 地更接近貧困線。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!22統(tǒng)計之都COS Capital Of Statistics(3)不能,貧困者比重僅能反映人數(shù),不能反映貧困程度;貧困深度反映了一定的貧困 程度,但是受貧困情況分布影響較大,不能很好的反映當貧困者的收入存在較大差 異時的情況。 此外僅靠收入狀況也不能客觀地反映貧困狀況。 可以采用森貧困系數(shù), 也可采用其他指標作為補充,如文盲率、嬰兒死亡率等等。九、(1)40 ,-70 ,-30。(2)交易中經(jīng)常賬戶和資本金融賬戶的盈余,進入儲備資產(chǎn),
49、也即儲備資產(chǎn)增加125 億元。(3)GDP+來自國外的生產(chǎn)要素凈額 =GNP,即 GDP+40=GNP。 GNP+來自國外的轉移凈收入 =國民可支配收入,即 GNP- 65=國民可支配收入。(4)該國在貨物和服務以及財產(chǎn)收入方面有較大的順差,儲備資產(chǎn)增加,多余資金流出 到國外各地投資,取得大量的財產(chǎn)收入,是發(fā)達國家的典型表現(xiàn)。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!23統(tǒng)計之都COS Capital Of Statistics2004 年人大統(tǒng)計學專業(yè)課初試題參考解答圖略。分三方面比較:集中趨勢(平均數(shù)、中位數(shù)、眾數(shù)) ,離散程度(標準差、方差、
50、極 差),分布形態(tài)(峰度、偏斜度) ??僧嬌Ⅻc圖直觀判斷;也可計算與均值的絕對距離,看是否偏大。 可畫畫直方圖、 Q-Q 或 P-P 圖;也可計算峰度與偏斜度。420,2,1.48;27,142;4256。因為 p值 0.245946 ,F(xiàn) 1.478873 F crit 3.354131 ,所以不能拒絕均值相等的原假設,即認為三種方法組裝的產(chǎn)品數(shù)量之間無顯著性差異。 假定:三種方法對應的總體服從正態(tài)分布;各總體方差相同; 各觀測值相互獨立; 個工人水平相當。前提:方差分析得出總體均值不全相等的結論; 作用:進一步分析到底是哪些均值之間不相等, 是通過總體均值之間兩兩配對比較來 進行檢驗的。從
51、袋中任取一球,觀察其顏色,定義隨機變量1, 取到白球0, 取到黑球X 就是該問題的總體,其分布為1.(1)(2)(3)(4)2(1)(2)(3)(4)3(1)(2)(3)(4)X1p樣本量 n 4 。若令 Xi表示第 i次取球的結果,則樣本為(X1,X2,X3,X4) ,拒絕域為C (x1,x2,x3,x4)| i 1xi 2, xi 0或1犯第一類錯誤的概率4.以單因素方差分析說明:141131351C14 10.3125242216C40P 否定H0 |H0為真 Pi41xi 2| p 12 HYPERLINK IN THE NAME OF STATISTICS, UNITE!24統(tǒng)計之都
52、COS Capital Of Statistics由方差分析基本假定,有 xij N( j, 2), i 1, ,nj; j 1, ,k。令 ij xij j N(0, ) , 有 xijj ij 。1 kkkk令總均值 1 nj j (nnj) ,有 nj( j )nj j 0(其中 j稱為第 j個水平n j 1j1j1j1的(主)效應,它表示每個自變量對因變量的單獨影響) ,得單因素方差分析模型xijj ij , i 1, ,nj ; j 1, ,kij N(0, 2), 各 ij 相互獨立ij k ijj 1nj j 0舉例略。5. 正態(tài)線性回歸模型為yX2 N(0, 2In )最小二乘
53、估計就是尋找 ,使得離差平方和2Q( ) y X (y X )(y X )達到最小。由上述模型知y N(X , 2In)似然函數(shù)就是隨機向量 y 的聯(lián)合概率密度2f(y; , 2) (2 )n/2 nexp 2(y X )(y X )最大似然估計就是尋找 使得 f (y; , 2 )達到最大,由上式易知,這只需(y X ) (y X )達到最小,這與最小二乘估計殊途同歸。證畢。6-10略。 HYPERLINK IN THE NAME OF STATISTICS, UNITE!25統(tǒng)計之都COS Capital Of Statistics2003 年人大統(tǒng)計學專業(yè)課初試題參考解答、不能。 GDP
54、 在進行國家間比較的時候采用匯率法,匯率的變動會影響折算后的結果,不 能客觀反映經(jīng)濟水平。若按照甲國本幣計算, GDP 僅下降 25%,該方法的問題在于匯率 法進行國際比較的局限性: 匯率由多種因素構成;、(1)匯率僅代表國際貿(mào)易成分,未代表國內(nèi)產(chǎn)品; 低估發(fā)展中國家的水平。19852001原始收入 =工資+勞動+利息 +財產(chǎn)+營業(yè)盈余6265333可支配收入 = 原始收入 +轉移支付凈額7166555消費支出 =食品+衣著+醫(yī)療 +居住6725308、國際收支平衡表原理認為:經(jīng)常貿(mào)易差額 +資本項目差額 +儲備資產(chǎn)變動 +誤差與遺漏 =0 儲備資產(chǎn)變動 = -(經(jīng)常貿(mào)易差額 +資本項目差額 +誤差與遺漏 ) 若不考慮誤差與遺漏,則該國國際收支為逆差。2)19852001工資和勞動0.850.72各種收入占可支配收入的比例財產(chǎn)0.010.04經(jīng)營0.010.06轉移支付0.120.18恩格爾系數(shù) = 食品支出 /可支配收入0.490.31物質0.870.77各種支出所占比例服務
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國鋯英砂行業(yè)前景規(guī)劃及投資潛力分析報告
- 2025-2030年中國鉛鋅冶煉市場現(xiàn)狀調研及未來發(fā)展前景分析報告
- 2025-2030年中國金屬門窗制造行業(yè)發(fā)展前景展望及投資風險分析報告新版
- 2025-2030年中國鄰甲酚行業(yè)十三五需求預測投資戰(zhàn)略規(guī)劃報告
- 二零二五年度餐廳員工食品安全責任合同3篇
- 2025-2030年中國超高頻rfid行業(yè)未來發(fā)展狀況及投資規(guī)劃研究報告
- 2025-2030年中國調味香料市場規(guī)模分析及投資前景研究報告
- 2025-2030年中國補鈣產(chǎn)品行業(yè)運行現(xiàn)狀及投資潛力分析報告
- 2025-2030年中國蔬菜加工行業(yè)運行狀況與前景趨勢分析報告新版
- 2025-2030年中國舞蹈服裝行業(yè)市場發(fā)展前景及投資戰(zhàn)略研究報告新版
- 儲罐維護檢修施工方案
- 地理2024-2025學年人教版七年級上冊地理知識點
- 2024 消化內(nèi)科專業(yè) 藥物臨床試驗GCP管理制度操作規(guī)程設計規(guī)范應急預案
- 2024-2030年中國電子郵箱行業(yè)市場運營模式及投資前景預測報告
- 基礎設施零星維修 投標方案(技術方案)
- 人力資源 -人效評估指導手冊
- 大疆80分鐘在線測評題
- 2024屆廣東省廣州市高三上學期調研測試英語試題及答案
- 中煤平朔集團有限公司招聘筆試題庫2024
- 2023年成都市青白江區(qū)村(社區(qū))“兩委”后備人才考試真題
- 不付租金解除合同通知書
評論
0/150
提交評論