復(fù)雜抽樣設(shè)計(jì)下回歸分析一_第1頁
復(fù)雜抽樣設(shè)計(jì)下回歸分析一_第2頁
復(fù)雜抽樣設(shè)計(jì)下回歸分析一_第3頁
復(fù)雜抽樣設(shè)計(jì)下回歸分析一_第4頁
復(fù)雜抽樣設(shè)計(jì)下回歸分析一_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

復(fù)雜抽樣設(shè)計(jì)下的回歸分析任莉穎什么是回歸分析?回歸分析有什么用?怎么做回歸分析?2“回歸”是什么意思?19世紀(jì)80年代英國統(tǒng)計(jì)學(xué)家弗朗西斯·高爾頓(Francis

Galton)在親子身高的研究中首次提出“回歸”一詞。為了研究父代與子代身高的關(guān)系,高爾頓搜集了1078對父親及其兒子的身高數(shù)據(jù)。總的趨勢是父親的身高增加時(shí),兒子的身高也傾向于增加。當(dāng)父親高于平均身高時(shí),他們的兒子身高比他更高的概率要小于比他更矮的概率;父親矮于平均身高時(shí),他們的兒子身高比他更矮的概率要小于比他更高的概率。它反映了一個(gè)規(guī)律,即這兩種身高父親的兒子的身高,有向他們父輩的平均身高回歸的趨勢。3回歸分析是一種理解數(shù)據(jù)的方法元數(shù)據(jù):變量名:SALES變量標(biāo)簽:營業(yè)額(單位:萬元)174.4164.4244.2154.6181.6207.5152.8163.2145.4137.2241.9191.1232.0145.3161.1209.7146.4144.0232.6224.1166.5統(tǒng)計(jì)量:平均值:181.9中位值:166.5標(biāo)準(zhǔn)差:36.19最大值:244.2

最小值:137.24元數(shù)據(jù):變量名:SALES變量標(biāo)簽:營業(yè)額(單位:萬元)變量名:TARGTPOP變量標(biāo)簽:本市16歲以下少兒人數(shù)(單位:萬人)統(tǒng)計(jì)量:相關(guān)系數(shù):0.9437檢驗(yàn):p<0.0000SALES

TARGTPOP174.4

68.5164.4

45.2244.2

91.3154.6

47.8181.6

46.5207.5

66.1152.8

49.5163.2

52.0145.4

48.9137.2

38.4241.9

87.9191.1

72.8232.0

88.4145.3

42.9161.1

52.5209.7

85.7146.4

41.3144.0

51.7232.6

89.6224.1

82.7166.5

52.35統(tǒng)計(jì)量:相關(guān)系數(shù)SALES TARGTPOP

DISPOINC174.4

68.5

16.7164.4

45.2

16.8244.2

91.3

18.2154.6

47.8

16.3181.6

46.5

17.3207.5

66.1

18.2152.8

49.5

15.9163.2

52.0

17.2145.4

48.9

16.6137.2

38.4

16.0241.9

87.9

18.3191.1

72.8

17.1232.0

88.4

17.4145.3

42.9

15.8161.1

52.5

17.8209.7

85.7

18.4146.4

41.3

16.5144.0

51.7

16.3232.6

89.6

18.1224.1

82.7

19.1166.5

52.3

16.0元數(shù)據(jù):變量名:SALES變量標(biāo)簽:營業(yè)額(單位:萬元)變量名:TARGTPOP變量標(biāo)簽:本市16歲以下少兒人數(shù)(單位:萬人)變量名:DISPOINC變量標(biāo)簽:本市人均可支配收入(單位:萬元)6SALESTARGTPOPDISPOINC174.468.516.7164.445.216.8244.291.318.2154.647.816.3181.646.517.3207.566.118.2152.849.515.9163.252.017.2145.448.916.6137.238.416.0241.987.918.3191.172.817.1232.088.417.4145.342.915.8161.152.517.8209.785.718.4146.441.316.5144.051.716.3232.689.618.1224.182.719.1166.552.316.07回歸模型:觀測項(xiàng)=結(jié)構(gòu)項(xiàng)+隨機(jī)項(xiàng)SALES

=

F(TARGTPOP,

DISPOINC)

+

eYi

=

b0

+

b1Xi1

+

b2Xi

2

+

eiY

:因變量X

:自變量b

:回歸系數(shù)e:誤差項(xiàng)SALESi

=

-68.85

+

1.45(TARGTPOPi)

+

9.37(DISPOINCi)

+

ei回歸分析有什么用?8描述性:觀測項(xiàng)=概括項(xiàng)+殘差項(xiàng)目的:概括數(shù)據(jù)的基本特征預(yù)測性:觀測項(xiàng)=預(yù)測項(xiàng)+誤差項(xiàng)目的:應(yīng)用新的數(shù)據(jù)給出有用的預(yù)測回答因果性:觀測項(xiàng)=機(jī)制項(xiàng)+干擾項(xiàng)目的:發(fā)現(xiàn)數(shù)據(jù)產(chǎn)生的機(jī)制“統(tǒng)計(jì)模型的主要目標(biāo)在于用最簡單的結(jié)構(gòu)和盡可能少的參數(shù)來概括大量數(shù)據(jù)所包含的主要信

息?!崩斫饣貧w分析的誤區(qū)31使用調(diào)查數(shù)據(jù)的權(quán)重39建構(gòu)回歸模型的步驟23怎么做回歸分析?10一元線性回歸分析11一元線性回歸分析模型:

Y

=

b0

+b1X

+

eY

:因變量

X

:自變量

b0

:截距

B1:斜率b0

+b1X

:Y值中與X值相關(guān)的部分e:Y值中與X值無關(guān)的部分。。。。。。。。xy0。。yi要找一條直線,使2i

i(y

-y?

)最小。。y?ixi最小二乘法(Ordinary

Least

Squares,OLS)示意圖一元線性回歸分析一元線性回歸分析13OLS回歸模型的基本假定:2、正交假定誤差項(xiàng)和X不相關(guān)誤差項(xiàng)的期望值為03、獨(dú)立同分布假定任何兩個(gè)誤差項(xiàng)之間都不相關(guān)所有誤差項(xiàng)的方差都相同4、正態(tài)分布假定誤差項(xiàng)為正態(tài)分布1、線性假定- Y的條件均值是自變量X的線性函數(shù):mi=

b0

+

b1xi一元線性回歸分析OLS回歸直線的特性:1、殘差之和為0:2、因變量觀測值之和等于其預(yù)測值之和:3、自變量值與殘差乘積之和等于0:4、因變量預(yù)測值與殘差乘積之和等于0:=

0

eii

Yi=

Y?=

0

Xieii

i

Y?e

=

05、自變量和因變量的均值(X

,Y

)一定在回歸直線上。1415一元線性回歸分析16一元線性回歸分析例:“明天影樓”是一家針對16歲及以下少兒的專業(yè)攝影工作室。該公司已在全國21個(gè)中等城市設(shè)立了連鎖影樓,正在計(jì)劃在其他中等城市開拓業(yè)務(wù)。方差分析參數(shù)估計(jì)SALES

(Y):去年各連鎖影樓的營業(yè)額(萬元)TARGTPOP(X):去年各影樓所在城市16歲及以下少兒的人數(shù)(萬人)N:21個(gè)城市模型檢驗(yàn)一元線性回歸分析140160180200220240405060

708090targtpopsales Fittedvalues1回歸參數(shù)估計(jì)值:(x

-

x

)2bi=

(xi

-

x

)(yi

-

y

)b0

=

y

-

b1xSALES=68.28+1.83TARGTPOP17Y

=

b0

+

b1X一元線性回歸分析?

)殘差均方:1回歸參數(shù)估計(jì)標(biāo)準(zhǔn)誤:220n

-

2(y

-

yMSE

=(x

-

x

)2S

=

MSE

/x

2n

+

(x

-

x

)iiib1iSb

=

MSE11

1置信區(qū)間:t(21-2)分布下,大于12.44的概率為0.000所以,拒絕零假設(shè)。回歸參數(shù)檢驗(yàn):Tb

=

(b1

-

0)/Sb

=

1.8327

/

0.1473

=

12.44b1

t(1

-

a

/

2;n

-

2)Sb零假設(shè)H0

:

b1

=

0

備擇假設(shè)

H1

:

b1

?

018一元線性回歸分析方差分析(ANOVA)來源

平方和(SS)自由度(df)均方(MS)回歸模型(Model)?SSR

?

??

???

??????1MSR

???????1殘差(Residual)SSE

?

??

???

?????

??n-2MSE

???????n

?

2所有(Total)?S??TO

?

??

??

??????n-1計(jì)算該統(tǒng)計(jì)量時(shí),獨(dú)立取值的數(shù)值個(gè)數(shù)SSTO

=

SSR

+SSE模型能夠解釋的變異模型未能解19釋的變異一元線性回歸分析150.7981模型檢驗(yàn):23331.0462= =

154.72MSEMSR=F

*零假設(shè)H0

:

b1

=

0

備擇假設(shè)

H1

:

b1

?

0表示該模型能夠解釋營業(yè)額總變異中的88.49%。F(1,21-2)分布下,大于154.72的概率為0.000所以,拒絕零假設(shè)。判定系數(shù):a=

0.8906=

1

-=

=

0.8849n

-

p

SSTO=

1

-

n

-

1

SSER

2SSTOSSESSTOSSRR

220一元線性回歸分析211、明天連鎖影樓的營業(yè)額受到本市16歲及以下的少兒人數(shù)的顯著影響;2、城市中16歲及以下的少兒人數(shù)越多,該市明天連鎖影樓的營業(yè)額越高;3、城市中16歲及以下的少兒人數(shù)每增長1萬人,該市明天連鎖影樓的營業(yè)額增長1.83萬元;4、明天連鎖影樓營業(yè)額在不同城市間的差異88.5%的原因歸結(jié)于本市16歲及以下少兒人數(shù)的不等。還有別的原因嗎?22多元線性回歸分析23一元線性回歸分析多元線性回歸分析Y

=

b0

+b1X

+

eY

=

b0

+b1X1

+

b2X2

+

e多元線性回歸分析例:“明天影樓”是一家針對16歲及以下少兒的專業(yè)攝影工作室。該公司已在全國21個(gè)中等城市設(shè)立了連鎖影樓,正在計(jì)劃在其他中等城市開拓業(yè)務(wù)。SALES

(Y):去年連鎖影樓的營業(yè)額(萬元)TARGTPOP(X1):去年連鎖影樓所在城市16歲及以下少兒的人數(shù)(萬人)DISPOINC

(X2):去年連鎖影樓所在城市居民人均可支配收入(萬元)N:21個(gè)城市24多元線性回歸分析模型:SALES

=-70.24

+1.45TARGTPOP

+9.47DISPOINCt(21

- 3)分布下,大于所以,拒絕零假設(shè)。256

.

820

.

000回歸參數(shù)檢驗(yàn):b

1置信區(qū)間:b

1

t

(

1=

1

.

45 /

0

.

21

=6.82

的概率為=

(

b

1

-

0)/S-

a

/

2;

n

-

3

)S

b1H

0

:

b

1

=

0H

1

:

b

1

?

0Tb126多元線性回歸分析122.48聯(lián)合檢驗(yàn):MSEMSR

11995.78=

= =

97.94F

*H1

:

b1

?

0或b2

?

0H0

:

b1

=

b2

=

0表示該模型能夠解釋營業(yè)額總變異中的90.65%。F(1,21-3)分布下,大于97.94的概率為0.000所以,拒絕零假設(shè)。判定系數(shù):a=

0.9158=

1

-=

=

0.9065n

-

p

SSTO=

1

-

n

-

1

SSER

2SSTOSSESSTOSSRR

2一元線性回歸分析1、明天連鎖影樓的營業(yè)額受到本市16歲及以下的少兒人數(shù)及本市居民人均可支配收入的顯著影響;2、在16歲及以下的少兒人數(shù)相同的情況下,該市居民人均可支配收入越高,明天連鎖影樓的營業(yè)額越高;3、在16歲及以下的少兒人數(shù)相同的情況下,該市居民人均可支配收入每增長1萬元,該市明天連鎖影樓的營業(yè)額增長9.47萬元;4、明天連鎖影樓營業(yè)額在不同城市間的差異90.65%的原因歸結(jié)于本市16歲及以下少兒人數(shù)及居民人均可支配收入的不等。27多元線性回歸分析A城市TARGTPOPDISPOINC65.417.6明天影樓希望知道根據(jù)這個(gè)模型,在A城市開設(shè)連鎖影樓預(yù)計(jì)的年?duì)I業(yè)額是多少?A城市的數(shù)據(jù)信息如下:?22h

hh'

'

-1=

MSE(1

+

X

(X

X

)

X

)h其中s

{pred

}

=

MSE

+

s

{Y

}?2hh2t(1

-

0.05

/

2;21

-

3)

=

2.101A城市:167.3

Yh(new

)£

214.9+

s

{Y

}

=

122.48

+

7.656

=

130.136s

{pred

}

=

MSEs{pred

}

=

11.41Y?

t(1

-

a

/

2;n

-

p)s{pred

}

Y?

=

191.26模型:SALES

=-70.24

+1.45TARGTPOP

+9.47DISPOINCSALES(A)

=

-70.24

+

1.45TARGTPOP

+

9.47DISPOINC=

-70.24

+

1.45x65.4

+9.47x17.6=

191.26左右28理解回歸分析的誤區(qū)誤區(qū)一、判定系數(shù)R2

越高說明模型擬合越好。R2

=

0.6871R2

=

0.0013681012y1248106x1468101214y224810296x2理解回歸分析的誤區(qū)誤區(qū)二、判定系數(shù)R2

越高預(yù)測越準(zhǔn)確。?2

2hhs{pred

}

=

11.41t(1

-

0.05

/

2;21

-

3)

=

2.101A城市:167.3

Yh(new

)£

214.9s

{pred

}

=

MSE

+

s

{Y

}

=

122.48

+

7.656

=

130.136Y?

=

191.26表示該模型能夠解釋營業(yè)額總變異中的90.65%。判定系數(shù):a=

0.9158=

1

-=

=

0.9065n

-

p

SSTO=

1

-

n

-

1

SSER

2SSTOSSESSTOSSRR

230理解回歸分析的誤區(qū)誤區(qū)三、可以通過標(biāo)準(zhǔn)化回歸系數(shù)來比較自變量的作用大小。其數(shù)值含義為:在控制了其他變量的情況下,自變量每變化一個(gè)標(biāo)準(zhǔn)差,因變量的平均變化(以因變量標(biāo)準(zhǔn)差數(shù)為單位)。1、自變量之間的相關(guān)程度會(huì)影響到標(biāo)準(zhǔn)化回歸系數(shù)的計(jì)算2、自變量取值的間距也會(huì)影響到標(biāo)準(zhǔn)化回歸系數(shù)的計(jì)算y

k

k

ksb

=

bY

=

b1X

1

+

b2

X

2s21211

-

rry

1

-

r12

ry

2b

=3132建構(gòu)回歸模型的步驟23怎么建構(gòu)回歸模型呢?33建構(gòu)回歸模型的步驟34建模 診斷 補(bǔ)救建構(gòu)回歸模型的步驟35建構(gòu)回歸模型的步驟1、根據(jù)理論選擇研究變量如:一個(gè)人的收入水平受到其性別、年齡、受教育程度、工作年限、職業(yè)、居住地區(qū)的影響。理論假設(shè):環(huán)境保護(hù)中的公眾參與行為會(huì)受到公眾的環(huán)境意識、環(huán)境知識,以及個(gè)人社會(huì)經(jīng)濟(jì)狀況的影響操作化假設(shè):排除其他因素的影響,對環(huán)境問題越關(guān)注的人對環(huán)境保護(hù)的參與層次越高;排除其他因素的影響,環(huán)境知識越豐富的人對環(huán)境保護(hù)的參與層次越高;排除其他因素的影響,收入水平越高的人對環(huán)境保護(hù)的參與層次越高;……36建構(gòu)回歸模型的步驟2、自變量和因變量應(yīng)為定距/定比變量。如果自變量中包括定類變量,需將其轉(zhuǎn)換為虛擬變量使用。如:一個(gè)人的收入水平受到其性別、年齡、教育程度、工作年限、職業(yè),居住地區(qū)的影響。定距/定比變量:年齡、工作年限;定類變量:性別、職業(yè)“受教育程度”是哪種變量?定距測量:正規(guī)教育的年限;定序變量:文盲/半文盲、小學(xué)、初中、高中、大專、大學(xué)本科、碩士、博士定類變量:是否接受過大學(xué)教育37建構(gòu)回歸模型的步驟2、(續(xù))如何轉(zhuǎn)換為虛擬變量?以編碼“1”和“0”表示案例的類別歸屬。原變量虛擬變量性別1

男;2

女2個(gè)虛擬變量:男:1

是;0

否女:1

是;0

否職業(yè)1

農(nóng)民;2

工人;3

公務(wù)員;4公司職員;5

其他5個(gè)虛擬變量:農(nóng)民:1

是;0

否工人:1

是;0

否公務(wù)員:1

是;0

否公司職員:1

是;0否其他:1

是;0

否居住地區(qū)1

東部;2中部;3

西部3個(gè)虛擬變量:東部:1

是;0

否中部:1

是;0

否西部:1

是;0

否虛擬變量的個(gè)數(shù)=原變量的類別數(shù)38建構(gòu)回歸模型的步驟2、(續(xù))居住地區(qū)東部不是東部中部不是中部西部“居住地區(qū)”兩個(gè)虛擬變量納入回歸模型:1

東部;2

中部。對比地區(qū)為西部如何在回歸模型中使用虛擬變量?納入回歸模型的虛擬變量個(gè)數(shù)=原變量的類別數(shù)-139建構(gòu)回歸模型的步驟3、考慮自變量之間是否理論上存在交互作用如理論上假定,隨著工作年限的增加,男性的收入比女性的收入增長速度要快。(Y:收入;X1:性別;X2:工作年限)無交互作用:E{Y}

=

1000

X1+500X2有交互作用:E{Y}

=

1000

X1+500X2+300X1X2020004000600080001000012000140001

2

3

4

5

6

7

8

9

10

11

1213

1415

16

1718

1920男性:E{Y}=2000+500X2女性:E{Y}=1000+500X2200001800016000140001200010000800060004000200001

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20男性:E{Y}=2000+800X2女性:E{Y}=1000+500X2建構(gòu)回歸模型的步驟4、考慮自變量與因變量之間是否存在非線性關(guān)系如理論上假定,年齡與收入呈現(xiàn)倒U型,即青年人和老年人收入比中年人收入要低。(Y:收入;X3:年齡)E{Y}

=

-5000+600X3-7X3290008000700060005000400030004010203040506070建構(gòu)回歸模型的步驟i41piP(YiP(Yilog(5、自變量和因變量應(yīng)為定距/定比變量。如果因變量中為定類變量,可以轉(zhuǎn)換為虛擬變量使用邏輯斯蒂回歸或其他定類數(shù)據(jù)的

分析方法。邏輯斯蒂回歸:1

i0=

1)

=

pi=

0)=

1

-

pi1

-

p)

=

b

+

b

X建構(gòu)回歸模型的步驟1、檢查因變量和自變量的無應(yīng)答情況;2、檢查數(shù)據(jù)頻數(shù)分布情況變異情況奇異值頻數(shù)過小的類別3、檢查因變量和自變量的線性關(guān)系targtpop42dispoincsales6040100804060801001716191816171819150200250150200250建構(gòu)回歸模型的步驟1、模型選擇的標(biāo)準(zhǔn);標(biāo)準(zhǔn)公式應(yīng)用調(diào)整后的判定系數(shù)????,?1

?

??????????????????

1越大越好?????????ln???????

?

????????

?

2??越小越好??????????

?

???

?

2?????????????,…

,

??????越小越好?????????????????

?

????

?

?????越小越好43建構(gòu)回歸模型的步驟44run;1、模型選擇的標(biāo)準(zhǔn)(續(xù));ObsModelpdfAdjrsqAICCpPress1x12440.6103220.538.355569.562x22440.3491244.1342.119254.493x32440.4022240.2135.258451.434x1x23430.6389217.975.605235.195x1x33430.661215.062.814902.756x2x33430.4437237.8530.258115.917x1x2x34420.6595216.194.005057.89SAS:procreg

data=dataset;model

y=x1

x2

x3/

selection=adjrsq

press

cp

AIC;STATA:reg

y

x1

x2

x3estat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論