第五章 數(shù)據(jù)分析_第1頁(yè)
第五章 數(shù)據(jù)分析_第2頁(yè)
第五章 數(shù)據(jù)分析_第3頁(yè)
第五章 數(shù)據(jù)分析_第4頁(yè)
第五章 數(shù)據(jù)分析_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第五章數(shù)據(jù)分析第1頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月

Addyourtextinhere多變量描述統(tǒng)計(jì)

多變量分析發(fā)展內(nèi)容總結(jié)知識(shí)回顧描述統(tǒng)計(jì)第2頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月知識(shí)回顧數(shù)據(jù)分析:從實(shí)際觀測(cè)數(shù)據(jù)中發(fā)現(xiàn)變量的特征、變化規(guī)則以及變量之間的關(guān)聯(lián)的過(guò)程。數(shù)據(jù)分析描述統(tǒng)計(jì)推斷統(tǒng)計(jì)單變量描述統(tǒng)計(jì)雙變量描述統(tǒng)計(jì)多變量描述統(tǒng)計(jì)第3頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多變量分析發(fā)展

多變量分析為統(tǒng)計(jì)方法的一種,包含了許多的方法,最基本的為單變量,再延伸出來(lái)的多變量分析統(tǒng)計(jì)資料中有多個(gè)變量(或稱因素、指標(biāo))同時(shí)存在時(shí)的統(tǒng)計(jì)分析,是統(tǒng)計(jì)學(xué)的重要分支,是單變量統(tǒng)計(jì)的發(fā)展起源于醫(yī)學(xué)和心理學(xué)1930年代它在理論上發(fā)展很快,但由于計(jì)算復(fù)雜,實(shí)際應(yīng)用很少。1970年代以來(lái)由于計(jì)算機(jī)的蓬勃發(fā)展和普及,多變量統(tǒng)計(jì)分析已滲入到幾乎所有的學(xué)科。到80年代后期,計(jì)算機(jī)軟件包已很普遍,使用也方便,因此多變量分析方法也更為普及。第4頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月為何研究充分地解釋某種現(xiàn)象探索現(xiàn)象的成因第5頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月

Addyourtextinhere多變量描述統(tǒng)計(jì)

偏相關(guān)分析和多元回歸因子分析原因事件的辨識(shí)

多變量關(guān)聯(lián)表描述統(tǒng)計(jì)第6頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多變量關(guān)聯(lián)表多變量關(guān)聯(lián)表分析(細(xì)化分析):

引入第三個(gè)變量,按此變量的屬性來(lái)分別考察自變量和因變量之間的關(guān)系。細(xì)化分析的過(guò)程第7頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月細(xì)化的過(guò)程第8頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月四種結(jié)果無(wú)效應(yīng)干預(yù)效應(yīng)掩蓋效應(yīng)一級(jí)細(xì)分表和零級(jí)細(xì)分表的結(jié)果相同或相似。零級(jí)表顯示的并非自變量和因變量?jī)烧咧苯哟嬖诘年P(guān)聯(lián)強(qiáng)度,而是控制變量對(duì)兩者作用的結(jié)果。零級(jí)表和一級(jí)表所反映的自、因變量間的關(guān)聯(lián)強(qiáng)度保持一致。抑制效應(yīng)控制變量對(duì)自變量和因變量產(chǎn)生影響,同時(shí),自變量和因變量之間也直接相關(guān)。第9頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多變量關(guān)聯(lián)分析法利VS弊VS利弊適用于控制變量屬性值為離散型的情況對(duì)于定序、定類尺度,是唯一適用的方法變量數(shù)增加,細(xì)分表級(jí)數(shù)增多,模型復(fù)雜每個(gè)控制組的樣本數(shù)據(jù)減少,影響準(zhǔn)確性第10頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析和多元回歸偏相關(guān)分析:表示在消除第三個(gè)變量的影響后,自變量和因變量的關(guān)聯(lián)程度。多元回歸分析:研究一個(gè)被解釋變量(因變量),多個(gè)解釋變量(自變量)的線性模型,即

y=β1+β2X2+……+βkXk+μ第11頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析例1:欲分析個(gè)人受教育水平和工作績(jī)效之間的關(guān)聯(lián),兩者的關(guān)聯(lián)又受年齡影響。(如下圖)年齡教育水平工作績(jī)效第12頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月用一元回歸分析年齡(自變量)和教育水平(因變量)之間的關(guān)系,得出方程和殘差用一元回歸分析年齡(自變量)和工作績(jī)效(因變量)之間的關(guān)系,得出方程和殘差用第三個(gè)回歸方程來(lái)分析第一個(gè)回歸方程和第二個(gè)回歸方程殘差之間的關(guān)聯(lián),得出相關(guān)系數(shù)即偏相關(guān)系數(shù)第一步第二步第三步注:殘差項(xiàng)說(shuō)明因變量不能由自變量來(lái)解釋的那部分偏差010203建立回歸方程第13頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)系數(shù)表示控制變量的影響消除后因變量可解釋偏差部分,此系數(shù)平方后便是可解釋偏差在因變量總偏差中所占的比例。Z為控制變量,x,y為自變量和因變量第14頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析設(shè)例1中,年齡和教育水平的相關(guān)系數(shù)為0.38,年齡和工作績(jī)效的相關(guān)系數(shù)為0.2,教育水平和工作績(jī)效的相關(guān)系數(shù)為0.5,則教育水平和工作績(jī)效的偏相關(guān)系數(shù)為:

r=(0.5-0.38*0.2)/[(1-0.382)1/2(1-0.382)1/2]=0.47第15頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析例2某年26個(gè)旅游景區(qū)的商店投資數(shù)據(jù)、游客增長(zhǎng)和風(fēng)景區(qū)的經(jīng)濟(jì)增長(zhǎng)率,想從變量之間的相關(guān)關(guān)系,尋求與風(fēng)景區(qū)經(jīng)濟(jì)增長(zhǎng)密切相關(guān)的因素。使用SPSS軟件得出風(fēng)景區(qū)商業(yè)投資額與風(fēng)景區(qū)經(jīng)濟(jì)增長(zhǎng)之間相關(guān)系數(shù)為0.664,t檢驗(yàn)的p=0.000<0.01,拒絕零假設(shè),表明兩個(gè)變量之間顯著相關(guān)。第16頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析然而選擇游客增長(zhǎng)率作為控制變量(剔除變量“游客增長(zhǎng)率”的影響),偏相關(guān)結(jié)果顯示:偏相關(guān)系數(shù)為0.0825,顯著性概率p=0.695>0.05。說(shuō)明剔除變量游客增長(zhǎng)率的影響后,風(fēng)景區(qū)商業(yè)投資額與風(fēng)景區(qū)經(jīng)濟(jì)增長(zhǎng)沒(méi)有顯著性關(guān)系,更不能說(shuō),風(fēng)景區(qū)的商業(yè)投資額導(dǎo)致了風(fēng)景區(qū)的經(jīng)濟(jì)增長(zhǎng)。第17頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月偏相關(guān)分析可以顯示:在消除了一個(gè)或多個(gè)控制變量的影響之后,自變量和因變量的相關(guān)關(guān)系發(fā)生了什么變化。偏相關(guān)系數(shù)可以表示兩變量間的關(guān)聯(lián)強(qiáng)度,但不能反映兩者之間變化的定量關(guān)系。偏相關(guān)分析第18頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析多元回歸分析的內(nèi)容和功能與一元回歸分析完全一樣,只是回歸方程中包含兩個(gè)或多個(gè)自變量,回歸系數(shù)表示方程中其他自變量受控的情況下一個(gè)自變量與因變量的關(guān)聯(lián)。注:受控,并非將樣本數(shù)據(jù)按受控的自變量屬性值歸類,而是“調(diào)節(jié)”每個(gè)樣本的變量屬性值。第19頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析多變量回歸方程:y=β1+β2X2+……+βkXk+μ表示y的截距為零的情況,βi表示自變量Xi變化一單位時(shí)在其他自變量保持不變的情況下因變量y的變化量,μ表示隨機(jī)誤差。注:多元回歸方程并不能反映出各個(gè)自變量的相對(duì)重要性,因?yàn)棣耰與自變量的度量尺度有關(guān),βi>βn并不代表Xi和y的關(guān)聯(lián)較Xn和y的關(guān)聯(lián)更強(qiáng),可能是由于Xi采用較小的尺度單位第20頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析為了評(píng)判各自變量的相對(duì)重要性,回歸方程的系數(shù)βi可以標(biāo)準(zhǔn)化,這樣就可以反映出在解釋因變量y的變化中多個(gè)自變量的相對(duì)重要性。多元回歸方程可以檢驗(yàn)自變量和因變量關(guān)聯(lián)的統(tǒng)計(jì)顯著性。P>0.05,則無(wú)顯著性關(guān)系。第21頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析例:以課題總數(shù)為被解釋變量,解釋變量為投入人年數(shù)(X2)、受投入高級(jí)職稱的人年數(shù)(X3)、投入科研事業(yè)費(fèi)(X4)、專著數(shù)(X6)、論文數(shù)(X7)、獲獎(jiǎng)數(shù)(X8)。解釋變量采用強(qiáng)制進(jìn)入策略,并做多重共線性檢測(cè)。假設(shè)課題總數(shù)與投入人年數(shù)(X2)、受投入高級(jí)職稱的人年數(shù)(X3)、投入科研事業(yè)費(fèi)(X4)、專著數(shù)(X6)、論文數(shù)(X7)、獲獎(jiǎng)數(shù)(X8)是線性相關(guān),則設(shè)此時(shí)的回歸方程為:課題總數(shù)=β1+β2投入年數(shù)+β3投入科研事業(yè)費(fèi)+β4專著數(shù)+β5論文數(shù)+β6獲獎(jiǎng)數(shù)+μ=β1+β2X2+β3X3+β4X4+β5X5+β6X6+μ第22頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析得到結(jié)果如下:CoefficientsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.95.0%ConfidenceIntervalforBBStd.ErrorBetaLowerBoundUpperBound1(Constant)-35.31376.580-.461.649-193.367122.740論文數(shù)-.064.053-.252-1.198.243-.173.046投入人年數(shù).698.2081.3613.352.003.2681.128投入高級(jí)職稱的人年數(shù)-.467.626-.464-.747.463-1.759.824投入科研事業(yè)費(fèi)(百元).003.002.2371.601.122-.001.007專著數(shù).022.377.014.059.953-.755.800獲獎(jiǎng)數(shù).712.503.1191.416.170-.3261.751a.DependentVariable:課題總數(shù)第23頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析分析:常數(shù)項(xiàng)β1的顯著性概率為0.649>0.05,表示常數(shù)項(xiàng)與0沒(méi)有顯著性差異,因此β1=0論文數(shù)β2的顯著性概率為0.243>0.05,表示論文數(shù)與0沒(méi)有顯著性差異,因此β2=0

投入年數(shù)β3的顯著性概率為0.03<0.05,表示投入年數(shù)與0有顯著性差異,因此β3=1.361

投入高級(jí)職稱的人數(shù)β4的顯著性概率為0.463>0.05,表示投入高級(jí)職稱的人數(shù)與0沒(méi)有顯著性差異,因此β4=0

投入科研事業(yè)費(fèi)β5的顯著性概率為0.122>0.05,表示常數(shù)項(xiàng)與0沒(méi)有顯著性差異,因此β5=0

專著數(shù)β6的顯著性概率為0.953>0.05,表示專著數(shù)與0沒(méi)有顯著性差異,因此β6=0獲獎(jiǎng)數(shù)β7的顯著性概率為0.170>0.05,表示獲獎(jiǎng)數(shù)與0沒(méi)有顯著性差異,因此β7=0課題總數(shù)=0.698+1.361X2+0.208第24頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析基于多元回歸分析的顧客滿意度研究——以移動(dòng)通信行業(yè)為例

論文中的應(yīng)用基于多元回歸分析對(duì)我國(guó)沿海各省農(nóng)村個(gè)人支出結(jié)構(gòu)的研究第25頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月問(wèn)題:自變量越多越好?“要領(lǐng)”在哪?如何診斷關(guān)鍵“病因”,開(kāi)出“藥方”?第26頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月多元回歸分析可以采用任意個(gè)數(shù)的自變量來(lái)解釋因變量的變化,理論上說(shuō),自變量越多,對(duì)管理現(xiàn)象的解釋能力越強(qiáng)。然而,隨著自變量的數(shù)目增多,人們?cè)絹?lái)越難抓住問(wèn)題的“要領(lǐng)”。因此,多變量分析中,在保證一定的對(duì)因變量變化解釋能力的條件下,自變量的個(gè)數(shù)越少越好。通常希望找到降維的多元分析方法。答:第27頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月因子分析因子分析是一類降維的相關(guān)分析技術(shù),用來(lái)考察一組變量之間的協(xié)方差或相關(guān)系數(shù)結(jié)構(gòu),并用以解釋這些變量與為數(shù)較少的因子(即不可觀測(cè)的潛變量)之間的關(guān)聯(lián)。分析的結(jié)果體現(xiàn)在將原來(lái)的一組變量聚類并濃縮成較少的稱為因子的新變量,而這些因子能涵蓋原來(lái)變量的主要特征。第28頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月因子分析法首創(chuàng)1904年,斯皮爾曼認(rèn)為:智商測(cè)試中所采用的各種變量都和“總體智力因子”有顯著關(guān)聯(lián),同時(shí),每項(xiàng)智商測(cè)試又涉及到某種技能(如數(shù)學(xué)),所以智商測(cè)試又和“專門因子”相關(guān),按此兩因子的論點(diǎn),智商(IQ)應(yīng)等于受測(cè)者的總體因子(g)加上專門因子(s),g是先天的,遺傳的,s因子則是學(xué)習(xí)的結(jié)果。第29頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月

分析步驟1確認(rèn)待分析的原變量是否適合作因子分析

2構(gòu)造因子變量

利用旋轉(zhuǎn)方法使因子變量更具有可解釋性

對(duì)因子分析結(jié)果做出解釋

因子分析43第30頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月

計(jì)算過(guò)程1將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除變量間在數(shù)量級(jí)和量綱上的不同

2求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣

求相關(guān)矩陣的特征值和特征向量

計(jì)算方差貢獻(xiàn)率與累積方差貢獻(xiàn)率

因子分析43第31頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月

計(jì)算過(guò)程5確定因子:

6因子旋轉(zhuǎn):

用原指標(biāo)的線性組合來(lái)求各因子得分

綜合得分因子分析87設(shè)F1,F(xiàn)2,…,F(xiàn)p為p個(gè)因子,其中前m個(gè)因子包含的數(shù)據(jù)信息總量(即其累積貢獻(xiàn)率)不低于80%時(shí),可取前m個(gè)因子來(lái)反映原評(píng)價(jià)指標(biāo);若所得的m個(gè)因子無(wú)法確定或其實(shí)際意義不是很明顯,這時(shí)需將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實(shí)際含義。以各因子的方差貢獻(xiàn)率為權(quán),由各因子的線性組合得到綜合評(píng)價(jià)指標(biāo)函數(shù)F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)

此處wi為旋轉(zhuǎn)前或旋轉(zhuǎn)后因子的方差貢獻(xiàn)率9得分排序:利用綜合得分可以得到得分名次

第32頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月因子分析主成分分析法公共因子分析法

抽取因子的方法第33頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月主成分分析法主成分分析法是一種數(shù)學(xué)變換的方法,它把給定的一組相關(guān)變量通過(guò)線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,n個(gè)變量就有n個(gè)主成分。第34頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月主成分分析法特征根大于1法

碎石坡法

判斷因子取舍的方法如果一個(gè)因子的特征根大于1就保留,否則拋棄。

如果我們以因子的次序?yàn)閄軸、以特征根大小為Y軸,我們可以把特征根隨因子的變化畫在一個(gè)坐標(biāo)上,因子特征根呈下降趨勢(shì)。這個(gè)趨勢(shì)線的頭部快速下降,而尾部則變得平坦。從尾部開(kāi)始逆向?qū)ξ膊慨嬕粭l回歸線,遠(yuǎn)高于回歸線的點(diǎn)代表主要的因子,回歸線兩旁的點(diǎn)代表次要因子。第35頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月公共因子分析法

公共因子分析法只考慮變量中的共性部分。在變量X1,

X2,…,Xp中,每個(gè)變量Xi分為兩部分,即Xi=

Xi’+SiXi’為變量Xi與其他變量相同的共性部分,Si為變量Xi與其他變量不同的獨(dú)立部分。第36頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月主成分分析法VS公共因子分析法VS主成分分析法公共因子分析法因子反映變量間最優(yōu)線性組合,有可能事先提出假設(shè),設(shè)定一組變量與某個(gè)因子或因子與因子之間存在強(qiáng)關(guān)聯(lián),然后去檢驗(yàn)它們之間的負(fù)荷系數(shù)。用于確認(rèn)型因子分析用來(lái)挖掘潛在的影響所有原來(lái)變量的新變量,研究者事先并無(wú)任何關(guān)于變量和因子間關(guān)聯(lián)的假設(shè)重點(diǎn)放在發(fā)現(xiàn)關(guān)聯(lián)。屬于探索型因子分析第37頁(yè),課件共44頁(yè),創(chuàng)作于2023年2月論文中的應(yīng)用江蘇省中成藥工業(yè)經(jīng)濟(jì)效益綜合評(píng)價(jià)——基于因子分析基于因子分析的我國(guó)區(qū)域創(chuàng)新環(huán)境定量測(cè)度研

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論