如何選擇數(shù)據(jù)分析方法_第1頁(yè)
如何選擇數(shù)據(jù)分析方法_第2頁(yè)
如何選擇數(shù)據(jù)分析方法_第3頁(yè)
如何選擇數(shù)據(jù)分析方法_第4頁(yè)
如何選擇數(shù)據(jù)分析方法_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

如何選擇數(shù)據(jù)分析方法?吳喜之2數(shù)據(jù)和目的相結(jié)合的出發(fā)點(diǎn)1.相關(guān)分析及回歸類(lèi)模型(相關(guān)、簡(jiǎn)單的回歸、Logistic回歸、對(duì)數(shù)線性模型、方差分析和一般線性模型)2.經(jīng)典多元分析內(nèi)容(主成分分析、因子分析、聚類(lèi)分析、判別分析、對(duì)應(yīng)分析)3主要涉及的相關(guān)問(wèn)題什么是相關(guān)?列聯(lián)表中定性變量的相關(guān)(Fisher&c2檢驗(yàn))定量變量的相關(guān)(Pearson相關(guān)系數(shù)(r),Kendall’st、Spearman’r)基本統(tǒng)計(jì)書(shū)中的估計(jì)和假設(shè)檢驗(yàn)所涉及的僅僅是對(duì)一些互相沒(méi)有關(guān)系的變量的描述。但是現(xiàn)實(shí)世界的問(wèn)題都是相互聯(lián)系的。不討論變量之間的關(guān)系,就無(wú)從談起任何有深度的應(yīng)用;而沒(méi)有應(yīng)用,前面講過(guò)的那些基本概念就僅僅是擺設(shè)而已。5變量間的關(guān)系人們每時(shí)每刻都在關(guān)心事物之間的關(guān)系。比如,職業(yè)種類(lèi)和收入之間的關(guān)系、政府投入和經(jīng)濟(jì)增長(zhǎng)之間的關(guān)系、廣告投入和經(jīng)濟(jì)效益之間的關(guān)系、治療手段和治愈率之間的關(guān)系等等。這些都是二元的關(guān)系。還有更復(fù)雜的諸多變量之間的相互關(guān)系,比如企業(yè)的固定資產(chǎn)、流動(dòng)資產(chǎn)、預(yù)算分配、管理模式、生產(chǎn)率、債務(wù)和利潤(rùn)等諸因素的關(guān)系是不能用簡(jiǎn)單的一些二元關(guān)系所描述的。6例1廣告投入和銷(xiāo)售之間的關(guān)系(數(shù)據(jù)ads.sav)

7這是什么關(guān)系?這兩個(gè)變量是否有關(guān)系?顯然,它們有關(guān)系;這從散點(diǎn)圖就很容易看出?;旧箱N(xiāo)售額是隨著廣告投入的遞增而遞增。如果有關(guān)系,它們的關(guān)系是否顯著?這也可以從散點(diǎn)圖得到。當(dāng)廣告投入在6萬(wàn)元以下,銷(xiāo)售額增長(zhǎng)很快;但大于這個(gè)投入時(shí),銷(xiāo)售額增長(zhǎng)就不明顯了。因此,這兩個(gè)變量的關(guān)系是由強(qiáng)變?nèi)酢_@些關(guān)系是什么關(guān)系,是否可以用數(shù)學(xué)模型來(lái)描述?本例看上去是可以擬合一個(gè)回歸模型(后面會(huì)介紹),但絕不是線性的(用一條直線可以描述的)。具體細(xì)節(jié)需要進(jìn)一步的分析8這是什么關(guān)系?這個(gè)關(guān)系是否帶有普遍性?也就是說(shuō),僅僅這一個(gè)樣本有這樣的關(guān)系,還是對(duì)于其他企業(yè)也有類(lèi)似的規(guī)律。這里的數(shù)據(jù)還不足以回答這個(gè)問(wèn)題??赡苄枰紤]更多的變量和收集更多的數(shù)據(jù)。一般來(lái)說(shuō),人們希望能夠從一些特殊的樣本,得到普遍的結(jié)論,以利于預(yù)測(cè)。這個(gè)關(guān)系是不是因果關(guān)系?在本問(wèn)題中,看來(lái)似乎有因果關(guān)系。這類(lèi)似于一種試驗(yàn);而試驗(yàn)時(shí)是容易找到因果關(guān)系的。但是,一般來(lái)說(shuō),變量之間有關(guān)系但絕不意味著存在因果關(guān)系。這里充滿(mǎn)了危險(xiǎn)和未知!

9定性變量間的關(guān)系

(關(guān)于某項(xiàng)政策調(diào)查所得結(jié)果:table7.sav)

觀點(diǎn):贊成觀點(diǎn):不贊成

低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性贊成的多,低收入贊成的多(還有嗎?)10

觀點(diǎn):贊成(1)觀點(diǎn):不贊成(0)

低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女02515727911列聯(lián)表(contingencytable).前面就是一個(gè)所謂的三維列聯(lián)表這些變量中每個(gè)都有兩個(gè)或更多的可能取值。這些取值也稱(chēng)為水平;比如收入有三個(gè)水平,觀點(diǎn)有兩個(gè)水平,性別有兩個(gè)水平等。該表為3×2×2列聯(lián)表在SPSS數(shù)據(jù)中,表就不和課本印的一樣,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點(diǎn)“贊成”和“不贊成”用1、0代表。有些計(jì)算機(jī)數(shù)據(jù)對(duì)于這些代碼的形式不限(可以是數(shù)字,也可以是字符串)。12Table7.sav數(shù)據(jù)13列聯(lián)表列聯(lián)表的中間各個(gè)變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計(jì)數(shù)(count)。列聯(lián)表可以有很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個(gè)列聯(lián)表的變量都是定性變量;但列聯(lián)表也會(huì)帶有定量變量作為協(xié)變量。14二維列聯(lián)表的檢驗(yàn)

研究列聯(lián)表的一個(gè)主要目的是看這些變量是否相關(guān)。比如前面例子中的收入和觀點(diǎn)是否相關(guān)。這需要形式上的檢驗(yàn)15二維列聯(lián)表的檢驗(yàn)對(duì)于上面那樣的二維表。我們檢驗(yàn)的零假設(shè)和備選假設(shè)為H0:觀點(diǎn)和收入這兩個(gè)變量不相關(guān);H1:這兩個(gè)變量相關(guān)。這里的檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下有(大樣本時(shí))近似的c2分布。當(dāng)該統(tǒng)計(jì)量很大時(shí)或p-值很小時(shí),就可以拒絕零假設(shè),認(rèn)為兩個(gè)變量相關(guān)。實(shí)際上有不止一個(gè)c2檢驗(yàn)統(tǒng)計(jì)量。包括Pearson

c2統(tǒng)計(jì)量和似然比(likelihoodratio)c2統(tǒng)計(jì)量;它們都有漸近的c2分布。根據(jù)計(jì)算可以得到(對(duì)于這兩個(gè)統(tǒng)計(jì)量均有)p-值小于0.001。因此可以說(shuō),收入高低的確影響觀點(diǎn)。

16Pearson

c2統(tǒng)計(jì)量似然比c2統(tǒng)計(jì)量Oi代表第i個(gè)格子的計(jì)數(shù),Ei代表按照零假設(shè)(行列無(wú)關(guān))對(duì)第i格子的計(jì)數(shù)的期望值17二維列聯(lián)表的檢驗(yàn)剛才說(shuō),這些c2統(tǒng)計(jì)量是近似的,那么有沒(méi)有精確的統(tǒng)計(jì)量呢?當(dāng)然有。這個(gè)檢驗(yàn)稱(chēng)為Fisher精確檢驗(yàn);它不是c2分布,而是超幾何分布。對(duì)本問(wèn)題,計(jì)算Fisher統(tǒng)計(jì)量得到的p-值也小于0.001。既然有精確檢驗(yàn)為什么還用近似的c2檢驗(yàn)?這是因?yàn)楫?dāng)數(shù)目很大時(shí),超幾何分布計(jì)算相當(dāng)緩慢(比近似計(jì)算會(huì)差很多倍的時(shí)間);而且在計(jì)算機(jī)速度不快時(shí),根本無(wú)法計(jì)算。因此人們多用大樣本近似的c2統(tǒng)計(jì)量。而列聯(lián)表的有關(guān)檢驗(yàn)也和c2檢驗(yàn)聯(lián)系起來(lái)了。18Fisher精確檢驗(yàn)19SPSS:Weight-Describ-crosstab-exact…20下面為SPSS對(duì)于table7.savs數(shù)據(jù)產(chǎn)生的下面二維列聯(lián)表相關(guān)分析的輸出21兩個(gè)定量變量的相關(guān)如果兩個(gè)定量變量沒(méi)有關(guān)系,就談不上建立模型或進(jìn)行回歸。但怎樣才能確定兩

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論