




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
如何選擇數(shù)據(jù)分析辦法?吳喜之第1頁2數(shù)據(jù)和目標(biāo)相結(jié)合出發(fā)點1.有關(guān)分析及回歸類模型(有關(guān)、簡單回歸、Logistic回歸、對數(shù)線性模型、方差分析和一般線性模型)2.典型多元分析內(nèi)容(主成份分析、因子分析、聚類分析、鑒別分析、對應(yīng)分析)第2頁3主要包括有關(guān)問題什么是有關(guān)?列聯(lián)表中定性變量有關(guān)(Fisher&c2檢查)定量變量有關(guān)(Pearson有關(guān)系數(shù)(r),Kendall’st、Spearman’r)第3頁基本統(tǒng)計書中估計和假設(shè)檢查所包括僅僅是對某些互相沒有關(guān)系變量描述。不過現(xiàn)實世界問題都是互相聯(lián)系。不討論變量之間關(guān)系,就無從談起任何有深度應(yīng)用;而沒有應(yīng)用,前面講過那些基本概念就僅僅是擺設(shè)而已。第4頁5變量間關(guān)系人們每時每刻都在關(guān)懷事物之間關(guān)系。例如,職業(yè)種類和收入之間關(guān)系、政府投入和經(jīng)濟增加之間關(guān)系、廣告投入和經(jīng)濟效益之間關(guān)系、治療伎倆和治愈率之間關(guān)系等等。這些都是二元關(guān)系。尚有更復(fù)雜很多變量之間互相關(guān)系,例如公司固定資產(chǎn)、流動資產(chǎn)、預(yù)算分派、管理模式、生產(chǎn)率、債務(wù)和利潤等諸原因關(guān)系是不能用簡單某些二元關(guān)系所描述。第5頁6例1廣告投入和銷售之間關(guān)系(數(shù)據(jù)ads.sav)
第6頁7這是什么關(guān)系?這兩個變量是否有關(guān)系?顯然,它們有關(guān)系;這從散點圖就很容易看出?;旧箱N售額是伴隨廣告投入遞增而遞增。假如有關(guān)系,它們關(guān)系是否顯著?這也能夠從散點圖得到。當(dāng)廣告投入在6萬元下列,銷售額增加很快;但大于這個投入時,銷售額增加就不顯著了。因此,這兩個變量關(guān)系是由強變?nèi)?。這些關(guān)系是什么關(guān)系,是否能夠用數(shù)學(xué)模型來描述?本例看上去是能夠擬合一種回歸模型(背面會介紹),但絕不是線性(用一條直線能夠描述)。詳細(xì)細(xì)節(jié)需要深入分析第7頁8這是什么關(guān)系?這個關(guān)系是否帶有普遍性?也就是說,僅僅這一種樣本有這樣關(guān)系,還是對于其他公司也有類似規(guī)律。這里數(shù)據(jù)還不足以回答這個問題。也許需要考慮更多變量和搜集更多數(shù)據(jù)。一般來說,人們希望能夠從某些特殊樣本,得到普遍結(jié)論,以利于預(yù)測。這個關(guān)系是不是因果關(guān)系?在本問題中,看來似乎有因果關(guān)系。此類似于一種試驗;而試驗時是容易找到因果關(guān)系。不過,一般來說,變量之間有關(guān)系但絕不意味著存在因果關(guān)系。這里充滿了危險和未知!
第8頁9定性變量間關(guān)系
(有關(guān)某項政策調(diào)查所得成果:table7.sav)
觀點:贊成觀點:不贊成
低收入中等收入高收入低收入中等收入高收入男201055810女25157279大體能夠看出女性贊成多,低收入贊成多(尚有嗎?)第9頁10
觀點:贊成(1)觀點:不贊成(0)
低收入(1)中等收入(2)高收入(3)低收入(1)中等收入(2)高收入(3)男1201055810女025157279第10頁11列聯(lián)表(contingencytable).前面就是一種所謂三維列聯(lián)表這些變量中每個都有兩個或更多也許取值。這些取值也稱為水平;例如收入有三個水平,觀點有兩個水平,性別有兩個水平等。該表為3×2×2列聯(lián)表在SPSS數(shù)據(jù)中,表就不和課本印同樣,收入“低”、“中”、“高”用代碼1、2、3代表;性別“女”、“男”用代碼0、1代表;觀點“贊成”和“不贊成”用1、0代表。有些計算機數(shù)據(jù)對于這些代碼形式不限(能夠是數(shù)字,也能夠是字符串)。第11頁12Table7.sav數(shù)據(jù)第12頁13列聯(lián)表列聯(lián)表中間各個變量不一樣水平交匯處,就是這種水平組合出現(xiàn)頻數(shù)或計數(shù)(count)。列聯(lián)表能夠有很多維。維數(shù)多叫做高維列聯(lián)表。注意前面這個列聯(lián)表變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。第13頁14二維列聯(lián)表檢查
研究列聯(lián)表一種主要目標(biāo)是看這些變量是否有關(guān)。例如前面例子中收入和觀點是否有關(guān)。這需要形式上檢查第14頁15二維列聯(lián)表檢查對于上面那樣二維表。我們檢查零假設(shè)和備選假設(shè)為H0:觀點和收入這兩個變量不有關(guān);H1:這兩個變量有關(guān)。這里檢查統(tǒng)計量在零假設(shè)下有(大樣本時)近似c2分布。當(dāng)該統(tǒng)計量很大時或p-值很小時,就能夠回絕零假設(shè),以為兩個變量有關(guān)。事實上有不止一種c2檢查統(tǒng)計量。包括Pearson
c2統(tǒng)計量和似然比(likelihoodratio)c2統(tǒng)計量;它們都有漸近c2分布。根據(jù)計算能夠得到(對于這兩個統(tǒng)計量都有)p-值不大于0.001。因此能夠說,收入高低確實影響觀點。
第15頁16Pearson
c2統(tǒng)計量似然比c2統(tǒng)計量Oi代表第i個格子計數(shù),Ei代表按照零假設(shè)(行列無關(guān))對第i格子計數(shù)盼望值第16頁17二維列聯(lián)表檢查剛才說,這些c2統(tǒng)計量是近似,那么有沒有精確統(tǒng)計量呢?當(dāng)然有。這個檢查稱為Fisher精確檢查;它不是c2分布,而是超幾何分布。對本問題,計算Fisher統(tǒng)計量得到p-值也不大于0.001。既然有精確檢查為何還用近似c2檢查?這是由于當(dāng)數(shù)目很大時,超幾何分布計算相稱遲緩(比近似計算會差很多倍時間);并且在計算機速度不快時,主線無法計算。因此人們多用大樣本近似c2統(tǒng)計量。而列聯(lián)表有關(guān)檢查也和c2檢查聯(lián)系起來了。第17頁18Fisher精確檢查第18頁19SPSS:Weight-Describ-crosstab-exact…第19頁20下面為SPSS對于table7.savs數(shù)據(jù)產(chǎn)生下面二維列聯(lián)表有關(guān)分析輸出第20頁21兩個定量變量有關(guān)假如兩個定量變量沒有關(guān)系,就談不上建立模型或進行回歸。但如何才能確定兩個變量有沒有關(guān)系呢?最簡單措施就是畫出它們散點圖。第21頁22例1有50個從初中升到高中學(xué)生.為了比較初三成績是否和高中成績有關(guān),得到了他們在初三和高一各科平均成績(數(shù)據(jù):highschool.sav)從這張圖能夠看出什么呢?第22頁23問題是怎么判斷這兩個變量是否有關(guān)?如何有關(guān)?有關(guān)度量是什么?深入問題是能否以初三成績?yōu)樽宰兞?,高一成績?yōu)橐蜃兞縼斫⒁环N回歸模型以描述這樣關(guān)系,或用于預(yù)測。第23頁四組數(shù)據(jù)(每個有兩個變量樣本)散點圖第24頁25幾個有關(guān)度量Pearson有關(guān)系數(shù),又叫有關(guān)系數(shù)或線性有關(guān)系數(shù)。它一般用字母r表達(dá).Kendallt
有關(guān)系數(shù)(Kendall’st)這里度量原理是把所有樣本點配對,看每一對中x和y是否都增加來判斷總體模式.Spearman秩有關(guān)系數(shù),它和Pearson有關(guān)系數(shù)定義有些類似,只不過在定義中把點坐標(biāo)換成各自樣本秩.它們各自都有以不有關(guān)為零假設(shè)檢查,即p-值小則有關(guān).但各自有關(guān)含義不盡相同.目前再來看例1數(shù)據(jù)(highschool.sav).有關(guān)初三和高一成績有關(guān)系數(shù)成果是Pearson有關(guān)系數(shù),Kendallt
和Spearman秩有關(guān)系數(shù)分別為0.795,0.595和0.758。第25頁26SPSS有關(guān)分析有關(guān)分析(hischool.sav)利用SPSS選項:Analize-Correlate-Bivariate再把兩個有關(guān)變量(這里為j3和s1)選入,選擇Pearson,Spearman和Kendall就能夠得出這三個有關(guān)系數(shù)和有關(guān)檢查成果了(零假設(shè)均為不有關(guān))。第26頁27例子
x=-20:20
y=x^2第27頁28例子
x=-20:20
y=x^2第28頁29例子x=1:41
y=x^5第29頁30例子x=1:41
y=x^5第30頁31多種(定性或定量)變量間關(guān)系比如關(guān)于高等學(xué)校數(shù)據(jù)一些指標(biāo)包括:定量變量(在校生人數(shù)、研究生百分比,教師人數(shù)、教師占雇員百分比、教師學(xué)生百分比、SCI和SSCI文章數(shù)目和引用數(shù)目、科研項目數(shù)和科研總經(jīng)費)和定性變量(所屬于分類、所在地域分類)等第31頁32在許多變量之中例如,可得任何一種變量和其他變量(無論定量還是定性)之間定量關(guān)系(回歸或線性模型)或
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商標(biāo)使用權(quán)轉(zhuǎn)讓合同(三):長期合作
- 簡易勞動合同簡易合同
- 合同糾紛處理與學(xué)生實踐活動方案
- 水運聯(lián)運代理合同及條款
- 鋼結(jié)構(gòu)加工承攬合同模板
- 林業(yè)用地承包轉(zhuǎn)讓合同樣本
- 大學(xué)合同審簽表
- 抽紗工藝的環(huán)保與可持續(xù)性考核試卷
- 天然氣開采業(yè)的可再生能源轉(zhuǎn)型實踐與方案考核試卷
- 機床附件的標(biāo)準(zhǔn)化與規(guī)范化生產(chǎn)考核試卷
- 商業(yè)動線設(shè)計(修改版)
- FMEA第五版表格(實例)
- 【講座】情境性試題:基于《中國高考評價體系》的高考語文命題研究
- 建筑行業(yè)鋼桁架等制作工藝流程圖
- 承德市普通住宅區(qū)物業(yè)服務(wù)等級和基準(zhǔn)價格
- 環(huán)??己嗽嚲?8285(含答案)
- SMED培訓(xùn)材料-快速換模
- HG20592-2009法蘭(PL)法蘭蓋(BL)精加工尺寸
- 叉車蓄電池容量與鐵箱規(guī)格表
- 風(fēng)管、水管支架估算表
- 淺談小學(xué)低年級數(shù)學(xué)計算課堂教學(xué)的有效策略
評論
0/150
提交評論