![社會(huì)統(tǒng)計(jì)學(xué)(盧淑華),第十章列聯(lián)表_第1頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/30/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f2/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f21.gif)
![社會(huì)統(tǒng)計(jì)學(xué)(盧淑華),第十章列聯(lián)表_第2頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/30/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f2/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f22.gif)
![社會(huì)統(tǒng)計(jì)學(xué)(盧淑華),第十章列聯(lián)表_第3頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/30/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f2/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f23.gif)
![社會(huì)統(tǒng)計(jì)學(xué)(盧淑華),第十章列聯(lián)表_第4頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/30/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f2/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f24.gif)
![社會(huì)統(tǒng)計(jì)學(xué)(盧淑華),第十章列聯(lián)表_第5頁](http://file1.renrendoc.com/fileroot_temp2/2020-12/30/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f2/b3d8f321-b3e9-40e1-92fc-cc4bbe7d28f25.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十講,列聯(lián)表,第一節(jié) 概念, ,1、研究?jī)?nèi)容 1)研究?jī)啥愖兞康年P(guān)系 2)為研究y的分類是否與x之分類有關(guān),將 數(shù)據(jù)先按x分類,再分別統(tǒng)計(jì)x分類情況下y 的分類。 3)按兩個(gè)定類變量進(jìn)行交叉分類的頻次分 配表,即二維列聯(lián)表。,4、列聯(lián)表的一般形式,Nij:x=xi y=yj時(shí)所具有的頻次,y,x,y1 y2,x1 N11 N12,x2 N21 N22,. . .,. . .,. . .,xc Nc1 Nc2,. . .,. . .,. . .,. . .,yr,N1r,N2r,.,.,.,Ncr,學(xué)生上網(wǎng)調(diào)查 (統(tǒng)計(jì)各項(xiàng)比例,能發(fā)現(xiàn)什么問題?),男生,女生,聊天 玩游戲 網(wǎng)戀 學(xué)習(xí),20
2、50 15 15,20 50 15 15,Nij,后者可以通過前者求出 p N ,N, p 1,i 1 j 1,2、列聯(lián)表中變量的分布, ,1)聯(lián)合分布 對(duì)于二變量來說,為了知道分布,集合中的變量值,必須同時(shí)具有x和y 兩個(gè)變量的取值。 ( x1 y1 N11) ( x2 y2 N12),( x1 yr,N1r),此稱聯(lián)合分布, ,( xi yj Nij) ( xc yr Ncr),Nij,表示頻次時(shí),聯(lián)合頻次分布表,Pij 表示概率時(shí) 聯(lián)合概率分布表, ,ij,Nij,c r i 1 j 1,c r,ij, ,2)邊緣分布: 對(duì)聯(lián)合分布進(jìn)行簡(jiǎn)比,只研究其中某一 變量的分布,而不管另一變量的取
3、值, 這樣就得到邊緣分布。 按行加總y的邊緣分布: P y yr P1r P2 r Pcr Pr 按列加總x的邊緣分布: Px xc Pc1 P2c Pcr Pc, ,3)條件分布: 將其中一個(gè)變量控制起來取固定值,再看另 一變量的分布,即條件分布。 控制x時(shí),條件分布中的每一項(xiàng)都以邊緣分布 的 N1* N 2* N c* 為分母 控制y時(shí),條件分布中的每一項(xiàng)都以邊緣分布 的 N *1 N *2 N *r 為分母,3、列聯(lián)表中的相互獨(dú)立性:, ,1)列聯(lián)表研究定類變量之間的關(guān)系,實(shí)際上 是通過條件分布的比較進(jìn)行的。 如果兩個(gè)變量之間沒有關(guān)系,則稱變量之間 是相互獨(dú)立的。 2)如果兩個(gè)變量之間是
4、相互獨(dú)立的,則必然 存在變量的條件分布與其邊緣分布相同 。,條件分布=邊緣分布是列聯(lián)表檢驗(yàn)的基礎(chǔ):,(控制x時(shí)),N* j N,N N i*,Nij N,N* j N,Nij Ni*,N*1 N,N 21 N 2*,N11 N1*,Pij Pi*P* j, ,ni,n j,Pi ,第二節(jié) 列聯(lián)表的檢驗(yàn), ,一、原假設(shè): 將總體中變量間無關(guān)系或相互獨(dú)立作為檢驗(yàn),的原假設(shè)。 H 0 : pij,pi* p* j,總體 pi* 和 p* j 未知時(shí),用樣本 p i 和 P j 代 替。 P j n n,2 2 c r 2 2 ij,E,ij,ni* n* j n,E np,* j ij,統(tǒng)計(jì)量的討論
5、,1、對(duì)于22列聯(lián)表,由于格數(shù)過少,為,減少作為離散觀測(cè)值與作為連續(xù)型變量x 值之間的偏差,可作連續(xù)性修正: 2 2 2 2 Eij 2、二項(xiàng)總體 2 2 2 E1 E2 p0 為總體成數(shù) 1 2,男女休閑愛好, ,x,ni Ei ,x r 1,4、使用統(tǒng)計(jì)量 x 對(duì)列聯(lián)表迚行檢驗(yàn),每一格值的 E,值時(shí) nij Eij 值的波勱就會(huì)較大。,2,那么在計(jì)算,3、對(duì)多項(xiàng)總體:, ,Ei,2,統(tǒng)計(jì)量: r 2 i 1,2,p,E,i,i 0, n,ij,2 要保持在一定數(shù)目乊上。如果有的格值 Eij 過小, 2 x Eij,每格要求:,處理方法:將期望值偏小的格值合并。 右例,做檢驗(yàn)。,Eij,20
6、 30 3 1,nij,18,29,4,2,E ij 5,注意: 列聯(lián)表就其檢驗(yàn)內(nèi)容來看是雙邊檢驗(yàn),但從 形式上看,卻又很像單邊檢驗(yàn)。其判斷的內(nèi) 容僅是變量間是否存在關(guān)系。至于方向,由 于列聯(lián)表屬定類變量,因此是不存在的。,ni Ei , ,x,E,i 1,x r 1,列聯(lián)表檢驗(yàn)步驟, ,1、 H,0,H,1,i,2,2,2、統(tǒng)計(jì)量: r 2 3、 4、比較,例:以下是老、中、青三代對(duì)某影片的抽 樣,能否認(rèn)為三代人對(duì)該影片評(píng)價(jià)有顯 著差異,老,中,青,很高 一般,45 47,39 26,21 22,第三節(jié) 列聯(lián)強(qiáng)度, ,一、變量間的相關(guān) 1、列聯(lián)表中的頻次分布情況,不僅是檢驗(yàn)是否存 在關(guān)系的依
7、據(jù),同時(shí)也是度量變量間關(guān)系強(qiáng)弱的依 據(jù)。相關(guān)性程度越高,說明社會(huì)現(xiàn)象與社會(huì)現(xiàn)象間 的關(guān)系愈密切。 2、列聯(lián)表中變量間的關(guān)系的強(qiáng)度分析,可以將頻 次轉(zhuǎn)化為條件分布,然后比較自變量取不同值時(shí), 因變量條件分布的不同。,例,右表中,男生上網(wǎng)玩游,生;,想一想,當(dāng)x取值大于2,時(shí),怎樣比較?,戲的比例高于女生;而 上網(wǎng)聊天的比例低于女 y x,男生,女生,聊天,玩游戲 40 67% 10 25%,30 33% 30 75%,即:ad bc, ,二、 2 2表 系數(shù)和系數(shù),列聯(lián)表中兩個(gè)變量都只有二種取值時(shí),就是 22表 y,x,a c,b d,x1,x,2,y1 y2 ,當(dāng)變量間無關(guān)系時(shí)(獨(dú)立) a b
8、 a c b d 對(duì)于22表,無論 系數(shù)或系數(shù),都以差值 ad bc 為基礎(chǔ)進(jìn)行的討論,同時(shí),也把關(guān)系強(qiáng)度的取值范圍定義 在1,1之間。, ,1、 系數(shù),ad bc a bc d a cb d , , 0 當(dāng)兩變量相互獨(dú)立 1 b、c為零, 值最大1 a、d為零, 值最小-1 1 一般情況 前例中計(jì)算,Q , ,2、系數(shù) ad - bc ad bc 當(dāng)a、b、c、d中有一個(gè)是零時(shí),則 Q 1 對(duì)應(yīng)的實(shí)際情況是配對(duì)樣本研究 3、 、Q 系數(shù)的選擇 當(dāng)自變量的不同取值都會(huì)影響因變量 時(shí),用 系數(shù)。當(dāng)存在控制組時(shí),用 系數(shù),x,x 值構(gòu)成 系數(shù), ,4、r c 列聯(lián)表 2 2 2 Eij 期望頻次
9、Eij 是基于無相關(guān)前提下計(jì)量出來的,,2 因 愈大,表示變量間距離無相關(guān)性愈遠(yuǎn)。 2 x2 n 其與22表中 系數(shù)是一致,22表中是 r c 表中 系數(shù)的特例。,x, n,c值在0,1但永遠(yuǎn)小于1,又出現(xiàn)了v系,數(shù):,由于r c 表的數(shù)增多后, 值增加,沒 有上限,無法比較,因此以c系數(shù)修正。,x,c ,2,2,2 minr 1, c 1,V , 1,V 的取值:o V,表示所減少的相對(duì)誤差,越大表示y與x關(guān),2)以減少誤差比例為基礎(chǔ)的相關(guān)性測(cè)量, ,PRE不受變量層次的限制,通過現(xiàn)象之間的關(guān) 系研究,從一個(gè)現(xiàn)象預(yù)測(cè)另一個(gè)現(xiàn)象。 PRE E1 E 2 E1 E1 :不知y與x有關(guān)系時(shí),預(yù)測(cè)y
10、的全部誤差, E 2 :知道y與x有關(guān)系后,用x去預(yù)測(cè)y的全部誤 差,E1 E2 E1 系越密切。,誤差為: jnn max,為 nn max, ,E,PRE的取值范圍: PRE=0:兩變量是無相關(guān)(知道x與否無 助于y的預(yù)測(cè),1 E 2 誤差不變) PRE=1:兩變量是完全相關(guān)的(知道x與y 有關(guān)系后,可以消除預(yù)測(cè)的全部誤差) 0 PRE 1:其他 E1 :不知y與x 有關(guān),用y的邊緣和 n的最 大值去猜y值,猜中的頻次會(huì)更多。全部 E 2 :知道有關(guān)后,先看它屬于x的哪一 類,然后用這一類的眾值去猜y值,誤差 c ij i 1, j, max n max n,n max n ,兩種系數(shù):,
11、 , ,* j,ij * j,c i 1,1) 系數(shù) E1 E2 E1 即:,每列最高頻次之和 y邊緣和中最高頻次,觀察總數(shù) y邊緣和中最高頻次 的取值范圍: x與y無相關(guān): 0 ;x與y全相關(guān): 1,PRE,所得 值稱作 y ,,N,D,PRE,所得 值稱作 x,, N,D,Dy Dx , D D y D D x, , 值的非對(duì)稱性:,1)以x為自變量,用對(duì)y的預(yù)測(cè)來定義 y y y 2)以y為自變量,用對(duì)x的預(yù)測(cè)來定義 x x x 3)如果x和y孰因孰果不明顯的情況,這 時(shí)可同時(shí)計(jì)算 y 和 x ,并取其平均 值,作為x和y間的相關(guān)程度。,x x,N y N Dy D, y x y x ,
12、 ,邊緣分布所提供的信息。c r,n 1, n, E,n,n, E,i 1 j 1 j 1,1,n n,E,n,系數(shù)又有修正:, , 系數(shù): 對(duì) E1 和 E 2 的定義比,當(dāng)不知道x與y有關(guān)系預(yù)測(cè)y時(shí),充分考慮到y(tǒng)值 2 r ij 2 * j 1 2 i* r 2 1 * j j 1 的取值范圍: x與y無相關(guān): 0(邊緣分布與條件分布相同) x與y全相關(guān): 1(各行、各列均只有一個(gè)不為 0的頻次),以前例為參照的推導(dǎo):,1、不知x與y有關(guān):,猜游戲與聊天:用邊緣分布:40%,60%,隨機(jī)指派40人,猜對(duì)游戲的人數(shù)4040/100=16 猜錯(cuò)的人數(shù)40-4040/100=40(1-40/10
13、0)=24,同理:,隨機(jī)指派60人,猜對(duì)聊天的人數(shù)6060/100=36 猜錯(cuò)的人數(shù)60-6060/100=60(1-60/100)=24,j1 n * j, ,E1即為猜錯(cuò)人數(shù)之和。 推廣:,1 r 2 n, n ,n*2 n,) n*2 (1 ,n*1 n,E1 n*1 (1 ,) n*r (,知道x與y有關(guān)后:用y的條件分布來猜y值,當(dāng)x=男生時(shí) 隨機(jī)10人,猜對(duì)聊天的人數(shù):1010/50 猜錯(cuò)的人數(shù):10-1010/50 隨機(jī)40人,猜對(duì)游戲的人數(shù):4040/50 猜錯(cuò)的人數(shù):40-4040/50 猜錯(cuò)二者相加:=(10-1010/50)+(40-4040/50) =50-1/50 (102 +402 ) 同理:當(dāng)x=女生時(shí)?,j1,E2即為全部誤差之和。,推廣:,1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年疾病預(yù)防控制及防疫服務(wù)合作協(xié)議書
- 2025魯教版初中英語六年級(jí)下全冊(cè)單詞默寫(復(fù)習(xí)必背)
- 人教版 八年級(jí)英語下冊(cè) Unit 9 單元綜合測(cè)試卷(2025年春)
- 房屋代持協(xié)議書范本-決議-
- 2025年個(gè)人房屋租房協(xié)議(三篇)
- 2025年個(gè)人工程承包合同標(biāo)準(zhǔn)范文(2篇)
- 2025年產(chǎn)品開發(fā)委托合同標(biāo)準(zhǔn)版本(三篇)
- 2025年九年級(jí)下學(xué)期體育教師工作總結(jié)模版(二篇)
- 2025年二手挖掘機(jī)轉(zhuǎn)讓協(xié)議模板(三篇)
- 2025年臨海市農(nóng)產(chǎn)品基地種植收購(gòu)協(xié)議(三篇)
- 人輪狀病毒感染
- 兒科護(hù)理學(xué)試題及答案解析-神經(jīng)系統(tǒng)疾病患兒的護(hù)理(二)
- 《石油產(chǎn)品分析》課件-車用汽油
- 15篇文章包含英語四級(jí)所有詞匯
- 王陽明心學(xué)完整版本
- 四年級(jí)上冊(cè)豎式計(jì)算300題及答案
- 保潔班長(zhǎng)演講稿
- 課題研究實(shí)施方案 范例及課題研究方法及技術(shù)路線圖模板
- 牙髓炎中牙髓干細(xì)胞與神經(jīng)支配的相互作用
- 勞務(wù)雇傭協(xié)議書范本
- 【2022屆高考英語讀后續(xù)寫】主題升華積累講義及高級(jí)句型積累
評(píng)論
0/150
提交評(píng)論