版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多因素方差分析模型入門(mén)模型表達(dá)式入門(mén)假設(shè)現(xiàn)在希望描述某個(gè)人群的月收入狀況,那么根據(jù)統(tǒng)計(jì)學(xué)知識(shí),均數(shù)能夠表示集中趨勢(shì),標(biāo)準(zhǔn)差能夠表示離散趨勢(shì),則任何一位受訪者i的月收入Xi該如何表達(dá)?顯然,這里的的i應(yīng)當(dāng)服從正態(tài)分布,其均數(shù)為0,標(biāo)準(zhǔn)差為相應(yīng)總體標(biāo)準(zhǔn)差在只有樣本信息時(shí),樣本均數(shù)和標(biāo)準(zhǔn)差就是上述參數(shù)的最佳估計(jì)值。2022年7月20日文彤老師2模型表達(dá)式入門(mén)現(xiàn)在希望比較三種職業(yè)的月收入有無(wú)差異,這三類(lèi)職業(yè)分別是醫(yī)生、律師和軟件工程師。如果我們?nèi)匀幌M軌驅(qū)γ恳粋€(gè)個(gè)體的數(shù)據(jù)加以表達(dá),應(yīng)當(dāng)如何做?2022年7月20日文彤老師3模型表達(dá)式入門(mén):?jiǎn)我蛩胤讲罘治隹刂埔蛩赜^測(cè)變量三個(gè)水平2022年7月20日文彤
2、老師4模型表達(dá)式入門(mén)將上面三個(gè)式子可以合并如下: 為了進(jìn)一步分析的方便,一般都會(huì)尋找一個(gè)均數(shù)的參照水平,將其余組的平均水平與之相比顯然,這樣的組合會(huì)有許多種,因此模型在實(shí)際分析的時(shí)候往往會(huì)加上一些限制條件,比如假設(shè)參照水平是最后一個(gè)組的均數(shù),這被稱(chēng)為擬合的約束條件2022年7月20日文彤老師5模型表達(dá)式入門(mén)由于在常見(jiàn)的研究中,我們更關(guān)心各組均數(shù)的差別,對(duì)于標(biāo)準(zhǔn)差的差別則比較忽視,因此在最初的方差分析模型中,往往將不同組的ij假設(shè)為服從相同的正態(tài)分布(就是說(shuō)相同)注意:在后來(lái)發(fā)展的混合效應(yīng)模型和多水平模型中,各組間離散程度的差異也進(jìn)入了研究視野,此時(shí)模型不一定會(huì)加入此限制2022年7月20日文彤
3、老師6模型表達(dá)式入門(mén)如果職業(yè)1和職業(yè)2的平均收入不相等,則應(yīng)當(dāng)有12H0: 1=2如果三種職業(yè)的平均收入無(wú)差異,則應(yīng)當(dāng)有1=2=3=0,此時(shí)如果采用適當(dāng)?shù)膮⒄账?,就有H0:i0,H1:至少有一個(gè)i02022年7月20日文彤老師7案例:膠合板磨損深度的比較現(xiàn)希望比較四種膠合板的耐磨性,分別從這四個(gè)品牌的膠合板中抽取了5個(gè)樣品,在相同的轉(zhuǎn)速下磨損相同時(shí)間,測(cè)量其被磨損的深度(mm),現(xiàn)希望對(duì)此進(jìn)行分析,數(shù)據(jù)見(jiàn)veneer.sav 方差齊性檢驗(yàn)?zāi)P蛥?shù)估計(jì)值與設(shè)計(jì)矩陣2022年7月20日文彤老師8兩兩比較方法LSD法:實(shí)際上就是t檢驗(yàn)的變形,只是在變異和自由度的計(jì)算上利用了整個(gè)樣本信息,因此仍然存
4、在放大一類(lèi)錯(cuò)誤的問(wèn)題Scheffe法:當(dāng)各組人數(shù)不相等,或者想進(jìn)行復(fù)雜的比較時(shí),用此法較為穩(wěn)妥。但它相對(duì)比較保守2022年7月20日文彤老師9兩兩比較方法S-N-K法:是運(yùn)用最廣泛的一種兩兩比較方法。它采用Student Range 分布進(jìn)行所有各組均值間的配對(duì)比較。該方法保證在H0真正成立時(shí)總的水準(zhǔn)等于實(shí)際設(shè)定值,即控制了一類(lèi)錯(cuò)誤。方差不齊時(shí)的兩兩比較方法:一般認(rèn)為是Games-Howell法稍好一些,但最好直接使用非參數(shù)檢驗(yàn)方法2022年7月20日文彤老師10兩兩比較方法的選擇多組兩兩比較否是事先計(jì)劃?各組例數(shù)相等?否(探索性研究)是(證實(shí)性研究)否是Bonferroni法(LSD)法Sc
5、heffe法Tukey法2022年7月20日文彤老師11多因素方差分析模型目的:在同時(shí)考慮若干個(gè)控制因素的情況下,分別分析它們的改變是否造成觀察變量的顯著變動(dòng)2022年7月20日文彤老師12模型表達(dá)式入門(mén)如果只研究職業(yè)的影響如果只研究性別的影響同時(shí)考慮職業(yè)和性別對(duì)收入的影響2022年7月20日文彤老師13方差分析模型常用術(shù)語(yǔ)因素(Factor)因素是可能對(duì)因變量有影響的變量,一般來(lái)說(shuō),因素會(huì)有不止一個(gè)水平,而分析的目的就是考察或比較各個(gè)水平對(duì)因變量的影響是否相同。水平(Level)因素的不同取值等級(jí)稱(chēng)作水平,例如性別有男、女兩個(gè)水平。2022年7月20日文彤老師14方差分析模型常用術(shù)語(yǔ)單元(C
6、ell)單元亦稱(chēng)試驗(yàn)單位(Experimental Unit),指各因素的水平之間的每種組合。指各因素各個(gè)水平的組合,例如在研究性別(二水平)、血型(四水平)對(duì)成年人身高的影響時(shí),該設(shè)計(jì)最多可以有2*48個(gè)單元。注意在一些特殊的試驗(yàn)設(shè)計(jì)中,可能有的單元在樣本中并不會(huì)出現(xiàn),如拉丁方設(shè)計(jì)。 2022年7月20日文彤老師15方差分析模型常用術(shù)語(yǔ)元素(Element)指用于測(cè)量因變量值的觀察單位,比如研究職業(yè)與收入間的關(guān)系,月收入是從每一位受訪者處得到,則每位受訪者就是試驗(yàn)的元素一個(gè)單元格內(nèi)可以有多個(gè)元素,也可以只有一個(gè),甚至于沒(méi)有元素。這主要在一些特殊的設(shè)計(jì)方案中出現(xiàn),如正交設(shè)計(jì)2022年7月20日
7、文彤老師16方差分析模型常用術(shù)語(yǔ)均衡(Balance)如果在一個(gè)實(shí)驗(yàn)設(shè)計(jì)中任一因素各水平在所有單元格中出現(xiàn)的次數(shù)相同,且每個(gè)單元格內(nèi)的元素?cái)?shù)均相同,則該試驗(yàn)是均衡的,否則,就被稱(chēng)為不均衡。不均衡的實(shí)驗(yàn)設(shè)計(jì)在分析時(shí)較為復(fù)雜,需要對(duì)方差分析模型作特別設(shè)置才能得到正確的分析結(jié)果。2022年7月20日文彤老師17方差分析模型常用術(shù)語(yǔ)固定因素(Fixed Factor)指的是該因素在樣本中所有可能的水平都出現(xiàn)了。從樣本的分析結(jié)果中就可以得知所有水平的狀況,無(wú)需進(jìn)行外推。絕大多數(shù)情況下,研究者所真正關(guān)心的因素都是固定因素。性別:只有兩種療法:只有三種2022年7月20日文彤老師18方差分析模型常用術(shù)語(yǔ)隨機(jī)
8、因素(Random Factor)該因素所有可能的取值在樣本中沒(méi)有都出現(xiàn),目前在樣本中的這些水平是從總體中隨機(jī)抽樣而來(lái),如果我們重復(fù)本研究,則可能得到的因素水平會(huì)和現(xiàn)在完全不同!這時(shí),研究者顯然希望得到的是一個(gè)能夠“泛化”,即對(duì)所有可能出現(xiàn)的水平均適用的結(jié)果。這不可避免的存在誤差,需要估計(jì)誤差的大小,因此被稱(chēng)為隨機(jī)因素。2022年7月20日文彤老師19方差分析模型常用術(shù)語(yǔ)協(xié)變量(Covariates)指對(duì)因變量可能有影響,需要在分析時(shí)對(duì)其作用加以控制的連續(xù)性變量實(shí)際上,可以簡(jiǎn)單的把因素和協(xié)變量分別理解為分類(lèi)自變量和連續(xù)性自變量當(dāng)模型中存在協(xié)變量時(shí),一般是通過(guò)找出它與因變量的回歸關(guān)系來(lái)控制其影響
9、2022年7月20日文彤老師20方差分析模型常用術(shù)語(yǔ)交互作用(Interaction)如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同,則稱(chēng)為兩因素間存在交互作用。當(dāng)存在交互作用時(shí),單純研究某個(gè)因素的作用是沒(méi)有意義的,必須分另一個(gè)因素的不同水平研究該因素的作用大小。2022年7月20日文彤老師21效應(yīng)的檢驗(yàn)方法無(wú)論模型結(jié)構(gòu)多復(fù)雜,假設(shè)檢驗(yàn)都是基于變異分解的原理進(jìn)行的,都是F檢驗(yàn)。根據(jù)變異分解式,可以將總的樣本離均差平方和分解成各個(gè)部分,隨后各個(gè)離均差平方和除以自由度可得到均方,進(jìn)而將各效應(yīng)的均方和誤差均方相比較,就得到了F統(tǒng)計(jì)量2022年7月20日文彤老師22方差分析模型的檢驗(yàn)層次對(duì)總模型
10、進(jìn)行檢驗(yàn)對(duì)模型中各交互效應(yīng)、主效應(yīng)進(jìn)行檢驗(yàn)交互項(xiàng)有統(tǒng)計(jì)學(xué)意義:分解為各種水平的組合情況進(jìn)行檢驗(yàn)交互項(xiàng)無(wú)統(tǒng)計(jì)學(xué)意義:進(jìn)行主效應(yīng)各水平的兩兩比較2022年7月20日文彤老師23方差分析模型的適用條件從模型表達(dá)式出發(fā)得到的提示各樣本的獨(dú)立性:只有各樣本為相互獨(dú)立的隨機(jī)樣本,才能保證變異的可加性(可分解性)正態(tài)性:即個(gè)單元格內(nèi)的所有觀察值系從正態(tài)總體中抽樣得出方差齊:各個(gè)單元格中的數(shù)據(jù)離散程度均相同,即各單元格方差齊2022年7月20日文彤老師24方差分析模型的適用條件實(shí)際運(yùn)用在多因素方差分析中,由于個(gè)因素水平組合下來(lái)每個(gè)單元格內(nèi)的樣本量可能非常少,這樣直接進(jìn)行正態(tài)性、方差齊檢驗(yàn)的話檢驗(yàn)效能很低,實(shí)際
11、上沒(méi)什么用因此真正常見(jiàn)的做法是進(jìn)行建模后的殘差分析2022年7月20日文彤老師25案例:超市規(guī)模、貨架位置與銷(xiāo)量的關(guān)系現(xiàn)希望現(xiàn)希望考察對(duì)超市中銷(xiāo)售的某種商品而言,是否其銷(xiāo)售額會(huì)受到貨架上擺放位置的影響,除此以外,超市的規(guī)模是否也會(huì)有所作用?甚或兩者間還會(huì)存在交互作用?Berenson和Levine(1992)著手研究了此問(wèn)題,他們按照超市的大小(三水平)、擺放位置(四水平)各隨機(jī)選取了兩個(gè)點(diǎn),記錄其同一周內(nèi)該貨物的銷(xiāo)量。2022年7月20日文彤老師26案例:超市規(guī)模、貨架位置與銷(xiāo)量的關(guān)系方差齊性檢驗(yàn)問(wèn)題邊際均數(shù)和輪廓圖殘差分布圖2022年7月20日文彤老師27案例:廣告宣傳效果的比較現(xiàn)希望研究
12、四種廣告的宣傳效果有無(wú)差異,具體的廣告類(lèi)型為:店內(nèi)展示、發(fā)放傳單、推銷(xiāo)員展示、廣播廣告。在本地區(qū)共有幾百個(gè)銷(xiāo)售網(wǎng)點(diǎn)可供選擇,出于經(jīng)費(fèi)方面的考慮,在其中隨機(jī)選擇了18個(gè)網(wǎng)點(diǎn)進(jìn)入研究,各網(wǎng)點(diǎn)均在規(guī)定長(zhǎng)度的時(shí)間段內(nèi)使用某種廣告宣傳方式,并記錄該時(shí)間段內(nèi)的具體銷(xiāo)售額。為減小誤差,每種廣告方式在每個(gè)網(wǎng)點(diǎn)均重復(fù)測(cè)量?jī)纱?。?shù)據(jù)見(jiàn)ranavona.sav。 2022年7月20日文彤老師28線性回歸模型文彤老師相關(guān)分析任意多個(gè)變量都可以考慮相關(guān)問(wèn)題任意測(cè)量尺度的變量都可以測(cè)量相關(guān)強(qiáng)度常用術(shù)語(yǔ)直線相關(guān)兩變量呈線性共同增大呈線性一增一減曲線相關(guān)兩變量存在相關(guān)趨勢(shì)并非線性,而是呈各種可能的曲線趨勢(shì)正相關(guān)與負(fù)相關(guān)完全相
13、關(guān)2022年7月20日文彤老師30相關(guān)分析分析過(guò)程介紹Bivariate過(guò)程進(jìn)行兩個(gè)/多個(gè)變量間的參數(shù)/非參數(shù)相關(guān)分析如果是多個(gè)變量,則給出兩兩相關(guān)的分析結(jié)果Partial過(guò)程對(duì)其他變量進(jìn)行控制輸出控制其他變量影響后的相關(guān)系數(shù)這種分析思想和協(xié)方差分析非常類(lèi)似典型相關(guān)分析2022年7月20日文彤老師31相關(guān)分析和回歸分析的關(guān)系2022年7月20日文彤老師32回歸分析概述研究一個(gè)連續(xù)性變量(因變量)的取值隨著其它變量(自變量)的數(shù)值變化而變化的趨勢(shì)通過(guò)回歸方程解釋兩變量之間的關(guān)系顯的更為精確,可以計(jì)算出自變量改變一個(gè)單位時(shí)因變量平均改變的單位數(shù)量,這是相關(guān)分析無(wú)法做到的除了描述兩變量的關(guān)系以外,通
14、過(guò)回歸方程還可以進(jìn)行預(yù)測(cè)和控制,這在實(shí)際工作中尤為重要2022年7月20日文彤老師33回歸分析概述回歸分析假定自變量對(duì)因變量的影響強(qiáng)度是始終保持不變的,如公式所示:對(duì)于因變量的預(yù)測(cè)值可以被分解成兩部分:常量(constant):x取值為零時(shí)y的平均估計(jì)量,可以被看成是一個(gè)基線水平回歸部分:它刻畫(huà)因變量Y的取值中,由因變量Y與自變量X的線性關(guān)系所決定的部分,即可以由X直接估計(jì)的部分2022年7月20日文彤老師34回歸分析概述:y的估計(jì)值(所估計(jì)的平均水平),表示給定自變量的取值時(shí),根據(jù)公式算得的y的估計(jì)值a:常數(shù)項(xiàng),表示自變量取值均為0時(shí)因變量的平均水平,即回歸直線在y軸上的截距多數(shù)情況下沒(méi)有實(shí)
15、際意義,研究者也不關(guān)心b:回歸系數(shù),在多變量回歸中也稱(chēng)偏回歸系數(shù)。自變量x 改變一個(gè)單位,y估計(jì)值的改變量。即回歸直線的斜率2022年7月20日文彤老師35回歸分析概述估計(jì)值和每一個(gè)實(shí)測(cè)值之間的差被稱(chēng)為殘差。它刻畫(huà)了因變量y除了自變量x以外的其它所有未進(jìn)入該模型,或未知但可能與y有關(guān)的隨機(jī)和非隨機(jī)因素共同引起的變異,即不能由x直接估計(jì)的部分。為了方程可以得到估計(jì),我們往往假定i服從正態(tài)分布N(0,2)。2022年7月20日文彤老師36案例:銷(xiāo)量影響因素分析某專(zhuān)門(mén)面向年輕人制作肖像的公司計(jì)劃在國(guó)內(nèi)再開(kāi)設(shè)幾家分店,收集了目前已開(kāi)設(shè)的分店的銷(xiāo)售數(shù)據(jù)(Y,萬(wàn)元)及分店所在城市的16歲以下人數(shù)(X1,萬(wàn)
16、人)、人均可支配收入(X2,元),數(shù)據(jù)見(jiàn)reg.sav。試進(jìn)行統(tǒng)計(jì)分析。實(shí)際上擬合的模型如下:2022年7月20日文彤老師37模型適用條件線性趨勢(shì)獨(dú)立性正態(tài)性方差齊性如果只是探討自變量與因變量間的關(guān)系,則后兩個(gè)條件可以適當(dāng)放寬樣本量根據(jù)經(jīng)驗(yàn),記錄數(shù)應(yīng)當(dāng)在希望分析的自變量數(shù)的20倍以上為宜。實(shí)質(zhì)上樣本量和模型的決定系數(shù)有關(guān),可通過(guò)迭代的方法進(jìn)行計(jì)算2022年7月20日文彤老師38常用指標(biāo)偏回歸系數(shù)相應(yīng)的自變量上升一個(gè)單位時(shí),因變量取值的變動(dòng)情況,即自變量對(duì)因變量的影響程度。標(biāo)化偏回歸系數(shù):量綱問(wèn)題決定系數(shù)相應(yīng)的相關(guān)系數(shù)的平方,用R2表示,它反映因變量y的全部變異中能夠通過(guò)回歸關(guān)系被自變量解釋的比
17、例。2022年7月20日文彤老師39線性回歸模型簡(jiǎn)介分析步驟做出散點(diǎn)圖,觀察變量間的趨勢(shì)2022年7月20日文彤老師40線性回歸模型簡(jiǎn)介分析步驟考察數(shù)據(jù)的分布,進(jìn)行必要的預(yù)處理。即分析變量的正態(tài)性、方差齊等問(wèn)題進(jìn)行直線回歸分析殘差分析殘差間是否獨(dú)立(Durbin-Watson檢驗(yàn))殘差分布是否為正態(tài)(圖形或統(tǒng)計(jì)量)2022年7月20日文彤老師41線性回歸模型簡(jiǎn)介分析步驟殘差分析強(qiáng)影響點(diǎn)的診斷多重共線性問(wèn)題的判斷這兩個(gè)步驟和殘差分析往往混在一起,難以完全分出先后2022年7月20日文彤老師42案例:固體垃圾排放量與土地種類(lèi)的關(guān)系本例來(lái)自Golueke and McGauhey1970年對(duì)美國(guó)40
18、個(gè)城市的固體垃圾排放量(噸)的調(diào)查資料,所關(guān)心的問(wèn)題是不同種類(lèi)土地使用面積(單位,英畝)與固體垃圾排放量之間的關(guān)系。可能的影響因素有:indust(工業(yè)區(qū)土地面積的大?。?、metals(金屬制造企業(yè)用地面積)、trucks(運(yùn)輸及批發(fā)商業(yè)用地面積)、retail(零售業(yè)用地面積)、restrnts(餐館與賓館用地面積)。試作逐步回歸分析。數(shù)據(jù)庫(kù)為WASTE.sav。2022年7月20日文彤老師43多變量的篩選策略較穩(wěn)妥的方式單自變量回歸模型,篩掉那些顯然無(wú)關(guān)聯(lián)的候選變量嘗試建立多自變量模型,可手動(dòng)、也可利用自動(dòng)篩選方法,但使用后者時(shí)要謹(jǐn)慎多自變量和單自變量模型結(jié)果相矛盾時(shí),以前者為準(zhǔn)結(jié)果不符合
19、專(zhuān)業(yè)知識(shí)時(shí),盡量尋找原因2022年7月20日文彤老師44回歸分析衍生方法文彤老師曲線擬合過(guò)程方法簡(jiǎn)介直線關(guān)系畢竟是較少數(shù)的情形,當(dāng)因變量和自變量呈曲線關(guān)系時(shí):有明確的公式:利用變量變換將曲線直線化,然后加以擬合關(guān)系不明:基于圖形觀察,擬合可能的曲線,從中挑選出最為合適的一個(gè)具體擬合方法:根據(jù)所選擇的公式,將自變量和因變量進(jìn)行變量變換,然后按照直線回歸的方式進(jìn)行擬合可擬合的曲線種類(lèi)高次方曲線:一、二、三次方曲線指數(shù)、對(duì)數(shù)、冪曲線特殊類(lèi)型曲線:S形曲線、生長(zhǎng)曲線等2022年7月20日文彤老師46曲線擬合過(guò)程案例:通風(fēng)時(shí)間和毒物濃度的曲線方程根據(jù)文獻(xiàn)資料,隨著通風(fēng)時(shí)間的增加,密閉空間內(nèi)污染物的濃度應(yīng)
20、當(dāng)呈指數(shù)方程下降?,F(xiàn)考察某通風(fēng)設(shè)備的換氣效果,在室內(nèi)放置了某種揮發(fā)性物質(zhì)(模擬毒物),待其充分分散到室內(nèi)空氣中后開(kāi)始通風(fēng),每一分鐘測(cè)量一次室內(nèi)空氣中的毒物濃度,請(qǐng)建立時(shí)間與空氣中毒物濃度的指數(shù)方程。curve.sav已有明確的方程y=aebx,按此擬合即可。等價(jià)于先進(jìn)行變量變換,然后擬合直線方程。2022年7月20日文彤老師47加權(quán)最小二乘法所針對(duì)的問(wèn)題:方差齊性被違反因變量的變異隨著某些指標(biāo)的改變而改變以地區(qū)為觀察單位調(diào)查某種事物的發(fā)生率研究通貨膨脹和失業(yè)率對(duì)股票價(jià)格的影響高價(jià)股票的波動(dòng)一般都會(huì)大于低價(jià)股票需要人為調(diào)控各案例在回歸中的重要性解決辦法根據(jù)用戶(hù)提供的可能預(yù)測(cè)因變量變異大小的指標(biāo),
21、在擬合時(shí)對(duì)變異較?。礈y(cè)量更精確)的測(cè)量值賦予較大的權(quán)重2022年7月20日文彤老師48加權(quán)最小二乘法案例:不等量樣品數(shù)據(jù)的回歸方程實(shí)驗(yàn)中收集得15對(duì)數(shù)據(jù),每對(duì)數(shù)據(jù)都是將n份樣品混合后測(cè)得的平均結(jié)果,但各對(duì)數(shù)據(jù)的n大小不等,試求出X對(duì)Y的直線回歸方程。wls.sav 加權(quán)后的決定系數(shù)基本上都是低于原模型的2022年7月20日文彤老師49嶺回歸分析簡(jiǎn)介一種專(zhuān)門(mén)用于共線性數(shù)據(jù)分析的有偏估計(jì)方法有偏意味著對(duì)數(shù)據(jù)信息有所取舍通過(guò)丟棄部分信息,以得到更為穩(wěn)定的分析結(jié)果實(shí)際上是一種改良的最小二乘法由于是有偏估計(jì),統(tǒng)計(jì)檢驗(yàn)已經(jīng)居次要地位,故一般不再給出2022年7月20日文彤老師50嶺回歸分析簡(jiǎn)介程序方式調(diào)
22、用2022年7月20日文彤老師51嶺回歸分析簡(jiǎn)介案例:用外形指標(biāo)推測(cè)胎兒周齡現(xiàn)測(cè)得22例胎兒的身長(zhǎng)、頭圍、體重和胎兒受精周齡,具體數(shù)據(jù)見(jiàn)文件ridgereg.sav。研究者希望能建立由前三個(gè)外形指標(biāo)推測(cè)胎兒周齡的回歸方程2022年7月20日文彤老師52最優(yōu)尺度回歸所針對(duì)的問(wèn)題:測(cè)量尺度非等距變量為無(wú)序多分類(lèi)時(shí),類(lèi)別間的差異如何較難探索變量為有序多分類(lèi)時(shí),類(lèi)別間的距離不一定相等,直接作為連續(xù)變量分析不妥即使變量均為連續(xù)型變量,但其聯(lián)系有可能為某種曲線,直接按照線性結(jié)構(gòu)來(lái)擬合也不合適2022年7月20日文彤老師53最優(yōu)尺度回歸解決辦法根據(jù)數(shù)據(jù)情況進(jìn)行迭代搜索,找到適當(dāng)?shù)淖儞Q方法對(duì)原始分類(lèi)變量進(jìn)行轉(zhuǎn)
23、換,將原始變量一律轉(zhuǎn)換為連續(xù)性評(píng)分,然后再進(jìn)行方程擬合分類(lèi)變量越多優(yōu)勢(shì)越明顯從實(shí)用的角度出發(fā),該方法可以被作為一種探索性方法使用2022年7月20日文彤老師54最優(yōu)尺度回歸案例:生育子女?dāng)?shù)的回歸模型現(xiàn)收集了一批婦女的曾生子女?dāng)?shù)、年齡、居住地類(lèi)別(1:城市,2:農(nóng)村)、受教育程度(15分別代表文盲半文盲、小學(xué)、初中、高中、大學(xué)及以上),請(qǐng)建立后三個(gè)變量對(duì)曾生子女?dāng)?shù)的回歸模型,數(shù)據(jù)見(jiàn)child.sav。用此方法來(lái)探索一下受教育程度對(duì)因變量的影響趨勢(shì)2022年7月20日文彤老師55非線性回歸過(guò)程文彤老師曲線擬合過(guò)程的局限只能分析一個(gè)自變量變量變換的局限有的公式根本無(wú)法進(jìn)行變換,如復(fù)雜的等式,或者無(wú)簡(jiǎn)
24、單解的積分方程當(dāng)變換后,變量的數(shù)值分布狀況已經(jīng)改變,此時(shí)根據(jù)最小二乘法得到的最優(yōu)解可能在原變量分布狀況下并非最優(yōu)2022年7月20日文彤老師57非線性回歸過(guò)程的優(yōu)勢(shì)它采用迭代方法對(duì)用戶(hù)設(shè)置的各種復(fù)雜曲線模型進(jìn)行擬合迭代方法往往意味著結(jié)果較為穩(wěn)定將殘差的定義從最小二乘法向外大大擴(kuò)展這意味著誤差測(cè)量手段的大大豐富最小一乘法、加權(quán)最小二乘法、自回歸模型等為用戶(hù)提供了極為強(qiáng)大的分析能力特別適用于實(shí)驗(yàn)室數(shù)據(jù)的分析2022年7月20日文彤老師58非線性回歸過(guò)程簡(jiǎn)介案例:毒物通風(fēng)數(shù)據(jù)在曲線擬合過(guò)程中,給出的解實(shí)際上是變量變換后線性回歸方程的最優(yōu)解使用非線性回歸擬合時(shí),給出的解為原始變量狀況下的最優(yōu)解即散點(diǎn)離
25、曲線距離的平方之和為最小此時(shí)的決定系數(shù)一般均高于曲線擬合過(guò)程2022年7月20日文彤老師59案例:自定義損失函數(shù)某公司生產(chǎn)的產(chǎn)品其成本主要受兩種原材料的影響,為及時(shí)調(diào)整生產(chǎn),協(xié)調(diào)庫(kù)存,現(xiàn)收集了一批產(chǎn)品產(chǎn)量與相應(yīng)生產(chǎn)中兩種原材料消耗量的數(shù)據(jù),見(jiàn)文件nlin2.sav。請(qǐng)就此建立原材料消耗量與產(chǎn)量(因變量)間的回歸方程2022年7月20日文彤老師60非線性回歸過(guò)程簡(jiǎn)介參數(shù)初始值的設(shè)定技巧如果可變?yōu)榫€性,可以先擬合線性方程,將此結(jié)果作為初始值如果方程可解,則代入若干樣本值,解出近似取值作為初值先擬合較簡(jiǎn)單的雛形,將結(jié)果作為初始值否則,多嘗試幾種初始值,觀察結(jié)果2022年7月20日文彤老師61logi
26、stic回歸文彤老師模型簡(jiǎn)介基于線性回歸模型發(fā)展而來(lái)線性回歸研究的是連續(xù)性因變量與自變量之間的關(guān)系 有的時(shí)候因變量為分類(lèi)變量,需要研究該分類(lèi)變量與一組自變量之間的關(guān)系以治療效果為因變量,結(jié)局為治愈/未治愈如果使用新的宣傳方式,決定戒煙的概率是否更高?2022年7月20日文彤老師63模型簡(jiǎn)介發(fā)生率P為因變量,它與自變量之間通常不存在線性關(guān)系不能保證在自變量的各種組合下,因變量的取值仍限制在01內(nèi)2022年7月20日文彤老師64模型簡(jiǎn)介由于因變量為二分類(lèi),所以誤差項(xiàng)服從二項(xiàng)分布,而不是正態(tài)分布因此,常用的最小二乘法也不再適用2022年7月20日文彤老師65模型用途影響因素分析,求出哪些自變量對(duì)因變
27、量發(fā)生概率有影響。并計(jì)算各自變量對(duì)因變量的比數(shù)比作為判別分析方法,來(lái)估計(jì)各種自變量組合條件下因變量各類(lèi)別的發(fā)生概率,從而對(duì)結(jié)局進(jìn)行預(yù)測(cè)。該模型在結(jié)果上等價(jià)于判別分析2022年7月20日文彤老師66模型簡(jiǎn)介是常數(shù)項(xiàng),表示自變量取值全為0時(shí),比數(shù)(Y=1與Y=0的概率之比)的自然對(duì)數(shù)值Beta為logistic回歸系數(shù),表示當(dāng)其他自變量取值保持不變時(shí),該自變量取值增加一個(gè)單位引起比數(shù)比(OR)自然對(duì)數(shù)值的變化量2022年7月20日文彤老師67案例:低出生體重兒影響因素Hosmer和Lemeshow于1989年研究了低出生體重嬰兒的影響因素,數(shù)據(jù)見(jiàn)文件logistic_step.sav。結(jié)果變量為是
28、否娩出低出生體重兒(變量名為L(zhǎng)OW,1,低出生體重,即嬰兒出生體重1000)大樣本(5000)小樣本(t)表示。根據(jù)不同隨訪資料的失效事件,生存率可以是緩解率、有效率等。 2022年7月20日文彤老師196生存分析方法分類(lèi)參數(shù)法首先要求觀察的生存時(shí)間t服從某一特定的分布,采用估計(jì)分布中參數(shù)的方法獲得生存率p(Xt)的估計(jì)值。生存時(shí)間的分布可能為指數(shù)分布、Weibull分布、對(duì)數(shù)正態(tài)分布等,這些分布曲線都有相應(yīng)的生存率函數(shù)形式。只需求得相應(yīng)參數(shù)的估計(jì)值,即可獲得p(Xt)的估計(jì)值和曲線。 2022年7月20日文彤老師197生存分析方法分類(lèi)非參數(shù)法實(shí)際工作中,多數(shù)生存時(shí)間的分布不符合上述所指的分布
29、,就不宜用參數(shù)法進(jìn)行分析,應(yīng)當(dāng)用非參數(shù)法。這類(lèi)方法的檢驗(yàn)假設(shè)與以往所學(xué)的非參數(shù)法一樣,假設(shè)兩組或多組的總體生存率曲線分布相同,而不論總體的分布形式和參數(shù)如何。非參數(shù)法是隨訪資料的常用分析方法。 2022年7月20日文彤老師198生存分析方法分類(lèi)半?yún)?shù)法只規(guī)定了影響因素和生存狀況間的關(guān)系,但是沒(méi)有對(duì)時(shí)間(和風(fēng)險(xiǎn)函數(shù))的分布情況加以限定這種方法主要用于分析生存率的影響因素,屬多因素分析方法,其典型方法是Cox比例風(fēng)險(xiǎn)模型2022年7月20日文彤老師199SPSS中的相應(yīng)模塊Nonliner過(guò)程可以針對(duì)任何種類(lèi)的時(shí)間分布加以擬和Life tables過(guò)程分析分組生存資料,主要用于計(jì)算壽命表Kaplan-M
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025個(gè)人知識(shí)產(chǎn)權(quán)質(zhì)押貸款合同范本二零二五3篇
- 2025年度危險(xiǎn)化學(xué)品堆放場(chǎng)地租賃及安全管理合同3篇
- 2025年度特色美食街餐飲資源承包合作合同3篇
- 2025年度星級(jí)酒店餐飲部承包經(jīng)營(yíng)合同范本3篇
- 2025年度塔吊設(shè)備租賃、維修及保養(yǎng)綜合服務(wù)合同4篇
- 2025年度生活用品代購(gòu)委托合同4篇
- 2025年度塔吊司機(jī)職業(yè)健康體檢服務(wù)合同范本2篇
- 2024種植業(yè)土地租賃合同
- 2025年度消防安全責(zé)任合同范本詳解3篇
- 2024版內(nèi)部施工合同
- 2025年工程合作協(xié)議書(shū)
- 2025年山東省東營(yíng)市東營(yíng)區(qū)融媒體中心招聘全媒體采編播專(zhuān)業(yè)技術(shù)人員10人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年宜賓人才限公司招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
- KAT1-2023井下探放水技術(shù)規(guī)范
- 垃圾處理廠工程施工組織設(shè)計(jì)
- 天皰瘡患者護(hù)理
- 駕駛證學(xué)法減分(學(xué)法免分)題庫(kù)及答案200題完整版
- 2024年四川省瀘州市中考英語(yǔ)試題含解析
- 2025屆河南省九師聯(lián)盟商開(kāi)大聯(lián)考高一數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 撫養(yǎng)權(quán)起訴狀(31篇)
- 2024年“一崗雙責(zé)”制度(五篇)
評(píng)論
0/150
提交評(píng)論