傾向匹配分析深度(Propsensity_matching_analysis)_第1頁(yè)
傾向匹配分析深度(Propsensity_matching_analysis)_第2頁(yè)
傾向匹配分析深度(Propsensity_matching_analysis)_第3頁(yè)
傾向匹配分析深度(Propsensity_matching_analysis)_第4頁(yè)
傾向匹配分析深度(Propsensity_matching_analysis)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 傾向匹配分析深度(Propsensity matching analysis) 有很多現(xiàn)象和關(guān)聯(lián)似乎顯而易見(jiàn),然而證明這些“簡(jiǎn)單”的現(xiàn)象和關(guān)聯(lián)的過(guò)程,可能極其消耗人力和物力。在20世紀(jì)30年代之前,匹配法(也稱控制法)在因果研究中占據(jù)了壓倒性的地位,科學(xué)家認(rèn)為只有將實(shí)驗(yàn)組和對(duì)照組的所有情況都盡可能接近,才能兩組間的差異是否歸于處理因素。但是,在要讓實(shí)驗(yàn)組和對(duì)照組之前的特征(混雜)盡可能匹配,不僅難以操作,而且會(huì)消耗大量資源,尤其在很多情況下,很多因素是試驗(yàn)者難以去控制的。隨機(jī)化概念的起源 在伊利諾伊大學(xué)的莫柔地塊(University of Illinois , Morrow Plots),

2、Fisher通過(guò)“分割地塊實(shí)驗(yàn)”(( Split-Plot Experiment ),成功證明了一個(gè)在今天看來(lái)可能極其簡(jiǎn)單,但卻耗費(fèi)了幾代科學(xué)家上百年努力的結(jié)論:土壤的質(zhì)量是農(nóng)業(yè)生產(chǎn)率最關(guān)鍵的決定因素(Soil quality is a vital component of agricultural productivity)。并開(kāi)拓了如今廣為人知的方差分析(ANOVA),將隨機(jī)實(shí)驗(yàn)法納入了因果分析的殿堂,成為因果分析的金標(biāo)準(zhǔn)。為什么要做傾向值分析 在衛(wèi)生領(lǐng)域,隨機(jī)臨床試驗(yàn)(RCT)是應(yīng)用隨機(jī)實(shí)驗(yàn)法最典型的例子。為了證明某種處理(或因素)的作用,將研究對(duì)象隨機(jī)分組并進(jìn)行前瞻性的研究,可以最大程

3、度上確保已知和未知的混雜因素對(duì)各組的影響均衡,闡明處理因素的真實(shí)效應(yīng)。但RCT對(duì)研究對(duì)象嚴(yán)格的納入和排除標(biāo)準(zhǔn),無(wú)疑會(huì)影響研究結(jié)果的外推,同時(shí)費(fèi)用和組織困難問(wèn)題很多時(shí)候都是讓人難以承受的。此外,很多研究問(wèn)題無(wú)法做到隨機(jī),甚至有些情況下的隨機(jī)是違反倫理道德的。 而非隨機(jī)對(duì)照研究(如觀察性研究和非隨機(jī)干預(yù)研究)能夠較好地耐受RCT中存在的問(wèn)題,在實(shí)際應(yīng)用中更為廣泛。如何利用非隨機(jī)化研究的資料探究因果,一直是流行病學(xué)和統(tǒng)計(jì)學(xué)研究中非常關(guān)注的問(wèn)題。傳統(tǒng)的控制混雜的方法如分層、匹配等控制的混雜因素有限,多因素分析的方法在概念上“控制了其他因素,探究某一因素的影響”,依然無(wú)法控制混雜因素所導(dǎo)致的偏性。在這種

4、情況下,傾向值分析(Propensity score analysis)的理論和實(shí)踐不斷豐富,并在流行病學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)等領(lǐng)域得到廣泛應(yīng)用。 舉一個(gè)簡(jiǎn)單的例子。我們常認(rèn)為重點(diǎn)學(xué)校的對(duì)于學(xué)生學(xué)習(xí)能力的提升是優(yōu)于一般學(xué)校的。如果把學(xué)校類型視為處理因素,而結(jié)局指標(biāo)為入學(xué)后成績(jī)的改變量。那么不同學(xué)校間學(xué)生成績(jī)改變量的差異,究竟是因?yàn)閷W(xué)校不同(處理因素,簡(jiǎn)單理解為師資、設(shè)施等條件的綜合),還是因?yàn)榭既胫攸c(diǎn)學(xué)校的學(xué)生,本身就比一般學(xué)校的學(xué)生更聰明,更勤奮,家長(zhǎng)的受教育水平更高,對(duì)教育的投資更大(混雜因素)?如果控制這些混雜因素以后,學(xué)校對(duì)成績(jī)的影響,是否就會(huì)發(fā)生很大變化?學(xué)生進(jìn)入何種學(xué)校學(xué)習(xí)(接受不同

5、處理)的概率是不同的,受到了很多因素的影響,而這些因素同時(shí)可能也會(huì)影響結(jié)局,導(dǎo)致分析處理效應(yīng)時(shí)的偏性。 傾向值就是研究的個(gè)體在一定可觀測(cè)到的協(xié)變量(混雜)存在的情況下,接受某種干預(yù)的可能性。而傾向評(píng)分析,就是利用傾向值從對(duì)照組中為處理組中的每個(gè)個(gè)體尋找一個(gè)或多個(gè)背景特征一樣或相似的個(gè)體作為對(duì)照,使兩組的混雜因素的分布也趨于均衡,實(shí)現(xiàn)類似于隨機(jī)化設(shè)計(jì)中的隨機(jī)分配干預(yù)的目的。傾向值分析的步驟經(jīng)典的傾向值分析主要包括以下3步(上圖來(lái)自推薦書(shū)目1,P85)1. 尋找最佳的協(xié)變量,構(gòu)建估計(jì)傾向值的模型。 模型的因變量為是否接受處理,自變量通常是同時(shí)影響處理因素和結(jié)局的變量(混雜),或是在干預(yù)組和對(duì)照組之

6、間分布不均衡的變量。傾向值的模型以logistic回歸模型最為常見(jiàn),構(gòu)建理想的傾向值模型和以是否接受處理為因變量,找到最恰當(dāng)?shù)淖宰兞拷M合的logistic回歸其實(shí)在原理上幾乎是完全一致的。模型系數(shù)的假設(shè)檢驗(yàn)、擬合度、逐步法篩選變量等,此外,一種較新的自動(dòng)選擇的算法一般加速建模(GBM)法也可用于選擇變量和構(gòu)建模型。 通過(guò)構(gòu)建的模型,可以計(jì)算出每個(gè)研究對(duì)象的傾向值評(píng)分,它代表了研究對(duì)象接受處理的可能性。因此,具有一樣傾向值的研究對(duì)象,在模型中的協(xié)變量是均衡可比的(而并非取值上完全一致)。2. 匹配 根據(jù)傾向值的結(jié)果,從對(duì)照組中選擇1:M個(gè)傾向值接近的個(gè)體與處理組匹配。如果處理組和對(duì)照組在協(xié)變量的

7、分布上差別較大,則傾向值的分布也會(huì)差別較大,所以有了共同支持域(common support)的概念(下圖,推薦書(shū)目1,P97)。共同支持域可以理解為處理組和對(duì)照組傾向值得分一樣的圍,在共同支持域的進(jìn)行匹配,可能兩組間協(xié)變量的分布更均衡(涉與到算法的選擇和設(shè)置等問(wèn)題)。匹配的算法有有Nearest Neighbor Matching(最鄰近匹配)、Full matching(完全匹配)、精確匹配(Exact Match)、Optimal matching(最優(yōu)匹配)等。其中Nearest Neighbor Matching 和Optimal matching較為常用。不同算法各有優(yōu)劣,實(shí)際應(yīng)用

8、中一般選擇可以使匹配后的處理組和對(duì)照組協(xié)變量均衡,且研究對(duì)象丟失不多的算法。3. 匹配后分析 包括分層分析和多元分析等,不同研究采用的方法差別較大,可參照和自己方向類似的文獻(xiàn)。傾向得分匹配的命令研究某項(xiàng)治療、政策、或者其他事件的影響因素上很常見(jiàn)。對(duì)于經(jīng)濟(jì)、金融學(xué)領(lǐng)域來(lái)說(shuō),比如需要研究某個(gè)勞動(dòng)者接受某種高等教育對(duì)其收入的影響,或者比如研究某個(gè)企業(yè)運(yùn)用了某項(xiàng)管理層激勵(lì)措施以后對(duì)企業(yè)業(yè)績(jī)的影響。如果我們簡(jiǎn)單地將是否執(zhí)行了某項(xiàng)時(shí)間作為虛擬變量,而對(duì)總體進(jìn)行回歸的話,參數(shù)估計(jì)就會(huì)產(chǎn)生偏誤,因?yàn)樵谶@樣的情況下,我們只觀察到了某一個(gè)對(duì)象他因?yàn)榘l(fā)生了某一事件后產(chǎn)生的表現(xiàn),并且拿這種表現(xiàn)去和另一些沒(méi)有發(fā)生這件事

9、情的其他對(duì)象去做比較。這樣的比較顯然是不科學(xué)的,因?yàn)楸容^的基礎(chǔ)并不同。通俗地說(shuō),我們真正要做的是考慮,如果拿小明來(lái)說(shuō),小明讀了研究生和小明沒(méi)有讀研究生,他的收入會(huì)差多少?可是小明已經(jīng)讀了研究生,我怎么才能估計(jì)出他要是不讀研究生,他的收入會(huì)是多少呢?于是,我們引入“傾向得分匹配”這樣一種研究方法。英文叫Propensity Score Matching。這種方法能讓我們從一大堆沒(méi)有參加培訓(xùn)的人群中(也就是我們的總體樣本的一個(gè)子集),對(duì)每個(gè)人讀研究生的概率進(jìn)行估計(jì),然后選出和小明具有非常相似的去讀研究生的概率,可是沒(méi)有去讀的同學(xué)小剛作為小明的對(duì)照,然后再來(lái)看他們的區(qū)別。當(dāng)樣本中的每個(gè)研究生”小明“

10、都找到了匹配的非研究生”小剛“,我們便能對(duì)這兩組樣本進(jìn)行比較研究了。1. 所以第一步,我們要對(duì)總體樣本執(zhí)行probit或者logit模型,然后估計(jì)出每一個(gè)觀測(cè)對(duì)象讀研究生的概率是多少。以probit模型為例,在stata中,執(zhí)行以下命令:probit dependent var independent var其中,dependent var是一個(gè)0或1的二進(jìn)制變量,1代表該對(duì)象讀了研究生,否則是0。2. 對(duì)每一個(gè)觀測(cè)值,我們根據(jù)估計(jì)出來(lái)的probit模型,算出他讀研究生的概率是多少。Stata中,執(zhí)行如下命令:predict pscore, p其中,pscore是定義的記錄每個(gè)觀測(cè)對(duì)象概率的變

11、量名稱。3. 使用psmatch2命令,讓Stata幫你對(duì)于每個(gè)讀了研究生的觀測(cè)對(duì)象,找出一個(gè)與之具有最接近的概率值的,可是沒(méi)有讀研究生的觀測(cè)對(duì)象:psmatch2 dependent var, pscore(pscore) noreplacement其中,(pscore)是在第二步中生成的那個(gè)記錄對(duì)象概率的變量,noreplacement是一個(gè)選項(xiàng),使得任何讀了研究生的觀察對(duì)象的對(duì)照對(duì)象都具有唯一性,換言之,只能1對(duì)1匹配。4. Stata會(huì)在你的數(shù)據(jù)中自動(dòng)添加幾個(gè)變量,其中_id是自動(dòng)生成的每一個(gè)觀測(cè)對(duì)象唯一的ID;_treated表示某個(gè)對(duì)象是否讀了研究生,如果讀了,_n表示的是他被匹配

12、到的對(duì)照對(duì)象的_id;_pdif表示一組匹配了的觀察對(duì)象他們概率值的差。做好了這些,你就完成了一個(gè)最簡(jiǎn)單的1對(duì)1的傾向得分匹配。psmatch2還提供多種匹配方法,比如在一定的半徑圍的臨近匹配、在一定概率閥值的全部匹配等等。具體的可以在Stata中輸入help psmatch2查看所有可用的選項(xiàng)。傾向得分匹配的理論傾向得分匹配的理論框架是“反事實(shí)推斷模型”?!胺词聦?shí)推斷模型”假定任何因果分析的研究對(duì)象都有兩種條件下的結(jié)果:觀測(cè)到的和未被觀測(cè)到的結(jié)果。如果我們說(shuō)“A是導(dǎo)致B的原因”,用的就是一種“事實(shí)述法”。而“反事實(shí)”的推斷法則是:如果沒(méi)有A,那么B的結(jié)果將怎樣(此時(shí),其實(shí)A已經(jīng)發(fā)生了)?因此

13、,對(duì)于處在干預(yù)狀態(tài)(treatment condition)的成員而言,反事實(shí)就是處在控制狀態(tài)(condition of control)下的潛在結(jié)果(potential outcome);相反,對(duì)于處在控制狀態(tài)的成員而言,反事實(shí)就是處在干預(yù)狀態(tài)下的潛在結(jié)果。顯然,這些潛在結(jié)果是我們無(wú)法觀測(cè)到的,也就是說(shuō),它們是缺失的。PSM介紹傾向得分匹配的理論框架是“反事實(shí)推斷模型”?!胺词聦?shí)推斷模型”假定任何因果分析的研究對(duì)象都有兩種條件下的結(jié)果:觀測(cè)到的和未被觀測(cè)到的結(jié)果。如果我們說(shuō)“A是導(dǎo)致B的原因”,用的就是一種“事實(shí)述法”。而“反事實(shí)”的推斷法則是:如果沒(méi)有A,那么B的結(jié)果將怎樣(此時(shí),其實(shí)A已

14、經(jīng)發(fā)生了)?因此,對(duì)于處在干預(yù)狀態(tài)(treatment condition)的成員而言,反事實(shí)就是處在控制狀態(tài)(condition of control)下的潛在結(jié)果(potential outcome);相反,對(duì)于處在控制狀態(tài)的成員而言,反事實(shí)就是處在干預(yù)狀態(tài)下的潛在結(jié)果。顯然,這些潛在結(jié)果是我們無(wú)法觀測(cè)到的,也就是說(shuō),它們是缺失的。我們假定有N個(gè)個(gè)體,每一個(gè)處在干預(yù)中的個(gè)體i(i=1,2, ,N)都將有兩種潛在結(jié)果( ),分別對(duì)應(yīng)著未被干預(yù)狀態(tài)和干預(yù)狀態(tài)中的潛在結(jié)果。那么對(duì)一個(gè)個(gè)體進(jìn)行干預(yù)的效應(yīng)標(biāo)記為 ,表示干預(yù)狀態(tài)的潛在結(jié)果與未干預(yù)狀態(tài)的潛在結(jié)果之間的差,即: 令 表示接受干預(yù), 表示未

15、接受干預(yù),同時(shí) 表示所測(cè)試的結(jié)果變量。那么反事實(shí)框架可以表示為以下模型: 該模型也可以表示為: 這個(gè)模型表明,兩種結(jié)果中的哪一種將在現(xiàn)實(shí)中被觀測(cè)到,取決于干預(yù)狀態(tài),即D的狀態(tài)。用ATT(Average treatmenteffect for the treated)來(lái)測(cè)度個(gè)體在干預(yù)狀態(tài)下的平均干預(yù)效應(yīng),即表示個(gè)體i在干預(yù)狀態(tài)下的觀測(cè)結(jié)果與其反事實(shí)的差,稱為平均干預(yù)效應(yīng)的標(biāo)準(zhǔn)估計(jì)量, 很明顯,反事實(shí) 是我們觀測(cè)不到的,所以我們只有使用個(gè)體i在未干預(yù)狀態(tài)下的觀測(cè)結(jié)果 作為替代來(lái)估計(jì)個(gè)體在干預(yù)狀態(tài)下的潛在結(jié)果反事實(shí)。所以,給公式可以進(jìn)一步表示為: 顯然,這里需要到數(shù)據(jù)的隨機(jī)性了。在實(shí)驗(yàn)數(shù)據(jù)中,個(gè)體是

16、隨機(jī)分配(random assignment)的,所以個(gè)體的所有特征在干預(yù)組和控制組之間是相等,也就無(wú)需考慮用 作為替代對(duì)反事實(shí) 進(jìn)行估計(jì)時(shí)存在的偏差了,這里稱為選擇偏倚,換句話說(shuō),實(shí)驗(yàn)數(shù)據(jù)能夠確保數(shù)據(jù)的選擇偏倚為0,所以實(shí)驗(yàn)設(shè)計(jì)中,隨機(jī)性能保證干預(yù)組和控制組之間的數(shù)據(jù)平衡。而對(duì)于觀測(cè)數(shù)據(jù),往往由于缺乏隨機(jī)性,而導(dǎo)致干預(yù)組和控制組不僅僅在干預(yù)統(tǒng)計(jì)量上存在不同,還在第三方變量X(這個(gè)變量是可觀測(cè)的)上存在區(qū)別。這時(shí),我們必須要考慮到這些區(qū)別以防止出現(xiàn)潛在偏倚。這時(shí)就要采用匹配的方式進(jìn)行干預(yù)效應(yīng)分析。匹配的目的在于確保干預(yù)效應(yīng)估計(jì)是建立在可比個(gè)體之間的不同結(jié)果的基礎(chǔ)上。最簡(jiǎn)單的匹配方式是將干預(yù)組和

17、控制組中第三方變量X的值一樣的兩個(gè)個(gè)體進(jìn)行配對(duì)分析。但是,如果X并不是某一個(gè)變量,而是一組變量時(shí),最終簡(jiǎn)單的匹配方式也就不再適用,而是采用傾向得分匹配方式進(jìn)行匹配。最簡(jiǎn)單匹配方法的幾個(gè)假設(shè):條件獨(dú)立假設(shè)(conditionalindependence assumption or CIA):給定X后干預(yù)狀態(tài)的潛在結(jié)果是獨(dú)立的,換句話說(shuō),控制住X之后,干預(yù)分配就相當(dāng)于隨機(jī)分配。共同支撐條件(common support condition):對(duì)于X的每一個(gè)值,存在于干預(yù)組或控制組的可能性均為正,即。同時(shí),第二個(gè)要求稱為覆蓋條件,即匹配組變量X需要在干預(yù)組和控制組上有足夠的覆蓋,即處理組每一個(gè)個(gè)體在

18、控制組中都能找到與之匹配的X。若X只有一個(gè)變量,則對(duì)于給定的X=x,ATT(x)的表達(dá)式為: 顯然,X只有一個(gè)變量時(shí),干預(yù)組和控制組針對(duì)X的匹配標(biāo)準(zhǔn)是清晰的:對(duì)于干預(yù)組個(gè)體和控制組個(gè)體,他們的X變量的值越近,這兩個(gè)個(gè)體的特征也就越相似。但,如果X不再只是一個(gè)變量,而是一組變量時(shí),所謂“近”的判斷標(biāo)準(zhǔn)也就變得模糊起來(lái)。針對(duì)這個(gè)問(wèn)題,Rosenbaum and Rubin (1983)解決了維度問(wèn)題,并證明了如果基于X相關(guān)變量的匹配是有效的,那么基于X變量組的傾向得分的匹配也將同樣有效,從而奠定了PSM的理論基礎(chǔ)。這里,傾向得分是通過(guò)logist回歸獲得的,從而將X由多維降到了一維的水平。所以傾向

19、得分中包含了X中所有變量的信息,綜合反映了每個(gè)個(gè)體X變量組的水平。顯然,傾向得分匹配的優(yōu)勢(shì)很明顯降維,它由單個(gè)變量(傾向得分)對(duì)個(gè)體進(jìn)行匹配來(lái)代替了X所有變量為基礎(chǔ)對(duì)個(gè)體進(jìn)行匹配。同樣的,PSM的主要定理總結(jié)為以下幾點(diǎn):定理一,傾向得分p(X)是一個(gè)平衡得分。有著一樣傾向得分的兩組個(gè)體之間的特征顯然是平衡的。定理二,如果條件獨(dú)立假設(shè)依舊成立,那么潛在結(jié)果在傾向得分的條件下也將獨(dú)立于干預(yù)狀態(tài)。也就是說(shuō),只要向量X包含滿足CIA的所有相關(guān)信息,那么傾向得分的條件作用也就等價(jià)于向量X中所有變量的條件作用。所以,PSM的ATT(x)的表達(dá)式為: 為了估計(jì)ATT,需對(duì)p(X)在干預(yù)上的條件作用的分布取平

20、均: PSM的步驟計(jì)算傾向值(采用logistic回歸)進(jìn)行得分匹配得分匹配的幾種方法:(1)最鄰近匹配(Nearest neighbor matching, NNM)(是否使用卡尺 with or without caliper)以傾向得分為依據(jù),在控制組樣本中向前或向后尋找最接近干預(yù)組樣本得分的對(duì)象,并形成配對(duì)。(2)半徑匹配(Radius matching)設(shè)定一個(gè)常數(shù)r(可理解為區(qū)間或圍,一般設(shè)定為小于傾向得分標(biāo)準(zhǔn)差的四分之一),將實(shí)驗(yàn)組中得分值與控制組得分值的差異在r的進(jìn)行配對(duì)。(3)核匹配(Kernel Matching)將干預(yù)組樣本與由控制組所有樣本計(jì)算出的一個(gè)估計(jì)效果進(jìn)行配對(duì),其中估計(jì)效果由實(shí)驗(yàn)組個(gè)體得分值與控制組所有樣本得分值加權(quán)平均獲得,而權(quán)數(shù)則由核函數(shù)計(jì)算得出。評(píng)定匹配后的平衡性計(jì)算平均干預(yù)效果(ATT)進(jìn)行敏感性分析推薦書(shū)籍與文獻(xiàn) 傾向值分析方法相對(duì)較新,近年來(lái)很多方法也發(fā)展迅速,本文只對(duì)起源和主要步驟進(jìn)行介紹。在模型和算法選擇,匹配后處理等方面有諸多細(xì)節(jié),有需要的可以參照下列書(shū)目。 1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論