實證研究方法論-Stata應(yīng)用 課件 第3章 數(shù)據(jù)收集、處理與Stata實現(xiàn)_第1頁
實證研究方法論-Stata應(yīng)用 課件 第3章 數(shù)據(jù)收集、處理與Stata實現(xiàn)_第2頁
實證研究方法論-Stata應(yīng)用 課件 第3章 數(shù)據(jù)收集、處理與Stata實現(xiàn)_第3頁
實證研究方法論-Stata應(yīng)用 課件 第3章 數(shù)據(jù)收集、處理與Stata實現(xiàn)_第4頁
實證研究方法論-Stata應(yīng)用 課件 第3章 數(shù)據(jù)收集、處理與Stata實現(xiàn)_第5頁
已閱讀5頁,還剩106頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第3章數(shù)據(jù)收集、處理與

Stata實現(xiàn)數(shù)據(jù)分類數(shù)據(jù)來源數(shù)據(jù)處理與Stata實現(xiàn)主要內(nèi)容對現(xiàn)象進行計量的結(jié)果

不是指單個的數(shù)字,而是由多個數(shù)據(jù)構(gòu)成的數(shù)據(jù)集

不僅僅是指數(shù)字,它可以是數(shù)字的,也可以是文字的數(shù)據(jù)(data)數(shù)據(jù)的分類按計量尺度按時間狀況按收集方法定定定觀試截時混類序量察驗面序合數(shù)數(shù)數(shù)數(shù)數(shù)數(shù)數(shù)數(shù)據(jù)據(jù)據(jù)據(jù)據(jù)據(jù)據(jù)據(jù)數(shù)據(jù)的分類定類數(shù)據(jù)/分類數(shù)據(jù)(categorical

data)只能歸于某一類別的非數(shù)字型數(shù)據(jù)對事物進行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,虧損和非虧損、國有和民營定序數(shù)據(jù)/順序數(shù)據(jù)(rank

data)只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)對事物類別順序的測度,數(shù)據(jù)表現(xiàn)為類別,用文字來表述例如,信息披露:優(yōu)秀、良好、合格、不合格等定量數(shù)據(jù)/數(shù)值型數(shù)據(jù)(metric

data)按數(shù)字尺度測量的觀察值結(jié)果表現(xiàn)為具體的數(shù)值,對事物的精確測度例如:公司的資產(chǎn)、ROA定量數(shù)據(jù)可進一步區(qū)分為定距數(shù)據(jù)和定比數(shù)據(jù)數(shù)據(jù)按計量尺度分類定量數(shù)據(jù)定距數(shù)據(jù),表現(xiàn)為數(shù)值,可進行加、減運算,如溫度定比數(shù)據(jù),表現(xiàn)為數(shù)值,可進行加、減、乘和除運算,時間、重量和長度都是定比數(shù)據(jù)主要的區(qū)別定距數(shù)據(jù)中的“0”是人為給定的,不具有實際意義,比如溫度為0并不表示沒有溫度定比數(shù)據(jù)中的“0”是實際意義上的真實零點比如說,一個公司的ROA為0的含義是什么?數(shù)據(jù)按計量尺度分類2019年,貴州茅臺的營業(yè)收入為888.54億元,五糧液的營業(yè)收入為501.18億元如何基于不同的計量尺度來進行描述定類數(shù)據(jù)定序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)示例1從某數(shù)據(jù)庫中調(diào)出的A公司的資產(chǎn)項目的數(shù)據(jù)如下,則A公司的資產(chǎn)總計為多少?示例2貨幣資金應(yīng)收賬款存貨固定資產(chǎn)無形資產(chǎn)資產(chǎn)總計100200300400.?按計量尺度區(qū)分數(shù)據(jù)類型的意義1.不同的數(shù)據(jù)需要采用不同的統(tǒng)計方法來處理定類數(shù)據(jù):計算頻數(shù)和頻率,列聯(lián)分析和卡方檢驗定序數(shù)據(jù):中位數(shù)和分位數(shù),等級相關(guān)分析2.高層次計量尺度的數(shù)據(jù)可以很容易轉(zhuǎn)換為低層次計量尺度的數(shù)據(jù)比如根據(jù)ROA是否小于0,將上市公司劃分為2組等3.高層次計量尺度的數(shù)據(jù)包含更多的數(shù)學(xué)特性,所運用的統(tǒng)計方法越多4.適用于低層次計量尺度數(shù)據(jù)的方法也適用高層次計量尺度的數(shù)據(jù),反之則不能成立數(shù)據(jù)按計量尺度分類觀測數(shù)據(jù)(observational

data)通過調(diào)查或觀測而收集到的數(shù)據(jù)在沒有對事物人為控制的條件下而得到的有關(guān)社會經(jīng)濟現(xiàn)象的統(tǒng)計數(shù)據(jù)幾乎都是觀測數(shù)據(jù)試驗數(shù)據(jù)(experimental

data)在試驗中控制試驗對象而收集到的數(shù)據(jù)比如,卡尼曼實驗中對測試者風(fēng)險態(tài)度的數(shù)據(jù)等自然科學(xué)領(lǐng)域的數(shù)據(jù)大多數(shù)都為試驗數(shù)據(jù),社會科學(xué)中的使用也逐步增多數(shù)據(jù)按收集方法分類截面數(shù)據(jù)(cross-sectional

data)在相同或近似相同的時間點上收集的數(shù)據(jù)描述現(xiàn)象在某一時刻的變化情況比如,2010年我國滬深兩市上市公司的凈利潤時間序列數(shù)據(jù)(time

series

data)在不同時間上收集到的數(shù)據(jù)描述現(xiàn)象隨時間變化的情況比如,1994-2003萬科的每股收益混合橫截面數(shù)據(jù)(pooled

cross-sectional

data)由不同期間的橫截面數(shù)據(jù)混合而成的數(shù)據(jù)數(shù)據(jù)按時間狀況分類橫截面數(shù)據(jù)(cross-section)橫截面數(shù)據(jù)的重要特征通常我們可以假定,它們是從樣本背后的總體通過隨機抽樣(random

sampling)而得到的。改變觀測值(observation)的排列順序,對分析不會有任何影響。WAGE1.dta中1976年526個工人的橫截面數(shù)據(jù)橫截面數(shù)據(jù)(cross-section)橫截面數(shù)據(jù)(cross-section)時間序列數(shù)據(jù)(time

series

data)時間序列數(shù)據(jù)是由一個或幾個變量不同時期的觀測值所構(gòu)成,如股票價格,GDP等。時間序列數(shù)據(jù)包括不同的數(shù)據(jù)頻率(data

frequency),最常見的頻率包括年、季、月、周、天、小時、分鐘等。時間序列數(shù)據(jù)有一個關(guān)鍵的特征,觀測數(shù)據(jù)在時間上不獨立(時間相依)。同橫截面數(shù)據(jù)的排序不同,觀測值的順序在時間序列分析中則非常重要。時間序列數(shù)據(jù)(time

series

data)混合橫截面數(shù)據(jù)(pooled

crosssection

data)混合橫截面數(shù)據(jù),由不同期間的橫截面數(shù)據(jù)混合而成的數(shù)據(jù)。混合橫截面數(shù)據(jù)既具有橫截面數(shù)據(jù)的特點,又具有時間序列數(shù)據(jù)特點的數(shù)據(jù)?;旌蠙M截面數(shù)據(jù)的分析同橫截面數(shù)據(jù)的分析非常類似。然而,通??梢詮幕旌蠙M截面數(shù)據(jù)中獲取更多的信息,即變量之間

的關(guān)系如何隨時間的變化而變化。這對政策的效果的分析將

非常有用?;旌蠙M截面數(shù)據(jù)存在兩種排列格式。混合橫截面數(shù)據(jù)格式1混合橫截面數(shù)據(jù)格式2混合橫截面數(shù)據(jù)從數(shù)據(jù)庫里調(diào)出來的數(shù)據(jù)結(jié)構(gòu)最多的混合橫截面數(shù)據(jù)結(jié)構(gòu)1,如色諾芬、國泰安。也有少量的數(shù)據(jù)結(jié)構(gòu)為混合橫截面數(shù)據(jù)結(jié)構(gòu)2,如巨靈。通常,對混合橫截面數(shù)據(jù)結(jié)構(gòu)1的處理更加方便。Stata中的reshape命令可以實現(xiàn)兩種數(shù)據(jù)結(jié)構(gòu)的自由轉(zhuǎn)換*打開reshape命令演示數(shù)據(jù)reshape

wide

r,

i(dm

nd)

j(m)reshape

longStata命令:reshape面板數(shù)據(jù)(panel

data)面板數(shù)據(jù),也譯為縱列數(shù)據(jù)(longitude

data),是指由橫截面數(shù)據(jù)集中每個數(shù)據(jù)的一個時間序列組成。對100家上市公司連續(xù)收集10年的數(shù)據(jù)。面板數(shù)據(jù)有別于混合橫截面數(shù)據(jù)的關(guān)鍵特征是,同一橫截面數(shù)據(jù)的數(shù)據(jù)單位(個人或公司等)都被跟蹤了一段特定的時期。和橫截面數(shù)據(jù)一樣,對面板數(shù)據(jù)中的橫截面的數(shù)據(jù)的排序無關(guān)緊要。面板數(shù)據(jù)(panel

data)各種數(shù)據(jù)結(jié)構(gòu)的評論1橫截面數(shù)據(jù)通常不能反映變量各期之間的相依性,通常只適合對靜態(tài)關(guān)系進行模型化;時間序列數(shù)據(jù)可以對變量之間的動態(tài)相依進行模型化;面板數(shù)據(jù)可以實現(xiàn)對靜態(tài)關(guān)系和動態(tài)關(guān)系的模型化各種數(shù)據(jù)結(jié)構(gòu)的評論2比如通過橫截面數(shù)據(jù)可以對盈余對市場回報的影響進行模型化通過時間序列數(shù)據(jù)可以對股市發(fā)展對市場回報的影響進行模型化通過面板數(shù)據(jù)可以同時對盈余和股市發(fā)展對產(chǎn)生的影響進行模型化數(shù)據(jù)取得的幾種方式一、通過數(shù)據(jù)庫獲得檔案數(shù)據(jù)(archival

study)二、通過調(diào)查問卷獲取數(shù)據(jù)三、通過實驗法獲取數(shù)據(jù)四、通過模擬(simulation)獲取數(shù)據(jù)數(shù)據(jù)來源常用的數(shù)據(jù)庫有哪些?美國CRSP、COMPUSTAT和I/B/E/S等數(shù)據(jù)庫中國國泰安數(shù)據(jù)庫(CSMAR)巨靈數(shù)據(jù)庫(genius)銳思數(shù)據(jù)庫(resset)萬德數(shù)據(jù)庫(wind)

色諾芬數(shù)據(jù)庫(ccer)同花順數(shù)據(jù)庫(iFind)國際BloombergDatastreamBvD(穆迪公司)一、通過數(shù)據(jù)庫獲得檔案數(shù)據(jù)這種方法的優(yōu)勢在于可以通過設(shè)計各種問題,直接向被調(diào)查對象尋找答案Graham,Harvey和Rajgopal(2005)通過對美國401位財務(wù)經(jīng)理進行問卷調(diào)查,并對其中20位進行深度訪談,以尋找影響盈余報告和自愿性披露的關(guān)鍵因素。問卷調(diào)查在我國實證會計研究中也得到了廣泛的應(yīng)用但一定程度上也被濫用問卷發(fā)放的隨意性,而不是通過科學(xué)的設(shè)計來隨機獲取樣本被調(diào)查者對研究有效性的影響非常大二、通過調(diào)查問卷獲取數(shù)據(jù)問卷構(gòu)建封面信指導(dǎo)語問題和答案問題按其形式分:開放式和封閉式問題按其內(nèi)容分:特征、行為和態(tài)度問卷設(shè)計要點簡明清楚設(shè)計問卷不能帶有傾向性不提有可能難以真實回答的問題不能把未經(jīng)確認的事當做前提假設(shè)問卷設(shè)計(1)量表總加量表區(qū)分兩類(同意、不同意),然后加總量化李克特表區(qū)分為兩類以上(非常同意、同意、不知道、不同意、非常不同意),然后加總量化語義差異量表兩端為一對意義相反的形容詞,中間分為7個等級7,6,5,4,3,2,1;或+3,+2,+1,0,-1,-2,-3問卷設(shè)計后的預(yù)回答問卷的回收率(>70%)專家調(diào)查問卷問卷設(shè)計(

2

)這種方法以經(jīng)濟學(xué)、心理學(xué)、社會學(xué)等諸多學(xué)科的理論為基礎(chǔ),調(diào)查參與人在實驗控制的場景中如何對會計問題作出判斷、決策或采取行動。它的優(yōu)勢在于可以操縱自變量的變化,觀察到這種變化對因變量的影響,從而更能得出因果關(guān)系的推論(羅煒,2005)。在實驗中,通常需要將同意參加實驗的對象隨機劃分處理組(treatment

group)和控制組(controlgroup),以觀察到外生變化對行為和結(jié)果的影響。三、通過實驗法獲取數(shù)據(jù)三、通過實驗法獲取數(shù)據(jù)邀請符合條件的對象參加是否

同意

參加?是否隨機分配從研究中刪除劃分為處理組劃分為控制組社會實驗研究中的隨機分配程序這對理解統(tǒng)計和計量經(jīng)濟學(xué)的方法,以及一些統(tǒng)計量的屬性非常有幫助。Stata可以通過simulate命令進行模擬Help

simulate四、通過模擬(

simulation )獲取數(shù)據(jù)數(shù)據(jù)處理與Stata實現(xiàn)數(shù)據(jù)處理通常要包括下述過程:1.數(shù)據(jù)導(dǎo)入。將收集的數(shù)據(jù)調(diào)入Stata軟件等,或直接通過數(shù)據(jù)轉(zhuǎn)換軟件(stat/transfer等)將數(shù)據(jù)轉(zhuǎn)換為Stata等。2.數(shù)據(jù)檢查。消除相同的觀測值,處理缺失值等。3.數(shù)據(jù)預(yù)處理。包括對數(shù)據(jù)和變量貼標簽、變量處理、數(shù)據(jù)篩選和排序、刪除重復(fù)觀測值、處理缺失值等。4.數(shù)據(jù)轉(zhuǎn)換。包括數(shù)據(jù)結(jié)構(gòu)(寬數(shù)據(jù)格式和長數(shù)據(jù)格式轉(zhuǎn)換)和變量類型轉(zhuǎn)換。5.數(shù)據(jù)分組與展示。包括對數(shù)據(jù)進行分組標記、分組統(tǒng)計處理和圖標展示。6.數(shù)據(jù)定位。包括某一事件相對時間的標定。7.數(shù)據(jù)配對。對研究組或處理組確定配對樣本。8.數(shù)據(jù)合并。對數(shù)據(jù)進行橫向和縱向合并。數(shù)據(jù)導(dǎo)入數(shù)據(jù)導(dǎo)入是將數(shù)據(jù)導(dǎo)入統(tǒng)計和計量經(jīng)濟分析軟件的過程。已有的統(tǒng)計分析軟件基本都可以調(diào)用各種格式存儲的數(shù)據(jù)文件。數(shù)據(jù)通常通過excel表格存儲為了進行數(shù)據(jù)處理,需要首先將數(shù)據(jù)導(dǎo)入到統(tǒng)計計量分析軟件中,如Stata.數(shù)據(jù)導(dǎo)入Stata程序:數(shù)據(jù)導(dǎo)入將以raw、txt、xls、xlsx、dta、sas7bdat存儲的StockReturn0數(shù)據(jù)調(diào)入Stata軟件。Stata調(diào)入數(shù)據(jù)基本規(guī)則主要有:使用import(Stata12以后可用)、odbc命令直接調(diào)入excel數(shù)據(jù)集。使用infile、insheet和infix命令調(diào)入txt、csv等類型的數(shù)據(jù)(或點擊file-import3.使用use命令打開存儲在計算機中的Stata數(shù)據(jù)集,使用sysuse命令打開Stata自帶

的Stata數(shù)據(jù)集。使用use命令或webuse命令從網(wǎng)上直接獲取數(shù)據(jù)。其他方式,例如,通過odbc

load調(diào)取dbase,access等數(shù)據(jù)。以下舉例中,假定已經(jīng)通過cd命令設(shè)定了當前文件目錄,或者文件存于F盤。對Stata還未有了解的,可先閱讀附錄中附表1-1和附表1-3,了解Stata的工作界面和語法基本規(guī)則。*Stata程序通過cd命令設(shè)定當前工作目錄*1.調(diào)入Excel數(shù)據(jù)集方法1:使用import命令調(diào)入(Stata12版以后可用)import

excel

"StockReturn0.xlsx",sheet("StockReturn0")

firstrow

clear復(fù)制excel數(shù)據(jù),直接粘貼到Stata數(shù)據(jù)窗口。注意,有時不能識別excel格式,容易出錯(不適用數(shù)據(jù)量大的情況)。數(shù)據(jù)導(dǎo)入*2.調(diào)入txt數(shù)據(jù)集*通過infile命令調(diào)入文本文件infile

dm

str7

month

nd

m

r

rn

using"StockReturn0.txt"

,clear*3.調(diào)入Stata的dta數(shù)據(jù)集use

"StockReturn0.dta",clear*或者點擊file-open直接打開*4.從網(wǎng)上直接讀取數(shù)據(jù)use

/ec-

p/data/wooldridge/bwght.dta,clearwebuse

lifeexp,clear數(shù)據(jù)導(dǎo)入對于一個大的數(shù)據(jù)集,很容易出現(xiàn)錯誤數(shù)據(jù),因此應(yīng)仔細檢查。對數(shù)據(jù)集名稱、變量、觀測的檢查。數(shù)據(jù)集名稱檢查是指對數(shù)據(jù)是否命名進行檢查,數(shù)據(jù)集變量檢查內(nèi)容包括數(shù)據(jù)集變量個數(shù)、每個變量的名稱、變量存儲類型、變量顯示格式、變量標簽等。數(shù)據(jù)集觀測檢查內(nèi)容包括觀測的數(shù)量、數(shù)據(jù)質(zhì)量等的初步檢查等。對數(shù)據(jù)質(zhì)量的檢查。對數(shù)據(jù)進行描述性統(tǒng)計可以為數(shù)據(jù)質(zhì)量檢查提供很多思路。在Stata中:可以使用describe或d命令來檢查內(nèi)存數(shù)據(jù)集、變量和觀測的基本情況??梢允褂胏ompress命令對內(nèi)存中的數(shù)據(jù)進行壓縮,從而釋放更大的內(nèi)存。可以使用browse和edit命令瀏覽和修改數(shù)據(jù),使用list命令在結(jié)果窗口顯示數(shù)據(jù),查看缺失值的表示情況??梢允褂胹ummerize(sum、su)命令初步判斷數(shù)據(jù)質(zhì)量。數(shù)據(jù)檢查數(shù)據(jù)預(yù)處理主要包括:1.對數(shù)據(jù)集和變量貼標簽;2.對變量的初步處理;3.對數(shù)據(jù)進行篩選和排序;4.對重復(fù)觀測的處理;5.對缺失值的處理。數(shù)據(jù)預(yù)處理為了便于對數(shù)據(jù)集和變量的處理,數(shù)據(jù)集和變量的命名通常應(yīng)盡量簡潔,特別是變量通常用英文、英文首字母簡稱、中文拼音首字母進行命名。這樣做不利的一面是經(jīng)過一段時間后可能不能記起數(shù)據(jù)庫和變量的含義了,通過對數(shù)據(jù)庫和變量進行貼標簽,可以有效解決這一問題。在Stata中:可以使用label

data命令對數(shù)據(jù)集貼標簽??梢允褂胠abel

var命令對變量進行貼標簽。可以使用label

define命令對變量取值貼標簽。在Stata中還可以使用notes命令對一個數(shù)據(jù)集或單個變量添加注釋。使用非官方的labone命令,可將數(shù)據(jù)集中的指定行作為變量的標簽。例如,對于下載的CSMAR數(shù)據(jù)(如excel),調(diào)入Stata后可以使用labone命令直接將第2行的“變量說明”作為變量的標簽。數(shù)據(jù)預(yù)處理-對數(shù)據(jù)集和變量貼標簽變量(variable)是說明現(xiàn)象某種特征的概念,其特點是從一次觀察到下一次觀察結(jié)果會呈現(xiàn)出差別或變化。變量由變量名和變量值

組成。變量名是指變量的名稱,變量值是指變量的具體取值。例如

對于變量公司產(chǎn)權(quán)性質(zhì),其變量值表現(xiàn)為國有和非國有。對變量的初步處理主要包括變量名的統(tǒng)一標準化、以及變量類型之間的轉(zhuǎn)換。(1)變量名命名及其統(tǒng)一標準化可以用中文、英文、數(shù)字、符號、或者上述的組合進行命名避免使用特殊字符和通配符注意軟件自帶的系統(tǒng)變量為了方便合并,統(tǒng)一關(guān)鍵識別變量(dm,nd)(2)變量類型的之間的轉(zhuǎn)換數(shù)字型、字符型、日期型之間的相互轉(zhuǎn)換數(shù)據(jù)預(yù)處理-對變量的初步處理數(shù)據(jù)預(yù)處理-數(shù)據(jù)篩選(data

filter

數(shù)據(jù)篩選(data

filter)是根據(jù)需要找出符合特定條件的某類數(shù)據(jù)。數(shù)據(jù)篩選的內(nèi)容

將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除

將符合某種特定條件的數(shù)據(jù)篩選出來,而不符合特定條件的數(shù)據(jù)予以剔除Stata命令:

drop

if

jqr==.drop

if

month==“2004-01”數(shù)據(jù)預(yù)處理-數(shù)據(jù)排序(data

rank)

按一定順序?qū)?shù)據(jù)排列,以發(fā)現(xiàn)一些明顯的特征或趨勢,找到解決問題的線索

排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù)在某些場合,排序本身就是分析的目的之一排序可借助于計算機完成,如在Stata中:sort

dmsort

dm

ndsort

dm

nd

m數(shù)據(jù)預(yù)處理-數(shù)據(jù)排序(data

rank)分類數(shù)據(jù)的排序字母型數(shù)據(jù),排序有升序降序之分,但習(xí)慣上用升序(sort命令默認按升序排序)

漢字型數(shù)據(jù),可按漢字的首位拼音字母排列,也可按筆畫排序,其中也有筆畫多少的升序降序之分數(shù)值型數(shù)據(jù)的排序遞增排序:設(shè)一組數(shù)據(jù)為x1,x2,…,xn,遞增排序后可表示為:x(1)<x(2)<…<x(n)遞減排序:可表示為:x(1)>x(2)>…>x(n)gsort+dm-nd//gsort可實現(xiàn)對變量進行遞增和遞減排序數(shù)據(jù)預(yù)處理——對重復(fù)值的處理由于數(shù)據(jù)庫的設(shè)計存在問題,有時從數(shù)據(jù)庫中調(diào)出的數(shù)據(jù)會存在相同的觀測值,或者因為重復(fù)錄入的問題而存在相同的觀測值,因此應(yīng)首先消除相同的觀測值。使用duplicates命令報告、列示和刪除重復(fù)觀察duplicates

report/*報告所有變量相同的重復(fù)觀測*/duplicates

list/*顯示所有變量相同的重復(fù)觀測*/duplicates

drop/*刪除所有變量相同的重復(fù)觀測*/*duplicates可以處理指定變量是否存在重復(fù)現(xiàn)象duplicates

report

dm

nd

m對抽樣調(diào)查數(shù)據(jù),一個主要的問題是無回答和部分無回答,從而形成缺失值。在重復(fù)觀測中,由于家庭的搬遷、個人的死亡、失蹤以及公司的破產(chǎn)等原因,也會導(dǎo)致樣本點的丟失,從而形成缺失值。對缺失值的處理最簡單的方法是將其刪除。但是需要注意的是,必須考慮缺失值形成的原因和重要性。查看并處理缺失值。不同的數(shù)據(jù)庫中對不同變量的缺失值有不同的表示,大多數(shù)情況下并不是以點(.)表示,有時用一個數(shù)值代碼表示,分析時應(yīng)特別注意。數(shù)據(jù)預(yù)處理——對缺失值的處理數(shù)據(jù)審核dmyearepsbvpepbAudit00000219940.74254.48388.08081.3382100000219940.74254.48388.08081.3382100000319940.64174.79929.42811.2606100000419940.3833.308315.9531.8469-1400000519940.32312.342218.91062.60873數(shù)據(jù)審核dmyearpricebvpepbAudit000002199464.48388.08081.338210000031994-954.79929.42811.2606100000419946.113.308315.9531.8469-1400000519946.112.342218.91062.60873Sinofin數(shù)據(jù)庫中缺失值的表示代碼描述-97由于計算原因此項沒有記錄(例如收益率第一項)-95價格庫中沒有交易的記錄,例如停牌等-11公司基本信息部分缺失,有可能補齊,如企業(yè)工商注冊登記號-35數(shù)據(jù)源數(shù)據(jù)缺失(例如成交筆數(shù)是1998年后才可獲取)對于事件終止時間現(xiàn)在不確定的記錄表2色諾芬數(shù)據(jù)庫中對應(yīng)缺失值的代碼及解釋Stata中:可以使用browse、list、inspect命令來查看缺失值的表示??梢允褂胢vdecode命令將數(shù)值型缺失值轉(zhuǎn)換為.,使用

mvencode將缺失值.轉(zhuǎn)換為數(shù)值型缺失值。需要指出的是,缺失值和0存在本質(zhì)的區(qū)別。而有些數(shù)據(jù)庫中對缺失值以0表示,或調(diào)入excel表中后變?yōu)?,這使得對缺失值的處理變得異常困難。數(shù)據(jù)預(yù)處理——對缺失值的處理數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換和數(shù)據(jù)變量轉(zhuǎn)換。數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換包括寬格式數(shù)據(jù)和長格式數(shù)據(jù)轉(zhuǎn)換(reshape)、數(shù)據(jù)轉(zhuǎn)置(transpose)、數(shù)據(jù)堆疊(stack)。其中,寬格式數(shù)據(jù)如表3-4所示,長格式數(shù)據(jù)如表3-3所示。寬格式數(shù)據(jù)和長格式數(shù)據(jù)轉(zhuǎn)換相對復(fù)雜,而數(shù)據(jù)轉(zhuǎn)置、數(shù)據(jù)堆疊則相對簡單。數(shù)據(jù)變量轉(zhuǎn)換包括寬格式數(shù)據(jù)和長格式數(shù)據(jù)轉(zhuǎn)換、產(chǎn)生新變量和取代原有變量中的值、和對字符型變量的處理。數(shù)據(jù)轉(zhuǎn)換1.寬格式數(shù)據(jù)和長格式數(shù)據(jù)轉(zhuǎn)換從數(shù)據(jù)庫中調(diào)出數(shù)據(jù)后,經(jīng)過數(shù)據(jù)預(yù)處理后,需要通過變量計算(加、減、乘、除等),將原始的變量變?yōu)榭捎糜谔囟康牡姆治?。例如:對?guī)模變量如總資產(chǎn)等取對數(shù);根據(jù)凈利潤和平均總資產(chǎn)或上年總資產(chǎn)計算總資產(chǎn)收益率;根據(jù)凈利潤和經(jīng)營活動現(xiàn)金流量計算應(yīng)計利潤。根據(jù)字符型變量產(chǎn)生特定的數(shù)字型變量,如通過行業(yè)分類產(chǎn)生行業(yè)分類變量。2.產(chǎn)生新變量和取代原有變量中的值對字符型變量的處理要相對復(fù)雜一些。對字符型變量的處理包括:壓縮字符變量值、提取字符變量值、連接字符變量值、取代字符變量值、轉(zhuǎn)換字符變量值等。Stata都提供了豐富的字符函數(shù)。Stata中字符型變量的處理主要通過字符型函數(shù)進行。輸入命令help

function,點擊string

functions可以查看所有字符型函數(shù)的使用。主要字符型函數(shù)的使用說明見本書附表1-7。重點關(guān)注文本挖掘中常用的正則表達式(regular

expression,簡稱regex、regexp或RE)提取、替換和截取函數(shù)。3.對字符型變量的處理在經(jīng)驗研究中,對數(shù)據(jù)進行分組處理是十分常見的。例如,對數(shù)據(jù)進行分年度處理,分行業(yè)處理,或者分年度分行業(yè)處理。也可以對連續(xù)性變量,如ROA進行分組,以揭示不同業(yè)績組之間的特定差異。數(shù)據(jù)分組與展示有時,可以通過對數(shù)據(jù)產(chǎn)生分組標記來對給定數(shù)據(jù)進行處理。例如,僅保留每家上市公司第一次發(fā)布盈利預(yù)測的公告時間等。因此需要將每家上市公司第一次發(fā)布盈余公告的時間標記出來,然后根據(jù)要求進行處理。1.數(shù)據(jù)分組標記的產(chǎn)生為了研究需要,有時我們需要將數(shù)值型數(shù)據(jù)分成觀測數(shù)量相同的若干組。例如:(1)將所有公司按ROA大小分為20組(2)分年度將所有公司按ROA大小分為20組(3)分年度按ROA大小將公司分組,使每組的公司數(shù)為20(4)分年度按分位數(shù)分組(5)分組產(chǎn)生虛擬變量(dummy

variable)2.數(shù)據(jù)分組通過對數(shù)據(jù)分組標示,可以很方便地計算分組累積求和和求積。3.分組統(tǒng)計處理對數(shù)據(jù)進行預(yù)處理后,可以使用圖表更直觀和形象地展示數(shù)據(jù)。一張完整的圖應(yīng)包括以下要素:坐標軸、曲線(點/線/面)、標題與副標題、圖例、腳注、插文。圖3-2行駛里程與車重關(guān)系4.單變量數(shù)據(jù)展示一張好的圖表應(yīng)當:精心設(shè)計、有助于洞察問題的實質(zhì)使復(fù)雜的觀點得到簡明、確切、高效的闡述能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息是多維的表述數(shù)據(jù)的真實情況4.單變量數(shù)據(jù)展示數(shù)據(jù)的整理和顯示定類數(shù)據(jù)的整理與圖示定序數(shù)據(jù)的整理與圖示定量數(shù)據(jù)的整理與圖示數(shù)據(jù)的整理和顯示:基本問題要弄清所面對的數(shù)據(jù)類型不同類型的數(shù)據(jù),采取不同的處理方式和方法對定類數(shù)據(jù)和定序數(shù)據(jù)主要是作分類整理對定量/數(shù)值型數(shù)據(jù)則主要是作分組整理

適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)定類數(shù)據(jù)的圖示—條形圖(Barchart)示例1顧客性別計數(shù)項:飲料類型男女總計1果汁1562礦泉水64103綠茶74114其他2685碳酸飲料6915總計222850定類數(shù)據(jù)的圖示—對比條形圖示例3國有與非國有對比條形圖定類數(shù)據(jù)的圖示—餅圖

(Pie

chart)示例4定序數(shù)據(jù)的整理(可計算的統(tǒng)計量)累積頻數(shù)(cumulativefrequencies):各類別頻數(shù)的逐級累加累積頻率(cumulative

percentages):各類別頻率

(百分比)的逐級累加2008年CFO在高管團隊中排名的頻數(shù)分布全部樣本國有企業(yè)民營企業(yè)CFO權(quán)力距Freq.PercentCum.Freq.PercentCum.Freq.PercentCum.0312.572.57162.192.19153.163.16124420.2522.8212116.5818.7712325.8929.05223519.542.3213818.937.679720.4249.47320116.685911415.6253.298718.3267.79418315.1974.1911615.8969.186714.1181.89514411.9586.149913.5682.74459.4791.376796.5692.7598.0890.82204.2195.587463.8296.51344.6695.48122.5398.118221.8398.34202.7498.2220.4298.539201.66100131.7810071.47100Total1,205100730100475100表1CFO在高管團隊中排名的頻數(shù)分布定量數(shù)據(jù)的整理與圖示根據(jù)數(shù)據(jù)統(tǒng)計研究的需要,將原始數(shù)據(jù)按照某種標準化分成不同的組別,分組后的數(shù)據(jù)稱為分組數(shù)據(jù)。定量數(shù)據(jù)分組方法分組方法等距分組異距分組單變量值分組組距分組單變量值分組(要點)將一個變量值作為一組適合于離散變量適合于變量值較少的情況2008年不同行業(yè)中CFO在高管團隊中排名前4的頻數(shù)分布行業(yè)名稱1CFO權(quán)力距23總計林業(yè)623%415%519%26石油和天然氣開采業(yè)618%515%412%34制造業(yè)12419%14823%10216%655電力、蒸汽、熱水的生產(chǎn)和供應(yīng)業(yè)土木工程建筑業(yè)12520%18%518%4%11419%14%5928交通運輸服務(wù)業(yè)1424%712%915%59計算機應(yīng)用服務(wù)業(yè)2129%1014%1521%72零售業(yè)1316%1822%1417%81房地產(chǎn)開發(fā)與經(jīng)營業(yè)1620%1924%1418%79旅館業(yè)617%617%720%35出版業(yè)440%220%220%10綜合類1725%1015%1421%67合計24422%23516%20118%1205組距分組(幾個概念)下限(low

limit):一個組的最小值上限(upper

limit):一個組的最大值組距(class

width):上限與下限之差組中值(class

midpoint):下限與上限之間的中點值,反映各組數(shù)據(jù)的一般水平的代表值下限值+上限值

2組中值=組距分組

(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況

需要遵循“不重不漏”的原則以及

“上組限不在內(nèi)”原則

可采用等距分組,也可采用不等距分組~~~~~分組數(shù)據(jù)的圖示(直方圖的繪制)我一眼就看出來了,銷售量在170~180之間的天數(shù)最多!(天)2015頻

30數(shù)

25105140

150

160

170

180

190

200

210

220

230

240銷售量(臺)某電腦公司銷售量分布的直方圖上市公司ROE頻數(shù)分布分組數(shù)據(jù)—直方圖(直方圖與條形圖的區(qū)別)

條形圖(Bar)是用條形的長度(橫置時)表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的

直方圖(Histogram)是用面積表示各組頻數(shù)的多少,矩形的高度表示每一組的頻數(shù)或百分比,寬度則表示各組的組距,其高度與寬度均有意義

直方圖的各矩形通常是連續(xù)排列,條形圖則是分開排列

條形圖主要用于展示分類數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù)時間序列數(shù)據(jù)—線圖

(例題分析)【例】我國

1991~2003年城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如右表。試繪制線圖¥$1991~2003年城鄉(xiāng)居民家庭人均收入年份城鎮(zhèn)居民農(nóng)村居民19911700.6708.619922026.6784.019932577.4921.619943496.21221.019954283.01577.719964838.91926.119975160.32091.119985425.12162.019995854.02210.3兩個變量間的關(guān)系—二維散點圖(2D

scatterplots)Stata作圖twoway

(scatter

mpg

weight

if

foreign==0)

///(scatter

mpg

weight

if

foreign==1,msymbol(Sh))/*曲線選項,點的類型(Sh表示為大空心正方形)*////subtitle(副標題:11574年美國的國產(chǎn)和進口汽車),

///title(標題:

行駛里程與車重關(guān)系)

/*圖選項:標題*/

////////////ytitle(縱坐標標題:里程)xtitle(橫坐標標題:重量)note(注釋:數(shù)據(jù)來自于美國汽車協(xié)會)text(35

3400"曲線類型:散點圖")//////legend(title(圖例)

label(1

國產(chǎn)車)

label(2

進口車))scheme(s2rcolor)

/*圖樣式*////[graph]

graph-command

(plot-command,plot-options)

(plot-command

,

plot-options)

,

graph-options或者用||連接graph-command定義圖的類型(多變量圖形(如命令twoway),還是單變量圖形(如bar、box、dot、pie),plot-command定義多變量圖形twoway中的曲線類型(如scatter、line、area等),同一個圖中如果有多條曲線可以用括號分開,也可以用“||”分開,曲線有其自身的選項,而整個圖也有其選項。Stata作圖graph

baryvars//bar

chartsgraph

dotyvars//dot

chartsgraph

boxyvars//box-and-whisker

plotsgraph

pievarlists//pie

charts單變量圖形*graph

barclearinput

str16

drink

number

male

female果汁6

1

5礦泉水10

6

4綠茶11

7

4其他8

2

6碳酸飲料15

6

9endgraph

bar

number,over(drink)///

title("顧客與購買的飲料類型")///ytick(0(1)15)ylabel(0(1)15)bar(1,color(blue))/////////b1title("飲料類型")ytitle("購買人數(shù)")Barclearinput

str16

drink

number果汁6

1

5礦泉水10

6

4綠茶11

7

4其他8

2

6碳酸飲料15

6

9endgsort

-numbergraph

bar

number,over(drink,sort(number)descending)///

title("顧客與購買的飲料類型")///ytick(0(1)15)ylabel(0(1)15)bar(1,color(blue))/////////b1title("飲料類型")ytitle("購買人數(shù)")Bar:帕累托圖clearinput

str16

drink

number

male

female果汁6

1

5礦泉水10

6

4綠茶11

7

4其他8

2

6碳酸飲料15

6

9endgraph

bar

male

female,over(drink)///

title("顧客性別與購買的飲料類型")///ytick(0(1)10)ylabel(0(1)10)//////b1title("飲料類型")ytitle("購買人數(shù)")///bar(1,color(blue))bar(2,color(red))//////legend(label(1"男性購買人數(shù)")label(2"女性購買人數(shù)"))Bar:對比條形圖1.

一張好的圖表應(yīng)包括以下基本特征????顯示數(shù)據(jù)讓讀者把注意力集中在圖表的內(nèi)容上,而不是制作圖表的程序上避免歪曲強調(diào)數(shù)據(jù)之間的比較服務(wù)于一個明確的目的有對圖表的統(tǒng)計描述和文字說明5種鑒別圖表優(yōu)劣的準則:一張好的圖表應(yīng)當精心設(shè)計、有助于洞察問題的實質(zhì)使復(fù)雜的觀點得到簡明、確切、高效的闡述能在最短的時間內(nèi)以最少的筆墨給讀者提供最大量的信息是多維的表述數(shù)據(jù)的真實情況合理使用圖表:鑒別圖表優(yōu)劣的準則統(tǒng)計表的結(jié)構(gòu)2002~2003年城鎮(zhèn)居民家庭抽樣調(diào)查資料

表頭項目單位2002年2003年列行標題調(diào)查戶數(shù)平均每戶家庭人口平均每戶就業(yè)人口平均每戶就業(yè)面平均一名就業(yè)者負擔(dān)人數(shù)平均每人全部年收入#可支配收入平均每人消費性支出戶4531748028

標人3.043.01

題人1.581.58

數(shù)%51.97字52.49

資元1.921.91

料元8177.409061.22元7702.808472.20

附加元6029.886510.94合理安排統(tǒng)計表的結(jié)構(gòu)總標題內(nèi)容應(yīng)滿足3W

要求

數(shù)據(jù)計量單位相同時,可放在表的右上角標明,不同時應(yīng)放在每個變量后或單列出一列標明表中的上下兩條橫線一般用粗線,其他線用細線通常情況下,統(tǒng)計表的左右兩邊不封口

表中的數(shù)據(jù)一般是右對齊,有小數(shù)點時應(yīng)以小數(shù)點對齊,而且小數(shù)點的位數(shù)應(yīng)統(tǒng)一對于沒有數(shù)字的表格單元,一般用“—”表示必要時可在表的下方加上注釋統(tǒng)計表的設(shè)計統(tǒng)計表的設(shè)計(比較與選用)表A 某城市居民關(guān)注廣告類型的頻數(shù)分布廣告類型人數(shù)(人)頻率(%)商品廣告11256.0服務(wù)廣告5125.5金融廣告94.5房地產(chǎn)廣告168.0招生招聘廣告105.0其他廣告21.0合計200100統(tǒng)計表的設(shè)計(比較與選用)表B 某城市居民關(guān)注廣告類型的頻數(shù)分布廣告類型人數(shù)(人)頻率(%)商品廣告11256.0服務(wù)廣告5125.5金融廣告94.5房地產(chǎn)廣告168.0招生招聘廣告105.0其他廣告21.0合計200100附:主要期刊的表格樣式在數(shù)據(jù)處理過程中,我們經(jīng)常需要判斷某一事件或事項是首次還是非首次發(fā)行。例如,公司是首虧還是連續(xù)虧損,是首次配股增發(fā)還是非首次配股增發(fā),是首次債券公開發(fā)行還是非首次債券公開發(fā)行(見Stata程序上市公司債券發(fā)行與應(yīng)計盈余管理),事件研究中事件日的標定(見Stata程序:年報披露信息含量研究第(6)部分)。數(shù)據(jù)定位將處理組(treat)的每個樣本分年度和其同行業(yè)的所有其他公司進行合并,然后選擇總資產(chǎn)或營業(yè)收入,ROA或ROE最小的公司最為配對組(matchgroup)。在Stata中,可以通過合并數(shù)據(jù)進行配對,使用非官方的runby、rangejoin、rangestat可以方便地進行簡單配對。數(shù)據(jù)配對有時,一個數(shù)據(jù)庫并不能滿足研究的需要,需要從同一公司或不同公司開發(fā)的不同數(shù)據(jù)庫中調(diào)出數(shù)據(jù),然后將其進行合并。數(shù)據(jù)合并包括橫向合并和縱向合并。橫向合并又包括基于觀測值的合并和基于關(guān)鍵變量的合并,實證研究中,更多的是基于關(guān)鍵變量的合并。對上市公司有關(guān)公司年的研究而言,主要基于關(guān)鍵變量代碼(dm)、年度(nd)進行合并,因此,在不同的數(shù)據(jù)集中,統(tǒng)一關(guān)鍵變量的命名非常關(guān)鍵。數(shù)據(jù)合并在Stata中,通過merge、joinby命令進行橫向合并,以創(chuàng)建一個更寬的數(shù)據(jù)集;通過append命令進行縱

向合并,以創(chuàng)建一個更長的數(shù)據(jù)集。merge命令可以基于關(guān)鍵變量進行一對一(1:1)、一對多(1:m)、多對一(m:1)、多對多(m:m)合并。在默認情況

下,執(zhí)行merge命令合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論