第八章資料處理史亞蕾_第1頁(yè)
第八章資料處理史亞蕾_第2頁(yè)
第八章資料處理史亞蕾_第3頁(yè)
第八章資料處理史亞蕾_第4頁(yè)
第八章資料處理史亞蕾_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(優(yōu)選)第八章資料處理史亞蕾現(xiàn)在是1頁(yè)\一共有56頁(yè)\編輯于星期二調(diào)查資料的整理的主要內(nèi)容

原始資料的審核和復(fù)查1

數(shù)據(jù)清理3

統(tǒng)計(jì)表與統(tǒng)計(jì)圖4

資料轉(zhuǎn)化與錄入2現(xiàn)在是2頁(yè)\一共有56頁(yè)\編輯于星期二第一節(jié)原始資料的審核與復(fù)查1、資料的審核

定義:它是指研究者對(duì)調(diào)查所收集回的原始資料(主要是問卷)進(jìn)行初步的審查和核實(shí),校正錯(cuò)填、誤填的答案,剔除亂填、空白和嚴(yán)重缺答的廢卷目的:使得原始資料具有較好的準(zhǔn)確性、完整性和真實(shí)性,從而為后續(xù)資料整理錄入與統(tǒng)計(jì)分析工作打下較好的基礎(chǔ)?,F(xiàn)在是3頁(yè)\一共有56頁(yè)\編輯于星期二檢查出文件資料中存在的問題重新向被調(diào)查者核實(shí)

資料的審核工作資料審核有兩種不同的做法:一種是實(shí)地審核;另一種是系統(tǒng)審核或集中審核現(xiàn)在是4頁(yè)\一共有56頁(yè)\編輯于星期二實(shí)地審核:在調(diào)查的過程中進(jìn)行,即邊調(diào)查邊審核優(yōu)點(diǎn):特別及時(shí),且效果較好;缺點(diǎn):要求調(diào)查工作的組織和安排要特別仔細(xì),調(diào)查員個(gè)人處理各種情況的能力要比較強(qiáng)現(xiàn)在是5頁(yè)\一共有56頁(yè)\編輯于星期二集中審核:先將調(diào)查資料全部收集回來,然后再集中時(shí)間進(jìn)行審核優(yōu)點(diǎn):調(diào)查工作便于統(tǒng)一組織安排和管理,審核工作也可以統(tǒng)一在研究者的指導(dǎo)下進(jìn)行,審核的標(biāo)準(zhǔn)比較一致,檢查的質(zhì)量也相對(duì)好一些;缺點(diǎn):整個(gè)調(diào)查工作的周期則會(huì)相對(duì)拉長(zhǎng),少數(shù)個(gè)案的重新詢問和核實(shí)工作有時(shí)因時(shí)間相隔較長(zhǎng)或調(diào)查地點(diǎn)較遠(yuǎn)而無法落實(shí)?,F(xiàn)在是6頁(yè)\一共有56頁(yè)\編輯于星期二

2、資料的復(fù)查定義:指的是研究者在調(diào)查資料收回后,又由其他人對(duì)所調(diào)查的樣本中的一部分個(gè)案進(jìn)行第二次調(diào)查,以檢查和核實(shí)第一次調(diào)查的質(zhì)量基本做法:從原來的調(diào)查員所調(diào)查過的樣本中,隨機(jī)抽取5%-15%的個(gè)案重新進(jìn)行調(diào)查調(diào)查內(nèi)容:一方面核實(shí)原來的調(diào)查員是否真的對(duì)個(gè)案進(jìn)行過調(diào)查;另一方面可將兩次調(diào)查的結(jié)果進(jìn)行對(duì)比,以檢查第一次調(diào)查的質(zhì)量現(xiàn)在是7頁(yè)\一共有56頁(yè)\編輯于星期二通過審核和復(fù)查,研究者可以發(fā)現(xiàn)并糾正原始資料中所存在的一些錯(cuò)誤,可以剔除一些無法進(jìn)行再調(diào)查但又有明顯錯(cuò)誤的問卷,還可以普遍了解整個(gè)資料收集工作的質(zhì)量,從而對(duì)資料的真實(shí)性和準(zhǔn)確性具有更大的信心。現(xiàn)在是8頁(yè)\一共有56頁(yè)\編輯于星期二第二節(jié)資料轉(zhuǎn)換與錄入1、問卷資料轉(zhuǎn)換編碼手冊(cè):為了減少資料轉(zhuǎn)換工作中的誤差,保證數(shù)據(jù)的質(zhì)量,研究者需要編制一份編碼手冊(cè)(也稱編碼簿)發(fā)給從事問卷資料轉(zhuǎn)換工作的人員,以便他們按編碼手冊(cè)的要求,統(tǒng)一進(jìn)行資料轉(zhuǎn)換工作現(xiàn)在是9頁(yè)\一共有56頁(yè)\編輯于星期二在編碼手冊(cè)中,研究者要將需要編碼的項(xiàng)目和問題一一列出,逐一規(guī)定它們的代碼、寬度、欄碼、簡(jiǎn)要名稱、答案賦值方式及其他特殊規(guī)定等等。整個(gè)編碼手冊(cè)的格式要規(guī)范統(tǒng)一,指示要明確,且容易理解,便于操作?,F(xiàn)在是10頁(yè)\一共有56頁(yè)\編輯于星期二

現(xiàn)在是11頁(yè)\一共有56頁(yè)\編輯于星期二

現(xiàn)在是12頁(yè)\一共有56頁(yè)\編輯于星期二“項(xiàng)目名稱”所列的是問卷中的問題或有關(guān)項(xiàng)目;“變量名”則是調(diào)查問卷中所實(shí)際測(cè)量的一個(gè)變量;“含義”是簡(jiǎn)要地指出該變量的內(nèi)涵,它往往是變量的核心內(nèi)容的反映;“答案賦值”一項(xiàng)十分關(guān)鍵,它可以說是編碼手冊(cè)的真正內(nèi)容。在這一欄中,研究者要詳細(xì)地標(biāo)明每一種答案的賦值安排,以及某些特殊形式的答案賦值方法現(xiàn)在是13頁(yè)\一共有56頁(yè)\編輯于星期二2、數(shù)據(jù)錄入經(jīng)過前述的資料轉(zhuǎn)換處理,調(diào)查所收回的問卷中的一個(gè)個(gè)具體答案都已成功地、系統(tǒng)地轉(zhuǎn)換成了由0-9這10個(gè)阿拉伯?dāng)?shù)字構(gòu)成的數(shù)碼,接下來的任務(wù)就是將這些數(shù)碼輸入計(jì)算機(jī)內(nèi),以便進(jìn)行統(tǒng)計(jì)分析了。這就是數(shù)據(jù)錄入的工作現(xiàn)在是14頁(yè)\一共有56頁(yè)\編輯于星期二現(xiàn)在是15頁(yè)\一共有56頁(yè)\編輯于星期二數(shù)據(jù)錄入的方式主要有兩種:一種是直接從問卷上將編好碼的數(shù)據(jù)輸入計(jì)算機(jī);另一種是先將問卷上編好碼的數(shù)據(jù)轉(zhuǎn)錄到專門的登錄表上,然后再?gòu)牡卿洷砩蠈?shù)據(jù)輸入計(jì)算機(jī)。登錄表的橫欄為問題及變量名,且都有給定的欄碼,縱欄為不同的個(gè)案記錄數(shù)據(jù)現(xiàn)在是16頁(yè)\一共有56頁(yè)\編輯于星期二現(xiàn)在是17頁(yè)\一共有56頁(yè)\編輯于星期二目前運(yùn)用較普遍的統(tǒng)計(jì)分析軟件主要有SPSS,SAS等,尤其是SPSS應(yīng)用更為廣泛。從目前情況看,研究者主要采用兩種方法來輸入數(shù)據(jù)。一種方法是直接在SPSS軟件上輸入數(shù)據(jù)。另一類是采用比較專門的數(shù)據(jù)庫(kù)管理軟件,如FOXBASE,Excel等,兩種方法各有特點(diǎn)現(xiàn)在是18頁(yè)\一共有56頁(yè)\編輯于星期二現(xiàn)在是19頁(yè)\一共有56頁(yè)\編輯于星期二在SPSS中輸入比較直觀,打開SPSS后,顯示的是一個(gè)數(shù)據(jù)錄入窗口,每一個(gè)縱欄表示一個(gè)變量,每一橫行代表一個(gè)個(gè)案。輸入前需要定義變量,做法是先用鼠標(biāo)點(diǎn)擊表下面的Variableview,進(jìn)入到到變量定義窗口(橫行上面分別為變量名、變量類型、變量寬度、小數(shù)點(diǎn)位數(shù)、變量標(biāo)簽等、縱欄的1、2、3等表示個(gè)案)再用鼠標(biāo)點(diǎn)擊表下方Dataview,返回?cái)?shù)據(jù)錄入窗口?,F(xiàn)在是20頁(yè)\一共有56頁(yè)\編輯于星期二現(xiàn)在是21頁(yè)\一共有56頁(yè)\編輯于星期二這時(shí)就可以第一行開始,直接將每一個(gè)個(gè)案的數(shù)據(jù)逐行一個(gè)一個(gè)地敲到方格中,數(shù)據(jù)錄完后存盤。然后就可以隨時(shí)調(diào)用作分析了。但是,直接輸入有時(shí)候很容易出錯(cuò),且輸入時(shí)也不容易發(fā)現(xiàn);而另一類專門性的數(shù)據(jù)庫(kù)管理軟件則往往更能保證輸入的正確性,更能減少輸入數(shù)據(jù)時(shí)產(chǎn)生的差錯(cuò)現(xiàn)在是22頁(yè)\一共有56頁(yè)\編輯于星期二由于一項(xiàng)問卷調(diào)查的數(shù)據(jù)總量(每份問卷的欄碼總數(shù)乘以全部問卷,即為輸入數(shù)碼或字符總數(shù))往往是很大的,故實(shí)踐中常常是有多人共同輸入來完成的。因此,研究者必須對(duì)數(shù)據(jù)的輸入工作進(jìn)行精心組織和安排。具體說來,他要做好以下幾方面工作:現(xiàn)在是23頁(yè)\一共有56頁(yè)\編輯于星期二①挑選和培訓(xùn)輸入人員。數(shù)據(jù)輸入人員應(yīng)該是熟悉計(jì)算機(jī)操作,熟悉調(diào)查問卷的人,通常可從大學(xué)生調(diào)查員中挑選。對(duì)選出的錄入人員要進(jìn)行一定的培訓(xùn),熟悉輸入方式和具體軟件,并合理分工和加強(qiáng)管理?,F(xiàn)在是24頁(yè)\一共有56頁(yè)\編輯于星期二②統(tǒng)一規(guī)定數(shù)據(jù)輸入格式和數(shù)據(jù)文件名。由于多人輸入,每個(gè)輸入人員應(yīng)采取統(tǒng)一的輸入格式,并各自規(guī)定自己存放數(shù)據(jù)的文件名,以防與他人輸入的數(shù)據(jù)格式不同或發(fā)生混淆和丟失。尤其是輸入格式一旦確定,每個(gè)輸入人員都必須嚴(yán)格遵守執(zhí)行,否則以后很難處理,這一點(diǎn)十分關(guān)鍵。現(xiàn)在是25頁(yè)\一共有56頁(yè)\編輯于星期二③每個(gè)輸入人員獨(dú)立完成各自所輸?shù)哪且徊糠謫柧?,不同輸入人員的問卷相互之間,以及同一個(gè)輸入人員已輸和未輸?shù)膯柧碇g,千萬不要混淆搞亂,以免造成漏輸或重復(fù)輸入,影響數(shù)據(jù)質(zhì)量。④在每個(gè)輸入人員完成各自所負(fù)責(zé)的問卷輸入任務(wù)后,由研究者把他們的數(shù)據(jù)合起來形成一個(gè)總的數(shù)據(jù)文件,以供統(tǒng)計(jì)分析時(shí)調(diào)用。現(xiàn)在是26頁(yè)\一共有56頁(yè)\編輯于星期二第三節(jié)數(shù)據(jù)清理現(xiàn)在是27頁(yè)\一共有56頁(yè)\編輯于星期二1、有效范圍清理對(duì)于問卷中的任何一個(gè)變量來說,它的有效的編碼值往往都有某種范圍,而當(dāng)數(shù)據(jù)中的數(shù)字超出了這一范圍時(shí),可以肯定這個(gè)數(shù)字一定是錯(cuò)誤的現(xiàn)在是28頁(yè)\一共有56頁(yè)\編輯于星期二當(dāng)然,這種錯(cuò)誤數(shù)字的出現(xiàn)可以發(fā)生在資料處理的每一個(gè)階段。首先,發(fā)生在原始問卷中的回答上;其次,發(fā)生在編碼員對(duì)問卷的編碼結(jié)果上;第三,發(fā)生在計(jì)算機(jī)錄入員輸入數(shù)據(jù)的過程中?,F(xiàn)在是29頁(yè)\一共有56頁(yè)\編輯于星期二要檢查出所有不符合要求的超出有效范圍的編碼值,我們只需在計(jì)算機(jī)上用SPSS軟件(或其他軟件)執(zhí)行一條統(tǒng)計(jì)各變量頻數(shù)分布的命令,計(jì)算機(jī)很快就給出下列形式的結(jié)果:現(xiàn)在是30頁(yè)\一共有56頁(yè)\編輯于星期二現(xiàn)在是31頁(yè)\一共有56頁(yè)\編輯于星期二找有問題的個(gè)案的方法同樣離不開計(jì)算機(jī)及SPSS軟件的運(yùn)用。在SPSS軟件中,我們先打開數(shù)據(jù)文件,然后執(zhí)行“查找數(shù)據(jù)”命令。選擇數(shù)據(jù)中的A5欄,讓計(jì)算機(jī)逐個(gè)查找在這一變量欄中編碼值為6的那9個(gè)個(gè)案。再根據(jù)這9個(gè)個(gè)案的編號(hào)找出原始問卷,進(jìn)行核對(duì)現(xiàn)在是32頁(yè)\一共有56頁(yè)\編輯于星期二如果原始問卷上的回答是2,而編碼為6,則是編碼員的錯(cuò)誤,將數(shù)據(jù)中的這個(gè)6改為2即可;如果原始問卷上是2,編碼也是2,則是錄入員的錯(cuò)誤,也直接將數(shù)據(jù)改正即可;如果核對(duì)時(shí),發(fā)現(xiàn)是原始問卷中的填答錯(cuò)誤,則只能將該個(gè)案在這一變量上的回答記為0(即無回答),作為缺省值處理現(xiàn)在是33頁(yè)\一共有56頁(yè)\編輯于星期二2、邏輯一致性清理其基本思路是依據(jù)問卷中的問題相互之間所存在的某種內(nèi)在的邏輯聯(lián)系,來檢查前后數(shù)據(jù)之間的合理性?,F(xiàn)在是34頁(yè)\一共有56頁(yè)\編輯于星期二比如,一項(xiàng)對(duì)青年夫婦進(jìn)行的社會(huì)調(diào)查中,有這樣一對(duì)相倚問題。其過濾性問題是:“你們有孩子嗎?”答案為“有(編碼為1”和“沒有(編碼為2。而后續(xù)性問題是:“請(qǐng)問你們的孩子今年多大了?”那么,對(duì)于那些在前一問題中的回答“沒有”的人(即編碼為2的人),在后一問題中的回答應(yīng)該是空白(即為缺省值,用0表示)。如果在這些人中,有的人的第二個(gè)答案上出現(xiàn)了4、6等數(shù)字,則這些個(gè)案的數(shù)據(jù)就可能有毛病現(xiàn)在是35頁(yè)\一共有56頁(yè)\編輯于星期二3、數(shù)據(jù)質(zhì)量抽查采用隨機(jī)抽樣的方法,從樣本的全部個(gè)案中,抽取一部分個(gè)案,進(jìn)行校對(duì)工作。用這一部分個(gè)案校對(duì)的結(jié)果,來估計(jì)和評(píng)價(jià)全部數(shù)據(jù)的質(zhì)量。根據(jù)樣本中個(gè)案數(shù)目的多少,以及每份問卷中變量數(shù)和總字符數(shù)的多少,研究者往往抽取2%-5%的個(gè)案進(jìn)行校對(duì)現(xiàn)在是36頁(yè)\一共有56頁(yè)\編輯于星期二一項(xiàng)調(diào)查樣本規(guī)模為1000個(gè)個(gè)案,一份問卷的字符數(shù)(數(shù)據(jù)的個(gè)數(shù))為200。研究者從中隨機(jī)抽取3%的個(gè)案(即30份問卷)進(jìn)行對(duì)照檢查,結(jié)果發(fā)現(xiàn)有2個(gè)字符輸入錯(cuò)誤,這樣可知錯(cuò)誤率在0.03%左右。也就是說在總共20萬個(gè)數(shù)據(jù)中,大約有60個(gè)左右的錯(cuò)誤?,F(xiàn)在是37頁(yè)\一共有56頁(yè)\編輯于星期二第四節(jié)統(tǒng)計(jì)表與統(tǒng)計(jì)圖現(xiàn)在是38頁(yè)\一共有56頁(yè)\編輯于星期二1、統(tǒng)計(jì)表的構(gòu)成與制作(1)統(tǒng)計(jì)表的構(gòu)成從統(tǒng)計(jì)表的結(jié)構(gòu)上看,通常都由表號(hào)、總標(biāo)題、橫行標(biāo)題、縱欄標(biāo)題、數(shù)字注釋和資料來源等要素所構(gòu)成表號(hào):表的序號(hào),位于表頂端左角。其作用是便于指示和查找現(xiàn)在是39頁(yè)\一共有56頁(yè)\編輯于星期二總標(biāo)題:是表的名稱,它位于表的頂端,緊接在表號(hào)后面。橫行標(biāo)題:是橫行的名稱,又稱橫標(biāo)目。它位于表的左側(cè),對(duì)于頻數(shù)統(tǒng)計(jì)表來說,橫行標(biāo)題一般用來統(tǒng)計(jì)所要說明的主題;而對(duì)于交互分類統(tǒng)計(jì)表來說,則表示其中一個(gè)變量類別現(xiàn)在是40頁(yè)\一共有56頁(yè)\編輯于星期二縱欄標(biāo)題:是縱欄的名稱,又稱縱標(biāo)目,位于表的最上一格。對(duì)于一般的頻數(shù)統(tǒng)計(jì)表,它指示調(diào)查指標(biāo)或統(tǒng)計(jì)指標(biāo)的名稱;而對(duì)于交互分類表來說,它也是表示其中的一個(gè)變量的類別數(shù)字:是統(tǒng)計(jì)表的實(shí)質(zhì)性內(nèi)容,是對(duì)調(diào)查資料進(jìn)行統(tǒng)計(jì)匯總、整理和計(jì)算的結(jié)果體現(xiàn)。它位于由橫行標(biāo)題與縱欄標(biāo)題所包圍的范圍中?,F(xiàn)在是41頁(yè)\一共有56頁(yè)\編輯于星期二注釋或資料來源是對(duì)表中資料的一種說明,位于表的下端。現(xiàn)在是42頁(yè)\一共有56頁(yè)\編輯于星期二(2)統(tǒng)計(jì)表的制作統(tǒng)計(jì)表制作原則是:科學(xué)、規(guī)范、簡(jiǎn)明、實(shí)用、美觀。具地說,在制作統(tǒng)計(jì)表時(shí),應(yīng)注意以下幾個(gè)方面:首先,表的標(biāo)題要簡(jiǎn)短明了,其次,表的縱欄標(biāo)題與橫行標(biāo)題要準(zhǔn)確反映變量取值的含義,現(xiàn)在是43頁(yè)\一共有56頁(yè)\編輯于星期二第三,表中的數(shù)據(jù)資料必須注明計(jì)量單位,現(xiàn)在是44頁(yè)\一共有56頁(yè)\編輯于星期二第四,對(duì)于一般頻數(shù)分布表,則應(yīng)列出合計(jì)欄,以便獲得整體情況的資料??傆?jì)或合計(jì)欄往往放在表的最下一格;對(duì)于交互分類表,則將各種專門的統(tǒng)計(jì)量放在表的最下面一格現(xiàn)在是45頁(yè)\一共有56頁(yè)\編輯于星期二最后,各種表格均應(yīng)以橫線為主,能夠不用豎線則盡量不用。即便需要用豎線的表格,也應(yīng)是開口式的,即表的左右兩端不劃豎線在不致混淆的情況下,也可將其豎線去掉,成為以下形式現(xiàn)在是46頁(yè)\一共有56頁(yè)\編輯于星期二而交互分類表則可制成以下表8-7形式除表的最上面一條橫線與最下面一條橫線用粗線外,其余橫線均用細(xì)線現(xiàn)在是47頁(yè)\一共有56頁(yè)\編輯于星期二2、統(tǒng)計(jì)圖統(tǒng)計(jì)圖具有直觀、形象、一目了然、通俗易懂的特點(diǎn),它主要用于調(diào)查資料初級(jí)統(tǒng)計(jì)結(jié)果的描述,特別適合于對(duì)調(diào)查總體的內(nèi)部構(gòu)成進(jìn)行描述,對(duì)不同現(xiàn)象的分布進(jìn)行比較以及對(duì)現(xiàn)象變化的趨勢(shì)進(jìn)行展示等。統(tǒng)計(jì)圖主要有條形圖、圓形圖和折線圖三種現(xiàn)在是48頁(yè)\一共有56頁(yè)\編輯于星期二(1)條形圖條形圖又稱矩形圖,它是以寬度相等、長(zhǎng)度不等的長(zhǎng)條來表示不同的統(tǒng)計(jì)數(shù)字,如表示頻數(shù)或百分比的多少等等現(xiàn)在是49頁(yè)\一共有56頁(yè)\編輯于星期二簡(jiǎn)單條形圖現(xiàn)在是50頁(yè)\一共有56頁(yè)\編輯于星期二復(fù)雜條形圖:現(xiàn)在是51頁(yè)\一共有56頁(yè)\編輯于星期二(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論