




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第三章 SPSS數(shù)據(jù)的預(yù)處理第1頁,共47頁。為什么要進行數(shù)據(jù)的預(yù)處理在數(shù)據(jù)文件建立之后,通常還需要對分析的數(shù)據(jù)進行必要的預(yù)加工處理,這是數(shù)據(jù)分析過程中必不可少的一個關(guān)鍵步驟。數(shù)據(jù)的預(yù)加工處理服務(wù)于數(shù)據(jù)分析和建模,主要包括以下幾個問題:第2頁,共47頁。 數(shù)據(jù)的排序 變量計算 數(shù)據(jù)選取 計數(shù) 分類匯總 數(shù)據(jù)分組 數(shù)據(jù)預(yù)處理的其他功能:轉(zhuǎn)置、加權(quán)、數(shù)據(jù)拆分、缺失值處理、數(shù)據(jù)排秩、定義變量集。預(yù)處理的內(nèi)容第3頁,共47頁。3.1 數(shù)據(jù)的排序SPSS的數(shù)據(jù)排序是將數(shù)據(jù)編輯窗口中的數(shù)據(jù)按照某個或多個指定變量的變量值升序或降序重新排列。這里的變量也稱為排序變量。排序變量只有一個時,排序稱為單值排序。排序
2、變量有多個時,排序稱為多重排序。多重排序中,第一個指定的排序變量稱為主排序變量,其他依次指定的變量分別稱為第二排序變量、第三排序變量等。多重排列時,數(shù)據(jù)首先按主排列變量值的大小次序排序,然后對哪些具有相同主排序變量值的數(shù)據(jù)值的數(shù)據(jù),再按照第二排序變量值的次序依次排序下去。第4頁,共47頁。數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽,有助于了解數(shù)據(jù)的取值狀況、缺失值數(shù)量的多少等;通過數(shù)據(jù)排序能夠快捷的找到數(shù)據(jù)的最大值和最小值,進而可以計算出數(shù)據(jù)的全距,初步把握和比較數(shù)據(jù)的離散程度;通過數(shù)據(jù)排序能夠快捷地發(fā)現(xiàn)數(shù)據(jù)的異常值,為進一步明確它們是否會對分析產(chǎn)生重要影響提供幫助。數(shù)據(jù)排序的作用第5頁,共47頁。 SPSS數(shù)據(jù)
3、排序的基本操作步驟 (1)選擇菜單DataSort Cases (2)將主排序變量從左邊的列表中選到Sort by框中,并在Sort Order框中選擇按該變量的升序還是降序排序。 (3)如果是多重排序,還要一次指定第二、第三排序變量及相應(yīng)的排序規(guī)則。 數(shù)據(jù)排序的基本操作第6頁,共47頁。在左邊的源變量框中選擇排序變量進入Sort by框。如果選擇2個以上的變量,觀測量的排序結(jié)果與排序變量在Sort by框中的順序有關(guān)。列于首位的為第一排序變量。在Sort Order 欄內(nèi)選擇排序方式升序與降序第7頁,共47頁。 1、數(shù)據(jù)排序是整行數(shù)據(jù)排序,而不是只對某列變量排序; 2、多重排序中指定排序變量
4、的次序很關(guān)鍵。先指定的變量優(yōu)先于后指定的變量。多重排序可以在按某個變量值升序(或降序)排序的同時再按其他變量值降序(或升序)排序; 3、數(shù)據(jù)排序后,原有數(shù)據(jù)的排序次序必然被打亂。因此,在時間序列的數(shù)據(jù)中,如果數(shù)據(jù)中沒有標(biāo)識時間的變量(如年份、月份、季度等),則應(yīng)注意保留數(shù)據(jù)的原始排列數(shù)據(jù)的排列順序,以免發(fā)生混亂。說明第8頁,共47頁。數(shù)據(jù)排序應(yīng)用舉例(練習(xí))利用職工數(shù)據(jù),通過數(shù)據(jù)排序功能分別找到教授和講師基本工資的最大值和最小值第9頁,共47頁。 3.2 變量計算 變量計算是數(shù)據(jù)分析過程中應(yīng)用最廣泛和重要的環(huán)節(jié)之一。它可以處理:數(shù)據(jù)的轉(zhuǎn)換處理:是在原有數(shù)據(jù)的基礎(chǔ)上,計算產(chǎn)生一些含有更豐富信息的
5、新數(shù)據(jù)。例如根據(jù)職工的基本工資、失業(yè)保險、獎金等數(shù)據(jù),計算實際月收入,這些新變量具有更直觀更有效的特點。 對數(shù)據(jù)的原有分布狀態(tài)進行轉(zhuǎn)換:由于數(shù)據(jù)分析和建模中某些模型對數(shù)據(jù)的分布有一定的要求,因此可以利用變量計算對原有數(shù)據(jù)的分布進行轉(zhuǎn)換。第10頁,共47頁。 變量計算的目的SPSS變量計算是在原有數(shù)據(jù)的基礎(chǔ)上,根據(jù)用戶給出的SPSS算術(shù)表達式以及函數(shù),對所有個案或滿足條件的部分個案,計算產(chǎn)生一系列新變量。 (1)變量計算是針對所有個案(或指定的部分個案)的,每個個案都有自己的計算結(jié)果。 (2)變量計算的結(jié)果應(yīng)保存到一個指定變量中,該變量的數(shù)據(jù)類型應(yīng)與計算結(jié)果的數(shù)據(jù)類型相一致。 在變量計算過程中涉
6、及到幾個概念:SPSS算數(shù)表達式、SPSS條件表達式和SPSS函數(shù)。第11頁,共47頁。指出按照什么方法計算變量;SPSS算術(shù)表達式(Numeric Expression)是由常量、變量、算術(shù)運算符、圓括號、函數(shù)等組成的式子。字符型常量應(yīng)當(dāng)用引號括起來變量是指那些已存在于數(shù)據(jù)編輯窗口中的原有變量算術(shù)運算符主要包括、*、/、*(乘方)操作的對象的數(shù)據(jù)類型為數(shù)值型。注意運算順序。在同一算術(shù)表達式中的常量及變量,數(shù)據(jù)類型應(yīng)該一致,否則無法計算 SPSS算術(shù)表達式第12頁,共47頁。在變量計算中通常要求對不同的個案分別按照不同的方法進行計算,于是就需要通過一定的方式來指定個案;SPSS條件表達式是一個
7、對條件進行判斷的式子。其結(jié)果有兩種取值:如果判斷條件成立,則結(jié)果為真;如果判斷條件不成立,則結(jié)果為假。條件表達式包括簡單條件表達式和復(fù)合條件表達式。 SPSS條件表達式第13頁,共47頁。(1)簡單條件表達式 由關(guān)系運算符、常量、變量以及算術(shù)表達式等組成的式子。其中關(guān)系運算符包括、。(nl35)(2)復(fù)合條件表達式 又稱邏輯表達式,是由邏輯運算符號、圓括號和簡單條件表達式等組成的式子。其中,邏輯運算符號包括&或AND(并且)、|或OR(或者)、或NOT(非)。NOT的運算優(yōu)先級最高,其次是AND,最低是OR??梢酝ㄟ^圓括號改變運算的優(yōu)先級。(nl=35)and not (zc3)第14頁,共4
8、7頁。SPSS函數(shù)是事先編好并存儲在SPSS軟件中,能夠?qū)崿F(xiàn)某些特定計算任務(wù)的一段計算機程序。這些程序都有各自的名字稱為函數(shù)名。執(zhí)行這些程序段得到的計算結(jié)果稱為函數(shù)值。 函數(shù)書寫的具體形式為:函數(shù)名(參數(shù)) SPSS函數(shù)第15頁,共47頁。 其中,函數(shù)名是SPSS已經(jīng)規(guī)定好的,參數(shù)可以是常量(字符型常量應(yīng)用引號括起來),也可以是變量或算術(shù)表達式。參數(shù)可能是一個,也可能是多個,各參數(shù)之間用逗號分隔。 SPSS函數(shù)大致可以分成八大類:算術(shù)函數(shù)、統(tǒng)計函數(shù)、分布函數(shù)、邏輯函數(shù)、字符串函數(shù)、缺失值函數(shù)、日期函數(shù)和其他函數(shù)。 第16頁,共47頁。SPSS函數(shù)算術(shù)函數(shù) Abs() sqrt() rnd()
9、trunc() mod()統(tǒng)計函數(shù)mean() sd() sum() max() min()分布函數(shù)normal(x) uniform(x) 邏輯函數(shù)range() any()字符串函數(shù)index(s1,s2) length(s) lower(s)缺失值函數(shù)missing(x),x為數(shù)值型變量日期時間函數(shù)Data.dmy(d,m,y)其他函數(shù)Number(s,格式)第17頁,共47頁。(1)選擇菜單TransformCompute,彈出Compute Variable對話框如下:變量計算的基本操作第18頁,共47頁。(2)在Target框中輸入存放計算結(jié)果的變量名。該變量可以是一個新變量,也可
10、以是已經(jīng)存在的變量。如果指定存放計算結(jié)果的變量為新變量,SPSS會自動創(chuàng)建它;如果指定產(chǎn)生的變量已經(jīng)存在,SPSS會提問是否以計算結(jié)果覆蓋原有值。新的變量默認為數(shù)值型,用戶可以根據(jù)需要單擊Type&Label按鈕修改,還可以對新變量加變量名標(biāo)簽。(3)在Numeric Expression框給出SPSS算術(shù)表達式。可以手工輸入,也可以按窗口的按鈕以及函數(shù)下拉菜單輸入。第19頁,共47頁。(4)如果希望對符合一定條件的個案進行變量計算,則單擊If按鈕,出現(xiàn)下面的窗口,選擇Include if case satisfies condition選項,然后輸入條件表達式。對不滿足條件的個案,將不進行變
11、量值計算,對新變量取值為系統(tǒng)缺失值。第20頁,共47頁。注意:如果指定存放的計算結(jié)果的變量為新變量,SPSS會自動創(chuàng)建它;如果指定產(chǎn)生的變量已經(jīng)產(chǎn)生,SPSS會提示用戶是否一計算的新值覆蓋對不滿足條件的個案,SPSS不進行變量計算,對新變量,取值為系統(tǒng)缺失值;對已有舊變量,變量值保持不變。 第21頁,共47頁。 例:利用職工基本情況數(shù)據(jù),依據(jù)職稱級別計算實發(fā)工資。假設(shè)職工的工資分別上調(diào)50。變量計算的應(yīng)用舉例第22頁,共47頁。3.3 數(shù)據(jù)選取數(shù)據(jù)選取就是根據(jù)分析的需要,從已收集到的大批量數(shù)據(jù)(總體)中按照一定的規(guī)則抽取部分數(shù)據(jù)(樣本)參與分析的過程,通常也稱為抽樣。 SPSS可根據(jù)指定的抽樣
12、方法從數(shù)據(jù)編輯窗口中選出部分樣本以實現(xiàn)數(shù)據(jù)選取,提高效率與適應(yīng)模型檢驗的需要,這樣后面的分析操作就只針對選出的數(shù)據(jù),直到用戶取消這種選取為止。第23頁,共47頁。(1)選取全部數(shù)據(jù)(All cases)(2)按指定條件選?。?If condition is satisfied ) SPSS要求用戶以條件表達式給出數(shù)據(jù)選取的條件,SPSS將自動對數(shù)據(jù)編輯窗口中的所有個案進行條件判斷。那些滿足條件的個案,即條件判斷為真的個案將被自動選取出來,而那些條件判斷為假的個案則不被選中。數(shù)據(jù)選取的基本方式第24頁,共47頁。(3)隨機抽樣( Random sample of cases ),即對數(shù)據(jù)編輯窗口
13、中的所有個案進行隨機篩選,包括如下兩種方式: 第一,近似抽樣(Approximately) 近似抽樣要求用戶給出一個百分比數(shù)值,SPSS將按照這個比例自動從數(shù)據(jù)編輯窗口中隨機抽取相應(yīng)百分比數(shù)目的個案。 注:由于SPSS在樣本抽樣方面的技術(shù)特點,抽取出的個案總數(shù)不一定恰好精確地等于用戶指定的百分比數(shù)目,會有小的偏差,因而稱為近似抽樣。第25頁,共47頁。 第二,精確抽樣(Exactly) 精確抽樣要求用戶給出兩個參數(shù)。第一個參數(shù)是希望選取的個案數(shù),第二個參數(shù)是指定在前幾個個案中選取。SPSS自動在數(shù)據(jù)編輯窗口的前若干個個案中隨機精確地抽出相應(yīng)個數(shù)的個案來。第26頁,共47頁。(4)選取某一區(qū)域內(nèi)
14、的樣本( Based on time or case range ),即選取數(shù)據(jù)編輯窗口中樣本號在指定范圍內(nèi)的所有個案,要求給出這個范圍的上、下界個案號碼。這種抽樣方法適用于時間序列數(shù)據(jù)。(5)通過過濾變量選取樣本( Use filter variable ),即依據(jù)過濾變量的取值進行樣本選取。要求指定一個變量作為過濾變量,變量值為非0或非系統(tǒng)缺失值的個案將被選中。這種方法通常用于排除包含系統(tǒng)缺失值的個案。第27頁,共47頁。說明: (1)完成數(shù)據(jù)選取后,以后的SPSS分析操作僅針對那些被選中的個案直到用戶再次改變數(shù)據(jù)的選取為止。 (2)采用指定條件選取和隨機抽樣方法進行數(shù)據(jù)選取后,SPSS將
15、在數(shù)據(jù)編輯窗口中自動生成一個名為filter_$的新變量,取值為1或0。1表示本個案被選中,0表示未被選中。該變量是SPSS產(chǎn)生的中間變量,如果刪除它則自動取消樣本抽樣。第28頁,共47頁。(1)選擇菜單DataSelect cases(2)根據(jù)分析需要選擇數(shù)據(jù)選取方法(3)Unselected cases are指定對未選中個案的處理方式Filtered表示在未被選中的個案號碼上打一個“/”標(biāo)記;Deleted表示將未被選中的個案從數(shù)據(jù)編輯窗口中刪除。 數(shù)據(jù)選取的基本操作第29頁,共47頁。Select Cases對話框第30頁,共47頁。 利用職工數(shù)據(jù),根據(jù)不同的分析要求采用不同的數(shù)據(jù)選取
16、方法抽樣:(1)如果只希望分析教授的情況,可以通過數(shù)據(jù)選擇功能采用指定條件的抽樣方法進行抽樣;(2)如果只希望對其中的70的數(shù)據(jù)進行分析,可通過數(shù)據(jù)選擇功能采用隨機抽樣中的近似抽樣方法進行抽樣。數(shù)據(jù)選取的應(yīng)用舉例第31頁,共47頁。3.4 計數(shù)計數(shù)目的 SPSS實現(xiàn)的計數(shù)是對所有個案或滿足某條件的部分個案,計算若干變量中有幾個變量的值落在指定的區(qū)間內(nèi),并將計數(shù)結(jié)果存入一個新變量中的過程。例如對大學(xué)畢業(yè)班學(xué)生的成績進行綜合測評時,可以依次計算每個學(xué)生的若干門課程中有幾門課程得了優(yōu),有幾門課程得了良,有幾門課程不及格。 SPSS實現(xiàn)計數(shù)的關(guān)鍵步驟是:指定哪些變量參與計數(shù),計數(shù)的結(jié)果存入哪個新變量中
17、指定計數(shù)區(qū)間(尤為關(guān)鍵) 第32頁,共47頁。 SPSS中的計數(shù)區(qū)間可以有以下幾種描述形式:單個變量值(Value)系統(tǒng)缺失值(System-missing)系統(tǒng)缺失值或用戶缺失值( System or user-missing)給定最大值和最小值的區(qū)間(n through m)小于等于某指定值的區(qū)間(Lowest through n)大于等于某指定值的區(qū)間(n through highest)計數(shù)區(qū)間第33頁,共47頁。 上述后三個計數(shù)區(qū)間很容易理解。例如評價學(xué)生成績,成績?yōu)閮?yōu)的計數(shù)區(qū)間可以指定為90 through highest,成績?yōu)榱嫉挠嫈?shù)區(qū)間指定為80 through 89,不及格
18、的計數(shù)區(qū)間指定為Lowest through 59。 前三個計數(shù)區(qū)間實際上是一些離散的數(shù)據(jù)點,嚴格講并不是區(qū)間,但SPSS仍將其歸在廣義區(qū)間的范疇內(nèi),目的是方便一些其他的應(yīng)用。第34頁,共47頁。(1)選擇菜單TransformCount,出現(xiàn)如下窗口:3.4 計數(shù)的基本操作第35頁,共47頁。(2)將參與計數(shù)的變量選到 Numeric Variables框中(3)在Target Variable框中輸入存放計數(shù)結(jié)果的變量名,并在Target Label框中輸入相應(yīng)的變量名標(biāo)簽。(4)單擊Define Values按鈕定義計數(shù)區(qū)間,出現(xiàn)如下圖窗口:第36頁,共47頁。 通過單擊Add、Chan
19、ge、Remove按鈕完成計數(shù)區(qū)間的增加、修改和刪除。第37頁,共47頁。(5)如果僅希望對滿足某條件的個案進行計數(shù),則單擊If按鈕并輸入相應(yīng)的SPSS條件表達式。否則,本步可略去。第38頁,共47頁。利用成績數(shù)據(jù)分析兩們是優(yōu)的人數(shù)。計數(shù)的應(yīng)用舉例第39頁,共47頁。3.5 分類匯總分類匯總的目的 分類匯總是按照某分類變量進行分類匯總計算。 例如:某企業(yè)希望了解本企業(yè)不同學(xué)歷職工的基本工資上是否存在較大差距。最簡單的做法就是分類匯總,即將職工按學(xué)歷進行分類,分別計算不同學(xué)歷職工的平均工資,然后可對平均工資進行比較。第40頁,共47頁。 再例如,某商廈希望分析假日周內(nèi)不同職業(yè)和不同年齡段的顧客對某商品的“打折促銷”反應(yīng)是否存在較大差異,用以分析不同消費群體的消費心理。最初步的分析可以是分別計算不同職業(yè)中不同年齡段顧客的平均消費金額和平均消費金額差異程度(標(biāo)準(zhǔn)差),并對它們進行比較。這個過程也可以通過分類匯總過程完成。第41頁,共47頁。 SPSS實現(xiàn)分類匯總涉及兩個主要方面:按照哪個變量(如上例中的學(xué)歷、職業(yè)和年齡段)進行分類對哪個變量(如上例中的基本工資、消費金額)進行匯總,并指定對匯總變量計算哪些統(tǒng)計量(如上例
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- JJF 2201-2025膠體金免疫層析分析儀校準(zhǔn)規(guī)范
- JJF 2197-2025頻標(biāo)比對器校準(zhǔn)規(guī)范
- 健身俱樂部合同范本
- 分成合同范本上樣
- 蝦皮合作合同范本
- 代家出租民房合同范本
- 企業(yè)股票承銷合同范本
- 加盟福田汽車合同范本
- 全新拖拉機買賣合同范本
- 獸藥欠賬銷售合同范本
- 2025年湘教版二年級美術(shù)下冊計劃與教案
- GB/T 4706.30-2024家用和類似用途電器的安全第30部分:廚房機械的特殊要求
- 2024年岳陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案解析
- 消防安全管理制度完整版完整版
- 《朝天子詠喇叭》教學(xué)設(shè)計
- 《金融學(xué)基礎(chǔ)》實訓(xùn)手冊
- 稅收基礎(chǔ)知識考試題庫
- 1t燃氣蒸汽鍋爐用戶需求(URS)(共13頁)
- 廣發(fā)證券分支機構(gòu)人員招聘登記表
- 機電一體化系統(tǒng)設(shè)計課件姜培剛[1]
- 《質(zhì)量管理小組活動準(zhǔn)則》2020版_20211228_111842
評論
0/150
提交評論