《SPSS數(shù)據(jù)的預(yù)處理》PPT課件.ppt

上傳人：x*** IP屬地：四川上傳時間：2020-11-03 格式：PPT 頁數(shù)：30 大?。?86.01KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第3章 SPSS數(shù)據(jù)的預(yù)處理,本章重點：數(shù)據(jù)的排序選擇觀測量變量計算數(shù)據(jù)選取,計數(shù) 分類匯總數(shù)據(jù)分組數(shù)據(jù)預(yù)處理的其他功能,3.1 數(shù)據(jù)的排序,數(shù)據(jù)排序的目的及注意事項數(shù)據(jù)排序?qū)嵗?3.1.1 數(shù)據(jù)排序的目的及注意事項,數(shù)據(jù)排序是指將數(shù)據(jù)編輯窗口中的數(shù)據(jù)按照一個或多個指定變量的變量值升序或降序重新排列。這里所說的變量也叫做排序變量。排序變量只有一個的排序稱為單值排序；排序變量有多個的排序稱為多重排序。多重排序中，第一個指定的排序變量稱為主排序變量；其他則依次為第二排序變量、第三排序變量等。多重排序時，數(shù)據(jù)首先按照主排序變量的大小進(jìn)行排序，然后對那些具有相同主排序變量值的數(shù)據(jù)再按照

2、第二排序變量值的次序進(jìn)行排序。在進(jìn)行數(shù)據(jù)排序時應(yīng)注意以下幾點：（1）數(shù)據(jù)排序是將整行的數(shù)據(jù)進(jìn)行排序的，而不是只對某個變量進(jìn)行排序。（2）多重排序中指定排序變量的次序是很關(guān)鍵的。排序時先指定的變量優(yōu)于后指定的變量。多重排序可以在按某個變量值升序排序的同時再按其他變量值降序排序。（3）數(shù)據(jù)排序以后，原有數(shù)據(jù)的排列次序?qū)⒈淮騺y。因此，有必要注意保留數(shù)據(jù)的原始排列順序。,3.1.2 數(shù)據(jù)排序?qū)嵗?3.2 選擇觀測量,在數(shù)據(jù)處理過程中，有時需要從數(shù)據(jù)文件中選取一部分觀測量，將篩選出來的觀測量進(jìn)行統(tǒng)計分析。選擇觀測量的操作步驟如下：（1）在數(shù)據(jù)編輯窗口中，執(zhí)行“Data/Select Case”

3、命令，彈出如圖3-1所示的“Select Case”對話框。（2）在該對話框中的“Select”選項中選擇挑選數(shù)據(jù)子集的方式。（3）在“Select Case”對話框中選擇挑選數(shù)據(jù)子集的方式后在“Output”選項中指定未選中的觀測量的處理方式。（4）單擊“OK”按鈕后，即可在數(shù)據(jù)編輯窗口根據(jù)不同的輸出方式得到選擇觀測量的結(jié)果數(shù)據(jù)文件。,圖3- 1 “Select Case”對話框,3.3 變量計算,變量計算的目的 SPSS算術(shù)表達(dá)式 SPSS條件表達(dá)式 SPSS函數(shù) 變量計算實例,3.3.1 變量計算的目的,變量計算的目的主要有以下幾點：,1. 數(shù)據(jù)的轉(zhuǎn)換處理,數(shù)據(jù)的轉(zhuǎn)換處理是在原有數(shù)

4、據(jù)的基礎(chǔ)上，計算產(chǎn)生含有更豐富信息的新數(shù)據(jù)。如，根據(jù)職工的基本工資、失業(yè)保險、獎金等數(shù)據(jù)計算實際月收入；根據(jù)購房者的貸款總額和按揭方案計算比率指標(biāo)以評價其風(fēng)險大??；根據(jù)顧客的消費總金額和消費時間計算平均消費以預(yù)測理想客戶等。,2. 對數(shù)據(jù)的原有分布狀態(tài)進(jìn)行轉(zhuǎn)換,由于數(shù)據(jù)分析和建模中某些模型對數(shù)據(jù)分布有一定的要求，因此可以利用變量計算對數(shù)據(jù)的分布進(jìn)行轉(zhuǎn)換。,簡單條件表達(dá)式是由關(guān)系運算符、常量、變量及算術(shù)表達(dá)式等組成的式子。其中，關(guān)系運算符包括有大于、小于、等于、不等于、大于等于、小于等于。,1. 簡單條件表達(dá)式,3.3.2 SPSS算術(shù)表達(dá)式,在變量計算過程中，應(yīng)根據(jù)實際需要指出按照什么方法計算

5、變量。這里的方法一般都以SPSS算術(shù)表達(dá)式的形式給出。SPSS算術(shù)表達(dá)式是由常量、變量、算術(shù)運算符、圓括號、函數(shù)等組成的式子。,3.3.3 SPSS條件表達(dá)式,條件表達(dá)式是一個對條件進(jìn)行判斷的式子。其結(jié)果有兩種取值：如果判斷條件成立，則結(jié)果為真；如果判斷條件不成立，則結(jié)果為假。條件表達(dá)式包括：簡單條件表達(dá)式和復(fù)合條件表達(dá)式。,復(fù)合條件表達(dá)式又稱為邏輯表達(dá)式，是由邏輯運算符號、圓括號和簡單條件表達(dá)式等組成的式子。其中，邏輯運算符包括有：&或AND （并且）、或OR（或者）、或NOT（非）。NOT的運算最優(yōu)先，其次是AND，最低是OR?？梢酝ㄟ^圓括號改變這種運算次序。,2. 復(fù)合條件表達(dá)式,3.3

6、.4 SPSS函數(shù),根據(jù)函數(shù)功能和處理的變量類型，SPSS函數(shù)大致可以分成8種類型，分別是：,1. 算術(shù)函數(shù),算術(shù)函數(shù)主要用來完成一些特定的算術(shù)計算功能。函數(shù)值和參數(shù)通常為數(shù)值型。,2.統(tǒng)計函數(shù),統(tǒng)計函數(shù)一般用來計算基本描述統(tǒng)計量，函數(shù)值和參數(shù)通常為數(shù)值型。,3.分布函數(shù),分布函數(shù)用來產(chǎn)生一個服從某種統(tǒng)計分布的隨機(jī)數(shù)序列。函數(shù)值為數(shù)值型。,4. 邏輯函數(shù),邏輯函數(shù)用來進(jìn)行邏輯判斷。邏輯函數(shù)的函數(shù)值有兩個取值：如果判斷結(jié)果為真，則函數(shù)值為1；如果判斷結(jié)果為假，則函數(shù)值為0。,5.字符串函數(shù),字符串函數(shù)主要用來對字符型數(shù)據(jù)進(jìn)行處理。字符串函數(shù)的參數(shù)和函數(shù)值有時為字符型，有時也可以是數(shù)值型。,6.

7、日期型函數(shù),日期函數(shù)主要是對日期進(jìn)行處理。日期函數(shù)的函數(shù)值為日期型或數(shù)值型。,7.缺失值函數(shù),缺失值函數(shù)主要用于判斷缺失值。,8.其他函數(shù),除上述的函數(shù)之外，SPSS還有一些輔助函數(shù)。,3.3.5 變量計算實例,本例對某公司員工的福利待遇進(jìn)行調(diào)查，計算每個員工根據(jù)職稱的不同，每月應(yīng)發(fā)的工資。如員工的職稱為4的工資增加1；職稱為6的工資增加3%；職稱為8的，工資增加5，要求根據(jù)這三個條件來計算每個員工每月的應(yīng)發(fā)工資。,3.4 數(shù)據(jù)選取,數(shù)據(jù)選取的目的數(shù)據(jù)選取實例,數(shù)據(jù)選取主要有以下幾個目的：,3.4.1 數(shù)據(jù)選取的目的,1. 提高數(shù)據(jù)分析效率,如果數(shù)據(jù)量較大會在一定程序上影響計算和建模的效率，

8、因此，可以依據(jù)一定的抽樣方法從總體上抽取少量樣本，后面的分析只針對樣本進(jìn)行，這樣會大大提高分析的效率。當(dāng)然，抽取出的樣本應(yīng)具有總體代表性，否則分析的結(jié)果可能會有一些偏差。,2.檢驗?zāi)Ｐ偷男枰?在數(shù)據(jù)分析中，所建的模型是否能夠較完整準(zhǔn)確地反映數(shù)據(jù)的特征，是否能用于以后的數(shù)據(jù)預(yù)測，這些問題都是人們極為關(guān)心的。為了驗證模型一般可依據(jù)一定的抽樣方法只選擇部分樣本參與數(shù)據(jù)建模，其余的數(shù)據(jù)用于模型檢驗。,3.4.2 數(shù)據(jù)選取實例,本節(jié)以選取“員工基本情況”數(shù)據(jù)文件中工資“gz”大于1500的個案為例，介紹數(shù)據(jù)選取的具體操作步驟。,3.5 計數(shù),計數(shù)目的計數(shù)區(qū)間計數(shù)實例,SPSS實現(xiàn)的計數(shù)是對所有個案或

9、滿足某條件的部分個案，計算若干個變量中有幾個變量的值落在指定的區(qū)間內(nèi)，并將計數(shù)結(jié)果存入一個新變量中的過程。因此，SPSS實現(xiàn)計數(shù)的關(guān)鍵步驟是：（1）指定哪些變量參與計數(shù)，計數(shù)的結(jié)果存入哪個新變量中（2）指定計數(shù)區(qū)間,3.5.1 計數(shù)目的,3.5.2 計數(shù)區(qū)間,在使用SPSS實現(xiàn)計數(shù)時，計數(shù)區(qū)間顯得特別重要。計數(shù)區(qū)間可以有以下幾種描述形式：單個變量值（Value）系統(tǒng)缺失值（System-missing）系統(tǒng)缺失值或用戶缺失值（System or user-missing）給定最大值和最小值的區(qū)間（n through m）小于等于某指定值的區(qū)間（Lowest through n）

10、大于等于某指定值的區(qū)間（n through highest）,3.5.3 計數(shù)實例,本例以“員工基本情況”數(shù)據(jù)文件為例，介紹計數(shù)區(qū)間的操作方法。假設(shè)本例需要計數(shù)該數(shù)據(jù)文件中工資“gz”小于或等于1500的個案。,3.6 分類匯總,分類匯總的目的分類匯總實例,3.6.1 分類匯總的目的,進(jìn)行分類匯總的目的是為了對兩個或多個類別的數(shù)據(jù)進(jìn)行比較，得出這些類別之間存在的差異。 SPSS要實現(xiàn)分類匯總應(yīng)涉及到以下兩個方面的重要內(nèi)容：按照哪個變量進(jìn)行分類。對哪個變量進(jìn)行匯總，并指定對匯總變量計算哪些統(tǒng)計量。,3.6.2 分類匯總實例,本例以常見的銀行存取款為例，使用分類匯總分析城鎮(zhèn)人口與農(nóng)村人口的一

11、次平均存（?。┛罱痤~是否存在著差異。,3.7 數(shù)據(jù)分組,數(shù)據(jù)分組的目的 SPSS的單變量值分組 SPSS的組距分組 SPSS的分位數(shù)分組,3.7.1 數(shù)據(jù)分組的目的,數(shù)據(jù)分組就是根據(jù)統(tǒng)計研究的需要，將數(shù)據(jù)按照某種標(biāo)準(zhǔn)重新劃分為不同的組別。在數(shù)據(jù)分組的基礎(chǔ)上進(jìn)行的頻數(shù)分析，更能夠概括和體現(xiàn)數(shù)據(jù)的分布特征。另外，分組還能夠?qū)崿F(xiàn)數(shù)據(jù)的離散化處理等。,SPSS的單變量值分組是把每一個變量值作為一組，這種分組方法通常只適合于離散變量且變量值較少的情況。在SPSS中進(jìn)行單變量值分組的步驟如下：（1）打開要進(jìn)行分組的數(shù)據(jù)文件，本例以“員工基本情況”數(shù)據(jù)文件為例。（2）執(zhí)行“Transform/Auto

12、matic Recode”命令，彈出如圖3-2所示的單變量分組窗口。,3.7.2 SPSS的單變量值分組,圖3- 2 單變量分組窗口,（3）在該窗口中選擇變量“gz”到“VariableNew Name”框中，如圖3-3所示。（4）在“New Name”框中輸入存放分組結(jié)果的變量名，并單擊“New Name”按鈕，如圖3-4所示。,圖3- 4 輸入存放分組結(jié)果的變量名,圖3- 3 選擇變量,（5）選擇按升序進(jìn)行分組，即“Lowest value”單選按鈕，然后單擊“OK”按鈕，如圖3-5所示。（6）返回數(shù)據(jù)編輯窗口后，其分組結(jié)果如圖3-6所示。,圖3- 6 分組效果,圖3- 5 確認(rèn)設(shè)置,

13、在連續(xù)變量或變量值較多的情況下，數(shù)據(jù)分組通常采用組距分組。組距分組是將全部變量值依次劃分為若干個區(qū)間，并將這一區(qū)間的變量值作為一組。組距分組中的關(guān)鍵問題主要有以下兩個。,3.7.3 SPSS的組距分組,1.分組數(shù)目的確定,數(shù)據(jù)應(yīng)分成多少組比較適合，通常與數(shù)據(jù)本身的數(shù)據(jù)個數(shù)有關(guān)。由于分組的目的之一是為了觀察數(shù)據(jù)分布的特征，因此，組數(shù)的確定應(yīng)以能夠清楚地顯示數(shù)據(jù)分布特征和規(guī)律為原則。組數(shù)太少會使數(shù)據(jù)的分布過于集中，而組數(shù)太多又會使數(shù)據(jù)的分布過于分散，這樣都不便于觀察數(shù)據(jù)分布的特征和規(guī)律。,2.組距的確定,組距是一個組的上限與下限之差。組距可根據(jù)全部數(shù)據(jù)的最大值和最小值及組數(shù)來確定，即：組距（最大

14、值最小值）/組數(shù) 當(dāng)上述問題確定以后，便可以實施分組操作了。在SPSS分組操作時應(yīng)注意指定分組變量、定義分組區(qū)間和指定存入分組結(jié)果的變量。,在連續(xù)變量或變量值較多的情況下，分位數(shù)分組是一種較為有效而快捷的分組方法。分位數(shù)分組與上述的組距分組非常類似，不同的是，分位數(shù)分組中各組的下限值和上限值是由分位數(shù)決定的。分位數(shù)分組中也應(yīng)首先確定分組數(shù)目。依據(jù)的原則同組距分組一樣。在確定分組數(shù)目之后，應(yīng)計算相應(yīng)的分位數(shù)。分位數(shù)是將全部數(shù)據(jù)按升序排序并等分成n份后相應(yīng)分位點上的變量值。,3.7.4 SPSS的分位數(shù)分組,3.8 數(shù)據(jù)預(yù)處理的其他功能,數(shù)據(jù)轉(zhuǎn)置加權(quán)處理數(shù)據(jù)拆分,SPSS的數(shù)據(jù)轉(zhuǎn)置就是將數(shù)據(jù)

15、編輯窗口中數(shù)據(jù)的行和列互換。如以“員工基本情況”數(shù)據(jù)文件為例進(jìn)行數(shù)據(jù)轉(zhuǎn)置，其具體操作步驟如下：（1）打開“員工基本情況”數(shù)據(jù)文件。（2）執(zhí)行“Data/Transpose”命令，彈出數(shù)據(jù)轉(zhuǎn)置窗口，如圖3-7所示。（3）在該窗口的左側(cè)選擇要保留的變量到“Variable(s)”框中，如圖3-8所示。,圖3- 8 選擇變量,圖3-7 數(shù)置轉(zhuǎn)換窗口,3.8.1 數(shù)據(jù)轉(zhuǎn)置,（4）在“Name Variable:”框中添加轉(zhuǎn)置后數(shù)據(jù)文件標(biāo)記，然后單擊“OK”按鈕，如圖3-9所示。如果略去本步驟，則轉(zhuǎn)置后數(shù)據(jù)各變量名默認(rèn)為VAR00001、VAR00002、VAR00003等。（5）此時，SPSS將自動完成轉(zhuǎn)置，并將轉(zhuǎn)置后的結(jié)果顯示在數(shù)據(jù)編輯窗口中，同時產(chǎn)生一個名為Case_lbl的新變量，用來存放原數(shù)據(jù)文件中的各變量名，如圖3-10所示。,圖3- 8 選擇變量,圖3-7 數(shù)置轉(zhuǎn)換窗口,在SPSS中指定加權(quán)處理的操作步驟如下：（1）首先打開數(shù)據(jù)文件。（2）執(zhí)著行“Data/Weight Cases”命令，彈出如圖3-11所示的指定加權(quán)變量窗口。（3）在該窗口中選擇“Weight Cases by”單選按鈕，再將要作為權(quán)數(shù)的變量添加到該框中即可，如圖3-12所示。,圖3- 12 設(shè)置

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《SPSS數(shù)據(jù)的預(yù)處理》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

《SPSS數(shù)據(jù)的預(yù)處理》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔