SPSS數(shù)據(jù)的預(yù)處理.課件

上傳人：5*** IP屬地：貴州上傳時間：2022-08-04 格式：PPT 頁數(shù)：47 大小：604KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第三章 SPSS數(shù)據(jù)的預(yù)處理第1頁，共47頁。為什么要進行數(shù)據(jù)的預(yù)處理在數(shù)據(jù)文件建立之后，通常還需要對分析的數(shù)據(jù)進行必要的預(yù)加工處理，這是數(shù)據(jù)分析過程中必不可少的一個關(guān)鍵步驟。數(shù)據(jù)的預(yù)加工處理服務(wù)于數(shù)據(jù)分析和建模，主要包括以下幾個問題：第2頁，共47頁。數(shù)據(jù)的排序變量計算數(shù)據(jù)選取計數(shù) 分類匯總數(shù)據(jù)分組數(shù)據(jù)預(yù)處理的其他功能：轉(zhuǎn)置、加權(quán)、數(shù)據(jù)拆分、缺失值處理、數(shù)據(jù)排秩、定義變量集。預(yù)處理的內(nèi)容第3頁，共47頁。3.1 數(shù)據(jù)的排序SPSS的數(shù)據(jù)排序是將數(shù)據(jù)編輯窗口中的數(shù)據(jù)按照某個或多個指定變量的變量值升序或降序重新排列。這里的變量也稱為排序變量。排序變量只有一個時，排序稱為單值排序。排序

2、變量有多個時，排序稱為多重排序。多重排序中，第一個指定的排序變量稱為主排序變量，其他依次指定的變量分別稱為第二排序變量、第三排序變量等。多重排列時，數(shù)據(jù)首先按主排列變量值的大小次序排序，然后對哪些具有相同主排序變量值的數(shù)據(jù)值的數(shù)據(jù)，再按照第二排序變量值的次序依次排序下去。第4頁，共47頁。數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽，有助于了解數(shù)據(jù)的取值狀況、缺失值數(shù)量的多少等；通過數(shù)據(jù)排序能夠快捷的找到數(shù)據(jù)的最大值和最小值，進而可以計算出數(shù)據(jù)的全距，初步把握和比較數(shù)據(jù)的離散程度；通過數(shù)據(jù)排序能夠快捷地發(fā)現(xiàn)數(shù)據(jù)的異常值，為進一步明確它們是否會對分析產(chǎn)生重要影響提供幫助。數(shù)據(jù)排序的作用第5頁，共47頁。 SPSS數(shù)據(jù)

3、排序的基本操作步驟（1）選擇菜單DataSort Cases （2）將主排序變量從左邊的列表中選到Sort by框中，并在Sort Order框中選擇按該變量的升序還是降序排序。（3）如果是多重排序，還要一次指定第二、第三排序變量及相應(yīng)的排序規(guī)則。數(shù)據(jù)排序的基本操作第6頁，共47頁。在左邊的源變量框中選擇排序變量進入Sort by框。如果選擇2個以上的變量，觀測量的排序結(jié)果與排序變量在Sort by框中的順序有關(guān)。列于首位的為第一排序變量。在Sort Order 欄內(nèi)選擇排序方式升序與降序第7頁，共47頁。 1、數(shù)據(jù)排序是整行數(shù)據(jù)排序，而不是只對某列變量排序； 2、多重排序中指定排序變量

4、的次序很關(guān)鍵。先指定的變量優(yōu)先于后指定的變量。多重排序可以在按某個變量值升序（或降序）排序的同時再按其他變量值降序（或升序）排序； 3、數(shù)據(jù)排序后，原有數(shù)據(jù)的排序次序必然被打亂。因此，在時間序列的數(shù)據(jù)中，如果數(shù)據(jù)中沒有標(biāo)識時間的變量（如年份、月份、季度等），則應(yīng)注意保留數(shù)據(jù)的原始排列數(shù)據(jù)的排列順序，以免發(fā)生混亂。說明第8頁，共47頁。數(shù)據(jù)排序應(yīng)用舉例(練習(xí))利用職工數(shù)據(jù)，通過數(shù)據(jù)排序功能分別找到教授和講師基本工資的最大值和最小值第9頁，共47頁。 3.2 變量計算變量計算是數(shù)據(jù)分析過程中應(yīng)用最廣泛和重要的環(huán)節(jié)之一。它可以處理：數(shù)據(jù)的轉(zhuǎn)換處理：是在原有數(shù)據(jù)的基礎(chǔ)上，計算產(chǎn)生一些含有更豐富信息的

5、新數(shù)據(jù)。例如根據(jù)職工的基本工資、失業(yè)保險、獎金等數(shù)據(jù)，計算實際月收入，這些新變量具有更直觀更有效的特點。對數(shù)據(jù)的原有分布狀態(tài)進行轉(zhuǎn)換：由于數(shù)據(jù)分析和建模中某些模型對數(shù)據(jù)的分布有一定的要求，因此可以利用變量計算對原有數(shù)據(jù)的分布進行轉(zhuǎn)換。第10頁，共47頁。變量計算的目的SPSS變量計算是在原有數(shù)據(jù)的基礎(chǔ)上，根據(jù)用戶給出的SPSS算術(shù)表達式以及函數(shù)，對所有個案或滿足條件的部分個案，計算產(chǎn)生一系列新變量。（1）變量計算是針對所有個案（或指定的部分個案）的，每個個案都有自己的計算結(jié)果。（2）變量計算的結(jié)果應(yīng)保存到一個指定變量中，該變量的數(shù)據(jù)類型應(yīng)與計算結(jié)果的數(shù)據(jù)類型相一致。在變量計算過程中涉

6、及到幾個概念：SPSS算數(shù)表達式、SPSS條件表達式和SPSS函數(shù)。第11頁，共47頁。指出按照什么方法計算變量；SPSS算術(shù)表達式（Numeric Expression）是由常量、變量、算術(shù)運算符、圓括號、函數(shù)等組成的式子。字符型常量應(yīng)當(dāng)用引號括起來變量是指那些已存在于數(shù)據(jù)編輯窗口中的原有變量算術(shù)運算符主要包括、*、/、*（乘方）操作的對象的數(shù)據(jù)類型為數(shù)值型。注意運算順序。在同一算術(shù)表達式中的常量及變量，數(shù)據(jù)類型應(yīng)該一致，否則無法計算 SPSS算術(shù)表達式第12頁，共47頁。在變量計算中通常要求對不同的個案分別按照不同的方法進行計算，于是就需要通過一定的方式來指定個案；SPSS條件表達式是一個

7、對條件進行判斷的式子。其結(jié)果有兩種取值：如果判斷條件成立，則結(jié)果為真；如果判斷條件不成立，則結(jié)果為假。條件表達式包括簡單條件表達式和復(fù)合條件表達式。 SPSS條件表達式第13頁，共47頁。（1）簡單條件表達式由關(guān)系運算符、常量、變量以及算術(shù)表達式等組成的式子。其中關(guān)系運算符包括、。（nl35）（2）復(fù)合條件表達式又稱邏輯表達式，是由邏輯運算符號、圓括號和簡單條件表達式等組成的式子。其中，邏輯運算符號包括&或AND（并且）、|或OR（或者）、或NOT（非）。NOT的運算優(yōu)先級最高，其次是AND，最低是OR?？梢酝ㄟ^圓括號改變運算的優(yōu)先級。（nl=35）and not （zc3）第14頁，共4

8、7頁。SPSS函數(shù)是事先編好并存儲在SPSS軟件中，能夠?qū)崿F(xiàn)某些特定計算任務(wù)的一段計算機程序。這些程序都有各自的名字稱為函數(shù)名。執(zhí)行這些程序段得到的計算結(jié)果稱為函數(shù)值。函數(shù)書寫的具體形式為：函數(shù)名（參數(shù)） SPSS函數(shù)第15頁，共47頁。其中，函數(shù)名是SPSS已經(jīng)規(guī)定好的，參數(shù)可以是常量（字符型常量應(yīng)用引號括起來），也可以是變量或算術(shù)表達式。參數(shù)可能是一個，也可能是多個，各參數(shù)之間用逗號分隔。 SPSS函數(shù)大致可以分成八大類：算術(shù)函數(shù)、統(tǒng)計函數(shù)、分布函數(shù)、邏輯函數(shù)、字符串函數(shù)、缺失值函數(shù)、日期函數(shù)和其他函數(shù)。第16頁，共47頁。SPSS函數(shù)算術(shù)函數(shù) Abs() sqrt() rnd()

9、trunc() mod()統(tǒng)計函數(shù)mean() sd() sum() max() min()分布函數(shù)normal(x) uniform(x) 邏輯函數(shù)range() any()字符串函數(shù)index(s1,s2) length(s) lower(s)缺失值函數(shù)missing(x),x為數(shù)值型變量日期時間函數(shù)Data.dmy(d,m,y)其他函數(shù)Number(s，格式)第17頁，共47頁。（1）選擇菜單TransformCompute，彈出Compute Variable對話框如下：變量計算的基本操作第18頁，共47頁。（2）在Target框中輸入存放計算結(jié)果的變量名。該變量可以是一個新變量，也可

10、以是已經(jīng)存在的變量。如果指定存放計算結(jié)果的變量為新變量，SPSS會自動創(chuàng)建它；如果指定產(chǎn)生的變量已經(jīng)存在，SPSS會提問是否以計算結(jié)果覆蓋原有值。新的變量默認為數(shù)值型，用戶可以根據(jù)需要單擊Type&Label按鈕修改，還可以對新變量加變量名標(biāo)簽。（3）在Numeric Expression框給出SPSS算術(shù)表達式。可以手工輸入，也可以按窗口的按鈕以及函數(shù)下拉菜單輸入。第19頁，共47頁。（4）如果希望對符合一定條件的個案進行變量計算，則單擊If按鈕，出現(xiàn)下面的窗口，選擇Include if case satisfies condition選項，然后輸入條件表達式。對不滿足條件的個案，將不進行變

11、量值計算，對新變量取值為系統(tǒng)缺失值。第20頁，共47頁。注意：如果指定存放的計算結(jié)果的變量為新變量，SPSS會自動創(chuàng)建它；如果指定產(chǎn)生的變量已經(jīng)產(chǎn)生，SPSS會提示用戶是否一計算的新值覆蓋對不滿足條件的個案，SPSS不進行變量計算，對新變量，取值為系統(tǒng)缺失值；對已有舊變量，變量值保持不變。第21頁，共47頁。例：利用職工基本情況數(shù)據(jù)，依據(jù)職稱級別計算實發(fā)工資。假設(shè)職工的工資分別上調(diào)50。變量計算的應(yīng)用舉例第22頁，共47頁。3.3 數(shù)據(jù)選取數(shù)據(jù)選取就是根據(jù)分析的需要，從已收集到的大批量數(shù)據(jù)（總體）中按照一定的規(guī)則抽取部分數(shù)據(jù)（樣本）參與分析的過程，通常也稱為抽樣。 SPSS可根據(jù)指定的抽樣

12、方法從數(shù)據(jù)編輯窗口中選出部分樣本以實現(xiàn)數(shù)據(jù)選取，提高效率與適應(yīng)模型檢驗的需要，這樣后面的分析操作就只針對選出的數(shù)據(jù)，直到用戶取消這種選取為止。第23頁，共47頁。（1）選取全部數(shù)據(jù)（All cases）（2）按指定條件選?。?If condition is satisfied ） SPSS要求用戶以條件表達式給出數(shù)據(jù)選取的條件，SPSS將自動對數(shù)據(jù)編輯窗口中的所有個案進行條件判斷。那些滿足條件的個案，即條件判斷為真的個案將被自動選取出來，而那些條件判斷為假的個案則不被選中。數(shù)據(jù)選取的基本方式第24頁，共47頁。（3）隨機抽樣（ Random sample of cases ），即對數(shù)據(jù)編輯窗口

13、中的所有個案進行隨機篩選，包括如下兩種方式：第一，近似抽樣（Approximately）近似抽樣要求用戶給出一個百分比數(shù)值，SPSS將按照這個比例自動從數(shù)據(jù)編輯窗口中隨機抽取相應(yīng)百分比數(shù)目的個案。注：由于SPSS在樣本抽樣方面的技術(shù)特點，抽取出的個案總數(shù)不一定恰好精確地等于用戶指定的百分比數(shù)目，會有小的偏差，因而稱為近似抽樣。第25頁，共47頁。第二，精確抽樣（Exactly）精確抽樣要求用戶給出兩個參數(shù)。第一個參數(shù)是希望選取的個案數(shù)，第二個參數(shù)是指定在前幾個個案中選取。SPSS自動在數(shù)據(jù)編輯窗口的前若干個個案中隨機精確地抽出相應(yīng)個數(shù)的個案來。第26頁，共47頁。（4）選取某一區(qū)域內(nèi)

14、的樣本（ Based on time or case range ），即選取數(shù)據(jù)編輯窗口中樣本號在指定范圍內(nèi)的所有個案，要求給出這個范圍的上、下界個案號碼。這種抽樣方法適用于時間序列數(shù)據(jù)。（5）通過過濾變量選取樣本（ Use filter variable ），即依據(jù)過濾變量的取值進行樣本選取。要求指定一個變量作為過濾變量，變量值為非0或非系統(tǒng)缺失值的個案將被選中。這種方法通常用于排除包含系統(tǒng)缺失值的個案。第27頁，共47頁。說明：（1）完成數(shù)據(jù)選取后，以后的SPSS分析操作僅針對那些被選中的個案直到用戶再次改變數(shù)據(jù)的選取為止。（2）采用指定條件選取和隨機抽樣方法進行數(shù)據(jù)選取后，SPSS將

15、在數(shù)據(jù)編輯窗口中自動生成一個名為filter_$的新變量，取值為1或0。1表示本個案被選中，0表示未被選中。該變量是SPSS產(chǎn)生的中間變量，如果刪除它則自動取消樣本抽樣。第28頁，共47頁。（1）選擇菜單DataSelect cases（2）根據(jù)分析需要選擇數(shù)據(jù)選取方法（3）Unselected cases are指定對未選中個案的處理方式Filtered表示在未被選中的個案號碼上打一個“/”標(biāo)記；Deleted表示將未被選中的個案從數(shù)據(jù)編輯窗口中刪除。數(shù)據(jù)選取的基本操作第29頁，共47頁。Select Cases對話框第30頁，共47頁。利用職工數(shù)據(jù)，根據(jù)不同的分析要求采用不同的數(shù)據(jù)選取

16、方法抽樣：（1）如果只希望分析教授的情況，可以通過數(shù)據(jù)選擇功能采用指定條件的抽樣方法進行抽樣；（2）如果只希望對其中的70的數(shù)據(jù)進行分析，可通過數(shù)據(jù)選擇功能采用隨機抽樣中的近似抽樣方法進行抽樣。數(shù)據(jù)選取的應(yīng)用舉例第31頁，共47頁。3.4 計數(shù)計數(shù)目的 SPSS實現(xiàn)的計數(shù)是對所有個案或滿足某條件的部分個案，計算若干變量中有幾個變量的值落在指定的區(qū)間內(nèi)，并將計數(shù)結(jié)果存入一個新變量中的過程。例如對大學(xué)畢業(yè)班學(xué)生的成績進行綜合測評時，可以依次計算每個學(xué)生的若干門課程中有幾門課程得了優(yōu)，有幾門課程得了良，有幾門課程不及格。 SPSS實現(xiàn)計數(shù)的關(guān)鍵步驟是：指定哪些變量參與計數(shù)，計數(shù)的結(jié)果存入哪個新變量中

17、指定計數(shù)區(qū)間（尤為關(guān)鍵）第32頁，共47頁。 SPSS中的計數(shù)區(qū)間可以有以下幾種描述形式：單個變量值（Value）系統(tǒng)缺失值（System-missing）系統(tǒng)缺失值或用戶缺失值（ System or user-missing）給定最大值和最小值的區(qū)間（n through m）小于等于某指定值的區(qū)間（Lowest through n）大于等于某指定值的區(qū)間（n through highest）計數(shù)區(qū)間第33頁，共47頁。上述后三個計數(shù)區(qū)間很容易理解。例如評價學(xué)生成績，成績?yōu)閮?yōu)的計數(shù)區(qū)間可以指定為90 through highest，成績?yōu)榱嫉挠嫈?shù)區(qū)間指定為80 through 89，不及格

18、的計數(shù)區(qū)間指定為Lowest through 59。前三個計數(shù)區(qū)間實際上是一些離散的數(shù)據(jù)點，嚴格講并不是區(qū)間，但SPSS仍將其歸在廣義區(qū)間的范疇內(nèi)，目的是方便一些其他的應(yīng)用。第34頁，共47頁。（1）選擇菜單TransformCount，出現(xiàn)如下窗口：3.4 計數(shù)的基本操作第35頁，共47頁。（2）將參與計數(shù)的變量選到 Numeric Variables框中（3）在Target Variable框中輸入存放計數(shù)結(jié)果的變量名，并在Target Label框中輸入相應(yīng)的變量名標(biāo)簽。（4）單擊Define Values按鈕定義計數(shù)區(qū)間，出現(xiàn)如下圖窗口：第36頁，共47頁。通過單擊Add、Chan

19、ge、Remove按鈕完成計數(shù)區(qū)間的增加、修改和刪除。第37頁，共47頁。（5）如果僅希望對滿足某條件的個案進行計數(shù)，則單擊If按鈕并輸入相應(yīng)的SPSS條件表達式。否則，本步可略去。第38頁，共47頁。利用成績數(shù)據(jù)分析兩們是優(yōu)的人數(shù)。計數(shù)的應(yīng)用舉例第39頁，共47頁。3.5 分類匯總分類匯總的目的分類匯總是按照某分類變量進行分類匯總計算。例如：某企業(yè)希望了解本企業(yè)不同學(xué)歷職工的基本工資上是否存在較大差距。最簡單的做法就是分類匯總，即將職工按學(xué)歷進行分類，分別計算不同學(xué)歷職工的平均工資，然后可對平均工資進行比較。第40頁，共47頁。再例如，某商廈希望分析假日周內(nèi)不同職業(yè)和不同年齡段的顧客對某商品的“打折促銷”反應(yīng)是否存在較大差異，用以分析不同消費群體的消費心理。最初步的分析可以是分別計算不同職業(yè)中不同年齡段顧客的平均消費金額和平均消費金額差異程度（標(biāo)準(zhǔn)差），并對它們進行比較。這個過程也可以通過分類匯總過程完成。第41頁，共47頁。 SPSS實現(xiàn)分類匯總涉及兩個主要方面：按照哪個變量（如上例中的學(xué)歷、職業(yè)和年齡段）進行分類對哪個變量（如上例中的基本工資、消費金額）進行匯總，并指定對匯總變量計算哪些統(tǒng)計量（如上例

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SPSS數(shù)據(jù)的預(yù)處理.課件

文檔簡介

溫馨提示

最新文檔

評論

SPSS數(shù)據(jù)的預(yù)處理.課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔