Spss的數(shù)據(jù)預處理_第1頁
Spss的數(shù)據(jù)預處理_第2頁
Spss的數(shù)據(jù)預處理_第3頁
Spss的數(shù)據(jù)預處理_第4頁
Spss的數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Spss的數(shù)據(jù)預處理數(shù)據(jù)預處理的目的:在數(shù)據(jù)文件建立好后,通常還要對待分析的數(shù)據(jù)進行必要的預加工處理,這是數(shù)據(jù)分析過程中不可缺少的一個關鍵環(huán)節(jié)。數(shù)據(jù)的預加工處理是服務與數(shù)據(jù)分析和建模的,需要解決的問題如下:1、缺失值和異常數(shù)據(jù)的處理。2、 數(shù)據(jù)的轉換處理。數(shù)據(jù)的轉換處理是在原有數(shù)據(jù)的基礎上,計算產(chǎn)生一些含有更豐富信息的新數(shù)據(jù)或對數(shù)據(jù)原有分布進行轉換等。3、數(shù)據(jù)抽樣。從實際問題、算法或效率等方面考慮,并非收集到的所有數(shù)據(jù) (個案) 在某項分析中都有用途,有必要按照一定的規(guī)則從大量數(shù)據(jù)中選取部分樣本參與分析。4、選取變量。并非所有數(shù)據(jù)項(變量)在某項分析中均有意以,選取部分變量參與分析是必要的。S

2、pss 提供了一些專門的功能輔助用戶實現(xiàn)數(shù)據(jù)的預加工處理工作,通過預處理還可以使用戶對數(shù)據(jù)的總體分布有所了解。、數(shù)據(jù)預處理步驟:1、數(shù)據(jù)的排序:( 1)數(shù)據(jù)排序的目的:a、 通常數(shù)據(jù)編輯窗口中個案的前后次序是由數(shù)據(jù)數(shù)錄入的先后順序決定的,數(shù)據(jù)排序便于數(shù)據(jù)的瀏覽,有助于了解數(shù)據(jù)取值狀況、缺失值數(shù)量的多少。、 通過數(shù)據(jù)排序能夠快速找到最大值和最小值,進而可以計算出數(shù)據(jù)的全距,快速把握和比較數(shù)據(jù)的離散程度。c、通過數(shù)據(jù)排序能夠快速發(fā)現(xiàn)數(shù)據(jù)的異常值。( 2) 、數(shù)據(jù)排序的步驟:a選擇菜單:【DateSort Casedb、指定主排序量到【Sort by】框中,并選擇【Sort Order框中的選項指出

3、該變量按升序還是降序排序排序?!続scending】表示升序,Descendincj 表示降序。c、如果是多重排序,還要依次指定第二、第三排序變量及相應的排 序規(guī)則。否則本部可略。排序窗口如下圖: Sort CasesIbOhISort by 晶年級俏) 扁專業(yè)網(wǎng)打D關學生編號A15 A2夕A3/ A4 A A4 0 A4:B A4B / A4 c IA4C / ai d rAAnaSort Order.O' Ascending圖1二 Descending2、變量計算:(1)變量計算的目的:a、通過數(shù)據(jù)的轉換處理,在原有數(shù)據(jù)的基礎上,計算產(chǎn)生一些含量更 豐富的新數(shù)據(jù)。、對數(shù)據(jù)的原有分布

4、狀態(tài)進行轉換,由于數(shù)據(jù)分析和建模中某些模型 對數(shù)據(jù)分布有一定的要求,因此可以利用變量計算對原有數(shù)據(jù)的分布進行轉換.spss的算術c、spss變量計算是在原有數(shù)據(jù)的基礎上,根據(jù)用戶給出的表達式以及函數(shù),對所有個案或滿足條件的部分個案,計算產(chǎn)生一系列新變量(2)變量計算的操作步驟:a、選擇菜單:【Transform】一【Compute Variablel出現(xiàn)如圖2所示窗口:圖2b、在【Numeric Exepression!框名&出spss算術表達式和函數(shù)。可以手工輸入也 可以按窗口的按鈕算數(shù)表達式和函數(shù)的輸入工作。c、在【Target Variabld框中輸入存放結果的變量名。、如果用戶

5、只希望對符合一定條件的個案計算產(chǎn)生變量,則按 if按鈕,出現(xiàn)如 圖3所示的窗口。選擇【Include if case satisfies condition選項,然后輸入條 件 表 達 式, 否 則 本 步 略 去。13、變量的選取:(1)數(shù)據(jù)選取的目的:&提高數(shù)據(jù)的分析效率。b、檢驗模型。(2)數(shù)據(jù)選取的步驟:a、Date 一【Select Caseb、在【Selectl框中選擇選取方法。如圖4所示:七的畫圖44、計數(shù):(1)計數(shù)的目的:把握個案各方面的特征。(2)計數(shù)的步驟:a、選擇菜單:【Transform】一 Count Values within CaseW 如圖 5 所示:

6、b、選擇參與計數(shù)的變量到【Numeric Variables1框中。c、在【Target Variabld框中輸入存放技術結果的的變量名,并在【TargetLabel框中輸入相應的變量名標簽d n圖5d、按De巾ne Values按鈕定義計數(shù)區(qū)間,出現(xiàn)圖6所示窗口。通過Add、Remove按鈕完成計數(shù)區(qū)間的增加、修改和刪除。8如果僅希望對滿足條件白個案進行計數(shù),則按 if按鈕并輸入spss相應表達 式。否則本部可略。Count Valuer within Cases: Values to CountS3圖65、分類匯總:(1)【Date】一【Aggregate】(2)指定分類變量到【Break

7、 Variables】框中,指定匯總變量到【aggregatedVariables框中,如圖7:(3)按function按鈕指定對匯總變量計算那些統(tǒng)計量。Spss默認計算均值。(4)制定將匯總結果保存到何處。(5)按name&Lab按鈕重新指定匯總結果中的變量名或變量名標簽。(6)如果希望在結果文件中保存各分類組的個案數(shù)則選擇【Number of caseS .6、數(shù)據(jù)分組:(1)【Transform】【Recode into Dfferent Variable4(2)選擇分組變量到【Numeric Variable >Output】框中。(3)在【Numeric Variabl

8、e】框中的【name】后輸入存放分組結果的變量名,并按 change按鈕確認。(4)按old and new Values按鈕進行分組區(qū)間定義。如圖 8所示:(5)如果只對符合條件的個案進行分組,則按 if按鈕輸入spss條件表達式7、數(shù)據(jù)轉置: 1) Date f transposed 如圖 9所示:(2)指定數(shù)據(jù)轉置后保留那些變量,將它們們選入【Variables3框中( 3)指定數(shù)據(jù)轉置后應保留那些變量名。8、加權處理:(1)【Date】【W(wǎng)eight Cased 2) 2) 選擇 【 Weight Cases by】 選項, 并選擇某變量作為加權變量到【 FrequencyVariab

9、le框中。如圖10所示:9、數(shù)據(jù)拆分:( 1)數(shù)據(jù)拆分的目的:根據(jù)指定變量對數(shù)據(jù)進行分組,它將為以后進行的分組統(tǒng)計分析提供便利。( 2)數(shù)據(jù)分組的步驟:&【DateSplit File如圖 11 所示: b、選擇拆分變量到【Groups based on框中。c、拆分會使后面的分組統(tǒng)計產(chǎn)生兩種不同格式的結果。d、如果數(shù)據(jù)編輯窗口中的數(shù)據(jù)已經(jīng)事先安所指定的拆分變量進行了排序,則可以選擇【 File is already sorted】 項, 他可以提高拆分執(zhí)行的速度,否則選擇 【 Sortthe file by grouping Variables!項。、spss數(shù)據(jù)預處理應注意的事項:

10、1、數(shù)據(jù)排序時須注意的事項:1)數(shù)據(jù)排序是整行數(shù)據(jù)排序,而不只是對某列變量進行排序2)多重排序中指定排序變量的次序很關鍵。3)數(shù)據(jù)排序以后,原有數(shù)據(jù)的排列必然別打亂。2、變量計算(1)如果指定存放計算結果的變量為新變量,spss會自動創(chuàng)建它,如果指 定產(chǎn)生的變量已經(jīng)存在,spss會提問用戶是否以計算出的新值覆蓋原 有舊值。(2)對不滿足指定條件的個案,spss不進行變量值計算。對新變量取值為系統(tǒng)缺失值,對已有舊變量,變量值保持不變。3、數(shù)據(jù)選?。?按上述操作步驟完成數(shù)據(jù)選取后,以后的spss分析操作僅針對那些被選中的個案直到用戶再次改變數(shù)據(jù)選取為止。(2)采用按指定條件選取和隨機選取方法進行數(shù)據(jù)選取后,spss將在數(shù)據(jù), 編輯窗口中自動生成一個名為 巾lter_$的新變量,取值為1或0。1表示 本條個案被選中,0表示為別選中。該變量是spss產(chǎn)生的中間變量,如 果刪除它,則自動取消樣本選取。4、分類匯總( 1)分類匯總中的分類變量可以是多個,此時的分類匯總陳偉多重分類匯 總。( 2)類似與數(shù)據(jù)排序,在多重分類匯總中,指定多個分類變量的先后次序是關鍵的。5、數(shù)據(jù)的分組在定義分組區(qū)間時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論