版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、如何對市場調研問卷的數(shù)據(jù)進行預處理市場調研問卷數(shù)據(jù)的預處理是整個市場調研工作的重要環(huán)節(jié),如果預處理做得不好,就會使有問題的問卷進入后面的數(shù)據(jù)分析環(huán)節(jié),對最終結果產(chǎn)生嚴重影響。一、信度檢驗1,信度分析簡介信度,即信任度,是指問卷數(shù)據(jù)的可信任程度。信度是保證問卷質量的重要手段,嚴謹?shù)膯柧矸治鐾ǔ捎眯哦确治龊Y選部分數(shù)據(jù)。a值是信度分析中的一個重要指標,它代指01的某個數(shù)值,如果a值小于0.7,該批次問卷就應當剔除或是進行處理;如果大于0.9,則說明信度很高,可以用于數(shù)據(jù)分析;如果位于0,70.9,則要根據(jù)具體情況進行判定。如表1所示。表1信度的判定表a值意義>0,9信度非常好>0,8
2、信度可以接受>0,7需要重大修訂但是可以接受<0,7放棄2,信度分析示例操作過程下面介紹的是一個信度分析的案例,其操作過程為:首先打開信度分析文件,可以看到該文件的結構很簡單,一共包含10個題目,問卷的份數(shù)是102份。然后進入SPSS的“分析”模塊,找到“度量”下面的“可靠性分析”,將這十個題目都選進去。在接下來的統(tǒng)計量中,首先看平均值、方差和協(xié)方差等,為了消除這些變量的擾動,可以選擇要或者不要這些相關的量,另外ANOVA(單音數(shù)方差分析)是分析兩個變量之間有無關系的重要指標,一般選擇要,但在這里可以不要,其他一些生僻的量值一般不要。描述性在多數(shù)情況下需要保留,因為模型的輸出結果會
3、有一些描述,因此應當選中項、度量和描述性,然后“確定”,這時SPSS俞出的結果就會比較清楚。結果解讀案例處理匯總后,SPSS俞出的結果如圖1所示。坨總計納HN堞警萬產(chǎn)內(nèi)附的胤網(wǎng)射自15口河9111T909!*R258226儂632把目3811*8期B52MJM44520«ri把目5MM4B214886652笠目6HAS5111717391at*n?小見214啪652叼可146V鼬就w目9幅M4B38E際咫前4614S369期|圖1信度分析結果tier*4C1T竄-刊MMLI喇涮ig刪除后u值升高由圖1可知,案例中調查問卷的有效數(shù)據(jù)是102,已排除數(shù)是0,說明數(shù)據(jù)都是有效的,在這里如果
4、某個問卷有缺失值,就會被模型自動刪除,然后顯示出已排除的問卷數(shù)。在信度分析中,可以看到Alpha值是0.881,根據(jù)前文的判定標準,這一數(shù)值接近0.9,可以通過。在圖右下方部分有均值、方差、相關性等多個項目,這主要看最后的“項已刪除的Alpha值”,該項目表示的是刪除相應項目后整個問卷數(shù)據(jù)信度的變動情況,可以看出題目1、題目2和題目6對應的數(shù)彳1高于0.881,表明刪除這三個題目后整個問卷的Alpha值會上升,為了確保整個調查的嚴謹性,應當將這三個題目刪除。剔除廢卷刪除廢卷大致有三種方法:根據(jù)缺失值剔除、根據(jù)重復選項剔除、根據(jù)邏輯關系剔除。1.根據(jù)缺失值剔除 缺失值的成因在市場調查中,即使有非
5、常嚴格的質量控制,在問卷回收后仍然會出現(xiàn)缺項、漏項,這種情況在涉及敏感性問題的調查中尤其突出,缺失值的占比甚至會達到10%以上。之所以會出現(xiàn)這種現(xiàn)象,主要有以下原因:一是受訪者對于疾病、收入等隱私問題選擇跳過不答,二是受訪者由于粗心大意而漏掉某些題目等。 缺失值的處理在處理缺失值時,有些人會選擇在SPSSExcel中將其所在的行直接刪除。事實上,不能簡單地刪除缺失值所在的行,否則會影響整個問卷的質量。這是因為在該行中除了缺失的數(shù)據(jù)以外,其他數(shù)據(jù)仍舊是有效的,包含許多有用信息,將其全部刪除就等于損失了這部分信息。在實際操作中,缺失值的處理主要有以下方式,如圖圖2缺失值的處理方式缺失值的處理一一忽
6、略。在處理缺失值時,可以在“選項”中直接忽略,這樣可以保留其他數(shù)據(jù)進行之后的運算、建模和輸出。缺失值的處理一一填充。填充,指的是在缺失值的位置用各種技術手段和模型將值回填進去,比如用中間某段數(shù)據(jù)的平均值填充等。一般來說,主要有兩種填充方式:第一,在“轉換”模塊中,替換缺失值;第二,在“分析”模塊中,采用EM模型或者回歸模型進行填充,這兩種模型都可以有效地完成填充,相對來說EM模型更高效一些。 缺失值處理示例填充值的回歸。首先打開該文件,如圖3所示,發(fā)現(xiàn)其中有三列數(shù)據(jù),分別是體重組、年齡和膽固醇??梢钥吹?,膽固醇的某些數(shù)據(jù)中有一些點,這就是SPS皺定的缺失值。對此第一種處理缺失值的方式是做一個回
7、歸,操作過程為:進入SPSS的“回歸”,然后選擇“線性回歸”界面。這時需要分析的目標就是應變量,其他對應變量有影響的因素就是自變量,如示例中的膽固醇是應變量,而體重和年齡則是自變量,表示隨著體重的上升和年齡的增長,總體來說膽固醇水平也會上升。因此要將膽固醇選為應變量,將體重和年齡選為自變量,其他因素選擇默認,然后點擊“確定”,系統(tǒng)就會輸出相應的結果,如圖3上方的表格所示。無缺失ZZZ*模型務標屜何救標準某威1Sig有缺失y"武IX<過用版,135照5,90B406泗66714522075162的工033000鼻田孌最膽國誨/養(yǎng)標尼化系域存雇系威1S峭標準深匿試用陋I等量)悻重用
8、年齡062L137.0®)1,969,92B35g.542.0562.86835S076J11瑞國兗星膽固薛圖3缺失值的填充示例在輸出結果中可以看到有一個“sig.”值,也就是前文講過的檢驗P值,即檢驗概率值,如前所述,這一概率值應當與0.05(5%)進行對比,如果小于0.05,說明這一模式的解釋是可接受的,反之則說明模型解釋的結果不能接受。圖中的檢驗P值有三個,分別對應常量、體重組和年齡,其中對常量的檢驗P值一般可以不予計較,主要關注后兩個項目對應的檢驗P值。在此可以用下面的回歸方程進行分析:P值=常量(-0.135)+0.895X體重+0.094X年齡這一函數(shù)公式表示的是體重和年
9、齡對膽固醇的影響大小,可以看出體重對膽固醇的影響系數(shù)接近1,而年齡對膽固醇的影響系數(shù)則接近0.1。因此,可以得出結論:對膽固醇產(chǎn)生影響的最重要因素是體重,要想控制膽固醇水平,首先應當控制體重。有無缺失值的比較。這時再回到“回歸”選項,選擇“按照列表來排除個案”,該選項的意思是系統(tǒng)在處理膽固醇的缺失值時跳過去不做處理,接著再進行一遍之前的操作:“分析”一“回歸”一“線性回歸”一將膽固醇選為應變量,將體重和年齡選為自變量一確定,可以看出輸出的結果中(圖4下方的表格)常量是0.062,而體重組因為跳過缺失值,所以對膽固醇的影響系數(shù)變大為1.137,相應地年齡的影響系數(shù)則減小為0.081。這就說明,直
10、接跳過缺失值會對分析結果產(chǎn)生較大影響。缺失值的“轉換”處理。由上述分析可知,當數(shù)據(jù)有缺失值時應當進行相應的處理,SPSSE“轉換”模塊中有一個專門的“替換缺失值”模塊,點擊進入后可以看到SPS瞅供了五種填充值,包括序列均值、臨近值的均值、臨近值的中位數(shù)、線性插值和線性趨勢。根據(jù)專家的經(jīng)驗和建議,在進行銷售預測時一般應選擇“線性趨勢”,這是因為當數(shù)據(jù)在上升或下降的過程中有缺失值時,“線性趨勢”會模擬銷售數(shù)據(jù)上漲或下降的波動態(tài)勢,能夠最大限度地接近實際情況。點擊線性趨勢后,系統(tǒng)就會自動生成一個變量,將這個變量填入缺失值的位置就可以完成數(shù)據(jù)的填充。EM莫型填充?!胺治觥蹦K是SPSS勺精華和核心部分
11、,大部分基本分析模型都在這一模塊,其中“缺失值分析”被當作一個獨立模塊放在其中,這說明對缺失值的分析處理是一項非常重要的工作。點擊進入這一模塊后,首先將膽固醇選到變量中,然后在“估計”中選EM模塊,選擇“保存完成的數(shù)據(jù)”,點擊“繼續(xù)”,然后點擊“確定”,這時SPSS!會生成一列新數(shù)據(jù),這就是采用EM模塊填充缺失值后的數(shù)據(jù)?;貧w模型填充。在運用回歸模型填充缺失值時,有兩種方式可供選擇:一種是比較簡單的回歸法,即生成的填充值不再變動;另一種是為生成的填充值加上一個殘差,這個殘差是一個任意值,隨機性很強。然后在保存數(shù)據(jù)里面選擇“回歸”,點擊“確定”,這時SPSS就會完成一個回歸填充。EM和回歸模型的
12、填充效果對比。圖4是EM模型和回歸模型的散點圖對比,左側是回歸模型的填充效果,右側是EM模型的填充效果。其中橫軸表示膽固醇原值,而縱軸則是兩種填充方式的數(shù)值;藍色的圓圈代表正常值,紅色的圓圈表示缺失值??梢钥闯?,右側EM的填充值與原值的差距較小,也就是EM模型的缺失值填充效果比回歸模型的填充效果更好一些。EM填充效果更好一些圖4EM和回歸模型的填充效果對比EM和回歸模型的回歸效果對比。在圖5、圖6和圖7中分別顯示了原值、EM填充以及回歸填充的回歸效果,可以看出EM填充的數(shù)值更接近于原值填充。系救己鐫型非標準化系酸標準案數(shù)tGij.8標準誤差試用版1常量)體重組年齡-.135.895,094.9
13、06.406.013.205,667-.14S2如75.162383.028,0003,因變量:膽固醇原信圖5原值系救己鐫型非標準化系酸標準案數(shù)tGij.S標準誤差訛用版1(常量體重組年齡1.1591.174158.094.400.013,424&了31N朧2.9313195.2Q5.009,0049.因變量:EM埴克圖6EM填充系就r模型非標準化系敷標準累數(shù)tStgS標準誤差忒用版14常量體重組年彈1.1041.122.0561.027.460.0213951,07£2441272S.295.023,012Q.因變量回歸填充圖7回歸填充通過以上分析可以看出:第一,嚴謹?shù)臄?shù)據(jù)
14、分析一定要有一個準確、完整的框架,對于缺失值一定要進行科學處理,否則可能會出現(xiàn)嚴重后果,許多大公司都非常注意這一點;第二,在問卷數(shù)據(jù)量大,缺失數(shù)據(jù)較多時,用EM模型填充的效果比線性回歸更好,EM模型比回歸模型處理起來更加精巧,可以直接使用EM模型填充。缺失值處理的認識要點:缺失值所在的數(shù)據(jù)行不能直接刪除;直接忽略缺失值會影響最終的分析結果;缺失值一定要進行科學的填充處理;缺失值較多時優(yōu)先選用EM模型填充。2 .根據(jù)重復選項剔除一般來說,對于一定題量的問卷,很少有兩份問卷答得完全一樣,因此有必要標志重復值,將重復的選項剔除。在將幾百份或者更多問卷數(shù)據(jù)錄入后,只靠肉眼很難判斷里面是否有重復值,這時
15、可以運用SPSS進行處理。例如,根據(jù)重復值刪除個案示例,首先打開文件,在進入SPSS的“數(shù)據(jù)”模塊后,雙擊“標識重復個案”,并將所有的選項一并選中將其放到里面。這時不需要進行任何操作,在稍后創(chuàng)建的變量中如果某個數(shù)據(jù)是唯一的就會顯示“1”,如果有重復就是“0”,然后勾選將重復的個案移動到文件的最上端,點擊“確定”,輸出結果。這時可以看到,整個文件有27行數(shù)據(jù),其中重復的個案是5個,重復的比例是18.5%。然后選擇數(shù)據(jù)升序排列,將顯示“0”的全部放到前面,將這5行選中,點擊鼠標右鍵選擇“剪切”將重復項刪除即可。3 .根據(jù)邏輯關系剔除根據(jù)邏輯關系可以剔除一些個案,例如年齡小于或等于23,而學歷則選擇
16、為碩士或者博士,這些個案肯定是有問題的。再比如,受訪者在前面選擇沒有使用某商品,后面卻填寫商品的使用體驗,這顯然不符合邏輯。在具體的操作中,工作人員可以根據(jù)自身的業(yè)務將其中不合邏輯的選項刪除。根據(jù)邏輯關系剔除個案示例:首先打開文件,可以看到學歷分為6檔,分別是1初中、2高中、3大學(包括??疲?、4大學專科以上、5碩士以上、6博士級以上,然后通過“排列個案”將年齡和學歷的數(shù)據(jù)全部升序排列,點擊“確定”,這時就可以通過年齡和學歷的對比尋找其中的問題,比如其中某個個案的年齡是20,學歷卻是5碩士以上或6博士級以上,就說明該個案有問題而應當剔除。如果問卷數(shù)據(jù)的數(shù)量太大,比如有600個數(shù)據(jù),這時用肉眼就
17、很難辨別其中的問題個案,這時就可以用SPSS進行有條件的數(shù)據(jù)甄選。首先可以通過點擊“如果條件滿足”選擇個案,點擊進入后可以用SPSS勺計算器輸入含義為“非(年齡20與學歷5碩士以上)”的公式,然后點擊“繼續(xù)”并將選出的數(shù)據(jù)輸入新的數(shù)據(jù)集,也就是正常值,然后點擊“確定”就能將正常值輸出。這時為了確保刪除的個案無誤,可以回到另一個數(shù)據(jù)集中,檢查刪除的是否是有問題個案。通過以上操作可以看出,SPSS計算器的功能非常強大,可以進行各種分析運算,在數(shù)據(jù)分析中的使用率很高,而且其中的公式與Excel的公式基本相同。因此,市場調研數(shù)據(jù)分析人員應當注意SPSS十算器各項功能的學習和使用。三、數(shù)據(jù)管理和轉換數(shù)據(jù)
18、管理與轉換主要包括分割與合并文件、重新編碼、排序與分組、分類匯總、異常值檢測等。如圖8所示。數(shù)據(jù)管理與轉換I.】I1J1分一/合并文件|重薪碼|排序與各加|分類匯其|算*桎檢測圖8數(shù)據(jù)管理與轉換1 .分割與合并文件在問卷回收后,有時由于份數(shù)很多,需要不同人員進行錄入,這時就會形成多個文件,需要最后合并為一個大的文件,為此SPSSl供了合并文件功能。具體操作:進入SPSS的“數(shù)據(jù)”模塊,在原有文件的基礎上選擇添加個案,將新文件添加進來,統(tǒng)一變量的值,然后選擇“確定”,就可以將文件合并成功。2 .重新編碼重新編碼是一項非常重要的功能,其中涉及一個“連續(xù)性變量的離散化”理論。例如:在統(tǒng)計啤酒的飲用量時,不同受訪者的飲用量不等,但是數(shù)據(jù)統(tǒng)計并不關心單個受訪者的具體飲用量,而是會設定不同的量級,比如1000毫升以下為1、10002000為2、20003000為3等依此類推,然后將不同受訪者歸入相應的量級,也就是要將
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權】 ISO 17715:2025 EN Flour from wheat (Triticum aestivum L.) - Amperometric method for starch damage measurement
- 2025-2030年中國智慧養(yǎng)老服務行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國汽車后市場行業(yè)開拓第二增長曲線戰(zhàn)略制定與實施研究報告
- 2025-2030年中國控制線纜組件行業(yè)資本規(guī)劃與股權融資戰(zhàn)略制定與實施研究報告
- 收看《反腐為人民》心得體會:弘揚清風正氣筑牢廉潔根基
- 年產(chǎn)xxx新型建材新型墻體材料項目可研報告模板
- 廣西河池市環(huán)江縣2021-2022學年五年級上學期英語期末試卷
- 商品加工知識培訓課件
- 學校消防安全知識培訓
- 債券價格的敏感性第五章
- 2023年長沙市中考數(shù)學真題試卷及答案
- 《電力設備消防典型準則》(DL5027-2022)
- 米吳科學漫畫奇妙萬象篇
- 河南省鄭州市金水區(qū)2022-2023學年三年級上學期期末數(shù)學試卷
- XXX酒店開辦費POB預算
- Z矩陣、Y矩陣、A矩陣、S矩陣、T矩陣定義、推導及轉換公式
- 中美歐規(guī)范樁基承載力計算設計對比
- 外科洗手操作考核評分表
- 復旦大學外國留學生入學申請表
- 長安汽車發(fā)動機水溫高故障案例分析處置
- 瞬時單位線法計算洪水
評論
0/150
提交評論