




已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第四編 市場調查中的數(shù)據(jù)分析 第十五章 市場調查數(shù)據(jù)的錄入與整理 第一節(jié) 調查問卷的回收與編輯 數(shù)據(jù)資料的處理過程是從回收第一份問卷開始的。按照事先調查方案的計劃,盡量確保每份問卷都是有效問卷(所謂 “有效 ”問卷,指的是在調查過程中按照正確的方式執(zhí)行完成的問卷)。問卷回收以后,督導員必須按照調查的要求,仔細的檢查問卷。檢查問卷的目的在于將有錯誤填寫,或者是挑出不完整或不規(guī)范的問卷,保證數(shù)據(jù)的準確性。所謂錯誤填寫即出現(xiàn)了那些不合邏輯或根本不可能的結果,通過對調查員的復核,可以檢查出哪些調查員沒有按照調查 的要求去訪問,那么,該調查員完成的問卷可能存在很多問題。還有可能出現(xiàn)漏答了某些必須回答的問題,比如被訪者的人口特征等基本情況,造成問卷回答不完整。 鑒于這些情況,不管是由于調查員造成的還是被訪者的原因,通常有兩種方式進行補救:對于出現(xiàn)漏答的問卷,通常要求調查員對受訪者進行重訪,以補充未答的問題;如果不便于重訪或重訪后的問卷還有問題,數(shù)目不是很多,可以當作缺失值計。如果數(shù)量非常大,這份問卷就只能當作廢卷處理,并且按照被訪對象的抽樣條件,補作相關的樣本。 問卷檢查 本編重點 變量類型 頻數(shù)(百分比) 眾數(shù)、中位數(shù) 均值、標準差 卡方分析 單因素方差分析 簡單相關系數(shù) 因子分析 調查報告的結構 問卷的檢查一般是指對回收問卷的完整性和訪 問質量的檢查,目的是要確定哪些問卷可以接受,哪些問卷要作廢。檢查的要點包括: ( 1) 規(guī)定詳細的檢查規(guī)則,一份問卷哪些問題是必須填寫完整的,哪些問題出現(xiàn)缺失時可以容忍等,使督導員明確檢查問卷的每一項流程。 ( 2) 對于每份調查員交回來的問卷必須徹底地檢查,以確認調查員或者被訪者是否按照相關的要求完成了訪問,并且完整的記錄在問卷恰當?shù)奈恢谩?( 3) 應該將問卷分成三種類型,一種是完成的問卷,一種是作廢的問卷,第三種是有問題的問卷,但是通過追訪還可以利用的問卷。 ( 4) 如果抽樣中有配額的要求 ,那么應將完成的問卷中的配額指標進行統(tǒng)計分析,確定問卷是否完成配額的要求,以便及時的補充不足的樣本。 ( 5) 通常有下面的情況的問卷是不能接受的:所回收的問卷明顯不完整,缺了一頁或者多頁;問卷中有很多內容沒有填答;問卷的模式說明調查員(被訪者)沒有理解或者遵循訪問指南回答等;問卷的答案幾乎沒有什么變化,如在態(tài)度的選項上全部選擇第項的情況;問卷的被訪者不符合抽樣要求;問卷的回收日期超過了的訪問的時限等。 問卷的校訂 為了加強問卷的準確性,對那些初步接受的問卷還要進行進一步的檢查和校訂,在校訂的過程 中,通常會發(fā)現(xiàn)問卷中存在有字跡模糊、問題漏選的、前后回答不一致的、答案模棱兩可的和跳答錯誤的問題。 問卷的某些問題答案可能出現(xiàn)字跡模糊的情況,特別是碰上無結構的開放式的問題時,因為調查員記錄的不好,答案不容易識別。如果發(fā)現(xiàn)這樣的問題,必須對受訪者進行追訪,將積極不清楚的地方填寫清楚。 對于漏選的問題處理方法也是一樣,出現(xiàn)漏選的題目因為各種原因,無法進行補充訪問事后,普通的問題,而且數(shù)目不大的情況,通常作為缺失值處理;如果涉及到是受訪對象的個人特征的問題,通常只能作為廢卷處理。 問卷中有些問題的答 案會出現(xiàn)不容易理解的模棱兩可的情況,或者是使用了不是通用的縮寫方式或詞語,或者在該單選一項的問題中,圈選了兩項等,都必須通過追訪進行補救。另外就是回答時可能出現(xiàn)跳答錯誤的情況,這可能是因為被訪對象沒有很好的理解問題。如果出現(xiàn)這種情況,首先要核實被訪對象是否符合抽樣調查的條件(跳答題目往往是篩選條件),如果符合,進行追問補充,如果不符合條件,問卷只能作廢,重新補充樣本。 問卷的回收、檢查與校訂可能是非常繁瑣、且工作時間很長的工作,但是卻是保證數(shù)據(jù)處理過程中較少誤差的重要的步驟。 問卷的編碼 編碼是指對 一個問題的不同答案進行分組和確定數(shù)字代碼的過程。大多數(shù)問卷的大多數(shù)問題都是封閉式的,在調查之前就已經完成了編碼的過程,即每一組問題的不同答案的數(shù)字編碼已經確定。 而開放式問題,因為不知道會得到什么答案,或者是希望得到比列出的封閉式的選項更詳盡的答案,所以在調查結束后,必須對這些開放式的問題進行事后編碼。開放題的事后編碼的工作量很大,無法預知會出現(xiàn)多少個新的代碼和答案,而且有些答案是非常類似的,必須決定是否合并成一類呢,還是分成不同的代碼。具體地說明編碼需要以下幾個步驟: ( 1) 每個需要編碼的項目都 必須有一份編碼表,將問題和項目的代碼詳細的標注在編碼表的頂端位置,由于事先不知道會有多少新的代碼或答案出現(xiàn),所以一定要預備足夠的空間。 ( 2) 如果編碼的工作由一個編碼員完成,出現(xiàn)錯誤的可能性相對較小。但實際上,因為需要編碼的問題可能很多,一個認識沒有辦法按時完成的,這就需要多個編碼員。在這樣的情況下,一定要注意多個編碼員工作的協(xié)調。應該安排編碼員在不同的時間,或者相同的時間相同的地點,使用同一個編碼表。這樣可以避免編碼重復的情況。 ( 3) 研究人員應詳細制定編碼的守則,指導編碼員如何識別答案,并且 將其歸類,以及如何分配編碼等等,并同時對編碼的過程進行監(jiān)督和檢查。編碼員在編碼的過程中可能有兩種傾向:一種是事無巨細將出現(xiàn)的每一種答案夠給與新的代碼,結果代碼的數(shù)量比預料的要多出很多;另一種情況是對答案的歸類過于粗糙,可能丟棄了數(shù)據(jù)中有意義的差異。對于這兩種情況都必須通過守則的規(guī)定,盡量避免。碰到無法確認的分類的時候,通常的做法是付與一個新的代碼,如果需要合并,可以在將來的數(shù)據(jù)處理過程中完成。 ( 4) 可以對 “不知道 ”、 “無所謂 ”、 “不清楚 ”、 “缺失 ”事先規(guī)定,但是一定要注意規(guī)定的編碼與實現(xiàn)對該問題的最 大編碼的預計的數(shù)量一致。 ( 5) 編碼的字跡必須清楚,如果可能的話,及時的進行計算機的錄入管理。 見 圖 15-1 問卷的編碼 第二節(jié) 調查資料的錄入和整理 數(shù)據(jù)錄入 數(shù)據(jù)錄入是指將問卷或編碼表中的每一個項目對應的代碼轉化成計算機能夠識別的形式的過程。 這個過程需要數(shù)據(jù)錄入裝置(計算機 )和一個存儲介質(數(shù)據(jù)庫軟件、磁盤)。市場調查發(fā)達的國家在數(shù)據(jù)的采集中使用 CATI、 CAPI 的方式很普遍,因此鍵盤錄入的過程已在訪問的時候就已經完成了。而且對于簡單的問卷調查,使用調查卡進行光學掃描錄入也能從時間上節(jié)約不少成本。但是國內目前主要還是紙面問卷調查的形式居多,所以在問卷完成后,還需要對問卷進行錄入的操作。 大多數(shù)問卷信息通過智能錄入系統(tǒng)進行,即使用相關的數(shù)據(jù)庫軟件包。數(shù)據(jù)庫軟件不僅可以存儲數(shù)據(jù),而且在錄入過程中,通過事先的數(shù)據(jù)庫結構的編輯,可以對錄入員錄入的過程進行邏輯檢查,避免數(shù)據(jù)錄入過程 中出現(xiàn)某種類型的錯誤,如錄入無效的編碼或者是太廣的編碼,同時對于跳答問題的錄入也能進行很好的控制,減少錯誤的條約模式。 數(shù)據(jù)庫軟件的錄入檢查的范圍,限制在最常見的邏輯錯誤上,對于在選項范圍內,因為錄入員的疏忽而出錯的信息,往往是不能察覺,而錄入員在問卷的輸入過程中,因為速度非常快,即使是非常老練的錄入員,也會出現(xiàn)錄入錯誤的情況。 為了保證數(shù)據(jù)錄入的準確性,有必要對錄入的結果進行核查,核查的方式主要有雙機錄入或三機錄入。所謂雙機錄入的方式,是將同一份問卷分別由兩個錄入員進行兩次錄入,將兩次的結果進行 逐個比較,相同的部分是被認為沒有錯誤的,如果出現(xiàn)不同的部分,檢查問卷,及時修正。所謂三機錄入,即將同一份問卷由不同的錄入員錄入3 次,將 3次的結果通過計算機進行比較,采用 “2排 1”的選擇,如果 2 個結果是相同的,排除那個不同的答案。三機錄入的方式可以減少翻閱問卷的人工。 無論是雙機錄入還是三機錄入,都會增加調查的時間和費用成本,而且是成倍地增加。但是為求得數(shù)據(jù)的收集錄入各個環(huán)節(jié)的準確性,越來越多的企業(yè)和市場調查公司要求數(shù)據(jù)的正確錄入的操作。 如將在 圖 15-1 問卷的編碼 中出現(xiàn)的問題進行錄入,問卷編號,城市編碼,調查員編號, Q1、 Q2、 Q3LLQ12-1、 Q12-2、 Q12-3、 Q13、Q14,對應的數(shù)據(jù)庫結構 見圖 15-2。這樣,輸入 時每份問卷按數(shù)據(jù)庫中指定的位置輸入相應變量的取值,一行數(shù)字就是一份問卷。結果所有問卷次依輸入完畢就形成一個數(shù)據(jù)庫。 ( 1) 問卷編碼是 001 號,城市是北京市, 12 號調查員完成的問卷,圈選的結果是: Q1 男性; Q2 歲; Q3 大學???; LL Q12圈選的 2 3 5; Q13 非常同意; Q14 不同意; ( 2) 問卷編碼是 005 號,城市是上海市, 2號調查員完成的問卷,圈選的結果是: Q1 女性; Q2 歲; Q3 大學本科; LL Q12圈選的 1 3; Q13 不同意; Q14 非常同意; 對應的數(shù)據(jù)庫 1) 001112130423552 ; 2)005202222513045 數(shù)據(jù)的整理 如果在錄入過程中,沒有實行雙機錄入(三機錄入)的措施,在錄入完成之后,有必要對數(shù)據(jù)進行全面的整理檢查。數(shù)據(jù)整理主要是盡可能的處理錯誤或不合理的信息以及進行一致性的檢查。雖然經過回收問卷、編碼過程以及錄入的重重檢查,但是數(shù)據(jù)的整理過程是使用計算機進行的,對數(shù)據(jù)的矯正將更為徹底。 數(shù)據(jù)整理可使用 SPSS 或 SAS 統(tǒng)計軟件進行,可以很方便的尋找出超出選項范圍、極端值或邏輯上不一樣的數(shù)據(jù)。通常的做法是首先對所有變量進行 頻數(shù)的計算,對連續(xù)性的變量進行均值、標準差、最小值、最大值等統(tǒng)計分析,超出范圍的數(shù)據(jù)和極端的數(shù)值很容易檢查出來。例如, 圖 15-1 問卷的編碼 的調查中,關于年齡的填寫,假定缺失值為 “0”,如果出現(xiàn)小于 16,或者大于 60 的數(shù)值就是超出范圍的。根據(jù)對應的問卷編號,變量編碼找出問卷,進行核實。 數(shù)據(jù)整理是對數(shù)據(jù)進行的最后一道檢查 程序,這一步完成后,數(shù)據(jù)應該是 “整齊、干凈的 ”,然后進入下一步,對數(shù)據(jù)進行統(tǒng)計處理分析。 本章小結 1回收問卷:數(shù)據(jù)資料的處理過程是從回收第一份問卷開始的,按照事先調查方案的計劃,盡量確保每份問卷都是有效問卷(所謂 “有效 ”問卷,指的是在調查過程中按照正確的方式執(zhí)行完成的問卷)。問卷回收以后,督導員必須按照調查的要求,仔細的檢查問卷。檢查問卷的目的在于將有錯誤填寫,或者是挑出不完整或不規(guī)范的問卷,保證數(shù)據(jù)的準確性。 2問卷編碼:編碼是指對一個問題的不同答案進行分組和確定數(shù)字代碼的過程。大多數(shù)問卷的大多數(shù)問 題都是封閉式的,在調查之前就已經完成了編碼的過程,即每一組問題的不同答案的數(shù)字編碼已經確定。而開放式問題,因為不知道會得到什么答案,或者是希望得到比列出的封閉式的選項更詳盡的答案,所以在調查結束后,必須對這些開放式的問題進行事后編碼。開放題的事后編碼的工作量很大,無法預知會出現(xiàn)多少個新的代碼和答案,而且有些答案是非常類似的,必須決定是否合并成一類呢,還是分成不同的代碼。 3數(shù)據(jù)錄入:數(shù)據(jù)錄入是指將問卷或編碼表中的每一個項目對應的代碼轉化成計算機能夠識別的形式的過程。這個過程需要數(shù)據(jù)錄入裝置(計算機)和一個 存儲介質(數(shù)據(jù)庫軟件、磁盤)。為了保證數(shù)據(jù)錄入的準確性,有必要對錄入的結果進行核查,核查的方式主要有雙機錄入或三機錄入。 第十六章 數(shù)據(jù)分析 第一節(jié) 常用的統(tǒng)計方法 變量類型 在編碼時我們已經提到過,問卷的每一個題目都可以看做是一個變量,由于所提問題的性質不同,對應的變量類別就不一樣, 變量的類別由低到高依次為:定類變量、定序變量、定距變量(定比變量)。 ( 1) 定類變量 :變量的不同取值僅僅代表了不同類的事物,這樣的變量叫定類變量。問卷的人口特征中最常使用的問題,而調查被訪對象的 “性別 ”,就是定類變量 。對于定類變量,加減乘除等運算是沒有實際意義的。 ( 2) 定序變量 :變量的值不僅能夠代表事物的分類,還能代表事物按某種特性的排序,這樣的變量叫定序變量。問卷的人口特征中最常使用的問題 “教育程度 ”,以及態(tài)度量表題目等都是定序變量,定序變量的值之間可以比較大小,或者有強弱順序,但兩個值的差一般沒有什么實際意義。 ( 3) 定距變量 :變量的值之間可以比較大小,兩個值的差有實際意義,這樣的變量叫定距變量。有時問卷在調查被訪者的 “年齡 ”和 “每月平均收入 ”,都是定距變量。 定比變量與定距變量在市場調查中一 般不加以區(qū)分,它們的差別在于,定距變量取值為 “0”時,不表示 “沒有 ”,僅僅是取值為 0。定比變量取值為 “0”時,則表示 “沒有 ”。上面舉的 “年齡 ”、 “每月平均收入 ”也是定比變量,因為它們的 “0”值都表示 “沒有 ”。而像 “溫度 ”這樣的變量中的 “0”值并不表示 “沒有 ”,而是表示 “0 ”這一特定溫度,這樣的變量是定距變量,但不是定比變量。 在統(tǒng)計分析時,對不同類型的變量要選用不同的方法。一般的原則是適于較低類別變量的統(tǒng)計方法也可用于較高類別的變量,反之則不行。比如適用于定類變量的分析方法,同時也可用于其他類別的變量 ,反過來適于定距變量的分析方法,一般不能用于其他類別的變量。 由于市場調查中的定類、定序變量較多,為了能夠使用更多的統(tǒng)計方法,常常將有些定類和定序變量通過某些轉換變成定距變量或近似看成定距變量,這樣只適用于定距變量的統(tǒng)計方法,就可以用于這些定類和定序變量了。 對于缺失值的處理 在數(shù)據(jù)整理中,經常會碰到缺失值的問題,缺失值的數(shù)量過多的話,說明數(shù)據(jù)收集過程中存在著嚴重的問題??梢越邮艿臉藴适牵笔е档臄?shù)量在 10%以下。處理缺失值的方法有下面 4 種: ( 1)用一個樣本統(tǒng)計量的值代替缺失值 缺失值可以 使用一個樣本的統(tǒng)計量去代替,最典型的做法就是使用該變量的樣本平均值。由于該變量的平均值保持不變,其他的統(tǒng)計量如標準差、相關系數(shù)等都不會受到影響。如在收入或者年齡問題中出現(xiàn)缺失值,可以使用收入、年齡的平均值代替缺失值。 ( 2)用從一個統(tǒng)計模型計算出來的值去代替缺失值 另一種缺失值的處理方法就是利用由某些統(tǒng)計模型計算得到的比較合理的值代替,常使用的模型有回歸模型、判別模型等等。如 “個人收入 ”、 “ 年齡 ”與 “品牌的選擇 ”可能存在關系,利用這三個問題的被訪者問答數(shù)據(jù),可能構造出一個回歸方程。根據(jù)這個回歸方 程,對于沒有回答 “品牌選擇 ”的被訪者,可以根據(jù) “個人收入 ”和 “年齡 ”的選項,利用回歸方程式,計算出品牌選擇的值。 ( 3)將有缺失值的個案刪除 將有缺失值的個鞍刪除的方法,結果可能會導致樣本量的減少,如果調查在收集過程中控制得不是很好,被訪對象多多少少都會出現(xiàn)一些問題沒有回答的情況,刪除個案的方法,會導致大量的樣本減少。 ( 4)將有缺失值的個案保留,僅在相應的分析中做必要的刪除 將有缺失值的個案保留,僅在相應的分析中做必要的排除的方法,會使分析中不同計算的樣本量不同,也有可能導致不適宜的結果。調查的樣本量比較大,缺失值的數(shù)量又不是很多,而且變量之間也不存在高度的相關的情況下,市場研究者經常采用這種方式處理缺失值。 統(tǒng)計方法 根據(jù)研究的目的與要求,要選擇不同的統(tǒng)計方法。如果是對一個變量取值的歸納整理及對其分布形態(tài)的研究,用頻數(shù)分析(計算百分比等)、眾數(shù)、中位數(shù)、均值和標準差等方法或統(tǒng)計量來描述;對兩個變量的相關性分析,可以用卡方分析、單因素方差分析、簡單相關系數(shù)、一元線性回歸分析等方法;對多個變量間的相關性分析,可以用多元線性回歸、判別分析、聚類分析、因子分析等方法。 在學習掌握這些 統(tǒng)計方法的同時,還應該會熟練使用相關的統(tǒng)計軟件,因為很多統(tǒng)計方法靠手工計算是難以完成的。 現(xiàn)在普遍使用的統(tǒng)計軟件是 SPSS、 SAS。 下面我們分單變量的分析、兩個變量的相關分析、多個變量的相關分析三部分,介紹一些常用的統(tǒng)計方法,主要介紹如何應用這些方法,并列舉模擬的例子,給出相應的用 SPSS 統(tǒng)計軟件分析的結果,使讀者能夠較快地學會使用這些方法。 第二節(jié) 單變量分析 頻數(shù)和百分比 所謂頻數(shù)( Frequencies),時變量某一個去值的個案數(shù);所謂百分比( Percentage),是表示該取值的個案數(shù) 占總樣本的比例,即頻數(shù) /樣本量 100%。 將變量所有取值的頻數(shù)和百分比列在一個表中,這種表叫頻數(shù)表,從中可以看出變量各個取值的分布情況。 頻數(shù)表分析方式一般適用于定序變量和定類變量,對定距變量,必須先將變量的取值進行分組,每一個分組作為一個新的選項,然后對這些新的選項進行頻數(shù)表的計算。 (例 1) 表中第一列是 “變量標簽 ”,是對變量取值的說明(現(xiàn)在使用的 SPSS軟件雖然是英文版,但是已經可以兼容中文,變量標簽可以使用中文表示)。 第二列是 “變量取值 ”,即: “1”至 “5”分別代表了 “非常不好 ”到 “非常好 ”,其中 “.”代表缺失值,即有些人沒有回答此題; 第三列是 “頻數(shù) ”,對應的數(shù)值表示各個取值的個案數(shù),這里認為“非常好 ”有 16 樣本、認為 “好 ”的有 216 個樣本、認為 “一般 ”的有 193人、認為 “不好 ”的有 10 個樣本、認為 “非常不好 ”的有 1 個人,而沒回答此題約有 65 人。 第四列是 “百分比 ”,是頻數(shù) 對樣本量( 501 人)的比率。 第五列是 “有效百分比 ”,是頻數(shù)對有效個案數(shù)(所謂有效個案數(shù),即樣本量減去缺失個案數(shù))的比例,這里有效個案數(shù)是 436 人。 第六列是 “累計百分比 ”,是對有效百分比的逐行累加的結果。 從對該題的頻數(shù)分析的結果來看,對 A 品牌廣告的評價總的來說還是傾向于比較好的,所有的樣本中,認為 “不好 ”或者 “非常不好 ”的比例合計只有 2.5%,即占樣本 2.5%的人不喜歡 A 品牌的廣告。 頻數(shù)和百分比計算中,百分比大小比較是一個相對的概念,頻數(shù)大小則是絕對的數(shù)值,在市場分析報告中,經常利 用百分比來說明結果,但是有時也需要頻數(shù)進一步的說明之間的差異。在比較兩個公司的營業(yè)額的增長幅度時, A公司和 B 公司的經營規(guī)模差異巨大的情況下,雖然 A 公司的增長幅度沒有 B 公司快,這是因為 A 公司的實際規(guī)??赡苁?B 公司的幾十倍,在這種情況下,也需要比較增長的實際數(shù)額,才能全面的說明問題。 指數(shù) 指數(shù)( Index)的計算方法很多,最常用的一種方法是,將一些待比較的數(shù)字中的一個特定的數(shù)字定為基數(shù) 100,計算其他數(shù)字相對于基數(shù)的百分數(shù)。用各種指數(shù)來描述和比較一些特定的市場的問題,既方便又直觀。定義適當?shù)闹笖?shù)不但可以進 行橫向(不同空間)的比較,還可以進行縱向(不同時間)的比較。為了說明 20 多年來廣告的發(fā)展情況,可以 1978 廣告營業(yè)額作為基數(shù),計算以后每年廣告經營額與基數(shù)的百分比,如果小于 100 的指數(shù)表明廣告經營額的負增長,如果大于 100 的指數(shù),代表增長,而且還能夠計算出來增長的幅度。 指數(shù)的使用和計算方法多種多樣,在使用時要注意幾個問題:首先,自定義指數(shù)時,應以簡便的、合理的描述研究結果為原則;在自定義指數(shù)時,在考慮定義的合理性和科學性的基礎上,還需要考慮其計算是否方便可行。因此使用指數(shù)進行比較時,首先應該查閱和參考那些已經明確定義的、使用廣泛的指數(shù),避免重復制造。 其次,在應用這些指數(shù)的概念時,還必須詳細了解其定義和計算方法,以便正確的使用。目前國內的中國統(tǒng)計年鑒和各個省市的統(tǒng)計年鑒中,指數(shù)使用已經非常平常。包括價格指數(shù)、消費指數(shù)、收入指數(shù)等,同時類似于房地產價格指數(shù)、股票價格指數(shù)等在相應的專業(yè)領域里使用的也是非常廣泛。最后,指數(shù)定義的基數(shù)一定要與研究目的緊密結合,根據(jù)調查的目的,確定是進行橫向比較,還是進行縱向比較更為有效,從而確定基數(shù)的訂立基準。 眾數(shù)、中位數(shù)、均值和標準差 用于描述一組市場調查數(shù)據(jù)或 資料的中心的常用的統(tǒng)計量有三種:眾數(shù)、中位數(shù)和平均數(shù)。 所謂眾數(shù)( Mode),是表示一組數(shù)據(jù)中出現(xiàn)次數(shù)最多或最常見的數(shù)值。 在市場調查的數(shù)據(jù)中,眾數(shù)代表了典型的個案,或者是分布的高峰所對應的變量取值。變量的所有取值中頻數(shù)最大的取值,如在消費者的教育程度問題里,初中學歷程度選項最多,所以初中相對應的變量編碼,就是眾數(shù)。眾數(shù)適于描述定序和定類變量,對于定距變量,可先將數(shù)據(jù)分組,分組后頻數(shù)最大的那一組的組中值,被近似的認為是該變量的眾數(shù)。 中位數(shù)( Median)表示一組數(shù)據(jù)按照大小的順序排列時,中間位置的那個 數(shù)值,即針對某個變量,有 50%的個案的取值在中位數(shù)以下。 通俗的講,樣本的所有觀測值中,有一半數(shù)比中位數(shù)大,有一半數(shù)比中位數(shù)小。中位數(shù)的計算時會面臨兩種情況:當樣本數(shù)( n)是奇數(shù)時,將樣本的所有觀測值按由小到大(或由大到?。┑捻樞蚺帕?,排在中間位置上的數(shù)值即為中位數(shù);當樣本為偶數(shù)時,排在中間兩個位置上的數(shù)值的平均值即為中位數(shù)。中位數(shù)適用于定序變量,對于定距變量,還是首先對觀測值進行分組,簡單的方法就是用中間那一組的組中值作為變量的中位數(shù)。 平均數(shù)( Mean)也叫均值,等于樣本的所有 n個觀測值之和除以樣本量。 假 設 n 個觀測值用 x1,x2, x n 表示,均值用 x 表示,均值的公式為: 這里公式( 2)是針對分組的數(shù)據(jù)而言,其中 X 表示某變量的取值, f 表示變量落在某一組中的頻數(shù), 表示對所有的值求和(或者對所有的組求和)。 平均數(shù)是最典型也是最常用的統(tǒng)計量,適用于定距變量和定比變量。平均數(shù)也是最有 “意 義 ”的統(tǒng)計量,它可以看作是數(shù)據(jù)的 “平衡點 ”或 “重心 ”位置所在。因為中位數(shù)在計算時,使用到了所有的數(shù)據(jù),所以與眾數(shù)和中位數(shù)相比,所包含的信息量最大。但是平均數(shù)受受極端值的影響很大,個別的極端值會直接影響平均數(shù)的熟知的變化,不如中位數(shù)和眾數(shù)穩(wěn)定。因此當調查的數(shù)據(jù)分布比較規(guī)則,不存在什么極端值,或數(shù)據(jù)對中心的偏離不是很大的情況下,平均數(shù)是很好的描述統(tǒng)計量;如果存在極端值或分布步偏離比較大時,還必須使用眾數(shù)和中位數(shù)的來補充描述。 眾數(shù)、中位數(shù)、均值都是對變量分布中心的描述,其中均值最為常用。 對變量的分布形狀的 描述,最常用的統(tǒng)計量是方差或標準差。 所謂方差( Variance)或標準差( Standard variance)是表示分布對平均數(shù)的偏離程度或伸展程度的度量。 計算公式是: 標準差 ,標準差的大小反映了數(shù)據(jù)對均值的離散程度,標準差越小,表明數(shù)據(jù)越集中于均值附近,反之則越分散。任何統(tǒng)計分析軟件都有標準差的計算,標準差是描述分布的分散(伸展)程度的經常使用的統(tǒng)計量。 例 2:在表 16-1 是頻數(shù)和百分比計算的結果,使用的變量是定序變量,也可以近似看成定距變量,所以眾數(shù)、中位數(shù)、均值和標準差都是有意義的。見表 16-2。 本節(jié)重點 卡方分析 單因素方差分析 簡單相關系數(shù) 因子分析 使用圖形表示分析的結果 使用圖表的形式將更為直觀的描 述調查的結果,有助于客戶更容易理解數(shù)據(jù)的內容。在報告中使用的圖形的格式非常多,最經常使用的包括直方圖、面積圖、折線圖和雷達圖等形式。 1 直方圖 2 面積圖 3 折線圖 第三節(jié) 兩個變量及多變量分析 卡方分析 卡方分析是用來研究兩個定類變量間是否獨立即是否存在某種關聯(lián)性的最常用的方法。 簡單地說,卡方分析的方法是這樣的:假設兩個變量是相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 油煙治理施工合同范例
- 企業(yè)培訓演講課件
- 企業(yè)培訓數(shù)學課件
- 嬰兒壞疽性皮炎的皮膚微生物組
- 應知應會-熱處理技術員
- 草牧場承包經營與可持續(xù)發(fā)展合同
- 房地產開發(fā)有限責任公司股東土地開發(fā)合作協(xié)議
- 生態(tài)農業(yè)園廠房租賃及農產品直銷合作協(xié)議
- 企業(yè)物流貨運服務方案
- 制造業(yè)廠長任期目標責任合同
- 2025年校長職級考試題及答案
- 統(tǒng)借統(tǒng)還資金管理辦法
- 國家能源集團采購管理規(guī)定及實施辦法知識試卷
- 2023-2024學年四川省成都市高新區(qū)八年級(下)期末數(shù)學試卷
- 2025年廣西繼續(xù)教育公需科目考試試題和答案
- 2024年廣州市南沙區(qū)社區(qū)專職招聘考試真題
- 心理健康科普常識課件
- 山東醫(yī)藥技師學院招聘筆試真題2024
- 倉庫超期物料管理制度
- 奶茶公司供應鏈管理制度
- 加氣站風控分級管理制度
評論
0/150
提交評論