MRAF-Ver.2C11 數(shù)據(jù)分析_第1頁
MRAF-Ver.2C11 數(shù)據(jù)分析_第2頁
MRAF-Ver.2C11 數(shù)據(jù)分析_第3頁
MRAF-Ver.2C11 數(shù)據(jù)分析_第4頁
MRAF-Ver.2C11 數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1第第11章章 數(shù)據(jù)分析數(shù)據(jù)分析 2開篇案例:開篇案例:中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r分析報(bào)告 從2005年6月中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)調(diào)查所展現(xiàn)的數(shù)據(jù)可以看出,2005年上半年的中國互聯(lián)網(wǎng)絡(luò)在整體上保持增長態(tài)勢的同時(shí),網(wǎng)民特征結(jié)構(gòu)、上網(wǎng)途徑、上網(wǎng)行為等各方面也出現(xiàn)了一些較為明顯的變化。 在網(wǎng)上查找CNNIC最近一次互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r的完整分析報(bào)告,概括說明報(bào)告中所使用的主要分析方法以及圖表工具。311 111 1 數(shù)據(jù)分析概述數(shù)據(jù)分析概述 數(shù)據(jù)分析的價(jià)值,根本上在于它最終能夠以精煉的數(shù)字來綜合和概括大量的事實(shí),使人們得以正確地認(rèn)識(shí)事物。最大量使用的數(shù)據(jù)分析方法是描述性分析。 描述性分析是將原始數(shù)據(jù)轉(zhuǎn)換成

2、一種易于理解和解釋的形式。它主要通過有關(guān)統(tǒng)計(jì)量(關(guān)于樣本或總體的)來描述數(shù)據(jù)特征、找出數(shù)據(jù)的基本規(guī)律。 有關(guān)統(tǒng)計(jì)量(樣本/總體)是用來描述數(shù)據(jù)特征的概括性數(shù)字度量,它是根據(jù)樣本/總體數(shù)據(jù)計(jì)算出來的一些量,是樣本/總體的函數(shù)。 描述性分析主要包括: 單變量數(shù)據(jù)的分析 雙變量和多變量數(shù)據(jù)的分析 數(shù)據(jù)的深度分析4112 單變量數(shù)據(jù)的分析 描繪樣本數(shù)據(jù),就是以一種簡明且有意義的方式對結(jié)果進(jìn)行研究和解釋。 單變量數(shù)據(jù)分析的方法: 對數(shù)據(jù)進(jìn)行重新排列; 對數(shù)據(jù)進(jìn)行分類或分組; 數(shù)據(jù)概括; 數(shù)據(jù)分布狀態(tài)分析。5數(shù)據(jù)分類/分組與頻數(shù)分布 市場調(diào)研的對象常常是一些隨機(jī)現(xiàn)象,在大量觀察條件下呈現(xiàn)出一種內(nèi)在的數(shù)量規(guī)

3、律性,即它們發(fā)生的可能性(概率)是一定的。 頻數(shù)分布頻數(shù)分布是單一統(tǒng)計(jì)變量的各個(gè)類別或每個(gè)值出現(xiàn)的次數(shù)和頻率的一種分布狀態(tài)。頻數(shù)分布始于數(shù)據(jù)的分類/分組,重點(diǎn)是變量的各類別或每個(gè)值出現(xiàn)次數(shù)的統(tǒng)計(jì),最終通過適當(dāng)?shù)膱D表工具展示該變量的頻數(shù)分布。 頻數(shù)分布統(tǒng)計(jì),關(guān)鍵是要區(qū)分變量及數(shù)據(jù)類型: 對類別和順序變量的數(shù)據(jù)主要是作分類統(tǒng)計(jì), 對等距與等比變量的數(shù)值型數(shù)據(jù)則主要是作分組統(tǒng)計(jì)。 6類別或順序數(shù)據(jù)的頻數(shù)分布CN域名類別域名個(gè)數(shù)百分比AC.CN8870.1%COM.CN22659536.5%EDU.CN23580.4%GOV.CN198023.2%NET.CN283254.6%ORG.CN121161

4、.9%行政區(qū)域.CN388596.3%.CN29359247.3%表11-1 按類別劃分的CN域名頻數(shù)分布表 類別或順序變量的取值實(shí)際是指變量的類別或不同等級(jí),而不是具體數(shù)值。所以,類別或順序數(shù)據(jù)本質(zhì)上屬于計(jì)數(shù)型數(shù)據(jù),主要作分類統(tǒng)計(jì)。 類別或順序數(shù)據(jù)的頻數(shù)分布展示一個(gè)變量各個(gè)類別的頻率,即落在這一類別中的觀測數(shù)。通常使用的圖表展示工具包括: 頻數(shù)分布表 累積頻數(shù)表 條形圖 柱狀圖 餅圖 環(huán)形圖 7類別或順序數(shù)據(jù)的頻數(shù)分布幫助程度學(xué)習(xí)工作生活百分比(%) 累積百分比(%) 百分比(%) 累積百分比(%) 百分比(%) 累積百分比(%)非常大比較大一般不太大幾乎無47.81.

5、447.877.094.998.6100.039.935.739.975.696.199.2100.025.533.625.559.192.798.6100.0表11-2 用戶認(rèn)為當(dāng)前互聯(lián)網(wǎng)的幫助程度 當(dāng)需要比較兩個(gè)以上總體的結(jié)構(gòu)或一個(gè)總體的結(jié)構(gòu)變化當(dāng)需要比較兩個(gè)以上總體的結(jié)構(gòu)或一個(gè)總體的結(jié)構(gòu)變化時(shí),可使用環(huán)形圖展示。環(huán)形圖中間有一個(gè)時(shí),可使用環(huán)形圖展示。環(huán)形圖中間有一個(gè)“空洞空洞”,總體中的每一類別數(shù)據(jù)用環(huán)中的一段表示。總體中的每一類別數(shù)據(jù)用環(huán)中的一段表示。順序數(shù)據(jù)還可通過累積頻數(shù)來展示。累積頻數(shù)順序數(shù)據(jù)還可通過累積頻數(shù)來展示。累積頻數(shù)(頻率頻率)是是

6、指順序變量各類別頻數(shù)指順序變量各類別頻數(shù)(頻率頻率)的逐級(jí)累加。見表的逐級(jí)累加。見表11-2。使用使用EXCEL軟件可以將累積頻數(shù)以折線圖方式展示出來,軟件可以將累積頻數(shù)以折線圖方式展示出來,見圖見圖11-3。8數(shù)值型數(shù)據(jù)分組與頻數(shù)分布數(shù)值型數(shù)據(jù)分組與頻數(shù)分布連續(xù)型變量數(shù)據(jù)的等距分組的步驟連續(xù)型變量數(shù)據(jù)的等距分組的步驟: 確定組數(shù):可以按確定組數(shù):可以按 Sturges 提出提出的經(jīng)驗(yàn)公式來確定組數(shù)的經(jīng)驗(yàn)公式來確定組數(shù)K 確定組距:即確定組距:即 組距組距(最大值最小值最大值最小值)組數(shù)組數(shù) 統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)統(tǒng)計(jì)出各組的頻數(shù)并整理成頻數(shù)分布表。分布表。 2 lgn lg1K 數(shù)值型

7、數(shù)據(jù)可以是離散數(shù)據(jù),或者是連續(xù)數(shù)據(jù)。的頻數(shù)分布是將每一個(gè)變量值作為一組,統(tǒng)計(jì)每組變量值出現(xiàn)的頻數(shù),列出頻數(shù)分布表。的頻數(shù)分布要求首先對變量值進(jìn)行分組,然后統(tǒng)計(jì)出變量每一組值出現(xiàn)的次數(shù)或頻度。變量值可以采用等距分組或不等距分組。 9頻數(shù)趨勢分析 在描述分析中,研究者不僅需要了解數(shù)據(jù)的分布結(jié)構(gòu)規(guī)律,也了解數(shù)據(jù)結(jié)構(gòu)的變化趨勢,從而加深對市場現(xiàn)象的認(rèn)識(shí)。 將當(dāng)前的調(diào)查數(shù)據(jù)與歷史數(shù)據(jù)結(jié)合起來建立頻數(shù)分布表,并通過繪制多樣本的柱狀圖以及雷達(dá)圖等,可以做到在展示分類/分組數(shù)據(jù)的分布結(jié)構(gòu)的同時(shí),又能展示數(shù)據(jù)分布結(jié)構(gòu)的發(fā)展變化趨勢。 10數(shù)據(jù)集中趨勢的概括 集中趨勢集中趨勢是指數(shù)據(jù)分布趨向集中于一個(gè)分布的中心。

8、集中趨勢概括集中趨勢概括是指用一個(gè)數(shù)值來代表變量值的分布情況,根據(jù)這個(gè)數(shù)值可以估計(jì)每一個(gè)研究個(gè)案該變量的值。 概括數(shù)據(jù)分布集中趨勢的統(tǒng)計(jì)量包括 眾數(shù) 中位數(shù) 平均數(shù) 不同類型的數(shù)據(jù)適用不同的集中趨勢度量,低層次數(shù)據(jù)的集中趨勢度量同樣適用于高層次數(shù)據(jù),但是,高層次的概括卻不適用于低層次數(shù)據(jù)。11集中趨勢的概括- -眾數(shù)眾數(shù) 眾數(shù)眾數(shù)(mode)是總體中各單位在某一標(biāo)志上出現(xiàn)次數(shù)最多的變量值。例如,在一項(xiàng)SRS抽取500戶農(nóng)民的農(nóng)業(yè)調(diào)查中,有280戶填寫了“小麥”,那么“小麥”就是眾數(shù)。又例如,調(diào)查顯示50%以上大學(xué)生每月觀看電影4次,那么4次這個(gè)值就是眾數(shù)。 在三個(gè)統(tǒng)計(jì)量中,眾數(shù)適用于各種數(shù)據(jù)。

9、而且,眾數(shù)是對類別數(shù)據(jù)的集中趨勢概括的唯一適用統(tǒng)計(jì)量。 眾數(shù)也有許多不足之處。 首先,它對數(shù)據(jù)的描述不夠,因?yàn)樽钇毡榈念悇e未必經(jīng)常出現(xiàn)。例如,一項(xiàng)有關(guān)網(wǎng)民通常使用互聯(lián)網(wǎng)的時(shí)段的調(diào)查,共詢問了200人,結(jié)果顯示幾乎沒有兩個(gè)人的答案是相同的。 其次,眾數(shù)可能有多個(gè)取值,因?yàn)樽兞繋讉€(gè)類別可能同時(shí)具有最高頻數(shù)。12集中趨勢的概括- -中位數(shù)中位數(shù) 中位數(shù)中位數(shù)(median)是一組數(shù)據(jù)按數(shù)值大小排序后,位置居于最中間的那個(gè)值。各變量值與中位數(shù)的離差絕對值之和最小。 中位數(shù)既適用于定量數(shù)據(jù),也適用于順序數(shù)據(jù),而且中位數(shù)是描述順序數(shù)據(jù)集中趨勢的最好度量。 與均值相比,中位數(shù)的主要優(yōu)點(diǎn)在于它更少受極端值影響

10、;缺點(diǎn)是較難用于推斷性數(shù)據(jù)分析。 確定中位數(shù)應(yīng)區(qū)分兩種情況: 根據(jù)原始數(shù)據(jù)計(jì)算中位數(shù) 根據(jù)分組數(shù)據(jù)計(jì)算中位數(shù) 13分組數(shù)據(jù)的中位數(shù)度量按費(fèi)用分組30-3940-4950-5960-6970-7980-89用戶數(shù)(頻數(shù))149541用戶累積數(shù)1514192324表11-5 某地區(qū)網(wǎng)民每月實(shí)際上網(wǎng)費(fèi)用的頻數(shù)和累積頻數(shù) 分組資料中位數(shù)式中:L中位數(shù)所在組的下限 W中位數(shù)所在組的組距 n數(shù)據(jù)(個(gè)案)總數(shù) cf低于中位數(shù)所在組下限的累計(jì)頻數(shù) f中位數(shù)所在組的頻數(shù) fcf2nW LMe 首先,建立頻數(shù)和累積頻數(shù)分布表,見表11-5。 其次,確定中位數(shù)所在位置。中位數(shù)位置(24+1)/212.5,從用戶累積

11、數(shù)看,它在50-59這個(gè)組。 根據(jù)分組資料使用公式計(jì)算中位數(shù)。Me50+10(24/25)/957.8 14四分位數(shù)度量其中, QL位置=(n+1)/ 4 QU位置=3(n+1)/ 4QL和QU值為對應(yīng)位置的變量值,或?qū)?yīng)位置兩個(gè)變量值的均值(當(dāng)位置并非整數(shù)時(shí))。25%QLQUQM25%25%25%圖11-7 四分位點(diǎn)和四分位數(shù)的確定 對數(shù)值型數(shù)據(jù),可以使用四分位數(shù)等位置統(tǒng)計(jì)量概括。 度量四分位數(shù)(quartile),首先需要將數(shù)據(jù)排序,然后將整個(gè)數(shù)據(jù)分成四等分,每一部分都包含25的數(shù)據(jù),其中,處于25%和75%位置上的值就是下四分位數(shù)和上四分位數(shù)。四分位點(diǎn)和四分位數(shù)的確定通過圖11-7予以說

12、明。 四分位數(shù)及其相關(guān)統(tǒng)計(jì)量經(jīng)常通過箱線圖來集中展示。15集中趨勢的概括- -平均數(shù)平均數(shù) 平均數(shù)或均值(mean)是統(tǒng)計(jì)分析中最常用的集中趨勢統(tǒng)計(jì)量。在SRS抽樣中,均值就是算術(shù)平均值。對于復(fù)雜的抽樣設(shè)計(jì),樣本均值的計(jì)算需要考慮最終樣本權(quán)數(shù)。 平均數(shù)有兩個(gè)數(shù)學(xué)性質(zhì): 一是各變量值與平均數(shù)的離差之和等于零; 二是各變量值與平均數(shù)的離差平方和最小。 平均數(shù)度量有許多優(yōu)點(diǎn): 易于計(jì)算與理解,且可用于計(jì)算其它統(tǒng)計(jì)量(如樣本方差) 。 對于許多抽樣設(shè)計(jì)來說,樣本均值是總體均值的無偏估計(jì)。 樣本均值度量也有不足之處: 均值不能用于概括類別或順序數(shù)據(jù)的集中趨勢。 均值會(huì)向極端值的方向靠近,受極端值影響很大

13、。16平均數(shù)度量 根據(jù)原始數(shù)據(jù)計(jì)算平均數(shù)根據(jù)原始數(shù)據(jù)計(jì)算平均數(shù) 在簡單隨機(jī)抽樣中,樣本均值就是變量的原始數(shù)據(jù)之和除以數(shù)值個(gè)數(shù)。設(shè)某變量的一組數(shù)據(jù)為:x1,x2 , ,xn ,則 根據(jù)分組數(shù)據(jù)計(jì)算平均數(shù)根據(jù)分組數(shù)據(jù)計(jì)算平均數(shù) 設(shè)某變量的一組數(shù)據(jù)為:x1,x2 , ,xn 各組的組中值為:M1 ,M2 , ,Mk 相應(yīng)的頻數(shù)為:f1 , f2 , ,fk 則分組數(shù)據(jù)平均數(shù)實(shí)際上是一種加權(quán)平均數(shù): 算術(shù)平均數(shù) nxxn1ii加權(quán)平均數(shù) nfMxk1iii17眾數(shù)、中位數(shù)和平均數(shù)的比較 表11-6 數(shù)據(jù)類型和所適用的集中趨勢統(tǒng)計(jì)量數(shù)據(jù)類型數(shù)據(jù)類型類別數(shù)據(jù)類別數(shù)據(jù)順序數(shù)據(jù)順序數(shù)據(jù)等距數(shù)據(jù)等距數(shù)據(jù)等比數(shù)據(jù)

14、等比數(shù)據(jù)適用的統(tǒng)計(jì)量眾數(shù)中位數(shù)平均數(shù)平均數(shù)四分位數(shù)中位數(shù)調(diào)和平均數(shù)眾數(shù)四分位數(shù)幾何平均數(shù)眾數(shù)中位數(shù)四分位數(shù)眾數(shù)均值=中位數(shù)=眾數(shù)均值 中位數(shù) 眾數(shù)眾數(shù) 中位數(shù) 均值 左偏分布 對稱分布 右偏分布 圖11-9 在不同分布狀態(tài)下眾數(shù)、中位數(shù)與均值的關(guān)系 18數(shù)據(jù)離散趨勢的概括數(shù)據(jù)離散趨勢的概括 離散趨勢離散趨勢是指數(shù)據(jù)分布偏離其分布中心的程度。離散趨勢測量離散趨勢測量是指求出一個(gè)數(shù)值,以表示變量值分布的離散程度以及變量值之間的差異程度。 離散趨勢測量與集中趨勢測量之間,實(shí)際上是一種相互補(bǔ)充和相互說明的關(guān)系。 集中趨勢測量求出的是一個(gè)最有代表性的值,這個(gè)值代表性高低取決于個(gè)案之間在變量取值上的差異程

15、度(離散度)。差異越大,則說明集中趨勢的統(tǒng)計(jì)量的代表性越差;反之,代表性就越好。同時(shí)進(jìn)行集中和離散趨勢測量,利于更全面、準(zhǔn)確地認(rèn)識(shí)事物的特征。19數(shù)據(jù)離散趨勢的測量數(shù)據(jù)離散趨勢的測量 數(shù)據(jù)的離散趨勢分析所使用的統(tǒng)計(jì)量包括: 離異比率 四分位差 標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)差系數(shù)離異比率離異比率n)fn (Vm四分位差四分位差 QdQUQL未分組數(shù)據(jù)未分組數(shù)據(jù) 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差 1XXSn1i2in)(分組數(shù)據(jù)分組數(shù)據(jù)的標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)差 1fXMSk1ii2in)(標(biāo)準(zhǔn)差系數(shù)標(biāo)準(zhǔn)差系數(shù)XSVS20離散趨勢測量例題 例例11.2 某地區(qū)行業(yè)組織抽查5家企業(yè)月銷售額和銷售利潤數(shù)據(jù)(單位:萬元),如表11-7第2行所示。試

16、根據(jù)上述數(shù)據(jù)比較銷售額和銷售利潤的離散程度。 根據(jù)5家企業(yè)的月銷售額數(shù)據(jù)和月銷售利潤數(shù)據(jù)分別計(jì)算其平均數(shù)、標(biāo)準(zhǔn)差以及標(biāo)準(zhǔn)差系數(shù),分別列于表11-7的第3-5行。月銷售額月銷售利潤企業(yè)甲企業(yè)乙企業(yè)丙企業(yè)丁企業(yè)戊1702203904304808.012.018.022.026.0 平均數(shù)33817.2 標(biāo)準(zhǔn)差 S135.57.3標(biāo)準(zhǔn)差系數(shù)0.400.42表11-7 某行業(yè)5家企業(yè)月銷售額與利潤數(shù)據(jù)VX21離異比率、四分位差與標(biāo)準(zhǔn)差離異比率、四分位差與標(biāo)準(zhǔn)差的比較的比較 表11-8 數(shù)據(jù)類型和所適用的離散趨勢統(tǒng)計(jì)量數(shù)據(jù)類型數(shù)據(jù)類型類別數(shù)據(jù)類別數(shù)據(jù)順序數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的統(tǒng)計(jì)量離異比

17、率四分位差標(biāo)準(zhǔn)差離異比率標(biāo)準(zhǔn)差系數(shù)(用于比較目的)四分位差離異比率22數(shù)據(jù)分布的差異分析 在數(shù)據(jù)分布集中趨勢和離散趨勢測量的討論中,已經(jīng)多次非正式地將調(diào)查數(shù)據(jù)的分布與正態(tài)分布進(jìn)行比較,以判斷數(shù)據(jù)分布的集中或離散趨勢。 數(shù)據(jù)分布的差異分析則是正式地進(jìn)行這種比較,即通過分析數(shù)據(jù)分布的偏度與峰度,以描述調(diào)查數(shù)據(jù)分布與正態(tài)分布之間的差異程度。23偏度及其測量偏度及其測量 ,表示數(shù)據(jù)分布的不對稱方向和程度。正態(tài)分布的偏度值為零。圖示方法可用來比較和判斷分布的對稱性,如圖11-10。具有顯著正偏度的分布有很長的右尾;具有顯著負(fù)偏度的分布有很長的左尾。準(zhǔn)確測度偏斜程度,需要計(jì)算偏態(tài)系數(shù)偏態(tài)系數(shù)。統(tǒng)計(jì)上經(jīng)常以

18、三階中心矩作為測定偏態(tài)的一個(gè)指標(biāo)。SK0時(shí),說明分布是對稱的;當(dāng)SK0時(shí),說明大于平均數(shù)的數(shù)據(jù)次數(shù)比小于平均數(shù)的數(shù)據(jù)次數(shù)要多,為右偏分布;當(dāng)SK0時(shí),說明分布為左偏,SK值越小說明左偏程度越高。 24峰度及其測量峰度及其測量 ,表示數(shù)據(jù)分布與正態(tài)曲線相比的尖峭或扁平程度。如圖11-11。若數(shù)據(jù)分布比正態(tài)曲線低且尾部較短,則屬于扁平分布;若數(shù)據(jù)分布比正態(tài)曲線瘦高且尾部較長,則屬于尖峭分布。 統(tǒng)計(jì)上常用四階中心矩作為測定峰度的指標(biāo)。將四階中心矩除以標(biāo)準(zhǔn)差的四次方,得到峰度系數(shù)峰度系數(shù),表示數(shù)據(jù)分布的相對峰度。 當(dāng)峰度值K0時(shí),說明數(shù)據(jù)分布為正態(tài)曲線。當(dāng)峰度值K0時(shí),表示觀察值聚集程度比正態(tài)分布高,

19、為尖峭分布。當(dāng)峰度值K0時(shí),表示觀察值聚集程度比正態(tài)分布低,數(shù)據(jù)為扁平分布。25分布偏度與峰度例題例例11.3 假設(shè)根據(jù)某班40名學(xué)生管理學(xué)考試成績整理為分組數(shù)據(jù)如表11-9中1-3列所示?,F(xiàn)要求分析成績分布偏度。解:首先根據(jù)分組數(shù)據(jù)計(jì)算平均數(shù),并準(zhǔn)備用于計(jì)算偏度系數(shù)的中心矩?cái)?shù)據(jù),列于表11-9中的5-7列。 表11-9 某班40名學(xué)生管理學(xué)成績偏度及峰度計(jì)算表成績(分)組中值Mi頻數(shù)fiMifi(Mi- ) fi fi fi5059606970798089901005565758595271112811045582510207602414461611521372176432204827648

20、19208704259232768663552268912281615552524288合計(jì)4031705170122001475120X3i)X-(M2i)X-(M4i)X-(M分組數(shù)據(jù)分組數(shù)據(jù)的平均數(shù)的平均數(shù)40/3170nfMXk1iii偏態(tài)偏態(tài)系數(shù)系數(shù) 21. 038.114012200Sn f) xM(SK33ik1i3i峰度峰度系數(shù)系數(shù) -0.8311.384014751203Sn f)xM(K44ik1i4i分組數(shù)據(jù)分組數(shù)據(jù)的標(biāo)準(zhǔn)差的標(biāo)準(zhǔn)差405170nfXMk1ii2i)(2611 113 3 雙變量及多變量數(shù)據(jù)的描述分析雙變量及多變量數(shù)據(jù)的描述分析 交叉列表分析可以清楚地表示

21、兩個(gè)變量之間的相互關(guān)系。交叉列表可以看成是分類的頻數(shù)表,即一個(gè)變量的頻數(shù)分布是根據(jù)另一個(gè)變量的取值來進(jìn)一步細(xì)分的,所以又稱為聯(lián)合分布表。 理論上講,百分?jǐn)?shù)既可以以列合計(jì)為基數(shù)計(jì)算,也可以以行合計(jì)為基數(shù)計(jì)算。但是,實(shí)際上到底應(yīng)該按照哪一種方式計(jì)算,則取決于自變量的選擇。一般準(zhǔn)則是按照自變量各類的合計(jì)來計(jì)算因變量各類的百分?jǐn)?shù)。 一份完整交叉表,每格內(nèi)包含四個(gè)數(shù)字,分別表示頻數(shù)、行百分?jǐn)?shù)、列百分?jǐn)?shù)和總百分?jǐn)?shù)(見表(見表11-12)。27多變量交叉列表分析 市場中變量之間的關(guān)系是復(fù)雜的。利用二維列表分析可能發(fā)現(xiàn)兩個(gè)變量之間似乎密切相關(guān),但是再引進(jìn)一個(gè)變量后,可能發(fā)現(xiàn)原來兩個(gè)變量之間的相關(guān)關(guān)系變?nèi)趸蛳?/p>

22、了;相反地情況也可能發(fā)生。 因此,單純考慮兩個(gè)變量之間的聯(lián)系很可能導(dǎo)致錯(cuò)誤判斷。為避免這類錯(cuò)誤,要求在雙變量交叉列表分析的基礎(chǔ)上,引入第三個(gè)變量作多維交叉列表分析。2811 114 4 多變量數(shù)據(jù)的深度分析多變量數(shù)據(jù)的深度分析 對于雙變量及多變量數(shù)據(jù),通常還需要進(jìn)行深度分析,以深刻揭示數(shù)據(jù)之間的關(guān)系和變化規(guī)律。 雙變量以及多變量數(shù)據(jù)的深度分析包括很多種方法,這里扼要介紹: 相關(guān)分析 因子分析 判別分析 聚類分析 29相關(guān)分析 相關(guān)是指一個(gè)變量與另一個(gè)變量之間的連帶性。即,如果相關(guān)是指一個(gè)變量與另一個(gè)變量之間的連帶性。即,如果一個(gè)變量的值發(fā)生變化,另一個(gè)變量值也隨著發(fā)生變化,一個(gè)變量的值發(fā)生變化

23、,另一個(gè)變量值也隨著發(fā)生變化,則兩個(gè)變量就是相關(guān)的。則兩個(gè)變量就是相關(guān)的。 相關(guān)分析相關(guān)分析 既包括線性相關(guān),也包括非線性相關(guān);既包括線性相關(guān),也包括非線性相關(guān); 既包括順序變量的相關(guān),也包括等距變量的相關(guān)。既包括順序變量的相關(guān),也包括等距變量的相關(guān)。 簡單相關(guān)系數(shù)簡單相關(guān)系數(shù) 研究等距及等比變量的線性相關(guān),又稱皮爾遜積矩相關(guān)。研究等距及等比變量的線性相關(guān),又稱皮爾遜積矩相關(guān)。 相關(guān)系數(shù)相關(guān)系數(shù) 22)()()(YYXXYYXXrriiiiyxxy備選表達(dá)備選表達(dá) 其中,x2X的方差; y2Y的方差; X和Y的協(xié)方差 22yxxyyxxyrrNYYXXiixy)(30相關(guān)分析相關(guān)矩陣是匯報(bào)相關(guān)

24、結(jié)果的標(biāo)準(zhǔn)形式它可以同時(shí)將一個(gè)變量與其他多相關(guān)矩陣是匯報(bào)相關(guān)結(jié)果的標(biāo)準(zhǔn)形式它可以同時(shí)將一個(gè)變量與其他多個(gè)變量之間的相關(guān)關(guān)系集中展示出來。個(gè)變量之間的相關(guān)關(guān)系集中展示出來。表表11-18展示了一個(gè)相關(guān)矩陣,將銷售人員銷售業(yè)績與銷售人員自身展示了一個(gè)相關(guān)矩陣,將銷售人員銷售業(yè)績與銷售人員自身量數(shù)量數(shù)(如工作滿意度、語言能力、工作壓力感知如工作滿意度、語言能力、工作壓力感知)以及一些銷售管理量以及一些銷售管理量數(shù)數(shù)(如任務(wù)明確性、區(qū)域市場潛力以及工作量等如任務(wù)明確性、區(qū)域市場潛力以及工作量等)相聯(lián)系。相聯(lián)系。表11-18 關(guān)于銷售人員業(yè)績與其他變量之間的積矩相關(guān)矩陣變量銷售業(yè)績工作滿意度語言能力工作

25、壓力任務(wù)模糊區(qū)域潛力工作量(銷售業(yè)績)100(工作滿意度)045100(語言能力)-036-013100(工作壓力)-048-006-002100(任務(wù)模糊)-026-024-005044100(區(qū)域潛力)049031-009-038-026100(工作量)045011-012-027-02204910031解釋相關(guān)關(guān)系時(shí)應(yīng)注意問題解釋相關(guān)關(guān)系時(shí)應(yīng)注意問題 解釋相關(guān)關(guān)系時(shí)一定要小心,相關(guān)性并不意味著因果關(guān)系。相關(guān)是指變量之間的連帶性,相關(guān)系數(shù)可能僅僅說明變量之間具有某種共變關(guān)聯(lián)。 相關(guān)分析與回歸分析之間關(guān)系比較微妙,例如在回歸分析中,利用相關(guān)系數(shù)的平方來計(jì)算決定系數(shù)。 但是,兩者存在一些重要區(qū)

26、別: 在相關(guān)分析中,兩個(gè)變量都是隨機(jī)變量,處于同等地位; 在回歸分析中,因變量屬于隨機(jī)變量;自變量可以是隨機(jī)變量或非隨機(jī)變量,用于預(yù)測因變量的變化。 相關(guān)分析主要用于描述兩個(gè)變量之間線性關(guān)系的密切程度; 回歸分析不僅可以揭示變量X對變量Y的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制。32聚類分析聚類分析(Cluster Analysis) 將被認(rèn)識(shí)的對象進(jìn)行分類,以便尋找其中同與不同的特征,往往是人們認(rèn)識(shí)世界的基礎(chǔ)。 在市場營銷領(lǐng)域,有很多這種分類問題。例如, 零售商和消費(fèi)品公司定期地對有關(guān)客戶購買習(xí)慣、性別、年齡、收入水平等數(shù)據(jù)應(yīng)用聚類技術(shù)進(jìn)行分析,以便公司可以為每組消費(fèi)者設(shè)計(jì)營銷和產(chǎn)品開發(fā)戰(zhàn)

27、略,以增加銷售額和建立品牌忠誠度。 營銷管理者也許對某些城市中的某些商店(個(gè)案)的聚類問題感興趣,通過聚類分析就可以選擇可比較的城市來檢驗(yàn)各種市場營銷戰(zhàn)略了。33聚類分析的原理聚類分析的原理 是根據(jù)樣本單元各個(gè)變量的取值,將樣本(觀察對象或變量)自動(dòng)分類的分析方法。聚類分析的目的是把物體或人分成很多相對獨(dú)立且較為固定的組,并進(jìn)一步觀察一批樣本之間的差異和共性。 聚類分析始于聚類過程的選擇,不同的聚類過程使用不同的算法。主要的聚類過程包括:(K-Means Cluster)過程可以完成由用戶指定類別數(shù)目的大樣本資料的逐步聚類分析。所謂逐步聚類分析就是先把被聚對象進(jìn)行初始分類,然后逐步調(diào)整,得到最

28、終分類。(Hierarchical Cluster)分析過程只限于較小的數(shù)據(jù)文件。在系統(tǒng)聚類分析中,用戶事先無法確定類別數(shù)。系統(tǒng)聚類分析有兩種形式,一是對研究對象本身進(jìn)行分類,稱為Q型舉類;另一是對研究對象的觀察指標(biāo)進(jìn)行分類,稱為R型聚類。34聚類分析過程的算法聚類分析過程的算法 聚類分析的核心問題是怎樣定量地計(jì)算多變量情況下各樣本之間的差距。聚類分析可提供多種計(jì)算各樣本之間差距的方法:歐氏平方距離、歐氏距離、絕對值距離、切氏距離、夾角余弦距離等。 如,對某些商店作聚類分析,商店A兩屬性(變量)值分別為73和68,商店B兩屬性(變量)值分別為66和69。則利用歐氏距離計(jì)算商店A和商店B之間的距

29、離為:(7366)2+(6869)21/2707用絕對值距離計(jì)算商店A和商店B之間的距離為:7366+68698 聚類分析過程將根據(jù)某種指定方法,計(jì)算出所有樣本間的距離,然后將距離最近的兩樣本聚成一類,然后依次類推,直到將所有樣本聚為一大類為止。35聚類分析實(shí)例聚類分析實(shí)例 例例11.411.4某人力資源咨詢機(jī)構(gòu)對應(yīng)聘某特殊職業(yè)的29名候選者進(jìn)行了包括體格檢查、修養(yǎng)測試、知識(shí)測驗(yàn)、心理測試、語言藝術(shù)以及工作能力測試,測驗(yàn)結(jié)果如表11-19所示。由于多項(xiàng)測試成本高、耗時(shí)長,所以希望通過聚類分析(即R型指標(biāo)聚類)篩選代表性指標(biāo),以便經(jīng)濟(jì)快捷地對應(yīng)聘者做出評(píng)價(jià)。表11-19 某特殊職業(yè)29名應(yīng)聘者素

30、質(zhì)與能力測驗(yàn)評(píng)分編號(hào)N0.體格評(píng)分X1修養(yǎng)測試X2知識(shí)測驗(yàn)X3心理評(píng)分X4語言藝術(shù)X5能力測驗(yàn)X6123282954.8972.4953.8173.8947.3130.8642.6152.8632.9428.55448.70467.30425.61312.50294.700.0120.0080.0040.0640.0051.0101.6401.2201.1500.83813.5013.0013.757.257.0036判別分析判別分析 (Discriminant) 判別分析是在已知若干樣本分類的情況下,根據(jù)收集到的多變量數(shù)據(jù),建立差別函數(shù),從而推斷未知樣本分類的分析方法。 判別分析的特點(diǎn)表現(xiàn)在

31、: 用于推導(dǎo)分類規(guī)則的樣本的所屬類別必須事先已知; 由已知樣本推斷未知樣本,是檢驗(yàn)假設(shè)的一種方法。 例如,營銷經(jīng)理可能對某產(chǎn)品的購買使用者與未購買者之間的差別感興趣,在通過市場調(diào)研收集了大量有關(guān)潛在消費(fèi)者的數(shù)據(jù)后,他可能進(jìn)一步想知道具有哪些人口統(tǒng)計(jì)及生活方式特征的潛在消費(fèi)者具有較高的購買可能性。37判別分析的步驟及要點(diǎn) 1)確定兩個(gè)或多個(gè)組(如使用者和未使用者、某種疾病的患者與非患者)在平均判別分方面是否存在統(tǒng)計(jì)顯著性差別; 2)為根據(jù)自變量的值將個(gè)體(或?qū)ο?分類而建立判別函數(shù)模型; 3)確定兩組或多組平均得分方面的差異有多少可以用自變量解釋。 在僅涉及兩個(gè)組的判別分析中通常只需要一個(gè)判別函

32、數(shù)(最簡單且常見的判別函數(shù)為線性模型)。 判別分Z,是根據(jù)公式為各個(gè)個(gè)體或?qū)ο笥?jì)算得來的,這個(gè)分值是預(yù)測特定對象或個(gè)體屬于哪個(gè)組的基礎(chǔ)。 判別系數(shù),通過判別分析程序計(jì)算出來。與特定自變量相聯(lián)系的判別系數(shù)的大小由判別函數(shù)中變量的方差結(jié)構(gòu)決定。在各組之間差別性大的自變量,判別系數(shù)就大;反之,判別系數(shù)就小。Zb0+b1X1+b2X2+b3X3+.+bnXn 式中,式中,Z對應(yīng)于個(gè)體的判別分;對應(yīng)于個(gè)體的判別分; bi對應(yīng)于第對應(yīng)于第i個(gè)自變量或預(yù)測變量的判別系數(shù),個(gè)自變量或預(yù)測變量的判別系數(shù),b0為常數(shù)項(xiàng);為常數(shù)項(xiàng); Xi對應(yīng)于第對應(yīng)于第i個(gè)個(gè)體的自變量或預(yù)測變量的值。個(gè)個(gè)體的自變量或預(yù)測變量的值。

33、38判別分析實(shí)例判別分析實(shí)例 例例11.5 11.5 為研究優(yōu)秀推銷員的素質(zhì)特征,某營銷研究機(jī)構(gòu)隨機(jī)抽選了業(yè)績突出的優(yōu)秀推銷員15人(優(yōu)秀組)以及業(yè)績平平的非優(yōu)秀推銷員16人(非優(yōu)秀組)就其素質(zhì)進(jìn)行了綜合測評(píng),測評(píng)結(jié)果被歸納為兩個(gè)因子感同力和自我驅(qū)動(dòng)力。其中,感同力是指能設(shè)身處地地為顧客著想的能力;自我驅(qū)動(dòng)力則是指完成銷售任務(wù)的強(qiáng)烈愿望程度。31個(gè)調(diào)查樣本的感同力和自我驅(qū)動(dòng)力的綜合評(píng)分列于表11-22中。試作判別分析,建立判別函數(shù)以便在推銷員招聘實(shí)踐中篩選候選者。 表11-22 推銷員綜合素質(zhì)感同力和自我驅(qū)動(dòng)力的綜合評(píng)分編號(hào)優(yōu)秀組編號(hào)非優(yōu)秀組感同力X1自我驅(qū)動(dòng)力X2感同力X1自我驅(qū)動(dòng)力X2123159.8613.3314.6613.335.183.733.895.961231610.6612.5313.339.332.074.453.063.6339因子分析因子分析(Factor Analysis) 因子分析是這樣一種統(tǒng)計(jì)方法,為了從大量的可測量的數(shù)據(jù)(如等級(jí)評(píng)分)中總結(jié)出相對少數(shù)的簡明信息,即因子,研究者通過構(gòu)造少量的因子來反映原有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論