第8章調(diào)查資料的統(tǒng)計(jì)分析_第1頁
第8章調(diào)查資料的統(tǒng)計(jì)分析_第2頁
第8章調(diào)查資料的統(tǒng)計(jì)分析_第3頁
第8章調(diào)查資料的統(tǒng)計(jì)分析_第4頁
第8章調(diào)查資料的統(tǒng)計(jì)分析_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第九章第九章 調(diào)查資料的統(tǒng)計(jì)分析調(diào)查資料的統(tǒng)計(jì)分析本章結(jié)構(gòu)本章結(jié)構(gòu)推論統(tǒng)計(jì)推論統(tǒng)計(jì)3.多元統(tǒng)計(jì)多元統(tǒng)計(jì)4.常用統(tǒng)計(jì)分析軟件簡介常用統(tǒng)計(jì)分析軟件簡介5.描述統(tǒng)計(jì)描述統(tǒng)計(jì)2.概述概述1.調(diào)查結(jié)果的展示調(diào)查結(jié)果的展示6.第一節(jié)第一節(jié) 概述概述v 市場調(diào)查數(shù)據(jù)的計(jì)量尺度 定類尺度(nominal scale) 按照某種屬性把事物進(jìn)行分類,是判斷“屬于/不屬于”的基準(zhǔn)。 如性別分為男和女兩類,可以用編號1表示男,2表示女。 定序尺度(ordinal scale) 不僅能將事物分成不同的類別,還可以確定這些類別的優(yōu)劣或順序,是判斷“A比B”的基準(zhǔn)。 如文化程度分為大專及以上、高中、初中和小學(xué)及以下四類,可

2、以分別編號為4、3、2、1。 定距尺度(interval scale) 不僅能將事物分成不同類別并進(jìn)行排序,還可以準(zhǔn)確地計(jì)量它們間的差距。 如考試成績,90分比80分高10分。 定比尺度 (ratio scale) 除具有以上三種尺度的所有特性外,還具有“絕對零點(diǎn)”。 例如收入,0表示“沒有收入”(稱為“絕對零點(diǎn)”),這時(shí)不僅可以說1000元比800元多200元,還可以說1000元是500元的2倍。 定性數(shù)據(jù)定量數(shù)據(jù)數(shù)據(jù)的四種計(jì)量尺度及其適用統(tǒng)計(jì)方法的比較數(shù)據(jù)的四種計(jì)量尺度及其適用統(tǒng)計(jì)方法的比較 2類型尺度基本性質(zhì)市場調(diào)查案例適用的統(tǒng)計(jì)方法描述統(tǒng)計(jì)方法推論統(tǒng)計(jì)方法定性數(shù)據(jù)定類尺度表明對象或其類

3、別的數(shù)字性別,品牌,商店比例,眾數(shù) 檢驗(yàn),二項(xiàng)式檢驗(yàn)定序尺度表示對象的相對位置,但不能表示差異大小的數(shù)字偏好排序,在市場中的位次,社會(huì)層次比例,眾數(shù),中位數(shù)順序相關(guān)系數(shù),F(xiàn)riedman ANOVA定量數(shù)據(jù)定距尺度可以比較對象間的差異,但不存在絕對零點(diǎn)態(tài)度,意見 中位數(shù),全距,均值,標(biāo)準(zhǔn)差相關(guān)系數(shù),t檢驗(yàn),ANOVA,回歸,因子分析定比尺度存在絕對零點(diǎn),可以計(jì)算對象間的比率年齡、收入、成本、銷售量、市場份額全距,均值,標(biāo)準(zhǔn)差,幾何均值,調(diào)和均值變異系數(shù)9.1 概述概述v市場調(diào)查統(tǒng)計(jì)分析方法類型 描述統(tǒng)計(jì)分析 即將數(shù)據(jù)以表格、圖形或數(shù)值形式表現(xiàn)出來 主要著重于對數(shù)量水平或其他特征的描述,但不具有

4、推斷性質(zhì)。 推論統(tǒng)計(jì)分析 即通過樣本推斷總體。 這類方法對數(shù)據(jù)的收集方法、變量的選擇、測度的決定、資料的時(shí)間空間范圍有嚴(yán)格限制,必須符合嚴(yán)格的假設(shè)條件。 其結(jié)果不僅可用于描述數(shù)量關(guān)系,還可以推斷總體,進(jìn)行預(yù)測,揭示原因以及檢驗(yàn)理論等。描述統(tǒng)計(jì)分析案例描述統(tǒng)計(jì)分析案例男64%女36%對景觀的滿意程度915.815.815.83256.156.171.91221.121.193.047.07.0100.057100.0100.0非常滿意滿意一般不滿意TotalValidFrequencyPercent Valid PercentCumulativePercent非常滿意16%不滿意7%一般21%滿

5、意56%推論統(tǒng)計(jì)分析案例推論統(tǒng)計(jì)分析案例v 采用簡單隨機(jī)抽樣方法從甲乙兩學(xué)校各自抽取100位學(xué)生,甲學(xué)校樣本在體育鍛煉上平均每周花費(fèi)時(shí)間為120分,樣本標(biāo)準(zhǔn)差為30,乙學(xué)校樣本在體育鍛煉上平均每周花費(fèi)時(shí)間為110分,標(biāo)準(zhǔn)差為10,兩個(gè)學(xué)校的學(xué)生在平均每周體育鍛煉時(shí)間上有沒有顯著差異? 甲班甲班乙班乙班第二節(jié)第二節(jié) 描述統(tǒng)計(jì)分析描述統(tǒng)計(jì)分析定量數(shù)據(jù)描述統(tǒng)計(jì)分析定量數(shù)據(jù)描述統(tǒng)計(jì)分析2.定性數(shù)據(jù)描述統(tǒng)計(jì)分析定性數(shù)據(jù)描述統(tǒng)計(jì)分析 1.數(shù)值表示數(shù)值表示圖表、圖示圖表、圖示數(shù)值表示數(shù)值表示圖示表示圖示表示多變量相關(guān)與回歸分析多變量相關(guān)與回歸分析3.定性數(shù)據(jù)定性數(shù)據(jù)定量數(shù)據(jù)定量數(shù)據(jù)案例數(shù)據(jù)(表案例數(shù)據(jù)(表9

6、-2 某公司某公司30名職工數(shù)據(jù))名職工數(shù)據(jù))員工號受教育年數(shù)(年) 職位年薪(元)工作資歷員工號受教育年數(shù)(年) 職位年薪(元)工作資歷114030150116120171002216036600117120252002380177001182016925024120261001191502670025121594001201203090026161472501211804395027150370501221203150028150277501231704020039151387001241504110031016040350125160348003111203390012612030900

7、312120199501271919200031319152125128191110625314161402002291911350003158019800230120262503定性數(shù)據(jù)定性數(shù)據(jù)v職位:0表示一般職員,1表示管理者v工作資歷 :1表示工作年限低于5年;2表示工作年限在6-10年;3表示工作年限大于10年 定量數(shù)據(jù)定量數(shù)據(jù)v受教育年數(shù)(年)v年薪(元)一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析頻數(shù)分布表 v 頻數(shù)分布表頻數(shù)分布表 : 頻數(shù)分布是數(shù)據(jù)的表格匯總,表示在幾個(gè)互不重疊的組別中每一組項(xiàng)目的頻數(shù)和百分比。頻數(shù)百分比累計(jì)百分比工作年限低于5年1343.33%43.33

8、%工作年限在6-10年930.00%73.33%工作年限大于10年826.67%100.00%總計(jì)30100.00%一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析圖示 v 餅圖:餅圖: 以圓的整體面積代表被研究現(xiàn)象的總體,按各構(gòu)成部分占總體比重的大小把圓面積分割成若干扇形來表現(xiàn)部分與總體的比例關(guān)系。 餅圖一般只能用于單選問題。 餅圖不能切成太多的部分,一般不要超過7部分。 某城市商品房住戶人均居住面積餅圖某城市商品房住戶人均居住面積餅圖 一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析圖示 v 線圖線圖 又稱曲線圖,即利用線段的升降來說明現(xiàn)象的變動(dòng)情況,主要用于表示現(xiàn)象在時(shí)間上的變化趨勢、現(xiàn)

9、象的分配情況和兩個(gè)現(xiàn)象之間的依存關(guān)系。 包括簡單線圖和復(fù)合線圖。 一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析圖示 v 條形圖:條形圖: 是利用相同寬度的條形的長短或高低來表現(xiàn)數(shù)據(jù)的大小與變動(dòng)。 如果條形圖橫排,也可稱為帶形圖,縱排也可稱為柱形圖。 表現(xiàn)各種不同數(shù)值資料相互對比的結(jié)果。 條形圖可分為簡單條形圖和復(fù)合條形圖。 一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析數(shù)值表示 v 眾數(shù)眾數(shù)(mode) 表示一組資料或資料中出現(xiàn)次數(shù)最多或最常見的數(shù)值。 在市場調(diào)查資料中,眾數(shù)代表了最典型的個(gè)案,或分布的高峰所對應(yīng)的變量值。 例如,在A、B、C、D四個(gè)品牌中,最受消費(fèi)者偏愛的是品牌D,那么

10、品牌D或品牌D所對應(yīng)的編碼(變量值)就是眾數(shù)。 眾數(shù)簡單直觀,主要用于描述定類變量的中心;但是眾數(shù)可能會(huì)因?yàn)橘Y料中個(gè)別值的變化而有較大的變化,因而是很不穩(wěn)定的。 EXCEL中計(jì)算眾數(shù)的函數(shù)為:MODE(區(qū)域) 一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析一、定性數(shù)據(jù)描述統(tǒng)計(jì)分析數(shù)值表示 v 中位數(shù)中位數(shù)(median) 表示一組資料按照大小的順序排列時(shí)中間位置的那個(gè)數(shù)值。 有50的個(gè)案(按某個(gè)變量)的取值在中位數(shù)之下,50在它之上。中位數(shù)實(shí)際上就是一個(gè)50百分位數(shù)。 例如,在某市的調(diào)查中13個(gè)商場一周的營業(yè)額(X)按從小到大的順序排列為(萬元): 23,35,47,59,88,102,145,198,230,25

11、6,278,345,388 中位數(shù)主要適用于順序變量,對極端值不敏感。 EXCEL中計(jì)算中位數(shù)的函數(shù)為:MEDIAN(區(qū)域) 二、 定量數(shù)據(jù)描述統(tǒng)計(jì)分析直方圖 v 直方圖:直方圖: 先把定量數(shù)據(jù)分組; 把研究的變量放在橫軸,每組的頻數(shù)或百分比放在縱軸; 每組的頻數(shù)或百分比用一個(gè)長方形繪制,長方形的底是組寬,高是每組相應(yīng)的頻數(shù)或百分比。一次休閑度假活動(dòng)時(shí)間一般為幾天12.010.08.06.04.02.06050403020100Std. Dev = 1.87 Mean = 3.0N = 108.00定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示v表表9-4 EXCEL對公司員工年薪的描述分析對公司員工年

12、薪的描述分析描述集中趨勢描述離散趨勢描述對稱和偏斜程度年薪年薪平均平均42750標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤差4927.011中位數(shù)中位數(shù)35700眾數(shù)眾數(shù)40200標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差26986.35方差方差7.28E+08峰度峰度4.815795偏度偏度2.169985區(qū)域區(qū)域117900最小值最小值17100最大值最大值135000求和求和1282500觀測數(shù)觀測數(shù)30定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示 v集中趨勢分析:集中趨勢分析:就是確定數(shù)據(jù)一般水平的代表值或中心值,常用的指標(biāo)有三種,即平均數(shù)、中位數(shù)和眾數(shù)。 平均數(shù),也稱為均值(mean),等于變量值之和除于個(gè)案數(shù)。 平均數(shù)是最典型的也是最常用的統(tǒng)計(jì)量

13、,適用于等距的和等比率的變量。 平均數(shù)也是最“有意義”的統(tǒng)計(jì)量,它可以看成是資料的“平衡點(diǎn)”或“中心”位置所在。 由于平均數(shù)的計(jì)算需要用到所有的資料,因此與中位數(shù)和眾數(shù)相比,它所含的訊息量最大。 但是平均數(shù)對個(gè)別極端值的變化會(huì)是很敏感的。 nxnxxxxniin121定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示離散趨勢分析v除了用上述典型的統(tǒng)計(jì)量描述分布的中心位置外,還要用一些統(tǒng)計(jì)量描述分布圍繞中心向兩個(gè)方向分散(伸展)的程度。 v方差和標(biāo)準(zhǔn)差:方差和標(biāo)準(zhǔn)差: 反映所有觀測值對均值的離散關(guān)系。 方差或標(biāo)準(zhǔn)差越大,均值的代表性越差。 EXCEL中方差和標(biāo)準(zhǔn)差的計(jì)算函數(shù)為: VAR(區(qū)域)和 STDEV(

14、區(qū)域) 2SS1)(122nxxSnii定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示離散趨勢分析v四分位差(interquartile range) 將一組數(shù)據(jù)從小到大排列后,用3個(gè)四分位數(shù)點(diǎn)( )將其分為四個(gè)相等的部分,第一個(gè)四分位數(shù)點(diǎn) 是第25百分位數(shù)點(diǎn),又叫下四分位數(shù)點(diǎn);第二個(gè)四分位數(shù)點(diǎn) 是第50百分位數(shù)點(diǎn),即中位數(shù);第三個(gè)四分位數(shù)點(diǎn) 是第75百分位數(shù)點(diǎn),又叫上四分位數(shù)點(diǎn)。 上四分位數(shù)點(diǎn)與下四分位數(shù)點(diǎn)之間的距離即為四分位差,記為QD。 EXCEL中計(jì)算四分位數(shù)的函數(shù)為:QUARTILE(區(qū)域, i ) , i = 0,1,2,3,4。 321,QQQ1Q2Q3Q13QQQD定量數(shù)據(jù)的數(shù)值表示定量

15、數(shù)據(jù)的數(shù)值表示離散趨勢分析v 變異系數(shù)(變異系數(shù)(coefficient of variation)也稱為離散系數(shù),即標(biāo)準(zhǔn)差與均值的比值,主要用于不同類別數(shù)據(jù)離散程度的比較。 變異系數(shù)消除了測度單位和觀測值水平不同的影響,因而可以直接用來比較數(shù)據(jù)的離散程度。v 全距(全距(Range)也稱極差,是一組數(shù)據(jù)中最大與最小值之差 R=Max(xi)Min(xi) XSCV 定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示偏度偏度(Skewness)與與33() 1)(1(sxxnnn 偏度是指數(shù)據(jù)分布的偏斜方向和程度。偏態(tài)系數(shù)的計(jì)算公式為: EXCEL中計(jì)算偏度的函數(shù)為SKEW(區(qū)域) 3為0時(shí),表明分布是對稱

16、的; 若為正值,說明正偏離的差值較大,分布為正偏或右偏; 若為負(fù)值,說明分布為負(fù)偏或左偏。 3的絕對值越大,分布的偏斜程度越大。 定量數(shù)據(jù)的數(shù)值表示定量數(shù)據(jù)的數(shù)值表示峰度峰度(Kurtosis)分析分析 )3)(2() 1(3)3)(2)(1() 1(244nnnsxxnnnnn 峰度是指分布集中趨勢高峰的形狀,若分布的形狀比比標(biāo)準(zhǔn)正態(tài)分布更瘦更高,稱為尖峰分布。相反,若更扁平,稱為平峰分布。 峰度系數(shù),其計(jì)算公式為:當(dāng)40時(shí)為尖峰分布,40時(shí)為平峰分布。 EXCEL中計(jì)算峰度系數(shù)的函數(shù)為 KURT(區(qū)域)。 例題:分析下列分布的峰度和偏度?例題:分析下列分布的峰度和偏度?三、多變量相關(guān)與回歸

17、分析定性數(shù)據(jù)v 定性變量間的相關(guān)分析交叉列聯(lián)表分析v 定量變量間的相關(guān)分析散點(diǎn)圖(Scatter diagram)相關(guān)系數(shù)(Coefficient of correlation)回歸分析(regression)定性變量間的相關(guān)分析定性變量間的相關(guān)分析交叉列聯(lián)表分析交叉列聯(lián)表分析v交叉列聯(lián)表分析是同時(shí)描述兩個(gè)或兩個(gè)以上變量聯(lián)合分布的統(tǒng)計(jì)技術(shù)。v進(jìn)行交叉列聯(lián)分析的變量必須是離散變量,并且只能有有限個(gè)取值,否則要進(jìn)行分組。 兩變量的兩變量的交叉列聯(lián)分析交叉列聯(lián)分析列聯(lián)表可以清楚地表示兩個(gè)類別變量之間的相互關(guān)系。 居住時(shí)間與對百貨商場的熟悉程度的交叉列聯(lián)分析 單位:頻數(shù) 熟悉程度居住時(shí)間 13年以下1

18、3-30年30年以上合計(jì)不熟悉453455134熟悉525327132合計(jì)978782266居住時(shí)間與對百貨商場的熟悉程度的交叉列聯(lián)分析 單位:% 熟悉程度居住時(shí)間13年以下13-30年30年以上不熟悉46.439.167.1熟悉53.660.932.9合計(jì)100.0100.0100.0列百分比居住時(shí)間與對百貨商場的熟悉程度的交叉列聯(lián)分析 單位:% 熟悉程度居住時(shí)間 13年以下13-30年30年以上行合計(jì)不熟悉33.625.441.0100.0熟悉39.440.120.5100.0行百分比v比較上面兩個(gè)表,你選擇哪種百分比?v建議:對自變量取百分比 自變量為列變量,取列百分比 自變量為行變量,

19、取行百分比020406080100%18-192.46.917.569.920-293.65.711.276.930-392.23.77.884.140-491.12.45.488.450-590.51.44.291.160-690.80.92.692.8總在用經(jīng)常用偶爾用從不用使用電腦的程度與年齡成反比使用電腦的程度與年齡成反比 不同文化程度的公眾在工作中使用電腦的情況 0%50%100%從不用 95.494.892.874.948.935偶爾用0.20.33.715.12724.5經(jīng)常用0.40.30.85.713.224.3總在用0.10.20.22.310.716小學(xué)以下小學(xué)初中高中或

20、中專大專大學(xué)三變量的交叉列聯(lián)表分析三變量的交叉列聯(lián)表分析v引入第三變量后再進(jìn)行交叉列聯(lián)分析,則可能出現(xiàn)以下四種結(jié)果: 剔除外部環(huán)境的影響,使原先兩變量間的關(guān)系更單純。 否定原先兩變量間的關(guān)系。 盡管原先觀察兩變量間沒有關(guān)系,第三變量的引入可能揭示了它們之間的一些聯(lián)系。 沒有影響 。例例1 1:婚姻狀況和衣服支出水平:婚姻狀況和衣服支出水平衣服支出水平婚姻狀況已婚未婚高31%52%低69%48%合計(jì)100%100%個(gè)案數(shù)700300性別、婚姻狀況和衣服支出水平性別、婚姻狀況和衣服支出水平衣服支出水平性別男女婚姻狀況婚姻狀況已婚未婚已婚未婚高35%40%25%60%低65%60%75%40%合計(jì)1

21、00%100%100%100%個(gè)案數(shù)400120300180婚姻狀況和衣服支出水平婚姻狀況和衣服支出水平v僅分析婚姻狀況和衣服支出水平這兩個(gè)變量時(shí),從數(shù)字上看未婚者在衣服支出方面比已婚者更高一些。v但引入變量性別以后,發(fā)現(xiàn)對于男性來說,已婚者與未婚者在衣服支出方面沒有顯著差異,但對于女性未婚者與已婚者,在衣服支出方面的差異則很明顯 私家車受教育水平本科及以上本科以下有32%21%沒有68%79%合計(jì)100%100%個(gè)案數(shù)250750例例2 2:受教育水平對私家車擁有狀況的交叉列聯(lián)分析:受教育水平對私家車擁有狀況的交叉列聯(lián)分析 收入、受教育水平對私家車擁有狀況的交叉列聯(lián)分析 私家車收入低高受教育

22、水平受教育水平本科及以上本科以下本科及以上本科以下有20%20%40%40%沒有80%80%60%60%合計(jì)100%100%100%100%個(gè)案數(shù)10070015050例例3 3:年齡和出國旅行欲望的交叉列聯(lián)分析 是否希望出國旅行年齡45歲以下45歲及以上是50%50%不是50%50%合計(jì)100%100%個(gè)案數(shù)500500性別、年齡和出國旅行的欲望進(jìn)行交叉列聯(lián)分析 是否希望出國旅行性別男女年齡年齡45歲以下45歲及以上45歲以下45歲及以上是60%40%35%65%不是40%60%65%35%合計(jì)100%100%100%100%個(gè)案數(shù)300300200200例例4 4: 家庭規(guī)模對是否經(jīng)常吃快

23、餐的交叉列聯(lián)分析 是否經(jīng)常吃快餐家庭規(guī)模小大是65%65%不是35%35%合計(jì)100%100%個(gè)案數(shù)500500 家庭收入和家庭規(guī)模對是否經(jīng)常吃快餐的交叉列聯(lián)分析 是 否 經(jīng) 常吃快餐收入低高家庭規(guī)模家庭規(guī)模小大小大是65%65%65%65%不是35%35%35%35%合計(jì)100%100%100%100%個(gè)案數(shù)500500500500定量變量間的相關(guān)分析定量變量間的相關(guān)分析 v吸煙與否與患肺癌與否?v收入與消費(fèi)?v納稅人年齡與稅款數(shù)量?v孕婦飲酒量與嬰兒體重?v農(nóng)作物采光量與生長?相關(guān)分析的一般步驟相關(guān)分析的一般步驟v由數(shù)據(jù)看變量有關(guān)系嗎?v如果有關(guān)系,變量間關(guān)系有多強(qiáng)?v總體中是否也有此關(guān)系

24、?v此關(guān)系是否因果關(guān)系?相關(guān)分析相關(guān)分析 散點(diǎn)圖散點(diǎn)圖v散點(diǎn)圖: 以一個(gè)變量為橫軸,另一個(gè)變量為縱軸,每個(gè)觀測單元根據(jù)兩個(gè)變量的取值為坐標(biāo)以點(diǎn)的形式出現(xiàn)在圖形中。 可以直觀地看出變量間的關(guān)系形態(tài)及聯(lián)系程度。 線性相關(guān)和非線性相關(guān) 正相關(guān)和負(fù)相關(guān)勞動(dòng)生產(chǎn)率與利潤總額散點(diǎn)圖勞動(dòng)生產(chǎn)率與利潤總額散點(diǎn)圖 020000040000060000080000010000001200000140000016000001800000-1E+050100000 200000 300000 400000 500000 600000利潤總額全員勞動(dòng)生產(chǎn)率云南內(nèi)蒙相關(guān)分析相關(guān)分析 相關(guān)系數(shù) v相關(guān)系數(shù)描述兩數(shù)值變量數(shù)值

25、變量之間線線性相關(guān)性相關(guān)的方向和強(qiáng)度.v又稱PEARSON相關(guān)系數(shù)v相關(guān)系數(shù)通常用符號 r 表示相關(guān)關(guān)系的測度相關(guān)關(guān)系的測度v 樣本相關(guān)系數(shù)的計(jì)算公式22)()()(yyxxyyxxr2222yynxxnyxxynr相關(guān)關(guān)系的測度相關(guān)關(guān)系的測度 r 的取值范圍是 -1,1|r|=1,為完全相關(guān)r =1,為完全正相關(guān)r =-1,為完全負(fù)相關(guān) r = 0,不存在線性線性相關(guān)關(guān)系-1r0,為負(fù)相關(guān)05m5。v根據(jù)根據(jù)零假設(shè)零假設(shè),我們可以得到檢驗(yàn)統(tǒng)計(jì)量的分布;,我們可以得到檢驗(yàn)統(tǒng)計(jì)量的分布;v然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realizationrealization

26、)屬不屬)屬不屬于小概率事件。于小概率事件。v如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),否則我們說沒有足夠證據(jù)拒絕零假設(shè)。否則我們說沒有足夠證據(jù)拒絕零假設(shè)。總體參數(shù)總體參數(shù)假設(shè)檢驗(yàn)的過程假設(shè)檢驗(yàn)的過程(提出假設(shè)(提出假設(shè)抽取樣本抽取樣本作出決策)作出決策)我認(rèn)為人口的平我認(rèn)為人口的平均年齡是均年齡是5050歲歲 拒絕假設(shè)拒絕假設(shè)! 別無選擇別無選擇.假設(shè)檢驗(yàn)的兩類錯(cuò)誤v根據(jù)小概率原理的假設(shè)檢驗(yàn)結(jié)論總有可能是錯(cuò)誤的。 可能H0為真時(shí),我們拒絕了H0,這類“棄真”錯(cuò)誤稱為第I類錯(cuò)誤; 也可能H0不真時(shí)我們接受了H0,這類“取偽”錯(cuò)誤稱為第I

27、I類錯(cuò)誤 。v在確定檢驗(yàn)法則時(shí),我們應(yīng)盡量使犯這兩類錯(cuò)誤的概率都較小。v但在固定樣本量下,要減少犯一類錯(cuò)誤的概率,則犯另一類錯(cuò)誤的概率往往增大。要使犯這兩類錯(cuò)誤的概率都減小,除非增加樣本容量。v在給定樣本容量的情況下,我們一般總是控制犯第I類錯(cuò)誤的概率,使它小于等于 (顯著性水平)。這種只對犯第I類錯(cuò)誤的概率加以控制,而不考慮犯第II類錯(cuò)誤的檢驗(yàn)問題,稱為顯著性檢驗(yàn)問題。假設(shè)檢驗(yàn)的邏輯步驟v第一: 寫出零假設(shè)和備選假設(shè);v第二: 確定檢驗(yàn)統(tǒng)計(jì)量;v第三: 確定顯著性水平a;v第四: 根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值;v第五: 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值;v第六: 進(jìn)行判斷: 如果p-值小于或等于a

28、,就拒絕零假設(shè),這時(shí)犯錯(cuò)誤的概率最多為a; 如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。 案例案例分析分析v 某化妝品公司開發(fā)了一種新型護(hù)膚化妝品,委托某市場調(diào)查公司進(jìn)行市場調(diào)查,以檢驗(yàn)消費(fèi)者的偏好情況。根據(jù)該公司管理者的判斷,除非該產(chǎn)品有20%以上的消費(fèi)者喜歡,否則不能投入生產(chǎn)。因此為檢驗(yàn)喜歡該新產(chǎn)品的消費(fèi)者比例是否低于20%,對625人進(jìn)行一次市場調(diào)查。(1)確定調(diào)查目的:如果喜歡該新產(chǎn)品的消費(fèi)者比例(用表示)超過 20%,應(yīng)投入生產(chǎn)。因此定義原假設(shè) H0:0.2;備擇假設(shè) H1:0.2。 (2) 對于公司來說, 重要的是控制第一類錯(cuò)誤, 即喜歡該產(chǎn)品的消費(fèi)者實(shí)際不到 20%(0.2)

29、 ,卻拒絕 H0,認(rèn)為0.2 的概率。因?yàn)橐坏Q策失誤,可能導(dǎo)致公司陷入危機(jī)。最終確定顯著性水平=0.05 時(shí)可以接受。 (3)在原假設(shè)為真時(shí),理論上服從正態(tài)分布,而且樣本量 n625,統(tǒng)計(jì)量為:Z=pp, 其中p為 p 的標(biāo)準(zhǔn)差,p =n)1 (=0.016, p 為喜歡該產(chǎn)品的消費(fèi)者比例。 (4)根據(jù)市場調(diào)查,結(jié)果有 140 人表示喜歡該新產(chǎn)品。則 p=140/625=0.224 Z=pp=(0.2240.2)/0.016=1.5 (5)當(dāng)=0.2 時(shí),P(Z1.5)=10.9332=0.0668。由于 0.06680.05,則不能拒絕 H0,不能投入生產(chǎn)。 推論統(tǒng)計(jì)推論統(tǒng)計(jì)方差分析方差分

30、析v是比較若干個(gè)總體均值之差的一種常用統(tǒng)計(jì)方法。v傳統(tǒng)的方差分析主要用于分析實(shí)驗(yàn)數(shù)據(jù),實(shí)際上,它們同樣適用于調(diào)查數(shù)據(jù)與觀察數(shù)據(jù)。v方差分析應(yīng)用時(shí)一般假定所比較的總體都服從正態(tài)分布,而且具有相同的方差。不過方差分析具有穩(wěn)健性,在更寬泛的條件下也還是近似有效的。v在方差分析中,當(dāng)涉及的因素只有一個(gè)時(shí),稱為單因素方差分析;當(dāng)涉及的因素為兩個(gè)或兩個(gè)以上時(shí),統(tǒng)稱為多因素方差分析。單因素方差分析的一般步驟單因素方差分析的一般步驟v(1)明確因變量與自變量,建立原假設(shè)。 原假設(shè)H0:v (2)數(shù)據(jù)分別計(jì)算總方差、組間方差、組內(nèi)方差,建立方差分析表 r321方差來源 平方和(SS) 自由度 方差 F 值 組間

31、 (因素影響) SSx=riiixxn12)( 1r MSSx=1-rSSx F=errorxMSSMSS 組內(nèi) (誤差) SSerror=rinjiijixx112)( rn MSSerror=r-nSSerror 總和 SSy=rinjijixx112)( 1n v(3)顯著性檢驗(yàn),F(xiàn)檢驗(yàn)。如果顯著性水平低于P值,則拒絕原假設(shè),認(rèn)為差異顯著。v(4)分析結(jié)果。如果原假設(shè)沒有被拒絕,說明自變量對因變量沒有顯著影響;反之,如果原假設(shè)被拒絕,說明自變量對因變量有顯著影響。換句話說,在自變量的不同水平下,因變量的均值是不同的。案例案例消費(fèi)者對四個(gè)行業(yè)的投訴次數(shù)消費(fèi)者對四個(gè)行業(yè)的投訴次數(shù) 觀察值觀察

32、值( j )行業(yè)行業(yè)( A )零售業(yè)零售業(yè)旅游業(yè)旅游業(yè)航空公司航空公司家電制造業(yè)家電制造業(yè)123456757554645545347 624960545655 5149485547 7068636960 解:設(shè)四個(gè)行業(yè)被投訴次數(shù)的均值分別為,1、2 、3、4 ,則需要檢驗(yàn)如下假設(shè) H0: 1 = 2 = 3 = 4 (四個(gè)行業(yè)的服務(wù)質(zhì)量無顯著差異) H1: 1 ,2 ,3, 4不全相等 (有顯著差異)Excel輸出的結(jié)果如下差異源差異源SS自由度自由度MSFP-值 值臨界值臨界值組間組間845.21743281.7391 14.78741 3.31E-05 3.127354組內(nèi)組內(nèi)362191

33、9.05263總和總和1207.21722用用Excel進(jìn)行方差分析進(jìn)行方差分析第第1步:步:選擇“工具工具 ”下拉菜單第第2步:步:選擇【數(shù)據(jù)分析數(shù)據(jù)分析】選項(xiàng)第第3步:步:在分析工具分析工具中選擇【單因素方差分析單因素方差分析】 , 然后選擇【確定確定】第第4步:步:當(dāng)對話框出現(xiàn)時(shí) 在【輸入?yún)^(qū)域輸入?yún)^(qū)域 】方框內(nèi)鍵入數(shù)據(jù)單元格區(qū)域 在【】方框內(nèi)鍵入0.05(可根據(jù)需要確定) 在【輸出選項(xiàng)輸出選項(xiàng) 】中選擇輸出區(qū)域第四節(jié)第四節(jié) 多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析聚類分析聚類分析1.判別分析判別分析2.主成分分析主成分分析3.對應(yīng)分析對應(yīng)分析5.因子分析因子分析4.結(jié)合分析結(jié)合分析6.多元統(tǒng)計(jì)分析多元統(tǒng)

34、計(jì)分析聚類分析聚類分析v 聚類分析(Cluster analysis),又稱群分析和類分析,它是依據(jù)某種準(zhǔn)則對個(gè)體(樣品或變量)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。v “物以類聚” v 比如在一項(xiàng)全國范圍的市場調(diào)查中,需要對我國32個(gè)省/市/自治區(qū)的經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行分析。一般不是逐個(gè)省/市/自治區(qū)去分析,較好的作法是選取能反映經(jīng)濟(jì)發(fā)展?fàn)顩r的有代表性的指標(biāo),如國民生產(chǎn)總值(GNP)、工農(nóng)業(yè)總產(chǎn)值、第三產(chǎn)業(yè)比重、固定資產(chǎn)投資額、人均國民收入、城市和農(nóng)村平均每人月收入及通貨膨脹率等指標(biāo),根據(jù)這些指標(biāo)對32個(gè)省區(qū)進(jìn)行分類。然后依據(jù)分類結(jié)果,對經(jīng)濟(jì)發(fā)展情況進(jìn)行綜合評價(jià),這就易于得出科學(xué)的結(jié)論。應(yīng)用應(yīng)用v 市

35、場細(xì)分。例如可以根據(jù)消費(fèi)者購買某產(chǎn)品的各種目的把消費(fèi)者分類,這樣每個(gè)類別內(nèi)的消費(fèi)者在購買目的方面是相似的。v 了解購買行為。聚類分析可以把購買者分類,這樣有助于分別研究各類購買行為。v 開發(fā)新產(chǎn)品。對產(chǎn)品與品牌進(jìn)行聚類分析,把它們分為不同類別的競爭對手。在同一類別的品牌比其他類的品牌更具有競爭性。公司可以通過比較現(xiàn)有競爭對手,明確新產(chǎn)品的潛在機(jī)遇。v 選擇實(shí)驗(yàn)性市場。通過把不同城市分類,選擇具有可比性的城市檢驗(yàn)不同的營銷策略的效果。v 簡化數(shù)據(jù)。原理原理v (1)首先在要進(jìn)行聚類的樣品或變量之間,定義一種能夠反映它們之間親疏程度的量,常用的方法有兩個(gè),即距離和相似系數(shù)。距離常用來對樣品進(jìn)行分類

36、,它把樣本中的每個(gè)樣品看成P維空間的一個(gè)點(diǎn),并在空間定義距離,距離較近的點(diǎn)歸為一類,距離較遠(yuǎn)的點(diǎn)歸為不同類。相似系數(shù)常用來對變量進(jìn)行分類,性質(zhì)越相近的變量,相似系數(shù)的絕對值越接近于1,反之越接近于0。將相似系數(shù)較大的變量歸為一類,相似系數(shù)較小的變量歸為不同類。v (2)以這些量為聚類的依據(jù),將一些相似程度較大的個(gè)體聚為一類,另一些彼此之間相似程度較大的個(gè)體聚合為另一類,最終將關(guān)系密切的聚合到一個(gè)小的分類單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到將所有的個(gè)體都聚合完畢,形成一個(gè)由小到大的分類系統(tǒng)。v (3)直到所有個(gè)體都聚合完畢,最后把聚類過程畫成一張圖表示出來(聚類圖或譜系圖),以直觀表現(xiàn)各

37、個(gè)體之間的親疏關(guān)系。步驟步驟v (1)確定問題v (2)選擇距離或相似系數(shù)的測度。目前使用最多的是歐氏距離或歐式距離的平方。v (3)選擇聚類方法。v (4)決定類別個(gè)數(shù)。v (5)描述與解釋各個(gè)類別。v (6)評價(jià)聚類的有效性與準(zhǔn)確性。案例案例v消費(fèi)者購物的態(tài)度 20位被訪者的回答 V1購物很有趣。V2購物不利于您的預(yù)算。V3購物總是與上飯店吃飯聯(lián)系在一起。V4購物時(shí)我盡量買得最好。V5我對購物不感興趣。V6購物時(shí)多比較價(jià)格可以節(jié)省很多錢。 距離樣本 X_20 X_9 X_13 X_11 X_5 X_2 X_18 X_19 X_14 X_16 X_10 X_4 X_15 X_17 X_8 X

38、_3 X_12 X_7 X_6 X_11.01.52.02.53.03.54.04.5cluster NoV1V2V3V4V5V615.7503.6256.0003.1251.7503.87521.6673.0001.8333.5005.5003.33333.5005.8333.3336.0003.5006.000v 比較各類別的消費(fèi)者對6個(gè)態(tài)度變量的評價(jià),v 第一類消費(fèi)者對于V1和V3的評價(jià)相對較高,而對V5評價(jià)較低,因此可以稱其為“熱情的購物者”。v 第二類消費(fèi)者正好與第一類相反,對于V1和V3的評價(jià)相對較低,而對V5評價(jià)較高,因此可以稱其為“冷淡的購物者”。v 第三類消費(fèi)者對于V2、V4

39、和V6的評價(jià)相對較高,因此可以稱其為“經(jīng)濟(jì)型購物者”。 多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析判別分析判別分析 v判別分析是判別樣本所屬類型的一種多元統(tǒng)計(jì)方法。v例如 某品牌的購買者與非購買者之間有什么差別? 從人口統(tǒng)計(jì)和生活方式看,對某新產(chǎn)品有較高購買可能性的客戶與較低購買可能性的客戶之間的區(qū)別? 從人口統(tǒng)計(jì)和生活方式看,經(jīng)常光顧某快餐廳的顧客與經(jīng)常光顧競爭對手快餐廳的顧客之間有何區(qū)別? 已經(jīng)選購不同品牌商品的顧客在使用、感知和態(tài)度上有何不同?多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析判別分析判別分析v 原理:判別分析就是在已知研究對象分為若干類型(組別)并已經(jīng)取得各種類型的一批已知樣品的觀測數(shù)據(jù)基礎(chǔ)上,根據(jù)某些準(zhǔn)則建立起

40、盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù),然后用它們來判別未知類型的樣品應(yīng)該屬于哪一類。v 分類: 根據(jù)判別的組數(shù),分為兩組判別分析和多組判別分析; 根據(jù)判別函數(shù)的形式,分為線性判別和非線性判別; 根據(jù)判別時(shí)處理變量的方法不同,分為逐步判別、序貫判別等; 根據(jù)判別準(zhǔn)則的不同,分為距離判別、Fisher判別、Bayes判別等。多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析主成分分析主成分分析 v主成分分析就是把多個(gè)變量重新組合為一組相互無關(guān)的幾個(gè)綜合變量,而且從中可取幾個(gè)較少的綜合變量盡可能多地反映原來變量的信息。 例如,評價(jià)企業(yè)的競爭力要涉及很多指標(biāo),例如固定資產(chǎn)、流動(dòng)資金、產(chǎn)值、利潤、人員素質(zhì)、科技水平、管理水平、環(huán)境等。利用主成分分析能從中找出少量幾個(gè)相互獨(dú)立的綜合指標(biāo)代替原先許多的指標(biāo),簡化分析。 多元統(tǒng)計(jì)分析多元統(tǒng)計(jì)分析因子分析因子分析 v 因子分析(Factor analysis)的目的是使數(shù)據(jù)簡單化,它是將具有錯(cuò)綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時(shí)根據(jù)不同因子,對變量進(jìn)行分類。 v 在市場調(diào)查中的應(yīng)用 : (1) 消費(fèi)者使用習(xí)慣和態(tài)度研究中,對消費(fèi)者對產(chǎn)品的態(tài)度探查往往需要使用因子分析,探查影響消費(fèi)者產(chǎn)品態(tài)度的基本因子,并在此基礎(chǔ)上,利用各因子進(jìn)行聚類分析對消費(fèi)群進(jìn)行細(xì)分,從而達(dá)到市場細(xì)分的目的。例如,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論