《SPSS統(tǒng)計方法體系與案例實驗進階》課件 李望晨 第12-14章 因子分析 -聚類分析與判別分析_第1頁
《SPSS統(tǒng)計方法體系與案例實驗進階》課件 李望晨 第12-14章 因子分析 -聚類分析與判別分析_第2頁
《SPSS統(tǒng)計方法體系與案例實驗進階》課件 李望晨 第12-14章 因子分析 -聚類分析與判別分析_第3頁
《SPSS統(tǒng)計方法體系與案例實驗進階》課件 李望晨 第12-14章 因子分析 -聚類分析與判別分析_第4頁
《SPSS統(tǒng)計方法體系與案例實驗進階》課件 李望晨 第12-14章 因子分析 -聚類分析與判別分析_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

《SPSS統(tǒng)計方法體系與案例實驗進階》學習目標:1、掌握因子分析法的提出思想、適用條件和案例實現(xiàn)重點:1、因子分析的應用實現(xiàn)第12章因子分析一、核心知識因子分析法(FactorAnalysis)是從研究指標相關矩陣內(nèi)部依賴關系出發(fā),把信息重疊、錯綜復雜關系變量歸結為少數(shù)不相關綜合因子的多元統(tǒng)計方法.基本思想是根據(jù)相關性大小把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同組的變量不相關或相關性較低,每組變量用公共因子描述,也稱潛在變量,它是不能直接測度的.設p個可能存在相關關系的原始觀測變量含有q個獨立的公共因子原始觀測變量除受公共因子影響外,還受特殊因子影響.二、幾個重要概念(見教材)三、因子分析法的主要步驟(1)對數(shù)據(jù)樣本標準化處理.(2)計算相關系數(shù)矩陣,若相關性太差,則不適合因子分析.(3)求相關矩陣特征根和特征向量.(4)根據(jù)特征值大小(一般>1)、方差累計貢獻率多少(一般>80%),以及碎石圖形態(tài),確定公共因子的個數(shù).(5)計算公共因子的載荷矩陣.(6)確定因子模型.(7)對公共因子命名解釋.用途:簡化數(shù)據(jù),探求數(shù)據(jù)潛在結構;公共因子得分;問卷結構效度等.【實例1】[問題敘述]現(xiàn)有北京18個區(qū)縣職業(yè)教育發(fā)展水平的9個指標x1~x9,x1“在校生數(shù)”、x2“招生數(shù)”、x3“畢業(yè)生數(shù)”、x4“責任教師數(shù)”、x5“本科教師比例”、x6“高級教師比例”、x7“學校平均在校生數(shù)”、x8“經(jīng)費比例”、x9“生均教育經(jīng)費”.根據(jù)該數(shù)據(jù)資料,分析北京區(qū)縣職業(yè)教育發(fā)展水平主要受哪些潛在因的影響.表12-1北京18個區(qū)縣職業(yè)教育發(fā)展水平數(shù)據(jù)指標區(qū)縣x1x2x3x4x5x6x7x8x9朝陽2217745170.4990.2545532.286625崇文2027257160.5660.1936331.685357大興2057667160.5970.1296161.074990昌平2328066190.5310.1064910.725089宣武1765731170.6300.2345841.556432石景山1926152190.5240.0855351.585695東城1565345150.5070.2457011.095356海淀1696442130.5730.1835730.485840豐臺1666648150.4440.1424651.125532西城1194231130.5020.3315520.636449房山1153825100.5710.1276180.617020門頭溝1275333300.1430.0263760.753904懷柔1215227120.2230.0766370.234149通縣98402570.5330.1074740.315559…………………………[實驗目的]理解因子分析的原理、作用和適用對象,掌握SPSS操作方法.[操作步驟]變量要求:需要多個實際觀測變量,變量類型為數(shù)值型.菜單選擇:主菜單“分析(Analyze)”→“降維(DimensionReduction)”→“因子分析(Factor)”.界面設置:將變量“x1”~“x9”選入變量窗口(Variable(s)).點擊“描述(Descriptives)”按鈕,主要作因子相關性檢驗設置:在“相關矩陣(CorrelationMatrix)”區(qū)域,選“系數(shù)(Coefficients)”、“顯著性水平(Significancelevels)”、“KMO和Bartlett球形度檢驗”.點擊“抽取(Extraction)”按鈕,主要用于因子提取和因子載荷矩陣的求解:“方法(Method)”默認“主成分分析法(Principalcomponents)”,“抽取(Extract)”默認“基于特征值大于1”,有時選“因子的固定數(shù)量”;在“輸出(Display)”區(qū)域,選碎石圖(Screeplot).點擊“旋轉(Rotation)”按鈕,主要用于因子命名、旋轉:在“方法(Method)”區(qū)域,選“最大方差法(Varimax)”.點擊“得分(Scores)”按鈕,計算因子得分:選“保存為變量(Saveasvariables)”,選“顯示因子得分系數(shù)矩陣”.點擊“確定(OK)”.[結果分析]表12-2原始觀測變量相關系數(shù)矩陣(略)表12-3巴特利特球度檢驗和KMO檢驗取樣足夠度的Kaiser-Meyer-Olkin度量.763Bartlett的球形度檢驗近似卡方131.051df36Sig..000經(jīng)分析,大部分相關系數(shù)都較高,可以提取公共因子;巴特利特球形檢驗,對應的概率值P=0.000<0.001,說明與單位矩陣差異有統(tǒng)計學意義,KMO為0.763,說明適合作因子分析.表12-5各階段公共因子的累計方差貢獻率成份初始特征值提取平方和載入旋轉平方和載入合計方差%累積%合計方差%累積%合計方差%累積%14.97555.27555.2754.97555.27555.2753.75441.70841.70821.87120.79376.0691.87120.79376.0693.09234.36176.0693.7568.39784.4664.6096.77091.2365.2973.29994.535圖12-2顯示特征值與公共因子個數(shù)關系的碎石圖經(jīng)分析,利用主成分分析的方法,提取公共因子后因子方差的均值都較高,說明提取的公共因子能很好的解釋原始觀測變量.每組的各列含義:特征值、方差貢獻率、累計方差貢獻率.第二組表示提取兩個因子,可以共同解釋76.069%,丟失的信息較少.縱坐標為特征值,橫坐標為因子個數(shù),特征值越小,則原有變量的貢獻越小.特征值大于1的因子有兩個,所以提取兩個因子是合適的.表12-6原始因子載荷成份12在校生數(shù)x1.946-.270招生數(shù)x2.860-.413畢業(yè)生數(shù)x3.834-.369專任教師數(shù)x4.585-.610本科教師比例x5.657.558高級教師比例x6.628.579學校平均在校生數(shù)x7.516.446經(jīng)費比例x8.848-.058生均教育經(jīng)費x9.701.520經(jīng)分析,第一個因子與所有變量的相關性程度高,第二個因子與大部分變量相關性也較高,所以兩個因子含義模糊,不利于命名,接下來要對其進行因子旋轉.成份12在校生數(shù)x1.906.383招生數(shù)x2.929.217畢業(yè)生數(shù)x3.881.236專任教師數(shù)x4.838-.108本科教師比例x5.161.847高級教師比例x6.126.845學校平均在校生數(shù)x7.123.671經(jīng)費比例x8.697.487生均教育經(jīng)費x9.220.845經(jīng)因子旋轉后,第一個因子與“在校生數(shù)”、“招生數(shù)”、“畢業(yè)生數(shù)”、“專任教師數(shù)”及“經(jīng)費比例”等變量相關性程度較高,第二個因子與“本科教師比例”、“高級教師比例”、“學校平均在校生數(shù)”、“生均教育經(jīng)費”等變量相關性較高.因此將第一個公共因子命名為“辦學的規(guī)模數(shù)量因素”,將第二個公共因子命名為“辦學的質(zhì)量保證因素”,北京區(qū)縣職業(yè)教育發(fā)展水平主要這兩個潛在因素的影響.原始變量與公共因子的結構模型:表12-8公共因子與原始變量系數(shù)矩陣公共因子(主成份)12在校生數(shù)x1.239.007招生數(shù)x2.273-.064畢業(yè)生數(shù)x3.254-.048專任教師數(shù)x4.296-.180本科教師比例x5-.084.315高級教師比例x6-.096.320學校平均在校生數(shù)x7-.069.251經(jīng)費比例x8.152.083生均教育經(jīng)費x9-.065.305表12-9公共因子間關系矩陣成份1211.000.0002.0001.000表12-8給出公共因子的得分函數(shù)關系式:由表12-9可見,兩個公共因子的相關程度很低,說明因子間獨立性很好.表12-10中,FAC1_1和FAC2_1是各區(qū)縣公共因子得分結果,進行比較分析.表12-10各區(qū)縣的兩個公共因子的得分結果【練習1】[問題敘述]為了研究省市的科技創(chuàng)新力問題,現(xiàn)有2005年8個省市15個指標數(shù)據(jù),請根據(jù)該數(shù)據(jù)資料,分析一個省市的科技創(chuàng)新能力主要受哪些潛在因素的影響.表12-11八省市科技創(chuàng)新力指標數(shù)據(jù)指標北京天津遼寧上海江蘇浙江山東廣東X1229874410450533035X280.2667.4865.6974.0660.7963.4864.5969.64X348.536.8235.9435.9834.0731.0833.2237.27X424.4914.088.3417.846.85.424.445.81X53.552.622.324.782.133.951.813.66X65.551.961.562.281.471.221.051.09………………………第13章信度分析與效度分析學習目標:1、掌握信度分析2、掌握效度分析重點:1、信度分析2、效度分析13.1信度分析信度(Reliability)即可靠性,它是指采用同樣的方法對同一對象重復測量時所得結果的一致性、穩(wěn)定性及可靠性程度;主要評價量表或問卷精確性、穩(wěn)定性和一致性,即測量過程中隨機誤差造成的測定值變異程度的大小.常用信度指標:(1)重測信度(Test-retestreliability):對同一組被訪者進行兩次相同的問卷調(diào)查,分析兩次結果之間的簡單相關系數(shù)r,一般要求達到0.7以上.(2)折半信度(Split-halfreliability):在實踐中重復測量兩次在實現(xiàn)中往往受條件限制.為此,將評估項目拆分為兩半,計算兩部分得分簡單相關系數(shù)r.(3)克朗巴赫

系數(shù)(Cronbach’salphacoefficient):評價調(diào)查項目和諧水平,一般認為克朗巴赫系數(shù)應達到0.7以上.【實例1】[問題敘述]驗證在國外有較好信度和效度的Spielberger特質(zhì)焦慮量表(部分)的國內(nèi)大學生信度.隨機選取25名大學生進行測驗,量表共有20個條目組成,Sum1與Sum2分別是反向賦分后的兩次量表調(diào)查總得分.表15-1Spielberger特質(zhì)焦慮量表(部分)測量結果(見教材)[實驗目的]理解信度分析的作用及常用的信度指標;掌握各種信度檢驗方法的SPSS操作方法和結果解讀.[操作步驟]定義20個條目變量“X1”~“X20”;2個分析變量“Sum1”和“Sum2”,數(shù)值型;1個序號變量,類型為數(shù)值型或字符型.菜單選擇:對常用的三種信度檢驗方法分別進行闡述.(1)重測信度分析:主菜單“分析(Analyze)”→“相關(Correlate)”→“雙變量(Bivariate)”,打開雙變量相關分析主界面.界面設置:變量“Sum1”與“Sum2”選入“變量(Variables)”框.點擊“確定(OK)”.[結果分析]表13-2雙變量相關分析表Sum1Sum2Sum1Pearson相關性1.972**顯著性(雙側).000N2525Sum2Pearson相關性.972**1顯著性(雙側).000N2525經(jīng)分析,兩次測量量表總得分的Pearson相關系數(shù)為0.972>0.7,對應概率值P<0.001,相關有統(tǒng)計學意義,表明兩次測量具有較好的重測信度.(2)克朗巴赫

系數(shù)和分半信度分析:主菜單“分析(Analyze)”→“度量(Scale)”→“可靠性分析(ReliabilityAnalysis)”,打開信度分析主界面.界面設置:將20個條目“X1”~“X20”選入“項目(Items)”框;點擊“統(tǒng)計量(Statistics)”按鈕.點擊“模型(Model)”下拉框.信度系數(shù):“克朗巴赫

系數(shù)(Alpha)”、“分半信度系數(shù)(Split-half)”及“Guttman分半信度(GuttmanSplit-half)”等,前者為系統(tǒng)默認.[結果分析]表13-3克朗巴赫

系數(shù)檢驗統(tǒng)計量

可靠性統(tǒng)計量Cronbach'sAlpha項數(shù).75020表13-3為克朗巴赫

系數(shù)檢驗結果,克朗巴赫系數(shù)為0.750>0.7,信度較好.表13-4分半信度檢驗統(tǒng)計量Spearman-Brown系數(shù)等長.679不等長.679GuttmanSplit-Half系數(shù).677表13-4為分半信度結果,本量表在國內(nèi)大學生中Spearman-Brown分半信度為0.679,Guttman分半信度為0.677,兩者均接近但是略小于0.7,分半信度欠佳.13.2效度分析一、核心知識1.基本原理效度分析(ValidityAnalysis)用于評價量表或問卷的準確度、有效性和正確性,即測定值與目標真實值的偏差大小,效度意在反映測量工具或手段準確有效地測出所需測量的事物的程度,即實際測定結果與考察內(nèi)容預想結果的符合程度.信度是效度的必要條件,效度須建立在信度的基礎上.(1)內(nèi)容效度(Contentvalidity):指量表或問卷的各條目是否測定其希望測量的內(nèi)容,即測定對象對問題的理解和回答是否與條目設計者希望詢問的內(nèi)容一致.內(nèi)容效度一般通過專家評議打分進行主觀評定.(2)標準關聯(lián)效度(Criterion-relatedvalidity):又稱標準效度,是以一個公認有效的量表作為標準,檢驗問卷與標準量表測定結果的相關性,以兩者測定得分的相關系數(shù)評判標準效度,若問卷與標準量表相關系數(shù)較大,則認為問卷具有較好的標準效度.(3)結構效度(Contractvalidity):又稱構想效度,說明量表或問卷的結構是否與制表的理論設想相符,測量結果的各內(nèi)在成分是否與設計者打算一致.結構效度用于評價量表穩(wěn)定性,常用方法是因子分析.當公因子累積方差貢獻率為≥60%時,且各條目在某個公因子載荷均≥0.4,而在其他公因子中的載荷較低時,則認為該量表具有較好的結構效度,此時還須對公因子命名.

【實例2】[問題敘述]利用實例13.1的數(shù)據(jù),分析Spielberger特質(zhì)焦慮量表的結構效度.[實驗目的]理解效度分析的作用、常用類型、探索性因子分析基本思想和適用條件,掌握利用因子分析進行效度分析的SPSS操作方法和結果解讀.[操作步驟]

變量要求:要求分析變量及條目變量均為數(shù)值型變量.定義條目變量“X1”~“X20”,類型為數(shù)值型;分析變量“Sum1”和“Sum2”,類型為數(shù)值型;1個序號變量,類型為數(shù)值型或字符型.菜單選擇:主界面“分析(Analyze)”→“降維(DimensionReduction)”→“因子分析(Factor)”命令,進入探索性因子分析主界面.界面設置:將變量“X1”~“X20”選入“變量(Variables)”框.

點擊“描述(Discriptives)”按鈕,在“相關矩陣(CorrelationMatrix)”區(qū)域,勾選“顯著性水平(Significancelevels)”和“KMO和Bartlett球形度檢驗(KMOandBartlett`stestofsphericity)”,點擊“繼續(xù)(Continue)”.點擊“抽取(Extraction)”按鈕,“方法(Method)”的默認選項“主成分分析法(Principalcomponents)”,默認基于特征值大于1提取公因子;點擊“繼續(xù)(Continue)”.點擊“旋轉(Rotation)”按鈕,勾選“最大方差法(Varimax)”;點擊“得分(Scores)”按鈕,勾選“保存為變量(Saveasvariables)”;勾選“顯示因子得分系數(shù)矩陣(Displayfactorscorecoefficientsmatrix)”.點擊“確定(OK)”.[結果分析]表13-5KMO和Bartlett球形檢驗

Kaiser-Meyer-OlkinMeasureofSamplingAdequacy..350Bartlett'sTestofSphericityApprox.Chi-Square318.398df190Sig..000Bartlett球形檢驗在于檢驗相關陣是否為單位陣,檢驗各個變量是否各自獨立.KMO值越接近于1,意味著變量間的相關性越強,越適合作因子分析;Bartlett球形檢驗對應的概率值P=0.000<0.001,相關性有統(tǒng)計學意義,說明適合進行因子分析,但KMO=0.350,較1小很多,說明不適合進行因子分析.本例與選取樣本較小及條目不全有關,為了課堂講解需要,仍作如下步驟演示.

表13-8公共因子累積方差貢獻率成份初始特征值提取平方和載入合計方差的%累積%合計方差的%累積%15.51227.55927.5595.51227.55927.55923.54517.72345.2833.54517.72345.28332.16410.81856.1002.16410.81856.10041.7018.50364.6041.7018.50364.60451.3616.80671.4101.3616.80671.41061.1535.76777.1771.1535.76777.1777.9414.70581.881旋轉后6個公共因子的累積方差貢獻率達到77.177%,說明問卷的問題變量對問卷的總體累計有效程度較好.【練習1】[問題敘述]編制問卷并調(diào)查高校學生健康狀況,預調(diào)查收集20例資料.X1健康狀況滿意程度、X2是否需要調(diào)理身體、X3身體有不舒服感覺、X4感覺自己生病、X5有緊張情緒或壓力感、X6晚間休息不好、X7胃口不好.請進行信度分析.【練習2】[問題敘述]考試焦慮量表共由10個題目組成,選項包括“非常符合、比較符合、說不準、不很符合、很不符合”,采用里克特五級評分方式,按照編碼規(guī)則將選項依次賦值為5、4、3、2、1,此處隨機抽樣調(diào)查40名學生,建立如下數(shù)據(jù)庫.請對量表結構效度進行分析.學習目標:1、掌握聚類分析2、掌握判別分析重點:1、聚類分析2、判別分析第14章聚類分析與判別分析14.1聚類分析(ClusterAnalysis)一、核心知識根據(jù)同類事物應有相近特性,不同事物在這些特性上差異較大的假定,將所研究的事物進行分類,這種研究方法稱為聚類(Cluster).在SPSS中,常用兩種聚類分析方法:一種是快速樣本聚類分析指給定用于聚類分析的變量和類數(shù)后進行的聚類;另一種是系統(tǒng)聚類分析(或稱分層聚類分析)指不事先給定類數(shù),按個案性質(zhì)接近程度,將所有個案不斷相聚,最終聚為一類,結論將在聚類過程中找到.1.快速樣本聚類分析快速樣本聚類分析事先要確定最終聚類數(shù),聚類發(fā)生到該指定類數(shù)后就停止.快速聚類過程遵照所有樣本空間點與這幾個類中心的距離取最小值原則,反復迭代計算,最終將各個個案分配到各個類中心所在的類,迭代停止.另外,系統(tǒng)還提供了更簡單方法,即用戶指定初始類中心后,系統(tǒng)只負責分類,而不再更改這些初始類中心位置,最終將各個個案點歸類到各個初始類中心.快速聚類效率較高,比較適合樣本量較大的聚類分析.

2.系統(tǒng)聚類系統(tǒng)聚類是按個案性質(zhì)的接近程度分析,個案性質(zhì)通過個案測量變量來描述,如果以n個數(shù)值型變量(n維空間)描述某類個案,則個案就是n維空間中一個點.接近程度的測度方法:(1)個案間的相似程度,應用簡單相關系數(shù)和等級相關系數(shù)測度;(2)個案間的差異程度,通過“距離”來測度:點之間距離和類之間距離.系統(tǒng)聚類就是通過對變量的測量,將比較接近的個案找出來歸為一類,進一步再將比較接近的類合并成為新的類,逐層合并直到最后合并成為一類.

兩種類型:Q型聚類,也可稱為樣本聚類,在聚類過程中發(fā)現(xiàn)具有共同屬性的樣本;R型聚類,也可稱為變量聚類,在某些變量中選擇出具有代表性的變量.系統(tǒng)聚類結果不僅有聚類步驟,而且有直觀圖形表達,如樹狀圖和冰柱圖.【實例1】[問題敘述]已知某省17所醫(yī)院人力利用和醫(yī)院任務的數(shù)據(jù)資料,現(xiàn)需要根據(jù)該數(shù)據(jù)資料,將這17所醫(yī)院劃分為三個等級,請作聚類分析.表14-117所醫(yī)院人力利用和醫(yī)院任務數(shù)據(jù)表

表14-117所醫(yī)院人力利用和醫(yī)院任務數(shù)據(jù)表

醫(yī)院編號日均住院人數(shù)月均X光攝片人數(shù)月均占病床天數(shù)服務范圍人口數(shù)患者人均住院天數(shù)每月使用人力115.672463472.9218.004.45566.52244.0220481339.759.506.92596.82320.423940620.2512.804.281033.15418.746505560.3036.703.901603.62549.2067231497.6035.705.501611.37644.92115201365.6324.004.601613.27755.4857791687.0043.305.631854.17850.2859691639.9246.705.152160.55994.3984612872.3378.706.18230.58…………………[實驗目的]理解快速樣本聚類分析適用條件,掌握SPSS操作實現(xiàn)方法.[操作步驟]變量要求:一個個案標識變量,變量類型無要求;多個聚類分析變量,變量類型為數(shù)值型.界面設置:將標識變量“醫(yī)院編號”選入“個案標識依據(jù)(LabelCasesby)”框,其它變量選入“變量(Variable)”框;“聚類數(shù)(NumberofCases)”設為3.

定義標識變量“醫(yī)院編號”聚類分析變量:“日均住院人數(shù)”、“月均X光攝片人數(shù)”、“月均占病床天數(shù)”、“服務范圍人口數(shù)”、“患者人均住院天數(shù)”及“每月使用人力”.菜單選擇:“分析(Analyze)”→“分類(Classify)”→“K均值聚類(K-meanscluster)”點擊“保存(Save)”按鈕,選“聚類成員(Clustermembership)”,點擊“確定(OK)”.[結果分析]表14-2最終不同聚類中心變量的平均值聚類123日均住院人數(shù)375.2767.37510.21月均X光攝片人數(shù)36700.338703.1586533.00月均占病床天數(shù)11409.611962.2715524.00服務范圍人口數(shù)219.5059.79371.60患者人均住院天數(shù)9.525.316.35每月使用人力12496.972008.9118854.45第1、2、3類中包含有3、13、1個個案,得到各類中心變量平均值結果“最終聚類中心”.表14-4各醫(yī)院所在聚類的結果

經(jīng)分析,各醫(yī)院分類結果:編號為14-16第1類;編號為1-13第2類;編號為17第3類.【實例2】[問題敘述]根據(jù)表14-52006年全國各省市醫(yī)療衛(wèi)生服務條件及服務效果的評價指標數(shù)據(jù),分別對各省市醫(yī)療衛(wèi)生服務水平進行省市系統(tǒng)聚類和各指標的系統(tǒng)聚類.表14-52006年各省市醫(yī)療衛(wèi)生服務條件及服務效果的指標數(shù)據(jù)省市萬人擁有醫(yī)務人員數(shù)萬人擁有病人床位數(shù)門診病人人均醫(yī)療費住院病人人均醫(yī)療費嬰兒死亡率孕產(chǎn)婦死亡率平均預期壽命北京108.1151.41259.512551.78.87.976.10天津75.3939.80170.37849.910.76.674.91河北40.8223.66116.93427.09.223.372.54山西53.3532.18127.73934.419.239.371.65內(nèi)蒙古50.5328.94103.63669.92938.669.87遼寧64.7742.06133.04623.518.719.373.34吉林59.4432.14102.23758.324.430.373.10……………………[實驗目的]理解系統(tǒng)聚類適用條件,掌握個案系統(tǒng)聚類和變量系統(tǒng)聚類分析的SPSS操作實現(xiàn)方法及結果解讀.(一)個案的系統(tǒng)聚類[操作步驟]變量要求:一個個案標識變量,變量類型無要求;多個聚類分析變量,類型為數(shù)值型.定義標識變量“省市”;定義七個聚類變量:“萬人擁有醫(yī)務人員數(shù)”、“萬人擁有病人床位數(shù)”、“門診病人人均醫(yī)療費”、“住院病人人均醫(yī)療費”、“嬰兒死亡率”、“孕產(chǎn)婦死亡率”及“平均預期壽命”.菜單選擇:“分析(Analyze)”→“分類(Classify)”→“系統(tǒng)聚類”.界面設置:變量“省市”選入“標注個案(LabelCasesby)”框,其它選入“變量窗口”.

點擊“繪制(Plots)”,選“樹狀圖(Dendrogram)”;點擊“保存(Save)”,選“單一方案(SingleSolution)”,設置“聚類數(shù)(Clusters)”為5,點擊“確定(OK)”.[結果分析]樹狀圖展現(xiàn)了每次類合并情況.SPSS自動將各類間距離映射到0-25間.每條橫線所包括的個案是一個聚類,繪制垂線、對應三個聚類.第一類:北京;第二類:上海、浙江、天津、廣東;第三類:其它省市.在系統(tǒng)聚類冰柱(掛)圖中,縱軸數(shù)字為聚類數(shù),縱向的各長條類似倒掛的冰柱,在聚類數(shù)對應水平橫線上,中間沒有冰柱相連,即為不同聚類.綜合圖14-4和圖14-5結果,并結合實際,將31個省市按醫(yī)療衛(wèi)生服務水平分為3個類比較適當,其聚類結果為:第一類:北京;第二類:上海、浙江、天津、廣東;第三類:其它省市.(二)變量的系統(tǒng)聚類[操作步驟]變量要求:多個聚類分析變量,變量類型為數(shù)值型.“萬人擁有醫(yī)務人員數(shù)”、“萬人擁有病人床位數(shù)”、“門診病人人均醫(yī)療費”、“住院病人人均醫(yī)療費”、“嬰兒死亡率”、“孕產(chǎn)婦死亡率”及“平均預期壽命”.菜單選擇:主菜單“分析(Analyze)”→“分類(Classify)”→“系統(tǒng)聚類(HierarchicalCluster)”.界面設置:將除“省市”以外的變量選入“變量窗口(Variable)”;在“分群(Cluster)”區(qū)域,選“變量(Variables)”;點擊“繪制(Plots)”,選“樹狀圖(Dendrogram)”,點擊“確定(OK)”.[結果分析]若各指標系統(tǒng)聚類為3類,則聚類結果:第1類住院病人住院醫(yī)療費;第2類門診病人住院醫(yī)療費;第3類其它指標.14.2判別分析(DiscriminantAnalysis)一、核心知識判別分析是在分類確定的條件下,根據(jù)某一個案的各種特征值判別其類型歸屬問題的一種多元統(tǒng)計分析方法.基本原理是按照一定的判別準則(如Fisher判別準則和Bayes判別準則),建立含多個自變量的一個或多個判別函數(shù),用相當多個案的自變量數(shù)據(jù)確定判別函數(shù)中的待定系數(shù),計算判別指標,并據(jù)此確定某一個案的類別歸屬.判別分析的一般思路:1.確定一個已經(jīng)明確知道類別的“訓練樣本”;2.確定判別準則:Fisher判別準則和Bayes判別準則.Fisher判別準則是先由Fisher判別函數(shù)計算個案在各維度坐標,確定個案具體空間點,然后計算各類的質(zhì)心點到個案空間點的距離,進而根據(jù)距離遠近作出歸類判斷.Bayes判別準則是先建立各類的Bayes判別函數(shù)式,再計算每個個案到各類的得分,得分最高者就歸到相應類.3.建立Fisher判別函數(shù)(可能多個,默認)或Bayes判別函數(shù)(可選),判別函數(shù)一般形式:其中Y為判別分數(shù),為判別系數(shù),為反映個案特征的自變量4.檢驗判別效果,驗證判別函數(shù)用來判識的準確度.5.將每個個案的自變量觀測值代入判別函數(shù),按判別準則對個案進行分類.【實例3】[問題敘述]健康人(人群類別=1)、肝硬化癥患者(人群類別=2)及冠心病患者(人群類別=3)三類人群心電圖的5個指標(X1~X5),其中19例有確定的分類,另又測出4例的相關指標,請根據(jù)19例分類樣本,建立判別函數(shù),將未確定分類的4例進行歸類.表14-6三類人群心電圖的5個指標數(shù)據(jù)個案序號X1X2X3X4X5人群類別18.11261.0113.235.467.36129.36185.399.025.665.99139.85

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論