week15相關分析分析_第1頁
week15相關分析分析_第2頁
week15相關分析分析_第3頁
week15相關分析分析_第4頁
week15相關分析分析_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

相關分析平均數(shù)、標準差是對單變量進行描述的特征量。若對兩個變量之間變化關系進行描述,需要用相關量。如,描述同一組學生兩門學科成績的關系;智力與學習成績的關系等等,都要用相關量來描述。一、引言7.1相關分析的基本原理變量間的關系函數(shù)關系:變量間有完全確定的關系,可用函數(shù)表示。相關關系:變量之間存在的一種不確定的數(shù)量關系,此關系無法用確定的函數(shù)形式表示。函數(shù)關系是一一對應的確定關系設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x,當變量x取某個數(shù)值時,y依確定的關系取相應的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量各觀測點落在一條線上xy函數(shù)關系(幾個例子)函數(shù)關系的例子某種商品的銷售額(y)與銷售量(x)之間的關系可表示為y=px(p為單價)圓的面積(S)與半徑之間的關系可表示為S=R2企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價格(x3)之間的關系可表示為y=x1x2x3相關關系變量間關系不能用函數(shù)關系精確表達一個變量的取值不能由另一個變量唯一確定當變量x取某個值時,變量y的取值可能有幾個各觀測點分布在直線周圍xy相關關系(幾個例子)

相關關系的例子父親身高(y)與子女身高(x)之間的關系收入水平(y)與受教育程度(x)之間的關系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、溫度(x3)之間的關系商品的消費量(y)與居民收入(x)之間的關系商品銷售額(y)與廣告費支出(x)之間的關系相關關系的描述與測度-散點圖不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關什么是相關分析用統(tǒng)計方法揭示變量之間是否存在相互關系及如何將相關的密切程度及相關的方向描述出來相關分析常用的方法:散點圖統(tǒng)計指標(相關系數(shù))相似性或距離怎樣分析變量間的相關關系?分析變量之間的關系需要解決下面的問題(4大問題)變量之間是否存在關系?相關程度的強弱如何?相關的趨勢及方向?樣本所反映的變量之間的關系能否代表總體變量之間的關系?Pearson相關系數(shù)(取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加Pearson相關系數(shù)(取值及其意義)

r

的取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關

r=0,不存在線性相關關系

-1r<0,為負相關

0<r1,為正相關

|r|越趨于1表示關系越密切;|r|越趨于0表示關系越不密切Pearson相關系數(shù)的檢驗假設形式

H0:ρ=0,H1:ρ≠0檢驗的統(tǒng)計量在兩隨機變量X和Y服從正態(tài)分布及原假設為真時,統(tǒng)計量t~t(n-2)決策規(guī)則當p<α時拒絕原假設,表明樣本相關系數(shù)r是顯著的;否則表明r在統(tǒng)計上是不顯著的,兩總體不存在顯著的相關關系。申請打字人員的口試與實際操作的相關關系

有一家公司招聘打字員,采用口試與實際操作兩種考核方式?,F(xiàn)有6個申請人的口試與實際操作的評分如下表?,F(xiàn)要求測定這些申請人實際操作成績與口試成績之間是否存在關系及關系的密切程度。申請人123456口試成績B-A-B+ACB操作成績283847562932Kendall‘stau-b相關系數(shù)計算申請人口試成績操作成績轉換成等級口試操作異序對4A561102A-382313B+473206B324401B-285615C29650SPSS中Kendall‘stau-b相關系數(shù)的輸出結果SPSSANALYZECorrelateKendall‘stau-b啤酒品牌的相似度分析

受某啤酒公司的委托,尼爾森咨詢公司就啤酒市場進行了詳細的品牌調(diào)查。數(shù)據(jù)如下,現(xiàn)對啤酒品牌的相似度進行分析。編號啤酒品牌熱量(卡)鈉含量(%)酒精含量(%)價格($)1Budweiser144.0019.004.700.432Schlitz181.0019.004.900.433Ionenbrau157.0015.004.900.484Kronensourc170.007.005.200.735Heineken152.0011.005.000.776Old-milnaukee145.0023.004.600.267Aucsberger175.0024.005.500.408Strchs-bohemi149.0027.004.700.42距離相關分析

距離相關(DistanceCorrelation)分析是對樣品或變量之間相似或不相似程度的一種度量,計算的是一種廣義距離。距離相關分析根據(jù)統(tǒng)計量的不同,分為不相似性測度(Dissimilarities):通過計算距離來表示的,其數(shù)值越大,表示相似程度越弱.相似性測度(Similarities):通過計算Peason相關系數(shù)或Cosine相似系數(shù)來表示的,其數(shù)值越大,表示相似程度越強.SPSS中距離相關分析的輸出結果(不相似性測度)SPSSANALYZECorrelateDistanceSPSS中距離相關分析的輸出結果(相似性測度)SPSSANALYZECorrelateDistance案例某公司員工的基本情況,數(shù)據(jù)集含3列,分別為:性別、年齡、工資,現(xiàn)在希望了解員工年齡和工資水平之間的關系再提高一下在探索性數(shù)據(jù)分析階段,分組對比分析非常重要,在分組變量的細分之下,往往能夠發(fā)現(xiàn)意想不到的結論。我們討論一下不同性別的員工,其年齡和工資的關系,男女在這方面有區(qū)別嗎?(1)首先用性別變量將數(shù)據(jù)集拆分為男女兩部分二、相關的概念兩個變量之間不精確、不穩(wěn)定的變化關系稱為相關關系。相關分析是研究變量間密切程度的一種統(tǒng)計方法。兩個變量之間的變化關系,既表現(xiàn)在變化方向,又表現(xiàn)在密切程度上。從變化方向來看,兩個變量之間有以下幾種關系:三、相關的類別1、正相關

兩個變量的變化方向一致如智商與學習成績(非智力因素基本相同)2、負相關

兩個變量的變化方向相反如解題能力與解題所用時間的長短3、零相關

兩個變量的變化方向無一定規(guī)律

四、相關系數(shù)(一)定義:用來描述兩個變量相互之間變化方向及密切程度的數(shù)學特征量稱為相關系數(shù)。用r表示。(二)數(shù)值變化范圍:0≤|r|≤1-1≤r≤1r的正、負號表明兩個變量之間變化的方向絕對值的大小表明兩個變量之間變化密切程度1、概念及適用范圍積差相關:當兩個變量都是正態(tài)連續(xù)變量,而且兩者之間呈線形關系時,表示這兩個變量之間的相關,又叫皮爾遜(Pearson)相關。如,初中升高中入學考試生物與化學成績均以百比制表示,若二者分別呈正態(tài)分布,它們之間呈線性關系,這時可用積差相關來表示它們的變化關系。五、積差相關使用條件兩個變量都是由測量獲得的連續(xù)性數(shù)據(jù)兩個變量的總體都呈正態(tài)分布,或接近于正態(tài)分布。判斷總體是否呈正態(tài)分布可進行卡方檢驗,以后會介紹。必須是成對數(shù)據(jù),而且每對數(shù)據(jù)之間相互獨立兩個變量之間呈線性關系。這可由相關散點圖的形狀來決定。散點圖在隨后也進行介紹。樣本容量n≥30散點圖:判斷散點圖,主要看其分布形狀是否呈斜向橢圓形,散點在橢圓中心處分布密集,橢圓長軸兩端稀疏,這反映兩變量之間是直線關系。若四個象限的散點相等,且分布均勻,為零相關。若散點分布呈曲線形,為曲線相關。散點圖的趨勢若表明兩個變量是線性關系,才可以計算積差相關系數(shù)。2、積差相關系數(shù)的計算方法原始數(shù)據(jù)計算法:3、相關系數(shù)的顯著性檢驗相關系數(shù)的抽樣分布從兩個正態(tài)連續(xù)變量的總體中,隨機抽取n對數(shù)據(jù),算得一個樣本相關系數(shù)r值,隨后將這些數(shù)據(jù)還回兩個總體中去,再從中隨機抽取n對數(shù)據(jù),又可以計算出一個樣本的r值,這一切可能個樣本r值的頻數(shù)分布,就構成一個實驗性的相關系數(shù)r的抽樣分布。相關系數(shù)顯著性檢驗的原理上面求出的相關系數(shù)r,是根據(jù)樣本數(shù)據(jù)計算出來的,它存在著抽樣誤差。也就是說,即使從總體相關系數(shù)ρ=0的總體中隨機抽取的樣本,由于抽樣的偶然性,計算出的r值有可能不等于0。所以,不能僅僅根據(jù)?r?的大小,對兩個變量之間關系的密切程度作出判斷,還要看r在以ρ=0為中心的抽樣分布上出現(xiàn)的概率如何。如果從ρ=0的總體中,隨機抽取的r在抽樣分布上出現(xiàn)的概率較大,則r和ρ=0的差異無顯著意義。反之,如果從ρ=0的總體中,隨機抽取的r在抽樣分布上出現(xiàn)的概率較小,則r和ρ=0有顯著性差異,即不是來自兩個變量相關系數(shù)為0的總體。六、等級相關

等級相關:以等級次序排列或以等級次序表示的變量之間的相關。斯皮爾曼二列等級相關斯皮爾曼等級相關(一)概念及其適用范圍當兩個變量以等級次序排列或以等級次序表示時,兩個相應總體并不一定呈正態(tài)分布,樣本容量也不一定大于30,表示這兩個變量之間的相關,稱為等級相關。根據(jù)某種標準對某項成績所評定的等級,或按某種指標的優(yōu)劣程度所排列的名次等,均屬于等級秩序性分數(shù)。計算等級相關系數(shù)的公式為D表示兩個變量每對數(shù)據(jù)等級之差7.2連續(xù)變量的相關分析

像年齡變量、收入變量、成績變量都是典型的連續(xù)變量。這就是我們前面介紹的Pearson相關。例從某系隨機選取了40名大學生進行追蹤研究,分別在入學后一周、第一學年末、第二學年末和第三學年末共4次英語詞匯測驗推算得到的被試的英語詞匯量(單位:千)。表中的變量如下:性別(0表示女生,1表示男生),test1(入學后一周詞匯量),test2(第一學年末詞匯量),test3(第二學年末詞匯量),test4(第三學年末詞匯量)。想計算并檢驗學生英語詞匯量四次測驗之間的相關系數(shù)。在進行相關分析之前,可以使用Graphs菜單中的Scatter命令作散點圖。散點圖是以點的分布反映變量之間相關情況的統(tǒng)計圖形,根據(jù)圖中的各點分布走向和密集程度,大致可以判斷變量之間的關系。按順序Graphs——Scatter單擊,打開Scatterplot散點圖主對話框。1、Simple簡單散點圖,只顯示一對相關變量的散點圖4、3-D三維散點圖,顯示三個相關變量之間的散點圖3、Matrix矩陣散點,在矩陣中顯示多個相關變量之間的散點圖2、Overlay重疊散點圖,可顯示多對相關變量的散點圖把test1選擇作為Y軸變量,把test2選擇作為X軸變量。結果:矩陣散點圖在矩陣變量框內(nèi)要選擇兩個或兩個以上的變量編輯散點圖選中圖中的點,打開Properties圖形屬性對話框,選擇Marker點選項卡。在選項卡中,選擇點的類型(Type)、點的大小(Size)、點的外周線(BorderWidth)以及點的顏色(Color)。選擇分析菜單下的相關分析下兩個變量間的相關分析選項菜單2單擊按鈕3單擊OK1選擇變量皮爾遜相關系數(shù)如果兩變量相關顯著,需要標注顯著性檢驗選項將<test1>、<test2>、<test3>、<test4>指定為<Variables>。結果和討論每個變量有三行數(shù)據(jù),第一行是該變量與其他變量之間的相關系數(shù),右上角標有“**”的表示在0.01水平上是顯著的。Sig.(2-tailed)雙尾t檢驗結果,對于相關系數(shù)為0的假設成立的概率。N為參與相關系數(shù)計算的有效觀測量數(shù)。結論:r=0.886,P=0.000<0.01,拒絕H0??梢哉J為test1和test2之間有正的直線相關關系。H0:ρ=0,即test1和test2無直線相關關系。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論