第6講-連續(xù)變量間關系探索與變量壓縮_第1頁
第6講-連續(xù)變量間關系探索與變量壓縮_第2頁
第6講-連續(xù)變量間關系探索與變量壓縮_第3頁
第6講-連續(xù)變量間關系探索與變量壓縮_第4頁
第6講-連續(xù)變量間關系探索與變量壓縮_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Join

LearnR數(shù)據(jù)分析:商業(yè)數(shù)據(jù)分析全景之六(2)連續(xù)變量關系探索與變量壓縮博士Join

Learn6.2.1多元統(tǒng)計基礎與變量約減的思路Join

Learn兩正態(tài)分布變量之間的關系Join

Learn目標使用散點圖來查看兩個連續(xù)變量間的關系。使用相關性統(tǒng)計來量化兩個連續(xù)變量的相關性。描述一下錯誤使用相關系數(shù)的可能情形。使用相關(Correlations)任務獲得

相關系數(shù)。Join

Learn三個連續(xù)變量-量、和Web登陸Join

Learn變量之間的依賴關系有兩種不同的類型:函數(shù)關系,即當一個或多個變量的數(shù)值確定以后,另一個變量的數(shù)值按照某種關系也隨之被確定,這種依賴關系

可以通過下章中所介紹的回歸分析來研究;相關關系,即變量之間不存在確定的函數(shù)關系,只是存在某種非確定性的聯(lián)系,這種依賴關系

用相關分析來研究。簡單相關分析Join

Learn相關關系是一種不完全確定的隨機關系,當一個或幾個變量的數(shù)值被確定后,與之相應的另一個變量的值雖然不能確定,但是仍按照某種依賴關系在一定的范圍內變化。簡單相關分析是研究兩個變量之間相關關系的方法。按照變量性質的不同,所采用的相關分析方法也不同。對于連續(xù)變量,通常使用Pearson相關系數(shù)來描述變量間的相關關系;對于有序變量,則常使用Spearman秩相關系數(shù)。PearsonSpearmanJoin

Learn兩個變量之間的相關關系也可以通過散點圖來進行直觀的描述:Join

Learn數(shù)據(jù)探索,相關性和散點圖使用散點圖和相關系數(shù)矩陣,對表“

”的連續(xù)變量之間的關系進行描述。Join

Learn6.2.2主成分分析Join

Learn主成分分析的思路主成分分析的目的是構造輸入變量的少數(shù)線形組合,盡量能解釋數(shù)據(jù)的變異性。這些線形組合被稱為主成分,它們形成的降維數(shù)據(jù)可用于進一步的分析。第一個主成分由圖中比較長的直線代表,在這個方向上能夠最多的解釋數(shù)據(jù)的變異性,即方差最大;第二個主成分由圖中比較短的直線代表,與第一個主成分正交,能夠最多的解釋數(shù)據(jù)中剩余的變異性;一般而言,每個主成分都需要與之前的主成分正交,并且能夠最11

多的解釋數(shù)據(jù)中剩余的變異性。Join

Learn三維變量之間的關系三

上的相關連續(xù)變量呈橢球狀分布。的分布才可以做主成分分析。如果呈球形分布,這說明變量間沒有相關關系,沒有必要做主成分分析,也不能做變量的壓縮。12Join

Learn提取第一個主成分首先找到這個空間橢球的最長軸,即數(shù)據(jù)變異最大的軸第一特征根=1.9413Join

Learn提取第二個主成分在所有與第一特征根垂直的方向上,找到第二個最長的軸第一特征根=1.9414第一特征根=1.02Join

Learn公式化表述1-主成分建模用

表示隨機向量,它的方差-協(xié)方差矩陣為要求每個則Z的方差為:就是需要尋找的主成分,主成分兩兩之間是正交的。有多少個變量就會有多少個正交的主成分;主成分的變異(方差)之和等于原始變量的所有變異;前若干個主成分的變異(方差)解釋了絕大多數(shù)的變異(方差);如果原始變量不相關,即沒有協(xié)方差,則不需要做主成分。Join

Learn公式化表述2-特征值與特征向量則第i主成分為:主成分的方差-協(xié)方差為:Join

Learn公式化表述3-主成分的個數(shù)選取令1,

2

,…,

p表示原始變量的方差序列,它們之和等于主成分之和。它們之間的區(qū)別在于主成分是從大到小排序的。每個主成分解釋的變異為:原始變量單位不一致情況下,原始變量需要進行學生標準化,則所有原始變量的方差為1。主成分個數(shù)的選取原則:單個主成分解釋的變異不因該小于1,比如選取3個主成分,第3主成分解釋的變異相當于一個原始變量的變異;選取主成分累積的解釋變異達到80%-90%。Join

Learn基于相關系數(shù)矩陣的主成分分析18Join

Learn主成分的解釋19Join

Learn主成分分析的三種運用場景1、做一個綜合打分:這種情況在日常中經常遇到,比如高考成績的加總、員工績效的總和。這類情況要求只出一個綜合打分,因此主成分分析比較適合。相對于講單項成績簡單加總的方法,主成分分析會賦予區(qū)分度高的單項成績以更高的權重,分值更合理。不過當主成分分析不支持取一個主成分時,就不能使用該方法了。2、對數(shù)據(jù)進行描述:描述產品情況,比如著名的波士頓矩陣,子公司業(yè)務發(fā)展狀況,區(qū)域投資潛力等等,需要將多變量壓縮到少數(shù)幾個主成分進行描述,如果壓縮到兩個主成分是最理想的。這類分析一般做到主成分是不充分的,做到因子分析更好。3、為聚類或回歸等分析提供變量壓縮:消除數(shù)據(jù)分析中的共線性問題,消除共線性常用的有三種方法,分別是:1)同類變量中保留一個最有代表性的;2)保留主成分或因子;3)從業(yè)務理解上進行變量修改。這主成分是三種方法的基礎。20Join

Learn演示一:做一個綜合打分使用”

Loan_aply”

數(shù)據(jù)對客戶信用進行

打分。某金融服務公司為了了解客戶的信用程度,評價客戶的信用等級,采用信用常用的5C方法,說明客戶違約的可能性。品格:指客戶的名譽;能力:指客戶的償還能力;資本:指客戶的財務

和財務狀況;擔保:指對申請

項擔保的覆蓋程度;環(huán)境:指外部經濟、政策環(huán)境對客戶的影響。每個單項都是由

打分給出的。21Join

Learn步驟一:變量之間相關系數(shù),多數(shù)變量之間有顯著的強線性相關,這表明做主成分分析是有意義的??梢钥闯?,能力與資本、附帶擔保品有著較強的相關性,表明客戶的償還能力與其財務實力、財務狀況和抵押資產有著重要的關系。Join

Learn結果分析1:總方差:原始變量總的變異;特征值:每個主成分解釋變異的數(shù)量;比例:每個特征根解釋的變異占原始數(shù)據(jù)總變異的比例;累積:累積到當前的主成分,總共解釋總變異的比例??梢钥闯龅谝粋€主成分解釋了84.6%的變異,根據(jù)選擇主成分個數(shù)的第二個原則,超過了80%,這表明使用第一個主成分作為每家企業(yè)的信用打分是適宜的。23Join

Learn結果分析2:特征向量提供了由原始變量到每個主成分的轉換系數(shù)(權重)。第一個主成分的計算公式為:P1=0.469*品格+0.485*能力+0.473*資本+0.462*擔保品+0.329*環(huán)境條件利用特征向量的取值也可以對主成分進行解釋,對第一主成分而言,各變量所占大致相等,且均為正數(shù),說明第一主成分是對所有指標的一個綜合測度,作為綜合的信用等級指標,可以用于排序。24Join

Learn在正確評估了客戶的信用等級后,就能正確制定出對其信用期限、收款政策等,用于加強應收裝款的管理工作。25結果分析3:獲取打分結果:Join

Learn使用”cities_10”記錄了十個沿海省份的經濟指標,如何對這些省份的經濟發(fā)展情況進行表述?。演示二:做樣本特征描述26Join

Learn主成分結果:第一個主成分在表達經濟總量的指標上的權重相當,而第二個主成分只在人均GDP上權重很高,因此可以為每個變量取一個名字27Join

Learn注:如果一個數(shù)據(jù)的變量可以被壓縮為兩個主成分,則通過展現(xiàn)在二維圖形上已經可以完成樣本聚類的工作。如果因子多于兩個,則需要使用聚類算法進行樣本分類。28作結果展現(xiàn)Join

Learn演示三:為聚類或回歸等分析提供變量壓縮計劃使用”CREDITCARD_EXP”數(shù)據(jù)通過線形回歸構造客戶價值模型,但是發(fā)現(xiàn)解釋變量之間具有強相關性。使用這樣的數(shù)據(jù)進行構造的模型穩(wěn)健型差,需要事先進行處理。這里考慮使用主成分分析的方法。29Join

Learn結果分析:有6個原始變量,由于進行了學生標準化,每個變量的方差都是1,因此總的方差為6。第一個主成分的特征值為2.8,可以理解這個主成分解釋掉了2.8個原始變量。由于本分析的目的是為了構造

類模型,選擇主成分的尺度可以寬一些,取3到4個主成分都可以。30Join

Learn“PROFILE_BANK”記錄了銀行客戶產品使用頻數(shù)的信息,希望使用這個數(shù)據(jù)作銀行客戶的客戶

,首先如何對這些信息進行約減?“CITIES_10”記錄了十個沿海省份的經濟指標,希望用于做聚類分析。請回答:1、是否可以嘗試著給每個主成分取一個名字,用以表達這個主成分所測量的維度?2、主成分分析是否可以做到變量分類、維度分析的目的?什么情況下可以完成,什么情況下不能完成。思考題:Join

Learn對于第一個例子,第一主成分是對所有指標的一個綜合測度,作為綜合的信用等級指標。第二個主成分有正有負,是一個調和指標。不能說第一、二個主成分分別解釋哪個變量,因此不能做到變量分類,也不能為每個主成分起名字。第二個就有所不同,第一個主成分在表達經濟總量的指標上的權重相當,而第二個主成分只在人均GDP上權重很高,因此可以為每個變量取一個名字32練習解答:PROFILE_BANKCITIES_10Join

Learn說明:僅提取變量的主要信息,無法完成維度分析的功能。像

“CITIES_10”這樣變量本身就具有很好的分類表現(xiàn)的數(shù)據(jù)是很少見的。完成變量聚類的主要方法下面介紹的因子分析。的情況或表現(xiàn)進行打分;2、一種簡單省段,降低變量之間的關系,作為

類模型主要用途:1、對力的綜合信息的輸入變量??偨Y:Join

Learn6.2.3因子分析Join

Learn因子分析的思路繼續(xù)主成分分析的思路,就象之前例子中呈現(xiàn)的那樣,一般得到的主成分中,第一個主成分是綜合指標,第二個主成分是調和指標。下圖是以每個變量在這兩個主成分上的權重作的散點圖。如果可以將主成分的坐標軸進行旋轉,使得一些變量的權重的絕對值在一個主成分上達到最大,而在其他主成分上絕對值最小,這樣就達到了變量分類的目的。變量旋轉分為正交和非正交兩種,一般使用前者。35Join

Learn公式化表述1-正交因子模型36Join

Learn公式化表述2-估計方法37Join

Learn公式化表述2-主成分法38Join

Learn公式化表述3-最大方差旋轉(varimax

rotation)39Join

Learn演示一:使用”cities_10”記錄了十個沿海省份的經濟指標,希望用于做聚類分析。40Join

Learn步驟一:變量之間相關系數(shù);作主成份分析,知道保留因子的數(shù)量(略)。步驟二:進行“因子分析”,將參與分析的連續(xù)變量放入對應的角色中。*選擇估計方法。一般使用主成分方法。*選擇合適的因子數(shù)量,這需要前期的主成分分析的經驗。因子個數(shù)的確定標準較寬,比如特征根大于0.7就可以考慮保留。Join

Learn結果分析1:因子旋轉之前因子旋轉之后42因子旋轉使得原始變量在兩個因子上的權重更加兩極分化。從右圖可以看出,變量被很好的分為兩類,也可以嘗試著為每個因子其名字:因子一:經濟總量水平因子二:人均水平Join

Learn結果分析2:對樣本進行打分。得到樣本的因子得分。43Join

Learn結果分析3:作結果展現(xiàn)為了在散點圖上加上數(shù)據(jù)

:注:如果一個數(shù)據(jù)的變量可以被壓縮為兩個因子,則通過展現(xiàn)在二維圖形上已經可以完成樣本聚類的工作。如果因子多于兩個,則需要使用聚類算法進行樣本分類。44Join

Learn1、上市公司按行業(yè)統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論