![《商業(yè)分析概論》常用統(tǒng)計(jì)分析方法_第1頁(yè)](http://file4.renrendoc.com/view/b14b1fae388efd4165c7b9097171a5d2/b14b1fae388efd4165c7b9097171a5d21.gif)
![《商業(yè)分析概論》常用統(tǒng)計(jì)分析方法_第2頁(yè)](http://file4.renrendoc.com/view/b14b1fae388efd4165c7b9097171a5d2/b14b1fae388efd4165c7b9097171a5d22.gif)
![《商業(yè)分析概論》常用統(tǒng)計(jì)分析方法_第3頁(yè)](http://file4.renrendoc.com/view/b14b1fae388efd4165c7b9097171a5d2/b14b1fae388efd4165c7b9097171a5d23.gif)
![《商業(yè)分析概論》常用統(tǒng)計(jì)分析方法_第4頁(yè)](http://file4.renrendoc.com/view/b14b1fae388efd4165c7b9097171a5d2/b14b1fae388efd4165c7b9097171a5d24.gif)
![《商業(yè)分析概論》常用統(tǒng)計(jì)分析方法_第5頁(yè)](http://file4.renrendoc.com/view/b14b1fae388efd4165c7b9097171a5d2/b14b1fae388efd4165c7b9097171a5d25.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
商業(yè)分析概論常用統(tǒng)計(jì)分析方法目錄描述性統(tǒng)計(jì)分析回歸分析Logistic回歸時(shí)間序列分析因子分析7.1描述性統(tǒng)計(jì)分析即席查詢(xún)報(bào)表(Adhoc):即席查詢(xún)是用戶根據(jù)自己的需求,靈活的選擇查詢(xún)條件,系統(tǒng)能夠根據(jù)用戶的選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表,是一種把已有信息和業(yè)務(wù)需求聯(lián)系在一起的交付物。手動(dòng)更新報(bào)表。手工更新的報(bào)表通常與短期項(xiàng)目有關(guān),另外,出現(xiàn)手動(dòng)報(bào)表的原因還包括可能存在著某些用戶不具備訪問(wèn)公司報(bào)表系統(tǒng)的權(quán)限,或他們根本不懂如何使用報(bào)表系統(tǒng)等。手動(dòng)報(bào)表通常只是臨時(shí)工作。按需自動(dòng)化報(bào)表。這種類(lèi)型的報(bào)表通常依托數(shù)據(jù)倉(cāng)庫(kù)來(lái)做發(fā)布,能按照既定條件有規(guī)律地更新數(shù)據(jù),而且有嚴(yán)格的用戶訪問(wèn)權(quán)限控制管理。事件觸發(fā)型自動(dòng)報(bào)表。這種類(lèi)型的報(bào)表和按需自動(dòng)報(bào)表的作用一樣,但不同的是事件觸發(fā)型自動(dòng)報(bào)表會(huì)在用戶閱讀的時(shí)候提醒用戶。回歸分析是處理變量之間關(guān)系的一種統(tǒng)計(jì)方法和技術(shù),其基本思想、方法以及“回歸(Regression)”名稱(chēng)的由來(lái)都要?dú)w功于英國(guó)統(tǒng)計(jì)學(xué)家F·Galton(1822~1911)?;貧w分析模型是否線性線性回歸模型非線性回歸模型自變量個(gè)數(shù)一元回歸多元回歸7.2回歸分析回歸分析主要解決以下幾方面的問(wèn)題:⑴通過(guò)分析大量的樣本數(shù)據(jù),確定變量之間的數(shù)學(xué)關(guān)系式。⑵對(duì)所確定的數(shù)學(xué)關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并區(qū)分出對(duì)某一特定變量影響較為顯著的變量和影響不顯著的變量。⑶利用所確定的數(shù)學(xué)關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的值來(lái)預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確度。7.2回歸分析一元線性回歸分析一元線性回歸分析是在排除其他影響因素或假定其他影響因素確定的條件下,分析某一個(gè)因素(自變量)是如何影響另一事物(因變量)的過(guò)程,所進(jìn)行的分析是比較理想化的。其實(shí),在現(xiàn)實(shí)社會(huì)生活中,任何一個(gè)事物(因變量)總是受到其他多種事物(多個(gè)自變量)的影響。7.2回歸分析一元線性回歸模型的確定散點(diǎn)圖以便進(jìn)行簡(jiǎn)單的觀測(cè)建立線性方程y=β0+β1x+ε散點(diǎn)圖以便進(jìn)行簡(jiǎn)單的觀測(cè)建立其他方程模式并比較R2R2越大,方程的擬合優(yōu)度越高利用t檢驗(yàn)和F檢驗(yàn)分別檢驗(yàn)回歸系數(shù)和一元線性回歸方程是否顯著。如兩者均顯著,說(shuō)明該數(shù)據(jù)可以用一元線性回歸模型來(lái)擬合,否則要考慮其他模型呈線性關(guān)系不呈線性分布7.2回歸分析回歸模型的顯著性檢驗(yàn)問(wèn)題通過(guò)樣本數(shù)據(jù)建立一個(gè)回歸方程后,不能立即用于對(duì)某個(gè)實(shí)際問(wèn)題的預(yù)測(cè)。因?yàn)?,將?yīng)用最小二乘法求得的樣本回歸直線作為對(duì)總體回歸直線的近似,這種近似是否合理必須通過(guò)各種統(tǒng)計(jì)檢驗(yàn)。一般經(jīng)常使用以下的統(tǒng)計(jì)檢驗(yàn)。7.2回歸分析回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))所謂回歸系數(shù)的顯著性檢驗(yàn),就是根據(jù)樣本估計(jì)的結(jié)果對(duì)總體回歸系數(shù)的有關(guān)假設(shè)進(jìn)行檢驗(yàn),也就是檢驗(yàn)斜率?;貧w系數(shù)顯著性檢驗(yàn)的基本步驟提出假設(shè)計(jì)算回歸系數(shù)的t統(tǒng)計(jì)量值根據(jù)給定的顯著水平α確定臨界值,或者計(jì)算t值所對(duì)應(yīng)的p值作出判斷7.2回歸分析一元線性回歸回歸模型:y=β0+β1x+ε(x為自變量,y為因變量,β0為截距,β1為斜率(回歸系數(shù)),ε為誤差變量。)指定H0:β1=0;備擇假設(shè)為H1:β1≠0檢驗(yàn)統(tǒng)計(jì)量為:其中,Sb1是b1的標(biāo)準(zhǔn)偏差(標(biāo)準(zhǔn)誤差),(為標(biāo)準(zhǔn)誤差)7.2回歸分析如果誤差變量服從正態(tài)分布,那么檢驗(yàn)統(tǒng)計(jì)量服從自由度為n-2的t分布。拒絕域?yàn)?/p>
當(dāng)原假設(shè)為真,就說(shuō)明兩個(gè)變量間沒(méi)有線性關(guān)系;當(dāng)備選假設(shè)為真,則兩個(gè)變量存在某種線性關(guān)系。SPSS的實(shí)際操作中,我們只要關(guān)注t檢驗(yàn)的顯著性(Significance)值(sig值)。我們一般將這個(gè)sig值與0.05比較,當(dāng)sig值小于0.05,我們認(rèn)為差別顯著;當(dāng)sig值大于0.05,我們認(rèn)為差別不顯著;sig值越小,說(shuō)明差別越顯著,回歸系數(shù)越顯著。7.2回歸分析擬合優(yōu)度檢驗(yàn)回歸方程的擬合優(yōu)度檢驗(yàn)就是要檢驗(yàn)樣本數(shù)據(jù)聚集在樣本回歸直線周?chē)拿芗潭?,從而判斷回歸方程對(duì)樣本數(shù)據(jù)的擬合程度。回歸方程的擬合優(yōu)度檢驗(yàn)一般用判定系數(shù)(CoefficientofDetermination)實(shí)現(xiàn),用R2表示。該指標(biāo)建立在對(duì)總離差平方和進(jìn)行分解的基礎(chǔ)之上。測(cè)定多元線性回歸的擬合程度,與一元線性回歸中的判定系數(shù)類(lèi)似,使用調(diào)整后的判定系數(shù)。7.2回歸分析擬合優(yōu)度檢驗(yàn)yi和的離差可以進(jìn)一步分解為兩部分如果對(duì)等式兩邊各項(xiàng)求平方,并把所有樣本點(diǎn)加起來(lái),進(jìn)行一些代數(shù)運(yùn)算可得方程的左邊衡量了因變量y的差異。方程右邊的第一項(xiàng)用SSE表示,第二項(xiàng)用SSR表示,為回歸平方和(SumofSquaresforRegression,SSR)Y的差異=SSE+SSR7.2回歸分析因此將差異分解為兩個(gè)部分:SSE度量y中不可解釋的差異部分;SSR度量y中可以被自變量x的差異解釋的差異部分。把這個(gè)分析過(guò)程整合到R2的定義中去:因此,R2衡量了y的差異中能夠被x的差異解釋的部分在總差異中所占的比例。一般來(lái)說(shuō),R2的值越大,模型擬合數(shù)據(jù)的效果就越好。7.2回歸分析回歸方程的顯著性檢驗(yàn)(F檢驗(yàn))回歸方程的顯著性檢驗(yàn)是對(duì)因變量與所有自變量之間的線性關(guān)系是否顯著的一種假設(shè)檢驗(yàn)。回歸方程的顯著性檢驗(yàn)一般采用F檢驗(yàn),利用方差分析的方法進(jìn)行。檢驗(yàn)統(tǒng)計(jì)量為:拒絕域?yàn)椋?.2回歸分析因變量的總差異可以分解為可解釋的差異和不可解釋的差異兩個(gè)部分:而F=MSR/MSE,因此,若F值較大,表明因變量的總差異中可被回歸方程解釋的部分所占的比例較大,回歸模型有效在SPSS軟件的實(shí)際操作中,我們也主要觀察它的sig值,只要sig小于0.05,我們就認(rèn)為回歸模型是顯著的7.2回歸分析多元線性回歸分析一元線性回歸問(wèn)題只涉及了一個(gè)自變量,但在實(shí)際問(wèn)題中,影響因變量的因素往往有多個(gè)。在線性相關(guān)條件下,研究?jī)蓚€(gè)或兩個(gè)以上自變量對(duì)一個(gè)因變量的數(shù)量變化關(guān)系,稱(chēng)為多元線性回歸分析,表現(xiàn)這一數(shù)量關(guān)系的數(shù)學(xué)公式,稱(chēng)為多元線性回歸模型。多元線性回歸模型是一元線性回歸模型的擴(kuò)展,其基本原理與一元線性回歸模型類(lèi)似,只是在計(jì)算上更為復(fù)雜,一般需借助計(jì)算機(jī)來(lái)完成。多元線性回歸模型的確定時(shí)常用逐步回歸方法(Stepwise)。7.2回歸分析逐步回歸法是對(duì)全部的自變量(X1,X2,···,Xp)對(duì)Y貢獻(xiàn)的大小進(jìn)行比較,并通過(guò)F檢驗(yàn)法選擇偏回歸平方和顯著的變量進(jìn)入回歸方程,每一步只引入一個(gè)變量,同時(shí)建立一個(gè)偏回歸方程。當(dāng)一個(gè)變量被引入后,對(duì)原已引入回歸方程的變量,逐個(gè)檢驗(yàn)他們的偏回歸平方和如果由于引入一個(gè)新變量而使得已進(jìn)入方程的變量變?yōu)椴伙@著時(shí),則及時(shí)從偏回歸方程中剔除從未選入方程的自變量中,挑選對(duì)Y有顯著影響的新的變量進(jìn)入方程在引入了兩個(gè)自變量以后,便開(kāi)始考慮是否有需要剔除的變量當(dāng)回歸方程中的所有自變量對(duì)Y都有顯著影響而不需要剔除時(shí)不論引入還是剔除一個(gè)變量都被稱(chēng)為一步。不斷重復(fù)這一過(guò)程,直至無(wú)法剔除已引入的變量,也無(wú)法再引入新的自變量,逐步回歸過(guò)程結(jié)束7.2回歸分析多元線性回歸中還需要注意多元共線性問(wèn)題。多重共線性指自變量間存在線性相關(guān)關(guān)系,即一個(gè)自變量可以用其他一個(gè)或幾個(gè)自變量的線性表達(dá)式進(jìn)行表示。多元共線性會(huì)有兩個(gè)不利影響:1.估計(jì)回歸系數(shù)時(shí)會(huì)產(chǎn)生較大的抽樣誤差2.會(huì)影響系數(shù)的t檢驗(yàn),使依據(jù)t檢驗(yàn)做出的是否線性相關(guān)的推斷發(fā)生錯(cuò)誤。7.2回歸分析為了避免或者修正多元共線性,我們采用兩種方法:1.在建立模型時(shí)要盡可能確保自變量之間的相互獨(dú)立性2.另一個(gè)是逐步回歸只有當(dāng)某個(gè)自變量能夠改變模型的擬合效果時(shí),才把它放在模型中。如果兩個(gè)自變量強(qiáng)烈相關(guān),那么要對(duì)自變量進(jìn)行合并或?qū)⒅貜?fù)的自變量刪除,才可以最小化多元共線性的影響。7.2回歸分析實(shí)際運(yùn)用中多重共線性主要有以下幾種類(lèi)型表現(xiàn):1.整個(gè)模型的方差分析檢驗(yàn)結(jié)果為P<α(α為顯著性水平),但各自變量的偏回歸系數(shù)的統(tǒng)計(jì)學(xué)檢驗(yàn)結(jié)果卻是P>α;2.專(zhuān)業(yè)上認(rèn)為應(yīng)該有統(tǒng)計(jì)學(xué)意義的自變量檢驗(yàn)結(jié)果,卻無(wú)統(tǒng)計(jì)學(xué)意義;3.自變量的偏回歸系數(shù)取值大小甚至符號(hào)明顯與實(shí)際情況相違背,難以解釋?zhuān)?.增加或刪除一個(gè)自變量或一條記錄,自變量偏回歸系數(shù)發(fā)生較大變化。7.2回歸分析對(duì)于多重共線性的識(shí)別,可以通過(guò)SPSS中Statistics(統(tǒng)計(jì)量)子對(duì)話框中的CollinearityDiagnostics(共線性診斷)復(fù)選框予以實(shí)現(xiàn)。復(fù)選框CollinearityDiagnostics提供以下統(tǒng)計(jì)量:1.容忍度(Tolerance)2.方差膨脹因子(VarianceInflationFactor,VIF)3.特征根(Eigenvalue)4.條件指數(shù)(ConditionIndex)7.2回歸分析含虛擬自變量的回歸分析數(shù)量變量、定量變量或數(shù)量因素:可以直接用數(shù)字計(jì)量的因變量和自變量,即可以獲得實(shí)際觀測(cè)值(如收入、支出、產(chǎn)量、國(guó)內(nèi)生產(chǎn)總值等)非數(shù)量型的變量:性別、民族、職業(yè)、文化程度、地區(qū)、正常年份與干旱年份、改革前與改革后等定性變量定性變量作數(shù)量化處理:引進(jìn)只取“0”和“1”兩個(gè)值的虛擬自變量。當(dāng)某一屬性出現(xiàn)時(shí),虛擬變量取值為“1”,否則取值為“0”。對(duì)于包含一個(gè)具有k種特征或狀態(tài)的質(zhì)因素的回歸模型,如果回歸模型沒(méi)有常數(shù)項(xiàng),則需引入k個(gè)0?1型虛擬變量D;如果有常數(shù)項(xiàng),則只需引入k?1個(gè)0?1型虛擬變量D。當(dāng)k=2時(shí),只需要引入一個(gè)0?1型虛擬變量D。7.2回歸分析含調(diào)節(jié)變量的回歸分析如果變量Y與變量X有關(guān)系,并且這個(gè)關(guān)系受到第三個(gè)變量M的影響,那么變量M就是調(diào)節(jié)變量。調(diào)節(jié)變量影響自變量和因變量之間的關(guān)系,既可以是定性的(比如性別、受教育程度等),也可以是定量的(比如年齡、工資收入),它影響自變量和因變量之間關(guān)系的方向(正負(fù))和程度(強(qiáng)弱)。簡(jiǎn)要模型:
Y=aX+bM+cXM+eY與X的關(guān)系由回歸系數(shù)a+bM來(lái)刻畫(huà),它是M的線性函數(shù),c衡量了調(diào)節(jié)效應(yīng)(ModeratingEffect)的大小。如果c顯著,說(shuō)明M的調(diào)節(jié)效應(yīng)顯著。7.2回歸分析討論調(diào)節(jié)變量的調(diào)節(jié)效應(yīng),可分為以下情況:1.當(dāng)自變量是類(lèi)別變量,調(diào)節(jié)變量也是類(lèi)別變量時(shí),用兩因素交互效應(yīng)的方差分析,交互效應(yīng)即調(diào)節(jié)效應(yīng);2.當(dāng)調(diào)節(jié)變量是連續(xù)變量時(shí),自變量使用偽變量,將自變量和調(diào)節(jié)變量中心化,使用上述公式做層次回歸分析:①做Y對(duì)X和M的回歸,得測(cè)定系數(shù)R21;②做Y對(duì)X、M和XM的回歸得R22,若R22顯著高于R21,則調(diào)節(jié)效應(yīng)顯著。或者,作XM的回歸系數(shù)檢驗(yàn),若顯著,則調(diào)節(jié)效應(yīng)顯著;3.當(dāng)自變量是連續(xù)變量,調(diào)節(jié)變量是類(lèi)別變量時(shí),分組回歸應(yīng)按M的取值分組,做Y對(duì)X的回歸。若回歸系數(shù)的差異顯著,則調(diào)節(jié)效應(yīng)顯著,調(diào)節(jié)變量是連續(xù)變量時(shí),同上述公式的層次回歸分析。7.2回歸分析多元線性回歸分析在的商業(yè)應(yīng)用案例商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成7.2回歸分析自變量:評(píng)論深度(字?jǐn)?shù))、評(píng)論極性(正面或負(fù)面)、產(chǎn)品類(lèi)型因變量:評(píng)論有用性H1:商品類(lèi)型會(huì)為評(píng)論極性對(duì)評(píng)論有用性的影響起到顯著的調(diào)節(jié)作用。對(duì)于體驗(yàn)型商品,中立評(píng)價(jià)的作用比極端評(píng)價(jià)更顯著。H2a:負(fù)面評(píng)論的在線評(píng)論有用性大于正面評(píng)論。H2b:較體驗(yàn)型商品,正面評(píng)論對(duì)搜索型商品的有用性更高。H2c:較體驗(yàn)型商品,負(fù)面評(píng)論對(duì)搜索型商品的有用性更高。H2d:較搜索型商品,體驗(yàn)型商品的正面評(píng)論與負(fù)面評(píng)論的有用性差異更大。H3:評(píng)論深度對(duì)評(píng)論有用性具有顯著的正向影響作用。H4:商品類(lèi)型會(huì)為評(píng)論深度對(duì)評(píng)論有用性的影響起到顯著的調(diào)節(jié)作用,與體驗(yàn)型商品相比,評(píng)論深度對(duì)有用性的正向影響在搜索型商品中更為明顯。7.2回歸分析數(shù)據(jù)來(lái)源:卓越亞馬遜()研究樣本:體驗(yàn)型和搜索型兩種商品類(lèi)型中的6個(gè)大類(lèi)下的12種商品。搜索型商品選擇U盤(pán)、手機(jī)和路由器,體驗(yàn)型商品選擇了音樂(lè)CD、書(shū)籍和化妝品。對(duì)商品的基本信息和在線評(píng)論進(jìn)行抓取,主要通過(guò)火車(chē)頭采集器進(jìn)行每條評(píng)論包括以下數(shù)據(jù):①評(píng)論星級(jí);②評(píng)論總投票數(shù);③評(píng)論有用票數(shù);④評(píng)論者;⑤評(píng)論時(shí)間;⑥評(píng)論文本內(nèi)容根據(jù)研究需求對(duì)采集到的在線評(píng)論進(jìn)行篩選共得到2157條較高質(zhì)量的在線評(píng)論商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成7.2回歸分析自變量:①評(píng)論星級(jí)Start_Rating;②評(píng)論深度Review_Depth調(diào)節(jié)變量:①商品類(lèi)型Product_Type;②評(píng)論極性Review_Extremity因變量:評(píng)論有用性Helpfulness%控制變量:投票總數(shù)Total_Votes商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成7.2回歸分析①檢驗(yàn)H1、H3、H4采用的回歸方程:Helpfulness%=β0+β1Star_Rating+β2Review_Depth+β3Product_Type+β4Total_Votes+β5Star_Rating×Product_Type+β6Review_Depth×Product_Type+ε②檢驗(yàn)H2a、H2b、H2c、H2d采用的回歸方程:Helpfulness%=β0+β1Product_Type+β2Review_Extremity+β3Review_Extremity×Product_Type+ε商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成7.2回歸分析商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成調(diào)整后的R2=0.384,達(dá)到同類(lèi)研究水平,方程擬合度較高,p值=0.000表明各指標(biāo)對(duì)評(píng)論有用性存在顯著的影響7.2回歸分析商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成為進(jìn)一步探究搜索型商品與體驗(yàn)型商品的具體調(diào)節(jié)作用,分別對(duì)其進(jìn)行多元線性回歸分析對(duì)于體驗(yàn)型商品,評(píng)論星級(jí)Star_Rating(p=0.000)和Star_Rating2(p=0.018)對(duì)評(píng)論有用性有顯著影響。對(duì)于搜索型商品,評(píng)論星級(jí)Star_Rating(p=0.069)對(duì)評(píng)論有用性沒(méi)有顯著影響,而Star_Rating2(p=0.035)對(duì)評(píng)論有用性有顯著影響。假設(shè)H1成立,即商品類(lèi)型會(huì)使評(píng)論極性對(duì)評(píng)論有用性的影響起到調(diào)節(jié)作用,且對(duì)于體驗(yàn)型商品,中立評(píng)價(jià)的作用比極端評(píng)價(jià)更顯著。7.2回歸分析商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成07.2回歸分析商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成07.2回歸分析商業(yè)數(shù)據(jù)的采集變量的確定回歸方程模型構(gòu)建和假設(shè)形成體驗(yàn)型商品和搜索型商品,p值<0.05,且系數(shù)均為正,表明評(píng)論長(zhǎng)度越長(zhǎng),有用性越高,即評(píng)論深度會(huì)對(duì)評(píng)論有用性產(chǎn)生顯著的正向影響,假設(shè)H3成立。模型輸出結(jié)果中Review_Depth×Product_Type(p=0.009)可知商品類(lèi)型使評(píng)論深度對(duì)評(píng)論有用性的影響起到顯著調(diào)節(jié)作用,而其系數(shù)為正,則評(píng)論深度對(duì)評(píng)論有用性的正向影響作用在搜索型商品中更為明顯,假設(shè)H4成立。商品類(lèi)型與評(píng)論極性的交互影響會(huì)影響到在線評(píng)論的有用性,我們發(fā)現(xiàn)在體驗(yàn)型商品中,中立評(píng)價(jià)比極端評(píng)價(jià)(無(wú)論是正面評(píng)論還是負(fù)面評(píng)論)更有用。與體驗(yàn)型商品相比較,獲取搜索型商品的客觀信息對(duì)于消費(fèi)者更加便利有用,消費(fèi)者在瀏覽在線評(píng)論時(shí)會(huì)更多地關(guān)注字?jǐn)?shù)較多的評(píng)論,從中達(dá)到了解商品優(yōu)劣的目的。7.2回歸分析Logistic回歸簡(jiǎn)介線性回歸中的因變量是定量變量,但是當(dāng)因變量的取值為兩個(gè)或兩個(gè)以上的定性變量時(shí),之前介紹的回歸模型就無(wú)法解決了。而事實(shí)上,無(wú)論是在社會(huì)科學(xué)還是經(jīng)濟(jì)生活中,我們常常會(huì)遇到這種情況(男性還是女性?買(mǎi)還是不買(mǎi)?用戶購(gòu)買(mǎi)某商品是受何種因素影響:年齡?性別?收入水平?)。因?yàn)檫@些定性變量的誤差項(xiàng)不呈現(xiàn)正態(tài)分布,不能夠滿足線性回歸要求的正態(tài)分布假設(shè),而且普通線性回歸模型的預(yù)測(cè)值可能不在0—1之間,無(wú)法解釋某件事件發(fā)生的概率。7.3Logistic回歸簡(jiǎn)介能否建立類(lèi)似于線性回歸的模型,對(duì)這種數(shù)據(jù)加以分析?以最簡(jiǎn)單的二分類(lèi)因變量為例來(lái)加以探討,為了討論方便,常定義出現(xiàn)陽(yáng)性結(jié)果時(shí)因變量取值為1,反之則取值為0。例如當(dāng)領(lǐng)導(dǎo)層出有女性職員、下雨、痊愈、是潛在消費(fèi)者時(shí)反應(yīng)變量y=1,而沒(méi)有女性職員、未下雨、未痊愈時(shí)y=0。記出現(xiàn)陽(yáng)性結(jié)果的頻率為p(y=1)。很顯然,0≤P≤1。7.3Logistic回歸簡(jiǎn)介L(zhǎng)ogistic回歸是對(duì)定性變量的回歸分析。可用于處理定性因變量的統(tǒng)計(jì)分析方法有:判別分析(DiscriminantAnalysis)、Probit分析、Logistic回歸分析和對(duì)數(shù)線性模型等。Logistic回歸分析根據(jù)因變量取值類(lèi)別不同,又可以分為二元回歸(BinaryLogistic)分析和多元回歸(MultinominalLogistic)分析。BinaryLogistic回歸模型中因變量只能取兩個(gè)值1和0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個(gè)值。7.3Logistic回歸簡(jiǎn)介L(zhǎng)ogistic回歸的用途可歸納為三個(gè)方面:尋找影響因素:根據(jù)不同的研究目的,分析尋找影響研究結(jié)果的因素,即尋找定性因變量。預(yù)測(cè):建立logistic回歸模型,根據(jù)模型,預(yù)測(cè)在不同的因變量情況下,發(fā)生某些情況的概率有多大。如銀行可以根據(jù)用戶的年齡、性別、購(gòu)房、貸款信息等預(yù)測(cè)客戶還款情況。判別:實(shí)際上跟預(yù)測(cè)有些類(lèi)似,也是根據(jù)logistic模型,判斷人們可能的行為,還以銀行還款為例,即根據(jù)模型判別該用戶還款的幾率有多大。7.3Logistic回歸簡(jiǎn)介1、二元Logistic回歸模型假設(shè)某一事件Y可能有兩種結(jié)果,發(fā)生(Y=1)和不發(fā)生(Y=0),該事件成功的概率P=Pr(Y=1)可以用Logistic模型表示為:上式可推出:
為截距;
和
=1,2,…..,k,是第j個(gè)自變量和該自變量的待估系數(shù)?;貧w系數(shù)的大小和符號(hào)可以揭示不同自變量與發(fā)生概率直接關(guān)系。7.3Logistic回歸簡(jiǎn)介2、多元Logistic回歸模型當(dāng)Y=1,2,3…..n時(shí),使用如下模型:
代表截距大小,
為回歸系數(shù),
代表獨(dú)立變量。7.3Logistic回歸簡(jiǎn)介7.3Logistic回歸簡(jiǎn)介估計(jì)回歸系數(shù)02定義業(yè)務(wù)目標(biāo)01解釋結(jié)果04顯著性檢驗(yàn)031.定義業(yè)務(wù)目標(biāo)定義業(yè)務(wù)目標(biāo)是根據(jù)研究目的確定因變量和自變量。與客戶購(gòu)買(mǎi)保險(xiǎn)產(chǎn)品行為有關(guān)的因變量包括年齡、性別、文化程度、收入、健康狀況、對(duì)風(fēng)險(xiǎn)的認(rèn)識(shí)等,可以賦予這些因變量的值有1或0。自變量也叫協(xié)變量,是指那些對(duì)因變量有影響的變量。自變量的確定要根據(jù)經(jīng)驗(yàn)和實(shí)際研究情況來(lái)確定,以客戶購(gòu)買(mǎi)保險(xiǎn)產(chǎn)品行為為例,自變量可能是客戶所處的行業(yè)、地區(qū)、宗教信仰等。7.3Logistic回歸簡(jiǎn)介2.估計(jì)回歸系數(shù)Logistic回歸系數(shù)一般由極大似然法(Maximumlikelihoodmethod)估算,以便估計(jì)的P當(dāng)Y=0時(shí)接近0,Y=1時(shí)接近1。自變量的取舍通常根據(jù)極大似然比(MLR)或者協(xié)方差近似估計(jì)(ACE)以逐步回歸的方式進(jìn)行。通常從數(shù)據(jù)中選取60%--70%的樣本作為估計(jì)回歸系數(shù)的建模樣本,其余的作為檢驗(yàn)?zāi)P蛿M合情況的驗(yàn)證樣本。7.3Logistic回歸簡(jiǎn)介3.顯著性檢驗(yàn)當(dāng)回歸系數(shù)不是很大時(shí),可以用沃氏檢驗(yàn)(Waldtest)檢驗(yàn)其顯著水平。該統(tǒng)計(jì)量是建立在極大似然法估計(jì)的近似正態(tài)分布基礎(chǔ)上,可用下式估算:W=(/s.e.())
是某個(gè)預(yù)測(cè)變量的Logistic回歸系數(shù)估計(jì)值,s.e.()是該系數(shù)的標(biāo)準(zhǔn)誤差。Wald統(tǒng)計(jì)量呈卡方分布,如果預(yù)測(cè)變量時(shí)定量變量,其自由度為1,如果預(yù)測(cè)變量是分類(lèi)變量,其自由度為類(lèi)別數(shù)減1。實(shí)際上,也可以用參數(shù)估計(jì)值除以其標(biāo)準(zhǔn)誤差計(jì)算t值,然后用t檢驗(yàn)對(duì)參數(shù)為0的假設(shè)進(jìn)行檢驗(yàn),其自由度為樣本數(shù)減估計(jì)的參數(shù)個(gè)數(shù)。大樣本時(shí)可以用z檢驗(yàn)。7.3Logistic回歸簡(jiǎn)介4.解釋結(jié)果截距決定假設(shè)所有變量值為0時(shí)事件發(fā)生的概率?;貧w系數(shù)表示事件發(fā)生概率與Xj之間的關(guān)系。>0,表示Xj與事件發(fā)生概率正相關(guān),<0,表示負(fù)相關(guān),=0表示Xj與事件發(fā)生概率無(wú)關(guān)。7.3Logistic回歸簡(jiǎn)介⑴確定業(yè)務(wù)目標(biāo)Logistic回歸模型可用于解決銀行對(duì)用戶提前還貸款情況的預(yù)測(cè)。我們首先從企業(yè)業(yè)務(wù)視角定義業(yè)務(wù)目標(biāo):
①預(yù)測(cè)房貸客戶提前還款的可能性;
②分析客戶提前還款的特征;
③減少客戶提前還款率。Logistic回歸案例7.3Logistic回歸簡(jiǎn)介⑵定義目標(biāo)變量解決該問(wèn)題的原理為,通過(guò)房貸的基本屬性和客戶歷史行為預(yù)測(cè)客戶未來(lái)提前還款的可能性。表現(xiàn)期:標(biāo)識(shí)客戶未來(lái)是否提前還款的時(shí)間段(3個(gè)月)。模型目標(biāo):預(yù)測(cè)客戶未來(lái)三個(gè)月大幅提前還款。7.3Logistic回歸簡(jiǎn)介⑶建模算法Logistic回歸模型的一般形式為:其中是P是流失概率,
代表截距大小,
為回歸系數(shù),
代表獨(dú)立變量。因?yàn)樵摪咐龜?shù)據(jù)來(lái)源于銀行數(shù)據(jù)倉(cāng)庫(kù),Logistic回歸分析結(jié)果如下表所示:6.2.5Logistic回歸案例7.3Logistic回歸簡(jiǎn)介AnalysisofMaximumLikelihoodEstimatesParameterDFEstimateStandardWaldPr>ChiSqErrorChi-SquareIntercept1-1.65410.0572834.9838<.0001年齡1-0.009740.000835135.9102<.0001擁有賬戶數(shù)1-0.09540.00342778.0362<.0001當(dāng)月交叉銷(xiāo)售率1-0.05660.013717.0375<.0001資產(chǎn)類(lèi)產(chǎn)品當(dāng)月借方交易金額相對(duì)于最近六個(gè)月借方交易金額平均值比率10.04620.0073539.5741<.0001非活存類(lèi)資產(chǎn)最近一次貸方交易距今時(shí)長(zhǎng)10.03190.00199258.3282<.0001沃德客戶簽約標(biāo)識(shí)1-0.54150.0225580.3795<.0001保有期限(月)1-0.003160.000232186.33<.0001基金最近一年借方交易次數(shù)占交易次數(shù)占比10.69030.055157.757<.0001三存最近一年借方交易金額占交易金額占比1-1.48150.0601607.4079<.0001最近一個(gè)月活存取款金額大于次數(shù)10.14910.0051855.159<.0001國(guó)債持有標(biāo)識(shí)1-0.98250.0892121.2301<.0001最近三個(gè)月產(chǎn)品銷(xiāo)戶數(shù)10.49320.0288292.7311<.0001貴金屬持有標(biāo)識(shí)1-1.35720.0913221.1287<.0001最近三個(gè)月轉(zhuǎn)帳,取現(xiàn)金額占90天日均資產(chǎn)比率10.11930.017347.6116<.0001投資理財(cái)產(chǎn)品持有標(biāo)識(shí)1-0.44770.0296229.5235<.0001月日均資產(chǎn)大于90天日均資產(chǎn)2倍標(biāo)識(shí)10.63630.0383276.4884<.0001月日均資產(chǎn)大于過(guò)去12個(gè)月月均資產(chǎn)2倍標(biāo)識(shí)11.04650.02322035.7145<.0001表中所有的變量均顯著,即認(rèn)為這些因素都會(huì)影響客戶的還款。7.3Logistic回歸簡(jiǎn)介變量名分析維度業(yè)務(wù)解釋年齡基本信息年輕人流失概率較高擁有賬戶數(shù)銀行相關(guān)信息賬戶數(shù),產(chǎn)品數(shù)越多,開(kāi)戶時(shí)間長(zhǎng)的客戶流失概率小當(dāng)月交叉銷(xiāo)售率保有期限(月)沃德客戶簽約標(biāo)識(shí)客戶簽約信息沃德簽約客戶流失概率較低國(guó)債持有標(biāo)識(shí)持有標(biāo)識(shí)投資理財(cái)客戶,國(guó)債、貴金屬持有客戶流失概率較低貴金屬持有標(biāo)識(shí)投資理財(cái)產(chǎn)品持有標(biāo)識(shí)月日均資產(chǎn)大于90天日均資產(chǎn)2倍標(biāo)識(shí)資產(chǎn)上升最近一個(gè)月資產(chǎn)大幅上升的客戶流失概率大月日均資產(chǎn)大于過(guò)去12個(gè)月月均資產(chǎn)2倍標(biāo)識(shí)資產(chǎn)類(lèi)產(chǎn)品當(dāng)月借方交易金額相對(duì)于最近六個(gè)月借方交易金額平均值比率借方交易金額上升借方交易額上升的客戶流失概率大基金最近一年借方交易次數(shù)占交易次數(shù)占比三存最近一年借方交易金額占交易金額占比非活存類(lèi)資產(chǎn)最近一次貸方交易距今時(shí)長(zhǎng)最近一次貸方交易距今時(shí)長(zhǎng)貸方交易時(shí)間距今越長(zhǎng),越容易流失最近一個(gè)月活存取款金額大于次數(shù)
跨行轉(zhuǎn)帳,取現(xiàn),大額取款跨行轉(zhuǎn)帳,大額取款的客戶流失概率較大最近三個(gè)月轉(zhuǎn)帳,取現(xiàn)金額占90天日均資產(chǎn)比率最近三個(gè)月產(chǎn)品銷(xiāo)戶數(shù)銷(xiāo)戶數(shù)近期有銷(xiāo)戶行為的客戶流失概率較大從而可得到可能提前還款的用戶特征為:產(chǎn)品數(shù)和賬戶數(shù)較少開(kāi)戶時(shí)間較短,年齡偏小貸方交易不活躍借方交易次數(shù)較多大額資金轉(zhuǎn)出或取現(xiàn)銷(xiāo)戶數(shù)增加可根據(jù)這些特征對(duì)用戶采取挽留的措施。7.3Logistic回歸簡(jiǎn)介時(shí)間序列的構(gòu)成簡(jiǎn)介時(shí)間序列,也叫時(shí)間數(shù)列,它是把不同時(shí)間狀態(tài)下的統(tǒng)一指標(biāo)按照時(shí)間的先后順序排列得到的數(shù)列。時(shí)間序列中取值的時(shí)間間隔可以是年份、季度、月份、天或小時(shí)等其他時(shí)間形式。所取數(shù)值可以是瞬間值,我們稱(chēng)之為時(shí)點(diǎn)值,也可以是某一階段的累加值,即時(shí)期值,如,某一天12:00時(shí)的網(wǎng)頁(yè)點(diǎn)擊量是時(shí)點(diǎn)值,超市的年?duì)I業(yè)額是時(shí)期值。7.4時(shí)間序列分析時(shí)間序列長(zhǎng)期趨勢(shì)循環(huán)變動(dòng)不規(guī)則/隨機(jī)變動(dòng)季節(jié)變動(dòng)時(shí)間序列數(shù)值隨著時(shí)間的統(tǒng)計(jì)特性呈現(xiàn)出多樣化的規(guī)律和特征。為了把握時(shí)間序列數(shù)值的規(guī)律,傳統(tǒng)統(tǒng)計(jì)學(xué)在研究大量實(shí)例后發(fā)現(xiàn),按其特點(diǎn)和綜合影響結(jié)果將時(shí)間序列分為四種不同的成分。一個(gè)時(shí)間序列往往是這四種要素的疊加或耦合。⑴長(zhǎng)期趨勢(shì)(LongTermTrend,T)。⑵季節(jié)變動(dòng)(Seasonalcomponent,S)。⑶循環(huán)變動(dòng)(Cyclicalcomponent,C)。⑷不規(guī)則變動(dòng)/隨機(jī)變動(dòng)(IrregularComponent,I)。時(shí)間序列由以上四種成分根據(jù)成分之間的關(guān)系進(jìn)行組合而成。組合的方式主要有兩種:一種是加法模型:Y=T+S+C+I一種是乘法模型:Y=T*S*C*I7.4時(shí)間序列分析時(shí)間序列分析的步驟⑴收集、整理歷史資料,編成時(shí)間序列,并根據(jù)時(shí)間序列繪成統(tǒng)計(jì)圖;⑵分析時(shí)間序列,確定時(shí)間序列的構(gòu)成要素和組合模式;⑶選擇合適的預(yù)測(cè)方法和預(yù)測(cè)模型,進(jìn)行曲線擬合;⑷利用選定的模型進(jìn)行預(yù)測(cè);⑸測(cè)算預(yù)測(cè)誤差。7.4時(shí)間序列分析因子分析的目的是用幾個(gè)不可觀測(cè)的隱變量來(lái)解釋原始變量間的協(xié)方差關(guān)系。因子分析的基本思路:在影響某個(gè)目標(biāo)的許多變量中,用某種方法構(gòu)造出幾個(gè)綜合指標(biāo)值,這幾個(gè)綜合指標(biāo)完全能代表原有的變量對(duì)目標(biāo)的影響,這幾個(gè)指標(biāo)值稱(chēng)為公共因子,然后由這幾個(gè)公共因子與原目標(biāo)的關(guān)系,構(gòu)造出它們之間的線性函數(shù)關(guān)系,這樣可由多個(gè)影響因素簡(jiǎn)化為幾個(gè)影響因素(這些因素能夠反映原變量提供的絕大部分信息,稱(chēng)為公共因子)。由此可算出每個(gè)樣品得分再進(jìn)行排序。7.5因子分析因子分析要求樣本的個(gè)數(shù)要足夠多一般要求樣本的個(gè)數(shù)至少是變量的5倍以上。同時(shí),樣本總數(shù)據(jù)量理論要求應(yīng)該在100以上因子個(gè)數(shù)遠(yuǎn)遠(yuǎn)少于原有變量的個(gè)數(shù);因子能夠反應(yīng)原有變量的絕大部分信息;用于因子分析的變量必須是相關(guān)的如果原始變量都是獨(dú)立的,意味著每個(gè)變量的作用都是不可替代的,則無(wú)法降維檢驗(yàn)方法:計(jì)算各變量之間的相關(guān)矩陣,觀察各相關(guān)系數(shù)。若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于0.3,則不適合作因子分析使用Kaiser-Meyer-Olkin檢驗(yàn)(簡(jiǎn)稱(chēng)KMO檢驗(yàn))和Bartlett球度檢驗(yàn)(Bartlett’stestofsphericity)來(lái)判斷(SPSS將兩種檢驗(yàn)統(tǒng)稱(chēng)為“KMOandBartlett’stestofsphericity”)因子具有命名解釋性7.5因子分析因子分析的步驟數(shù)據(jù)標(biāo)準(zhǔn)化變量相關(guān)性分析(KMO,Bartlett檢驗(yàn))因子提取(主成分分析)因子旋轉(zhuǎn)因子命名累計(jì)方差貢獻(xiàn)率大于80%,特征根大于1計(jì)算因子得分因子排序和綜合排序因子分析終止7.5因子分析Bartlett球度檢驗(yàn)以變量的相關(guān)系數(shù)矩陣為基礎(chǔ),假設(shè)相關(guān)系數(shù)矩陣是單位
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年桂林生命與健康職業(yè)技術(shù)學(xué)院高職單招語(yǔ)文2018-2024歷年參考題庫(kù)頻考點(diǎn)含答案解析
- 2025年外研版三年級(jí)起點(diǎn)選修3生物下冊(cè)階段測(cè)試試卷含答案
- 2025年人教B版選擇性必修2歷史上冊(cè)階段測(cè)試試卷含答案
- 2025年湘教新版八年級(jí)化學(xué)上冊(cè)月考試卷
- 有兩個(gè)孩子的離婚協(xié)議書(shū)(2篇)
- 服務(wù)結(jié)束協(xié)議書(shū)(2篇)
- 2025年西師新版選修6歷史上冊(cè)階段測(cè)試試卷
- 2025年湘教版選擇性必修3生物上冊(cè)月考試卷
- 2025年粵教新版九年級(jí)歷史下冊(cè)月考試卷
- 2025年粵教版七年級(jí)科學(xué)下冊(cè)月考試卷
- 2024年北京東城社區(qū)工作者招聘筆試真題
- 黑龍江省哈爾濱市2024屆中考數(shù)學(xué)試卷(含答案)
- 高三日語(yǔ)一輪復(fù)習(xí)助詞「と」的用法課件
- 無(wú)子女離婚協(xié)議書(shū)范文百度網(wǎng)盤(pán)
- 一年級(jí)數(shù)學(xué)個(gè)位數(shù)加減法口算練習(xí)題大全(連加法-連減法-連加減法直接打印版)
- 五年級(jí)上冊(cè)數(shù)學(xué)試題試卷(8篇)
- 五年級(jí)上冊(cè)小數(shù)遞等式計(jì)算200道及答案
- 冀教版五年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)教學(xué)課件
- T-SDASTC 006-2023 眩暈病中西醫(yī)結(jié)合基層診療指南
- 安全個(gè)人承諾書(shū)范文個(gè)人承諾書(shū)范文
- 遠(yuǎn)視儲(chǔ)備培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論