




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第5章回歸分析第5章回歸分析在生活中存在很多相互制約又相互依賴的關(guān)系,這些關(guān)系主要有確定關(guān)系和非確定關(guān)系。確定關(guān)系指變量之間存在明確的函數(shù)關(guān)系,如圓的周長(zhǎng)與半徑之間的關(guān)系。非確定關(guān)系指各變量之間雖然有制約依賴關(guān)系,但無(wú)法用確定的函數(shù)表達(dá)式來(lái)表示,如人的血壓與體重之間存在密切關(guān)系,但無(wú)法找到一個(gè)能準(zhǔn)確表達(dá)其關(guān)系的函數(shù),變量之間存在的這種非確定性關(guān)系,稱為相對(duì)關(guān)系。10十一月20242第5章回歸分析事實(shí)上,有一些確定關(guān)系,由于測(cè)量誤差的影響,也經(jīng)常表現(xiàn)出某種程度的不確定性。對(duì)于不確定的關(guān)系,通過(guò)大量觀測(cè)數(shù)值,可以發(fā)現(xiàn)其中變量間存在的統(tǒng)計(jì)規(guī)律。通過(guò)回歸分析,可以表明自變量和因變量之間的顯著關(guān)系或者表明多個(gè)自變量對(duì)一個(gè)因變量的影響強(qiáng)度?;貧w問(wèn)題在形式上與分類問(wèn)題十分相似,但是在分類問(wèn)題中預(yù)測(cè)值y是一個(gè)離散變量,它代表通過(guò)特征x所預(yù)測(cè)出來(lái)的類別;而在回歸問(wèn)題中,y是一個(gè)連續(xù)變量。3第5章回歸分析回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。例如,司機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系,最好的研究方法就是回歸。10十一月20244它表明自變量和因變量之間的顯著關(guān)系;它表明多個(gè)自變量對(duì)一個(gè)因變量的影響強(qiáng)度。第5章回歸分析
回歸分析的定義與分類回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。具體來(lái)說(shuō),回歸分析法指利用數(shù)據(jù)統(tǒng)計(jì)原理,對(duì)大量統(tǒng)計(jì)數(shù)據(jù)進(jìn)行數(shù)學(xué)處理,并確定因變量與某些自變量的相關(guān)關(guān)系,建立一個(gè)相關(guān)性較好的回歸方程(函數(shù)表達(dá)式),并加以外推,用于預(yù)測(cè)今后因變量變化的分析?;貧w分析通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。10十一月20245
3.1.1回歸任務(wù)6
第5章回歸分析第5章回歸分析10十一月20247根據(jù)因變量和自變量的個(gè)數(shù)分為一元回歸分析、多元回歸分析、邏輯回歸分析和其他回歸分析;根據(jù)因變量和自變量的函數(shù)表達(dá)式分為線性回歸分析和非線性回歸分析。線性回歸是回歸分析中最基本的方法。對(duì)于非線性回歸,可以借助數(shù)學(xué)手段將其轉(zhuǎn)化為線性回歸,一旦線性回歸問(wèn)題得到解決,非線性回歸問(wèn)題也就迎刃而解。常用的回歸分析技術(shù)有線性回歸、邏輯回歸、多項(xiàng)式回歸和嶺回歸等。有各種各樣的回歸技術(shù)用于預(yù)測(cè)。這些技術(shù)主要有三個(gè)度量(自變量的個(gè)數(shù),因變量的類型以及回歸線的形狀)第5章回歸分析8
第5章回歸分析
回歸分析的過(guò)程回歸分析可以簡(jiǎn)單理解為數(shù)據(jù)分析與預(yù)測(cè),通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析實(shí)現(xiàn)預(yù)測(cè),也就是適當(dāng)擴(kuò)大已有自變量的取值范圍,并承認(rèn)該回歸方程在擴(kuò)大的定義域內(nèi)成立。一般來(lái)說(shuō),回歸分析的主要過(guò)程和步驟如下:(1)收集一組包含因變量和自變量的數(shù)據(jù);(2)根據(jù)因變量和自變量之間的關(guān)系,初步設(shè)定回歸模型;(3)求解合理的回歸系數(shù);(4)進(jìn)行相關(guān)性檢驗(yàn),確定相關(guān)系數(shù);(5)利用模型對(duì)因變量作出預(yù)測(cè)或解釋,并計(jì)算預(yù)測(cè)值的置信區(qū)間。10十一月20249第5章回歸分析一元線性回歸分析一元線性回歸分析預(yù)測(cè)法,是根據(jù)自變量X和因變量Y的相關(guān)關(guān)系,建立X與Y的線性回歸方程進(jìn)行預(yù)測(cè)的方法。由于市場(chǎng)現(xiàn)象一般是受多種因素的影響,而并不是僅僅受一個(gè)因素的影響。只有當(dāng)諸多的影響因素中,確實(shí)存在一個(gè)對(duì)因變量影響作用明顯高于其他因素的變量,才能將它作為自變量,應(yīng)用一元相關(guān)回歸分析市場(chǎng)預(yù)測(cè)法進(jìn)行預(yù)測(cè)。10一元線性回歸分析11在簡(jiǎn)單的回歸模型中,回歸函數(shù)是解釋變量的線性函數(shù),回歸模型則稱為一元線性回歸模型,表達(dá)式如式5.2?;貧w模型的設(shè)定給出了回歸函數(shù)的形式,但模型中的回歸參數(shù)是未知的。要對(duì)模型參數(shù)進(jìn)行估計(jì)和統(tǒng)計(jì)推斷,需要從總體樣本中抽樣獲得數(shù)據(jù)。設(shè)從總體中第5章回歸分析10十一月202412一元線性回歸分析【例5-1】分析預(yù)測(cè)房子的大?。ㄆ椒接⒊撸┖头?jī)r(jià)(美元)之間的對(duì)應(yīng)關(guān)系。數(shù)據(jù)如下:y=[6450,7450,8450,94501,11450,15450,18450]x=[150,200,250,300,350,400,600]13一元線性回歸分析如果散點(diǎn)圖的趨勢(shì)大概呈現(xiàn)線性關(guān)系,可以建立線性方程,若不呈線性分布,可以建立其他回歸模型。從散點(diǎn)圖可以看出,房屋面積和售價(jià)之間存在明顯的線性關(guān)系。獲得樣本后,要對(duì)回歸模型進(jìn)行參數(shù)估計(jì)和統(tǒng)計(jì)推斷。14一元線性回歸分析一元線性回歸模型的參數(shù)估計(jì)一元線性回歸模型中參數(shù)估計(jì)方法有最小二乘法、矩方法和極大似然方法.最小二乘法(LeastSqureEstimation,LSE)又稱最小平方法,它通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。15一元線性回歸分析最小二乘法也是用于擬合回歸線最常用的方法。對(duì)于觀測(cè)數(shù)據(jù),它通過(guò)最小化每個(gè)數(shù)據(jù)點(diǎn)到線的垂直偏差平方和來(lái)計(jì)算最佳擬合線。因?yàn)樵谙嗉訒r(shí),偏差先平方,所以正值和負(fù)值沒(méi)有抵消。10十一月202416一元線性回歸分析要點(diǎn):1.自變量與因變量之間必須有線性關(guān)系2.多元回歸存在多重共線性,自相關(guān)性和異方差性。3.線性回歸對(duì)異常值非常敏感。它會(huì)嚴(yán)重影響回歸線,最終影響預(yù)測(cè)值。4.多重共線性會(huì)增加系數(shù)估計(jì)值的方差,使得在模型輕微變化下,估計(jì)非常敏感。結(jié)果就是系數(shù)估計(jì)值不穩(wěn)定5.在多個(gè)自變量的情況下,我們可以使用向前選擇法,向后剔除法和逐步篩選法來(lái)選擇最重要的自變量。10十一月202417一元線性回歸分析一元線性回歸模型的參數(shù)估計(jì)根據(jù)微積分求極值原理,通過(guò)求偏導(dǎo)并置為0得到:18求解方程組得到:一元線性回歸分析一元線性回歸模型的誤差方差估計(jì)19求解方程組得到:一元線性回歸分析一元線性回歸模型的誤差方差估計(jì)20一元線性回歸分析一元回歸模型的主要統(tǒng)計(jì)檢驗(yàn)回歸分析要通過(guò)樣本所估計(jì)的參數(shù)來(lái)代替總體的真實(shí)參數(shù),或者說(shuō)用樣本回歸線代替總體回歸線。盡管從統(tǒng)計(jì)性質(zhì)上已知,如果有足夠多的重復(fù)抽樣,參數(shù)的估計(jì)值的期望就等于總體的參數(shù)真值,但在一次抽樣中,估計(jì)值不一定就等于該真值。那么在一次抽樣中,參數(shù)的估計(jì)值與真值的差異有多大,是否顯著,就需要進(jìn)一步進(jìn)行統(tǒng)計(jì)檢驗(yàn)。21一元線性回歸分析一元回歸模型的主要統(tǒng)計(jì)檢驗(yàn)在一元回歸的統(tǒng)計(jì)檢驗(yàn)主要包括擬合優(yōu)度檢驗(yàn),變量顯著性檢驗(yàn)和殘差標(biāo)準(zhǔn)差檢驗(yàn)。1.擬合優(yōu)度檢驗(yàn)擬合優(yōu)度檢驗(yàn)是用卡方統(tǒng)計(jì)量進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn)的重要內(nèi)容之一。它是依據(jù)總體分布狀況,計(jì)算出分類變量中各類別的期望頻數(shù),與分布的觀察頻數(shù)進(jìn)行對(duì)比,判斷期望頻數(shù)與觀察頻數(shù)是否有顯著差異,從而達(dá)到從分類變量進(jìn)行分析的目的。它是對(duì)樣本回歸直線與樣本觀測(cè)值之間擬合程度的檢驗(yàn)。22一元線性回歸分析一元回歸模型的主要統(tǒng)計(jì)檢驗(yàn)在一元回歸的統(tǒng)計(jì)檢驗(yàn)主要包括擬合優(yōu)度檢驗(yàn),變量顯著性檢驗(yàn)和殘差標(biāo)準(zhǔn)差檢驗(yàn)。2.變量的顯著性檢驗(yàn)(t檢驗(yàn))顯著性檢驗(yàn)就是事先對(duì)總體(隨機(jī)變量)的參數(shù)或總體分布形式做出一個(gè)假設(shè),然后利用樣本信息來(lái)判斷這個(gè)假設(shè)(備擇假設(shè))是否合理,即判斷總體的真實(shí)情況與原假設(shè)是否有顯著性差異。顯著性檢驗(yàn)是針對(duì)我們對(duì)總體所做的假設(shè)進(jìn)行檢驗(yàn),其原理就是“小概率事件實(shí)際不可能性原理”來(lái)接受或否定假設(shè)。23回歸算法的評(píng)價(jià)在評(píng)價(jià)線性回歸算法時(shí),將樣本分為訓(xùn)練集(Trainset)和測(cè)試集(Testset),利用訓(xùn)練集進(jìn)行回歸模型的參數(shù)求解,利用測(cè)試集上的相關(guān)指標(biāo)評(píng)價(jià)模型的好壞。1.回歸算法的評(píng)價(jià)指標(biāo)(1)平均絕對(duì)誤差(MeanAbsoluteError,MAE)2410十一月2024回歸算法的評(píng)價(jià)1.回歸算法的評(píng)價(jià)指標(biāo)(2)均方誤差(MeanSquaredError,MSE)2510十一月2024(3)均方根誤差(RootMeanSquaredError,RMSE)回歸算法的評(píng)價(jià)1.回歸算法的評(píng)價(jià)指標(biāo)4)
(RSquared)MSE、RMSE、MAE都難以解決在不同問(wèn)題的模型中有一個(gè)統(tǒng)一的評(píng)判尺度,因此引入2610十一月2024一元線性回歸分析例:對(duì)鳶尾花數(shù)據(jù)集中的'petal-length'和'petal-width'兩列數(shù)據(jù)進(jìn)行回歸分析。27一元線性回歸分析例:對(duì)鳶尾花數(shù)據(jù)集中的'petal-length'和'petal-width'兩列數(shù)據(jù)進(jìn)行回歸分析。28print(u"系數(shù):",clf.coef_
)print(u"截距:",ercept_
)fromsklearn.metricsimportmean_squared_errorass_mean_squared_errorfromsklearn.metricsimportmean_absolute_errorass_mean_absolute_errorfromsklearn.metricsimportr2_scoreass_r2_scoreprint('MAE:%.4f'%s_mean_squared_error(y_test,pre))
print('MSE:%.4f'%s_mean_absolute_error(y_test,pre))
print('R^2:%.4f'%s_r2_score(y_test,pre))系數(shù):
[[0.4118243]]截距:
[-0.3571818]MAE:0.0529MSE:0.1676R^2:0.9117多元線性回歸在實(shí)際經(jīng)濟(jì)問(wèn)題中,一個(gè)變量往往受到多個(gè)變量的影響。例如,家庭消費(fèi)支出,除了受家庭可支配收入的影響外,還受諸如家庭所有的財(cái)富、物價(jià)水平、金融機(jī)構(gòu)存款利息等多種因素的影響。也就是說(shuō),一個(gè)因變量和多個(gè)自變量有依存關(guān)系,而且有時(shí)幾個(gè)影響因素主次難以區(qū)分,或者有的因素雖屬次要,但也不能忽略。這時(shí)采用一元回歸分析進(jìn)行預(yù)測(cè)難以奏效,需要多元回歸分析。29多元線性回歸多元回歸分析是指通過(guò)對(duì)兩個(gè)或兩個(gè)以上的自變量與一個(gè)因變量的相關(guān)分析,建立預(yù)測(cè)模型進(jìn)行預(yù)測(cè)的方法。當(dāng)自變量與因變量之間存在線性關(guān)系時(shí)稱為多元線性回歸分析。30多元線性回歸31多元線性回歸建立多元線性回歸模型時(shí),為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測(cè)效果,應(yīng)首先注意自變量的選擇,其準(zhǔn)則是:(1)自變量對(duì)因變量必須有顯著的影響,并呈密切的線性相關(guān);(2)自變量與因變量之間的線性相關(guān)必須是真實(shí)的,而不是形式上的;(3)自變量之間應(yīng)具有一定的互斥性,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之間的相關(guān)程度;(4)自變量應(yīng)具有完整的統(tǒng)計(jì)數(shù)據(jù),其預(yù)測(cè)值容易確定。32多元線性回歸多元線性回歸模型的參數(shù)估計(jì)多元線性回歸模型的參數(shù)估計(jì),同一元線性回歸方程一樣,也是在要求誤差最小的前提下,用最小二乘法求解參數(shù)。以二元線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為:33多元線性回歸多元線性回歸的假設(shè)檢驗(yàn)及其評(píng)價(jià)1將回歸方程中所有變量作為一個(gè)整體來(lái)檢驗(yàn)它們與因變量之間是否具有線性關(guān)系(方差分析法、復(fù)相關(guān)系數(shù));2對(duì)回歸方程的預(yù)測(cè)或解釋能力做出綜合評(píng)價(jià)(決定系數(shù));3在此基礎(chǔ)上進(jìn)一步對(duì)各個(gè)變量的重要性作為評(píng)價(jià)(偏回歸平方和、t檢驗(yàn)和標(biāo)準(zhǔn)回歸系數(shù))。34多元線性回歸35例題:波士頓房?jī)r(jià)預(yù)測(cè)完整的分析過(guò)程=》作業(yè)邏輯回歸線性回歸算法能對(duì)連續(xù)值的結(jié)果進(jìn)行預(yù)測(cè),而邏輯回歸模型是機(jī)器學(xué)習(xí)從統(tǒng)計(jì)領(lǐng)域借鑒的另一種技術(shù),用于分析二分類或有序的因變量與解釋變量之間的關(guān)系。邏輯回歸算法是一種廣義的線性回歸分析方法,它僅在線性回歸算法的基礎(chǔ)上,利用Sigmoid函數(shù)對(duì)事件發(fā)生的概率進(jìn)行預(yù)測(cè)。也就是說(shuō),在線性回歸中可以得到一個(gè)預(yù)測(cè)值,然后將該值通過(guò)邏輯函數(shù)進(jìn)行轉(zhuǎn)換,將預(yù)測(cè)值轉(zhuǎn)為概率值,再根據(jù)概率值實(shí)現(xiàn)分類。邏輯回歸常用于數(shù)據(jù)挖掘、疾病自動(dòng)診斷和經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域。36邏輯回歸Logistic回歸模型37邏輯回歸38邏輯回歸11/10/2024邏輯回歸11/10/2024邏輯回歸41邏輯回歸上述邏輯回歸模型中假設(shè)樣本輸出為0或者1兩類,因此被稱為二元邏輯回歸模型。二元邏輯回歸的模型和損失函數(shù)很容易推廣到多元邏輯回歸。比如總是認(rèn)為某種類型為正值,其余為0值,這種方法就是常用的one-vs-rest,簡(jiǎn)稱OvR。另一種多元邏輯回歸的方法是Many-vs-Many(MvM),他會(huì)選擇一部分類別的樣本和另一部分類別的樣本來(lái)做邏輯回歸二分類。11/10/2024多項(xiàng)式回歸線性回歸是用一條直線或者一個(gè)平面(超平面)去近似原始樣本在空間中的分布。線性回歸的局限性是只能應(yīng)用于存在線性關(guān)系的數(shù)據(jù)中,但是在實(shí)際生活中,很多數(shù)據(jù)之間是非線性關(guān)系,雖然也可以用線性回歸擬合非線性回歸,但是效果會(huì)變差,這時(shí)候就需要對(duì)線性回歸模型進(jìn)行改進(jìn),使之能夠擬合非線性數(shù)據(jù)。非線性回歸是用一條曲線或者曲面去逼近原始樣本在空間中的分布,它“貼近”原始分布的能力一般較線性回歸更強(qiáng)。43多項(xiàng)式回歸線性回歸的局限性是只能應(yīng)用于存在線性關(guān)系的數(shù)據(jù)中,但是在實(shí)際生活中,很多數(shù)據(jù)之間是非線性關(guān)系,雖然也可以用線性回歸擬合非線性回歸,但是效果會(huì)變差,這時(shí)候就需要對(duì)線性回歸模型進(jìn)行改進(jìn),使之能夠擬合非線性數(shù)據(jù)。多項(xiàng)式回歸(PolynomialRegression)是研究一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式關(guān)系的回歸分析方法。多項(xiàng)式回歸模型是非線性回歸模型中的一種。由泰勒級(jí)數(shù)可知,在某點(diǎn)附近,如果函數(shù)n次可導(dǎo),那么它可以用一個(gè)n次的多項(xiàng)式來(lái)近似。44多項(xiàng)式回歸研究一個(gè)因變量與一個(gè)或多個(gè)自變量間多項(xiàng)式的回歸分析方法,稱為多項(xiàng)式回歸(PolynomialRegression)。如果自變量只有一個(gè)時(shí),稱為一元多項(xiàng)式回歸;如果自變量有多個(gè)時(shí),稱為多元多項(xiàng)式回歸。在一元回歸分析中,如果因變量y與自變量x的關(guān)系為非線性的,但又找不到適當(dāng)?shù)暮瘮?shù)曲線來(lái)擬合,則可以采用一元多項(xiàng)式回歸。在這種回歸技術(shù)中,最佳擬合線不是直線,而是一個(gè)用于擬合數(shù)據(jù)點(diǎn)的曲線。多項(xiàng)式回歸的最大優(yōu)點(diǎn)是可以通過(guò)增加x的高次項(xiàng)對(duì)觀測(cè)點(diǎn)進(jìn)行逼近,直到滿意為止。多項(xiàng)式回歸在回歸分析中占有重要地位,因?yàn)槿我夂瘮?shù)都可以分段用多項(xiàng)式逼近。45多項(xiàng)式回歸
46示例先擬定一個(gè)一元三次多項(xiàng)式作為目標(biāo)函數(shù),然后再加上一些噪聲產(chǎn)生樣本集,再用轉(zhuǎn)化的線性回歸模型來(lái)完成擬合,最后對(duì)測(cè)試集進(jìn)行預(yù)測(cè)。采用sklearn.linear_model包中的LinearRegression函數(shù)來(lái)完成。目標(biāo)函數(shù):3.3多項(xiàng)式回歸47示例產(chǎn)生樣本集與測(cè)試集:3.3多項(xiàng)式回歸48示例:三次多項(xiàng)式擬合:3.3多項(xiàng)式回歸49多項(xiàng)式回歸Python實(shí)現(xiàn)50多項(xiàng)式回歸Python實(shí)現(xiàn)51欠擬合、過(guò)擬合問(wèn)題10十一月202452明顯地向兩端尋找曲線點(diǎn),看看這些形狀和趨勢(shì)是否有意義。更高次的多項(xiàng)式最后可能產(chǎn)生怪異的推斷結(jié)果。欠擬合、過(guò)擬合示例模型在訓(xùn)練樣本上產(chǎn)生的誤差叫訓(xùn)練誤差(trainingerror。在測(cè)試樣本上產(chǎn)生的誤差叫測(cè)試誤差(testerror)。欠擬合、過(guò)擬合與泛化能力53
線性回歸模型三次多項(xiàng)式模型五次多項(xiàng)式模型九次多項(xiàng)式模型訓(xùn)練誤差20195342094測(cè)試誤差578247123238492和2597781144138496泛化能力與模型復(fù)雜度衡量模型好壞的是測(cè)試誤差,它標(biāo)志了模型對(duì)未知新實(shí)例的預(yù)測(cè)能力,因此一般追求的是測(cè)試誤差最小的那個(gè)模型。模型對(duì)新實(shí)例的預(yù)測(cè)能力稱為泛化能力,模型在新實(shí)例上的誤差稱為泛化誤差。能夠求解問(wèn)題的模型往往不只一個(gè)。一般來(lái)說(shuō),只有合適復(fù)雜程度的模型才能最好地反映出訓(xùn)練集中蘊(yùn)含的規(guī)律,取得最好的泛化能力。
欠擬合、過(guò)擬合與泛化能力54嶺回歸嶺回歸(RidgeRegression)是一種專用于共線性數(shù)據(jù)分析的有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià),獲得回歸系數(shù)更為符合實(shí)際、更可靠的回歸方法,對(duì)病態(tài)數(shù)據(jù)的耐受性遠(yuǎn)遠(yuǎn)強(qiáng)于最小二乘法。嶺回歸的目標(biāo)函數(shù)在一般的線性回歸的基礎(chǔ)上加入了L2正則項(xiàng),在保證最佳擬合誤差的同時(shí),使得參數(shù)盡可能的“簡(jiǎn)單”,使得模型的泛化能力強(qiáng),同時(shí)可以解決線性回歸中不可逆情況。55嶺回歸嶺回歸算法是在原線性回歸模型的損失函數(shù)中增加L2正則項(xiàng)11/10/2024其中表示參數(shù)向量的范數(shù)。嶺回歸在保證最佳擬合誤差的同時(shí),增強(qiáng)模型的泛化能力,同時(shí)可以解決線性回歸求解中的不可逆問(wèn)題。嶺回歸方程的R2(回歸平方和與總離差平方和的比值)會(huì)稍低于普通回歸分析,但回歸系數(shù)的顯著性往往明顯高于普通回歸,在存在共線性問(wèn)題和病態(tài)數(shù)據(jù)偏多的研究中有較大的實(shí)用價(jià)值。嶺回歸57模型驗(yàn)證=》交叉驗(yàn)證Lasso回歸Lasso回歸原理嶺回歸無(wú)法剔除變量,而Lasso(LeastAbsoluteShrinkageandSelectionOperator)回歸模型,將懲罰項(xiàng)由L2范數(shù)變?yōu)長(zhǎng)1范數(shù),可以將一些不重要的回歸系數(shù)縮減為0,達(dá)到剔除變量的目的。58Lasso回歸Lasso回歸原理59彈性回歸11/10/2024逐步回歸在處理多個(gè)自變量時(shí),需要使用逐步回歸(StepwiseRegression)。逐步回歸中,自變量的選擇是在一個(gè)自動(dòng)的過(guò)程中完成的,其中包括非人為操作。逐步回歸是通過(guò)觀察統(tǒng)計(jì)的值,如R-square,t-stats和AIC指標(biāo),來(lái)識(shí)別重要的變量并通過(guò)同時(shí)添加/刪除基于指定標(biāo)準(zhǔn)的協(xié)變量來(lái)擬合模型。61逐步回歸逐步回歸是通過(guò)觀察統(tǒng)計(jì)的值,如R-square,t-stats和AIC指標(biāo),來(lái)識(shí)別重要的變量并通過(guò)同時(shí)添加/刪除基于指定標(biāo)準(zhǔn)的協(xié)變量來(lái)擬合模型。常用的逐步回歸方法有:
標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CNFA 025-2023家具配電單元安裝要求
- T/CNCIA 03001-2020重防腐涂料耐中性鹽霧性能的測(cè)定
- T/CMES 37005-2023滑道運(yùn)營(yíng)管理規(guī)范
- T/CIS 47001-2018中國(guó)儀器儀表學(xué)會(huì)標(biāo)準(zhǔn)
- T/CHTS 20019-2022公路橋梁跨縫模數(shù)式伸縮裝置
- T/CHTS 10120-2023雄安新區(qū)高摻量膠粉改性瀝青路面施工技術(shù)指南
- T/CHTS 10047-2021公路養(yǎng)護(hù)信息數(shù)據(jù)元與代碼
- T/CGCC 60-2021鹵蔬菜制品
- T/CEMIA 026-2021濕電子化學(xué)品技術(shù)成熟度等級(jí)劃分及定義
- T/CECS 10271-2023不銹鋼分水器
- 小學(xué)英語(yǔ)寫作教學(xué)的思考與實(shí)踐 桂婷婷
- 患者發(fā)生過(guò)敏性休克應(yīng)急預(yù)案演練腳本模板
- 南京醫(yī)科大學(xué)招聘考試《綜合能力測(cè)試》真題及答案
- 封閉冷通道施工方案
- 2021年新高考全國(guó)1卷(含答案解析)
- 《觸不可及》影視鑒賞課件
- 認(rèn)知知覺(jué)障礙的作業(yè)治療概述(作業(yè)治療技術(shù)課件)
- 畢業(yè)論文與畢業(yè)設(shè)計(jì)指導(dǎo)課件
- 采購(gòu)合同一般采購(gòu)合同
- 形象管理(南開(kāi)大學(xué))【超星爾雅學(xué)習(xí)通】章節(jié)答案
- 《鮮衣怒馬少年時(shí) 唐宋詩(shī)詞篇 全集 》讀書(shū)筆記PPT模板思維導(dǎo)圖下載
評(píng)論
0/150
提交評(píng)論