(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第1頁(yè)
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第2頁(yè)
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第3頁(yè)
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第4頁(yè)
(4.3.1)-第4章作業(yè)-多元線性回歸方法原理詳解_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元線性回歸目錄CONTENTS1回歸定義2算法流程3超參數(shù)4解題思路定義1PARTONE回歸分析回歸分類(lèi)線性回歸回歸預(yù)測(cè)回歸分析

回歸分析:確定兩種或兩種以上變量間相互依賴(lài)的定量關(guān)系的一種統(tǒng)計(jì)分析方法。也就是根據(jù)數(shù)據(jù)集D,擬合出近似的曲線,所以回歸也常稱(chēng)為擬合(Fit)。

回歸分析后將得到回歸方程,與具體數(shù)據(jù)結(jié)合后可得到對(duì)應(yīng)的預(yù)測(cè)結(jié)果?;貧w預(yù)測(cè)回歸分類(lèi)一元回歸分析

回歸分析因變量和自變量的個(gè)數(shù)因變量和自變量的函數(shù)表達(dá)式多元回歸分析線性回歸分析非線性回歸分析線性回歸一元線性回歸因變量和自變量的個(gè)數(shù)多元線性回歸定義:僅用一個(gè)特征進(jìn)行的線性回歸定義:通過(guò)n個(gè)特征進(jìn)行的線性回歸公式:y=wx+b

例子:學(xué)分績(jī)點(diǎn)=(綜合成績(jī)-60)/10+1.5

算法流程2數(shù)據(jù)預(yù)處理算法模型模型評(píng)估PARTTWO模型預(yù)測(cè)算法流程算法流程打個(gè)形象的比喻:

訓(xùn)練集——學(xué)生的課本;學(xué)生根據(jù)課本里的內(nèi)容來(lái)掌握知識(shí)。

驗(yàn)證集——作業(yè),通過(guò)作業(yè)可以知道不同學(xué)生學(xué)習(xí)情況、進(jìn)步的速度快慢。

測(cè)試集——考試,考的題是平常都沒(méi)有見(jiàn)過(guò),考察學(xué)生舉一反三的能力。說(shuō)明:一般三者切分的比例是6:2:2,驗(yàn)證集并不是必須的。數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理(datapreprocessing)是指對(duì)所收集數(shù)據(jù)進(jìn)行分類(lèi)或分組前所做的審核、篩選、排序等必要的處理。常用的數(shù)據(jù)預(yù)處理方式有數(shù)據(jù)歸一化、數(shù)據(jù)增強(qiáng)、缺失值處理、異常點(diǎn)/離群點(diǎn)檢測(cè)等。最大最小值歸一化方法:將不同量綱的數(shù)據(jù)統(tǒng)一歸一化為[0,1]之間的數(shù)據(jù)。缺點(diǎn):這種方法有個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。最大最小值歸一化方法:將不同量綱的數(shù)據(jù)統(tǒng)一歸一化為[0,1]之間的數(shù)據(jù)。模型訓(xùn)練—多元線性回歸公式

損失函數(shù)

損失函數(shù)(lossfunction)又稱(chēng)代價(jià)函數(shù)(costfunction),是預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之間的差別,如平方損失函數(shù)。模型訓(xùn)練-損失函數(shù)

由于該函數(shù)為凸函數(shù),只有一個(gè)全局最優(yōu)解,因此使用此函數(shù)作為損失函數(shù)有利于使用梯度下降法進(jìn)行模型訓(xùn)練時(shí)取得全局最優(yōu)解。凸函數(shù)(下凸)

設(shè)f(x)在區(qū)間D上連續(xù),如果對(duì)D上任意兩點(diǎn)a、b恒有:f((a+b)/2)<(f(a)+f(b))/2

則f(x)在D上的圖形是(向下)凸的(或凸?。?/p>

凸函數(shù):只有一個(gè)局部最低點(diǎn)。

非凸函數(shù):有多個(gè)局部最低點(diǎn),一個(gè)全局最低點(diǎn)。優(yōu)化器

優(yōu)化器能指引損失函數(shù)的各個(gè)參數(shù)往正確的方向更新合適的大小,使得更新后的各個(gè)參數(shù)能讓損失函數(shù)值不斷逼近全局最小。優(yōu)化器梯度下降法動(dòng)量?jī)?yōu)化法自適應(yīng)學(xué)習(xí)率優(yōu)化算法標(biāo)準(zhǔn)梯度下降法(GradientDescent,GD)MomentunAdagrad算法NAGRMSprop算法AdaDleta算法Adam算法批量梯度下降法((BatchGradientDescent,BGD)隨機(jī)梯度下降法(StochasticGradientDescent)標(biāo)準(zhǔn)梯度下降梯度下降法的計(jì)算過(guò)程就是沿梯度下降的方向求解極小值的過(guò)程(也可以沿梯度上升方向求解極大值),公式如下:

學(xué)習(xí)率

學(xué)習(xí)率大學(xué)習(xí)率小超參數(shù)

超參數(shù)是在開(kāi)始學(xué)習(xí)過(guò)程之前設(shè)置值的參數(shù),而不是通過(guò)訓(xùn)練得到的參數(shù)數(shù)據(jù)。參數(shù)與超參數(shù)的區(qū)別:

模型參數(shù):根據(jù)數(shù)據(jù)自動(dòng)估算的,由數(shù)據(jù)來(lái)驅(qū)動(dòng)調(diào)整,如線性回歸中的系數(shù)w。

模型超參數(shù):手動(dòng)設(shè)置的,并且在過(guò)程中用于幫助估計(jì)模型參數(shù),如模型的訓(xùn)練次數(shù)、學(xué)習(xí)率、損失函數(shù)。模型訓(xùn)練-梯度下降

代入

代入

將(2)式代入(1)式可得:

模型評(píng)估性能評(píng)估指標(biāo)回歸準(zhǔn)確率(Accuracy)錯(cuò)誤率(Errorrate)靈敏度(sensitive)特異度(specificity)精確率、精度(Precision)召回率(recall)綜合評(píng)價(jià)指標(biāo)(F-Measure)平均絕對(duì)誤差(MeanAbsoluteError,MAE)均方誤差(MeanSquaredError,MSE)均方根誤差(RootMeanSquareError,RMSE)分類(lèi)模型評(píng)估解題思路4數(shù)據(jù)預(yù)處理模型訓(xùn)練模型評(píng)估PARTFOUR數(shù)據(jù)集劃分?jǐn)?shù)據(jù)預(yù)處理-分析數(shù)據(jù)集數(shù)據(jù)預(yù)處理-皮爾遜相關(guān)系數(shù)

皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient),又稱(chēng)皮爾遜積矩相關(guān)系數(shù)(Pearsonproduct-momentcorrelationcoefficient,簡(jiǎn)稱(chēng)PPMCC或PCCs),是用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān)性(線性相關(guān)),可用于特征挑選。其值介于-1與1之間,兩個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為兩個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商,公式如下:

例子:求解平時(shí)分預(yù)測(cè)問(wèn)題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時(shí)分。通過(guò)多元線性回歸方法對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)平時(shí)分預(yù)測(cè)模型,求該數(shù)據(jù)集課堂回答次數(shù)和作業(yè)上交次數(shù)與平時(shí)分的相關(guān)系數(shù)。1487259501733394

根據(jù)數(shù)據(jù)集可知:數(shù)據(jù)預(yù)處理-皮爾遜相關(guān)系數(shù)數(shù)據(jù)預(yù)處理-歸一化

歸一化公式如下:特征值=(特征值-特征最小值)/(特征最大值-特征最小值)

如果缺少歸一化步驟,由于不同特征值的不同取值范圍,可能會(huì)導(dǎo)致利用梯度下降法訓(xùn)練的結(jié)果異常,出現(xiàn)缺失值。例子:求解平時(shí)分預(yù)測(cè)問(wèn)題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時(shí)分。通過(guò)多元線性回歸方法對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)平時(shí)分預(yù)測(cè)模型,求問(wèn)該數(shù)據(jù)集歸一化后的結(jié)果。14872595017333941/33/47/112/31100011/221/22歸一化數(shù)據(jù)集劃分將數(shù)據(jù)集D劃分成兩個(gè)互斥集合,常用的是將訓(xùn)練集和測(cè)試集比例選取為7:3。1/33/47/112/31100011/221/22模型訓(xùn)練-多元線性回歸公式例子:求解平時(shí)分預(yù)測(cè)問(wèn)題。現(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時(shí)分。通過(guò)多元線性回歸方法對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)平時(shí)分預(yù)測(cè)模型,求問(wèn)該模型的回歸方程形式。根據(jù)數(shù)據(jù)集可知,自變量應(yīng)為課堂回答次數(shù)、作業(yè)上交次數(shù)與偏置,因變量為平時(shí)分,因此多元線性回歸方程如下:

模型訓(xùn)練-梯度下降例子:求解平時(shí)分預(yù)測(cè)問(wèn)題。現(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時(shí)分。通過(guò)多元線性回歸方法對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)平時(shí)分預(yù)測(cè)模型,優(yōu)化器使用學(xué)習(xí)率為0.04的標(biāo)準(zhǔn)梯度下降,求問(wèn)訓(xùn)練1000次后的系數(shù)。系數(shù)變化公式:訓(xùn)練結(jié)果:10.9434090.9686110.96475420.8905030.9393420.93186430.8410380.9120520.901176···10000.0006950.6788910.547003系數(shù)訓(xùn)練次數(shù)模型評(píng)估例子:求解平時(shí)分預(yù)測(cè)問(wèn)題?,F(xiàn)有一數(shù)據(jù)集共有四條數(shù)據(jù),記錄了課堂回答次數(shù)、作業(yè)上交次數(shù)和平時(shí)分。通過(guò)多元線性回歸方法對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)平時(shí)分預(yù)測(cè)模型,優(yōu)化器使用學(xué)習(xí)率為0.04的標(biāo)準(zhǔn)梯度下降,求問(wèn)訓(xùn)練1000次后的RMSE。3485.98087584.0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論