




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1,預測方法,Dr. Qingyuan Bai School of Computer Science Faculty of Mathematics and Computer Science, Fuzhou University Email: ,2,預測方法,如何預測未知的數(shù)據(jù)的類? -用前面的分類方法先學習模型 -然后預測未知的數(shù)據(jù)的類 預測的目的是從歷史數(shù)據(jù)中自動推導出給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預測。 1. 時間序列預測模型 2. 回歸方法,3,1. 時間序列預測模型,1) 簡單一次移動平均預測法 2) 加權一次移動平均預測法 3) 指數(shù)平滑預測法,4,1)簡單一次移動平均預測
2、法,簡單一次移動平均預測法 設yt為時間序列,序列有N個原始數(shù)據(jù)。 取n個項數(shù)為移動平均項數(shù) yt是第t 時刻的實際值,求(t+1) 時刻的預測值, yt + yt-1 + + yt-n+1 n 一般 t n, n大 敏感性差,n小 受隨機變影響大。,預測的標準誤差,5,2)加權一次移動平均預測法,簡單一次移動平均預測法中把參與平均的數(shù)同等看待,但實際應用中參與平均各時刻的數(shù)據(jù)在預測中的作用是不一樣的,為此需要加權平均。 w1 yt + w2 yt-1 + wn yt-n+1 w1+w2+wn 預測的標準誤差與簡單一次移動平均預測法一樣,t+1=,6,3)指數(shù)平滑預測法,一次指數(shù)平滑 對時間序
3、列yt 加權,權的選擇是一次的 yt 權為 , yt-1 權為 (1-) , yt-2 權為 (1- ) ,(01)。 顯然t+1 值受yt 影響大些,以后依次減弱。,7,2. 回 歸 方 法,回歸方法是預測的主要方法,有 1)線性回歸 2)多元回歸 3)非線性回歸,8,1) 線性回歸,= y - x,線性回歸是用直線對數(shù)據(jù)建模,變量X,Y呈線性關系 Y=+X, ,為回歸系數(shù),一般用最小二乘法來求解,系數(shù),用數(shù)據(jù)可計算出來。 S為樣本 (x1,y1)(x2,y2)(xs,ys),x 是(x1,x2,xs) 的平均值, y 是(y1,y2,ys) 的平均值,9,線性回歸例子,線性回歸只能解決一個
4、自變量和一個因變量的關系,如工作年限和工資的關系 X 工作年限 Y 年 薪(千元),10,求系數(shù),,(3-9.1)(30-55.4)(16-9.1)(83-55.4),=3.5,=55.4-(3.5)(9.1)=23.6 如預測10年工齡則:X=10 Y=23.6+3.5X=58.6,=,11,回歸曲線表示,工作年限,年薪千元,20,12,2) 多元回歸,多元回歸( Multiple regression) Y = 0 + 1X1 + nXn. 可以根據(jù)X1.Xn 取值 計算出相應的系數(shù) 0 n,13,3) 非線性回歸,非線性回歸,將非線性回歸化成多元回歸,14,分類與預測方法的評價,準確度
5、速度 強壯性 可伸縮性 可解釋性 靈敏性、特效性和精度,15,分類、預測方法的準確度,影響準確率的因素 樣本的質量:不準,不典型; 學習方法有缺欠; 過擬合。 評估準確率的方法 保持(Holdout)方法 K-折交叉確認(K-fold cross-validation),16,1 保持(Holdout)方法 將已有標記的數(shù)據(jù)隨機分為 2 部分 訓練集和測試集。看測試集準確率。,17,2. K-折交叉確認,數(shù)據(jù)集 S 將S劃分為k個互不相交的子集(折)S1, S2, Sk,每個折大小大致相等,取 S2, S3, Sk做訓練,S1做測試;S1, S3, Sk,做訓練,S2做測試;進行k次,k次正確
6、之和除以樣本總數(shù),就估計出準確率。,18,提高準確度的方法,1.Bagging (裝袋) 2.Boosting(推進) 這 2 種方法稱組合學習方法,19,1 Bagging(裝袋)(1/3),由于分類方法使用樣本集來學習,由于樣本的分布問題和不完備問題,選擇樣本的方法與數(shù)量不同,使學到的分類模型不唯一。 為了提高分類精度,人們提出組合學習方法和多策略方法。 Bagging方法是一種組合方法,其基本思想是用對樣本集中不同樣本取樣進行學習,得到多個分類器,然后對多個分類器的結果組合,組合的結果為最終結果。,20,數(shù)據(jù)樣本集S,分別取出樣本子集Si ,(i=1,2,T) 學習一個分類器Ci , 學
7、習一次后,再把Si 放回樣 本集S中,S中的樣本有的用多次,有的一次沒用。 學T次,得C1,CT分類器,把C1,CT 用組合投票 形成C*,給一個要分類的數(shù)據(jù)X, 將X分別送到 C1,CT ,組合投票結果確定的類。,1 Bagging(裝袋)(2/3),21,1 Bagging(裝袋)(3/3),優(yōu)點: 并行性 Ci 分類器可并行進行,取樣是取出放回策略。 抗噪聲 由于多個分類器,對噪聲不太敏感。 組合選舉對各分類可給不同的權值,說明 各分類器對分類重要性不一樣。,22,2 Boosting(推進)(1/3),Bagging 方法有其優(yōu)點,但在學習分類器時,對樣本同等看待。 Robert E.
8、 Schapire. 1990 在 Machine Learning 上發(fā)表了 The strength of weak learnability. 文章,是較早提出這種思路。 以后Robert E. Schapire和Yoav Freund 在這方面進行了大量研究工作。研究了許多算法。,23,數(shù)據(jù)樣本集S,分別取出樣本賦予一個權值,然后 學習一個分類器Ci , 學習一次后根據(jù)分錯的樣本加權的原則對樣本加權,再學習一個分類器,學T次,得C1,CT分類器,把C1,CT 用組合投票 形成C*;給一個要分類的數(shù)據(jù)X, 將X分別送到 C1,CT ,組合投票結果確定的類。,1 Boosting(推進)(2/3),24,2 Boosting(推進
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國野營塑膠用品行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國自缷車行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展報告
- 2025至2030中國自卸拖車行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國自動化油箱清潔系統(tǒng)行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國脂聯(lián)素檢測行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 2025至2030中國網(wǎng)絡游戲行業(yè)市場深度調研及競爭格局與投資報告
- 2025高三上學期班主任學生檔案管理計劃
- 2025至2030中國織物基層壓板(SRBF)行業(yè)產(chǎn)業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 2025至2030中國組合健身器械行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 小學入隊儀式流程模板他
- 2025年金融科技企業(yè)估值方法與投資策略在金融科技企業(yè)并購中的應用案例報告
- 農(nóng)文旅項目可行性研究報告
- 《無人機介紹》課件
- 2025-2030中國硼酸行業(yè)市場發(fā)展現(xiàn)狀及競爭格局與投資研究報告
- 學校中層干部選拔聘用實施方案中層干部選聘實施方案2
- 生物必修1教師用書
- 園藝植物育種學知到課后答案智慧樹章節(jié)測試答案2025年春浙江大學
- 《電力機車制動系統(tǒng)檢修與維護》課件 項目二任務四檢修中繼閥
- GB/T 15683-2025糧油檢驗大米直鏈淀粉含量的測定
- 2025吉林省安全員C證考試(專職安全員)題庫及答案
- 電鉆清洗消毒流程
評論
0/150
提交評論