




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、分類和預測,分類 VS. 預測,分類和預測是兩種數(shù)據分析形式,用于提取描述重要數(shù)據類或預測未來的數(shù)據趨勢 的模型 分類: 預測類對象的分類標號(或離散值) 根據訓練數(shù)據集和類標號屬性,構建模型來分類現(xiàn)有數(shù)據,并用來分類新數(shù)據 預測: 建立連續(xù)函數(shù)值模型 比如預測空缺值,或者預測顧客在計算機設備上的花費 典型應用 欺詐檢測、市場定位、性能預測、醫(yī)療診斷,分類和預測-示例,分類 銀行貸款員需要分析數(shù)據,來弄清哪些貸款申請者是安全的,哪些是有風險的(將貸款申請者分為“安全”和“有風險”兩類) 我們需要構造一個分類器來預測類屬編號,比如預測顧客屬類 預測 銀行貸款員需要預測貸給某個顧客多少錢是安全的
2、構造一個預測器,預測一個連續(xù)值函數(shù)或有序值,常用方法是回歸分析,數(shù)據分類一個兩步過程 (1),第一步,也成為學習步,目標是建立描述預先定義的數(shù)據類或概念集的分類器 分類算法通過分析或從訓練集“學習”來構造分類器。 訓練集由數(shù)據庫元組(用n維屬性向量表示)和他們相對應的類編號組成;假定每個元組屬于一個預定義的類 訓練元組:訓練數(shù)據集中的單個元組 學習模型可以用分類規(guī)則、決策樹或數(shù)學公式的形式提供,數(shù)據分類一個兩步過程 (2),第二步,使用模型,對將來的或未知的對象進行分類 首先評估模型的預測準確率 對每個測試樣本,將已知的類標號和該樣本的學習模型類預測比較 模型在給定測試集上的準確率是正確被模型
3、分類的測試樣本的百分比 測試集要獨立于訓練樣本集,否則會出現(xiàn)“過分擬合”的情況,第一步建立模型,訓練數(shù) 據集,分類算法,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,第二步用模型進行分類,分類規(guī)則,測試集,未知數(shù)據,(Jeff, Professor, 4),Tenured?,監(jiān)督學習 VS. 無監(jiān)督學習,監(jiān)督學習(用于分類) 模型的學習在被告知每個訓練樣本屬于哪個類的“指導”下進行 新數(shù)據使用訓練數(shù)據集中得到的規(guī)則進行分類 無監(jiān)督學習(用于聚類) 每個訓練樣本的類編號是未知的,要學習的類集合或數(shù)量也可能是事先未知的 通過一系列的度
4、量、觀察來建立數(shù)據中的類編號或進行聚類,數(shù)據預測的兩步過程,數(shù)據預測也是一個兩步的過程,類似于前面描述的數(shù)據分類 對于預測,沒有“類標號屬性” 要預測的屬性是連續(xù)值,而不是離散值,該屬性可簡稱“預測屬性” E.g. 銀行貸款員需要預測貸給某個顧客多少錢是安全的 預測器可以看作一個映射或函數(shù)y=f(X) 其中X是輸入;y是輸出,是一個連續(xù)或有序的值 與分類類似,準確率的預測,也要使用單獨的測試集,準備分類和預測的數(shù)據,通過對數(shù)據進行預處理,可以提高分類和預測過程的準確性、有效性和可伸縮性 數(shù)據清理 消除或減少噪聲,處理空缺值,從而減少學習時的混亂 相關分析 數(shù)據中的有些屬性可能與當前任務不相關;
5、也有些屬性可能是冗余的;刪除這些屬性可以加快學習步驟,使學習結果更精確 數(shù)據變換與歸約 數(shù)據可以通過規(guī)范化進行變換,將所給屬性的所有值按比例進行縮放,使其落入一個較小的指定區(qū)間,例 0.0, 1.0(ANN和設計距離的度量方法中常用) 可以將數(shù)據概化到較高層概念,比較分類方法,使用下列標準比較分類和預測方法 預測的準確率:模型正確預測新數(shù)據的類編號的能力 速度:產生和使用模型的計算花銷 健壯性:給定噪聲數(shù)據或有空缺值的數(shù)據,模型正確預測的能力 可伸縮性:對大量數(shù)據,有效的構建分類器或預測器的能力 可解釋性:學習模型提供的理解和洞察的層次,用決策樹歸納分類 (1),什么是決策樹? 類似于流程圖的
6、樹結構 每個內部節(jié)點表示在一個屬性上的測試 每個分枝代表一個測試輸出 每個樹葉節(jié)點存放一個類編號,age?,student?,credit rating?,no,yes,fair,excellent,youth,senior,no,no,yes,yes,yes,Middle aged,決策樹:Buys_computer,用決策樹歸納分類 (2),使用決策樹分類 給定一個類標號未知的元組X,在決策樹上測試元組的屬性值,跟蹤一條由根到葉節(jié)點的路徑,葉節(jié)點存放該元組的類預測。 決策樹容易轉換為分類規(guī)則 決策樹的生成由兩個階段組成 決策樹構建 使用屬性選擇度量來選擇將元組最好的劃分為不同的類的屬性 遞
7、歸的通過選定的屬性,來劃分樣本 (必須是離散值) 樹剪枝 決策樹建立時,許多分枝反映的是訓練數(shù)據中的噪聲和離群點點,樹剪枝試圖識別并剪去這種分枝,以提高對未知數(shù)據分類的準確性,決策樹歸納策略 (1),輸入 數(shù)據劃分D是訓練元組和對應類標號的集合 attribute_list,候選屬性的集合 Attribute_selection_method,指定選擇屬性的啟發(fā)性過程 算法步驟 樹以代表訓練樣本的單個節(jié)點(N)開始 如果樣本都在同一個類,則該節(jié)點成為樹葉,并用該類標記 否則,算法調用Attribute_selection_method,選擇能夠最好的將樣本分類的屬性;確定“分裂準則”,指出“分
8、裂點”或“分裂子集”。,P189 圖6-3,決策樹歸納策略 (2),對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分元組 算法使用同樣的過程,遞歸的形成每個劃分上的元組決策樹。一旦一個屬性出現(xiàn)在一個節(jié)點上,就不在該節(jié)點的任何子節(jié)點上出現(xiàn) 遞歸劃分步驟停止的條件 劃分D(在N節(jié)點提供)的所有元組屬于同一類 沒有剩余屬性可以用來進一步劃分元組使用多數(shù)表決 沒有剩余的樣本 給定分支沒有元組,則以D中多數(shù)類創(chuàng)建一個樹葉,P189 圖6-3,屬性選擇度量,屬性選擇度量是一種選擇分裂準則,將給定類標號的訓練元組最好的進行劃分的方法 理想情況,每個劃分都是“純”的,即落在給定劃分內的元組都屬于相同的類 屬性
9、選擇度量又稱為分裂準則 常用的屬性選擇度量 信息增益 增益率 Gini指標,信息增益 (1),S是一個訓練樣本的集合,該樣本中每個集合的類編號已知。每個樣本為一個元組。有個屬性用來判定某個訓練樣本的類編號 假設S中有m個類,總共s個訓練樣本,每個類Ci有si個樣本(i1,2,3.m),那么任意一個樣本屬于類Ci的概率是si / s,那么用來分類一個給定樣本的期望信息是:,信息增益 (2),一個有v個值的屬性Aa1,a2,.,av可以將S分成v個子集S1,S2,.,Sv,其中Sj包含S中屬性A上的值為aj的樣本。假設Sj包含類Ci的sij個樣本。根據A的這種劃分的期望信息稱為A的熵 A上該劃分的
10、獲得的信息增益定義為: 具有高信息增益的屬性,是給定集合中具有高區(qū)分度的屬性。所以可以通過計算S中樣本的每個屬性的信息增益,來得到一個屬性的相關性的排序。,判定歸納樹算法示例 (1),對于上述數(shù)據,可以略過步驟1,2 步驟3,計算基于熵的度量信息增益,作為樣本劃分的根據 Gain(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 然后,對測試屬性每個已知的值,創(chuàng)建一個分支,并以此劃分樣本,得到第一次劃分,判定歸納樹算法示例 (2),判定歸納樹算法示例 (3),age?,overcast,stu
11、dent?,credit rating?,no,yes,fair,excellent,youth,senior,no,no,yes,yes,yes,Middle aged,防止分類中的過分適應,產生的決策樹會出現(xiàn)過分適應數(shù)據的問題 由于數(shù)據中的噪聲和孤立點,許多分枝反應的是訓練數(shù)據中的異常 對新樣本的判定很不精確 防止過分適應的兩種方法 先剪枝:通過提前停止樹的構造如果在一個節(jié)點劃分樣本將導致低于預定義臨界值的分裂(e.g. 使用信息增益度量) 選擇一個合適的臨界值往往很困難 后剪枝:由“完全生長”的樹剪去分枝對于樹中的每個非樹葉節(jié)點,計算該節(jié)點上的子樹被剪枝可能出現(xiàn)的期望錯誤率 使用一個獨立
12、的測試集來評估每顆樹的準確率,就能得到具有最小期望錯誤率的決策樹,由決策樹提取分類規(guī)則,可以提取決策樹表示的知識,并以IF-THEN形式的分類規(guī)則表示 對從根到樹葉的每條路徑創(chuàng)建一個規(guī)則 沿著給定路徑上的每個屬性-值對形成規(guī)則前件(IF部分)的一個合取項 葉節(jié)點包含類預測,形成規(guī)則后件(THEN部分) IF-THEN規(guī)則易于理解,尤其樹很大時 示例: IF age = “youth” AND student = “no” THEN buys_computer = “no” IF age = “youth” AND student = “yes” THEN buys_computer = “ye
13、s” IF age = “middle_aged” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “excellent” THEN buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer = “no”,可伸縮性與決策歸納樹,分類挖掘是一個在統(tǒng)計學和機器學習的領域也被廣為研究的問題,并提出了很多算法,但是這些算法都是內存駐留的 可伸縮性問題:要求以合理的速度對數(shù)以百萬計的樣本和數(shù)以百計的屬性的進行分
14、類挖掘 由大型數(shù)據庫構造決策樹 首先將樣本劃分為子集,每個子集可以放在內存中 然后由每個自己構造一顆決策樹 輸出的分類法將每個子集的分類法組合在一起 (其他方法包括SLIQ, SPRINT,RainForest等等),貝葉斯分類,貝葉斯分類利用統(tǒng)計學中的貝葉斯定理,來預測類成員的概率,即給定一個樣本,計算該樣本屬于一個特定的類的概率。 樸素貝葉斯分類:假設每個屬性之間都是相互獨立的,并且每個屬性對非類問題產生的影響都是一樣的。,后向傳播分類,后向傳播是一種神經網絡學習算法;神經網絡是一組連接的輸入/輸出單元,每個連接都與一個權相連。在學習階段,通過調整神經網絡的權,使得能夠預測輸入樣本的正確標
15、號來學習。 優(yōu)點 預測精度總的來說較高 健壯性好,訓練樣本中包含錯誤時也可正常工作 輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值 對目標進行分類較快 缺點 訓練(學習)時間長 蘊涵在學習的權中的符號含義很難理解 很難根專業(yè)領域知識相整合,SVM支持向量機,使用一種非線性的映射,將原訓練數(shù)據映射到較高的維 一個數(shù)據被認為是p維向量,數(shù)據在這個p維向量空間中被分為兩類;SVM的目的是找到一個p-1維的超平面,來劃分p維向量空間的數(shù)據 在新的維上,它搜索線性最佳分離超平面 (即將一類的元組與其他類分離的“決策邊界”)。 使用一個適當?shù)膶ψ銐蚋呔S的非線性映射,兩類的數(shù)據總可以被超平面分開。 S
16、VM 使用支持向量(“基本”訓練元組)和邊緣(由支持向量定義)發(fā)現(xiàn)該超平面。,SVM-特點和應用,特點: 訓練時間非常長,但對復雜的非線性決策邊界的建模能力是高度準確的(使用最大邊緣) 可以用來預測和分類 應用: 手寫數(shù)字識別,對象識別,語音識別, 以及基準時間序列預測檢驗,SVM一般原理,August 9, 2020,Data Mining: Concepts and Techniques,31,SVM當數(shù)據是線性可分的時候,m,設給定的數(shù)據集 D 為 (X1, y1), , (X|D|, y|D|), 其中Xi是訓練元組,具有相關聯(lián)的類標號yi。 可以畫出無限多條分離直線(或超平面)將類+
17、1的元組與類-1的元組分開,我們想找出“最好的”那一條 (對先前未見到的元組具有最小分類誤差的那一條)。 SVM 要搜索具有最大邊緣的超平面,即最大邊緣超平面 (MMH),其他分類方法,k-最臨近分類 給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓練樣本;然后使用k個最臨近者中最公共的類來預測當前樣本的類標號 基于案例的推理 樣本或案例使用復雜的符號表示,對于新案例,先檢測是否存在同樣的訓練案例;如果找不到,則搜索類似的訓練案例 遺傳算法 結合生物進化思想的算法 粗糙集方法 模糊集方法 允許在分類規(guī)則中定義“模糊的”臨界值或邊界,什么是預測?,預測是構造和使用模型評
18、估無樣本類,或評估給定樣本可能具有的屬性或值空間。 預測和分類的異同 相同點 兩者都需要構建模型 都用模型來估計未知值 預測當中主要的估計方法是回歸分析 線性回歸和多元回歸 非線性回歸 不同點 分類法主要是用來預測類標號(分類屬性值) 預測法主要是用來估計連續(xù)值(量化屬性值),線性回歸、多元回歸和非線性回歸,線性回歸:Y = + X 其中和是回歸系數(shù),可以根據給定的數(shù)據點,通過最小二乘法來求得 多元回歸:Y = + 1X1 + 2 X2 線性回歸的擴展,設計多個預測變量,可以用最小二乘法求得上式中的,1 和2 非線性回歸:Y = + 1X1 + 2 X22+ 3 X33 對不呈線性依賴的數(shù)據建模 使用多項式回歸建模方法,然后進行變量變換,將非線性模型轉換為線性模型,然后用最小二乘法求解,評估分類法的準確性,導出分類法后,再使用訓練數(shù)據評估分類法,可能錯誤的導致樂觀的估計 保持方法 給定數(shù)據隨機劃分為兩個集合:訓練集(2/3)和測試集(1/3) 訓練集導出分類法,測試集對其準確性進行評估 隨機子選樣:保持方法的一個變形,將保持方法重復k次,然后取準確率的平均值 k-折交叉確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 膜處理設備公司企業(yè)績效管理
- 海洋經濟空間布局調整
- 老年骨折的護理課件
- 老年肺炎病人護理課件
- 海洋經濟數(shù)字化轉型
- 老年人健康講座全套課件
- 2025年班輪運輸行業(yè)市場調研報告
- 場地擴建“白名單”貸款項目進度監(jiān)管合同
- 老屋說課課件
- 高新技術企業(yè)研發(fā)費用財務合同備案指南
- 2025年河北張家口市事業(yè)單位公開招聘工作人員541名筆試備考試題及答案解析
- 公司管培生管理制度
- 醫(yī)藥學基礎知識復習題
- 核心素養(yǎng)導向的課堂教學-余文森
- 2025病歷書寫規(guī)范
- 課題申報書:人工智能賦能高校教育教學應用研究
- 發(fā)熱電纜采暖系統(tǒng)工程安裝施工手冊
- 2025年天津市專業(yè)技術人員繼續(xù)教育網公需課答案
- 《公路運營領域重大事故隱患判定標準》知識培訓
- 科技賦能下的企業(yè)巡察模式變革
- 學習通《科研誠信與學術規(guī)范》課后及考試答案
評論
0/150
提交評論