數(shù)據(jù)挖掘 課件 第五章 分類與回歸預(yù)測算法_第1頁
數(shù)據(jù)挖掘 課件 第五章 分類與回歸預(yù)測算法_第2頁
數(shù)據(jù)挖掘 課件 第五章 分類與回歸預(yù)測算法_第3頁
數(shù)據(jù)挖掘 課件 第五章 分類與回歸預(yù)測算法_第4頁
數(shù)據(jù)挖掘 課件 第五章 分類與回歸預(yù)測算法_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

分類與回歸預(yù)測算法ArtificialIntelligence,2024關(guān)于分類現(xiàn)實生活中我們常常需要給不同的對象貼上一定的標(biāo)簽,以區(qū)別于其他數(shù)據(jù)對象數(shù)據(jù)標(biāo)簽:顏色、地域、性別、語言等靜態(tài)標(biāo)簽:數(shù)據(jù)對象的固有屬性決定的(人的膚色、年齡)v.s.動態(tài)標(biāo)簽關(guān)于分類關(guān)于回歸預(yù)測的例子氣象預(yù)測二手車價格預(yù)測關(guān)于分類與回歸預(yù)測的幾個問題在分類和預(yù)測之前都有標(biāo)簽嗎?分類任務(wù)和回歸預(yù)測任務(wù)的區(qū)別是什么?分類和預(yù)測模型要如何設(shè)計,如何選擇最合適的算法?如何評估分類和回歸預(yù)測的效果?Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)分類vs.回歸預(yù)測分類使用離散的類標(biāo)號來表示分類結(jié)果,類標(biāo)號之間無固有的序列關(guān)系經(jīng)典應(yīng)用:信貸審批、目標(biāo)營銷、圖形目標(biāo)識別回歸預(yù)測使用連續(xù)的數(shù)值來表示回歸結(jié)果經(jīng)典應(yīng)用:價格預(yù)測、氣象預(yù)測、股市預(yù)測分類模型—兩步過程:建立模型和訓(xùn)練:對一組預(yù)先確定類別的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)假設(shè)每個元組/樣本都屬于一個預(yù)定義的類,由類標(biāo)簽(y)確定用于模型構(gòu)建的元組集是訓(xùn)練集(X)分類模型可以表示一種映射關(guān)系y=f(X),即將訓(xùn)練集屬性X映射到具體的類標(biāo)簽y上使用模型:用于對未知對象進(jìn)行分類評估準(zhǔn)確率將測試樣本的標(biāo)簽與模型的分類結(jié)果進(jìn)行比較準(zhǔn)確率是指測試集中的樣本被模型正確分類的百分比測試集獨立于訓(xùn)練集,否則會出現(xiàn)過度擬合如果準(zhǔn)確率可以接受,則使用該模型對類標(biāo)簽未知的數(shù)據(jù)元組進(jìn)行分類分類模型

監(jiān)督vs.無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)(分類)監(jiān)督:類標(biāo)簽已知根據(jù)訓(xùn)練集對新數(shù)據(jù)進(jìn)行分類無監(jiān)督學(xué)習(xí)(聚類)類標(biāo)簽未知給定一組測量、觀測等,目的是確定數(shù)據(jù)中是否存在類或簇Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)決策樹進(jìn)化信用卡申請審批案例輸入:訓(xùn)練集用戶基本信息表用戶id年齡教育層次是否有房收入類標(biāo)號1青年本科無房153153通過2中年博士無房121934通過3老年本科無房107237未通過4中年高中無房85735未通過5老年博士有房206037通過6中年高中有房27976未通過7老年??茻o房195792未通過8青年本科有房127709通過………………輸出:關(guān)于“信用卡申請審批”的決策樹決策樹提供模擬決策過程來預(yù)測數(shù)據(jù)的分類結(jié)果決策樹由一個根節(jié)點和一系列內(nèi)部節(jié)點分支及若干葉節(jié)點構(gòu)成決策樹容易轉(zhuǎn)化為分類規(guī)則決策樹歸納基本算法(貪心法)開始,所有的訓(xùn)練樣本都在根部生成內(nèi)部子節(jié)點,并在當(dāng)前結(jié)點選擇“局部最優(yōu)”特征進(jìn)行屬性劃分重復(fù)第二步,不斷生成分支節(jié)點,直至生成整棵決策樹停止劃分的條件給定節(jié)點的所有樣本都屬于同一類沒有剩余的屬性可供進(jìn)一步劃分沒有剩余樣本以自頂向下遞歸的分治方法來構(gòu)造樹“局部最優(yōu)”特征通過屬性選擇度量算法選取基于屬性類型的屬性選擇度量屬性選擇度量是一種分裂準(zhǔn)則,是將給定類別的訓(xùn)練元組數(shù)據(jù)集D“最佳”地劃分成個體類的啟發(fā)式方法,是構(gòu)造決策樹分類器的關(guān)鍵選擇的標(biāo)準(zhǔn)是要使每個非葉節(jié)點進(jìn)行屬性測試時,使被測元組的類別信息最大化,保證非葉結(jié)點到達(dá)各后代葉節(jié)點平均路徑最短、速度最快屬性有離散值和連續(xù)值兩種表示形式,這兩種屬性使用不同的度量標(biāo)準(zhǔn)來評估其作為分割標(biāo)準(zhǔn)的有效性。離散值屬性度量方法:信息增益、增益率連續(xù)值屬性度量方法:基尼(Gini)指數(shù)屬性選擇度量:信息增益(ID3)動機:選擇具有最高信息增益的屬性首先,計算整個訓(xùn)練數(shù)據(jù)D的熵,即總體熵最后,計算原始數(shù)據(jù)總體熵與分割后期望信息之差,來得到信息增益指標(biāo)

信息增益越大,說明它在分類過程中越有效,分割后的子集“純度”也越高屬性選擇度量:增益率(C4.5)分裂信息值增益率衡量了每單位分裂信息所獲得的信息增益動機:以規(guī)范化方式解決信息增益對具有多個值屬性(用戶id)的偏好問題Gini指標(biāo)(CART,IBMIntelligentMiner)基尼指數(shù):衡量在沒有任何屬性劃分的情況下,數(shù)據(jù)集D的不純度有多大

動機:在決策樹算法中,處理連續(xù)數(shù)值屬性通常涉及選擇一個或多個合適的閾值來將數(shù)據(jù)集分割成兩部分

通過計算初始數(shù)據(jù)集的基尼指數(shù)與分割后基尼指數(shù)的差來評估每個分割點的效果,最后選取不純度變化量最大的屬性:決策樹構(gòu)建算法的應(yīng)用過程使用機器學(xué)習(xí)庫scikit-learn中的DecisionTreeClassifier類來構(gòu)建決策樹,配合matplotlib對構(gòu)建好的決策樹進(jìn)行繪制importnumpyasnpfromsklearn.treeimportDecisionTreeClassifierfromsklearnimporttreeimportmatplotlib.pyplotaspltdata=np.array([[1,3,30000,0],#有房,高教育,高收入,通過[1,1,15000,0],#有房,低教育,低收入,未通過[0,2,18000,1],#無房,中教育,中收入,未通過[0,3,24000,0],#無房,高教育,高收入,通過[0,1,12000,1],#無房,低教育,低收入,未通過])X=data[:,:3]#特征:有房,教育,收入y=data[:,3]#標(biāo)簽:通過與否clf=DecisionTreeClassifier(max_depth=3)#創(chuàng)建決策樹模型,限制樹的深度為3clf.fit(X,y)#使用matplotlib繪制決策樹plt.figure(figsize=(12,8))tree.plot_tree(clf,eature_names=["house","education","income"],class_names=["notapproved","approved"],filled=True,rounded=True)

plt.show()Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)貝葉斯定理設(shè)X是類標(biāo)簽未知的數(shù)據(jù)元組設(shè)Y是某種假設(shè),例如數(shù)據(jù)元組X屬于特定類Y條件X下Y的后驗概率:P(Y|X),對于給定元組X,假設(shè)Y成立的概率。Y的先驗概率

:P(Y)(根據(jù)以往經(jīng)驗和分析得到的概率,反映了背景知識)邊緣概率:P(X),元組X被觀測到的概率。似然概率:P(X|Y),假設(shè)Y成立的條件下,樣本X被觀測到的概率。給定訓(xùn)練數(shù)據(jù)X,假設(shè)Y的后驗概率P(Y|X)服從貝葉斯定理,計算公式:P(Y|X)樸素貝葉斯分類前提假設(shè):屬性之間相互獨立

在處理離散型屬性時,樸素貝葉斯分類器通過計算每個屬性值在特定類別下的條件概率來進(jìn)行分類對于數(shù)值型屬性,樸素貝葉斯通常采用一種分布假設(shè)來估計條件概率,其中常見的假設(shè)是屬性遵循高斯分布訓(xùn)練集類別:Y1:‘通過’;Y2:‘未通過’數(shù)據(jù)樣本:X=(年齡=中年,教育層次=本科,是否有房=有房,收入=27976)樸素貝葉斯分類:一個例子

樸素貝葉斯分類器:評論優(yōu)勢易于實現(xiàn)

在大多數(shù)情況下能都獲得較好的分類準(zhǔn)確率劣勢類條件獨立性假設(shè)實際上,變量之間存在依賴關(guān)系,例如,醫(yī)院:患者;檔案:年齡、家族史;癥狀:發(fā)熱、咳嗽等;疾病:肺癌、癌癥、糖尿病等這些之間的依賴關(guān)系不能用樸素貝葉斯分類器建模如何處理屬性之間的依賴關(guān)系呢?貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)貝葉斯信念網(wǎng)絡(luò)允許在變量子集之間定義類條件獨立性一種提供因果關(guān)系的圖模型表示變量之間的依賴關(guān)系確定聯(lián)合概率分布YZPX結(jié)點:隨機變量邊:依賴關(guān)系X,Y是Z的雙親,且Y是P的雙親Z和P之間沒有依賴關(guān)系無環(huán)Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)2025/3/20SVM—支持向量機描述:支持向量機(SVM)是一種卓越的二分類監(jiān)督學(xué)習(xí)模型,其主要目標(biāo)是在特征空間中尋找一個最優(yōu)超平面,以此超平面最大化不同類別數(shù)據(jù)之間的間隔,從而實現(xiàn)優(yōu)越的分類效果和泛化能力一種新的針對線性和非線性數(shù)據(jù)的分類方法2025/3/20數(shù)據(jù)線性可分的情況數(shù)據(jù)集D表示(X1,y1),…,(X|D|,y|D|),其中

Xi

對應(yīng)類標(biāo)簽yi有無限條線(超平面)將這兩個類分開,但想找到最好的一個(最大限度地減少看不見數(shù)據(jù)的分類誤差的一個)2025/3/20線性支持向量機二維空間中的線性可分?jǐn)?shù)據(jù):

幾何間隔一個樣本點到?jīng)Q策邊界的距離支持向量幾何間隔最大時的兩個異類樣本間隔這些支持向量到超平面的距離之和2025/3/20線性支持向量機支持向量小間隔大間隔2025/3/20線性支持向量機求解分離超平面H分離超平面“側(cè)面”的超平面

聯(lián)立兩個不等式,得到:

接下來需要使用拉格朗日乘子進(jìn)行候選求解2025/3/20非線性支持向量機動機:在實際應(yīng)用中,經(jīng)常遇到的數(shù)據(jù)集特征關(guān)系復(fù)雜,遠(yuǎn)超過簡單線性關(guān)系所能描述的范圍,可以將線性SVM擴展為非線性SVM實現(xiàn)步驟:1.通過非線性映射原始數(shù)據(jù)轉(zhuǎn)換到一個更高維的特征空間2.在這個新的空間中數(shù)據(jù)變成線性可分,使用線性支持向量機進(jìn)行分類2025/3/20一個例子2025/3/20核技巧及常見核函數(shù)

Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)的設(shè)計靈感源自于對生物神經(jīng)系統(tǒng)的深入模擬當(dāng)神經(jīng)元接受到外界刺激時,會沿著軸突傳導(dǎo)電信號,實現(xiàn)從一個神經(jīng)元到另一個神經(jīng)元的信號轉(zhuǎn)移。神經(jīng)元的細(xì)胞體通過樹突與其他神經(jīng)元的軸突相連,而這些連接點被稱為神經(jīng)突觸。1959年,F(xiàn)rankRosenblatt首次提出感知器,感知器學(xué)習(xí)規(guī)則通過逐步改變權(quán)重以學(xué)習(xí)產(chǎn)生目標(biāo)輸出,為具有固定輸入的單個神經(jīng)元訓(xùn)練目標(biāo)輸出值單層感知機單層感知機數(shù)學(xué)表達(dá)式:

原理:通過輸入和權(quán)重的標(biāo)量乘積,并結(jié)合一個非線性函數(shù)映射,目標(biāo)是將n維輸入向量x映射到輸出到1維變量y上單層感知機參數(shù)更新算法反向傳播技術(shù):迭代調(diào)整權(quán)重w和偏置項t以最小化分類錯誤數(shù)學(xué)表達(dá)式:

終止條件:1.到達(dá)預(yù)設(shè)的迭代次數(shù)上限;2.滿足誤差閾值;3.在連續(xù)幾輪迭代中誤差變化極小或者達(dá)到一個非常低的特定值更新算法的最終目標(biāo)

得到一組權(quán)重w和偏置項t,使得訓(xùn)練集中的元組分類誤差盡可能小訓(xùn)練過程隨機初始化權(quán)重和偏置項將訓(xùn)練集中的元組逐個輸入給感知機模型中,對于每個輸入元祖計算預(yù)測結(jié)果和分類誤差基于參數(shù)更新公式更新權(quán)重和偏置項多層感知機單個感知器僅能表示線性決策面,多層感知機能夠表示種類繁多的非線性曲面來作為非線性決策面多層感知機引入更多種類激活函數(shù),使得模型可以逼近任何非線性函數(shù)輸入層隱藏層輸出層…………………激活函數(shù)a)ReLU激活函數(shù)b)tanh激活函數(shù)激活函數(shù)需要具備以下幾點性質(zhì):連續(xù)并可導(dǎo)(允許少數(shù)點上不可導(dǎo))的非線性函數(shù)激活函數(shù)的導(dǎo)數(shù)值域應(yīng)適中,避免過大或過小,以免影響訓(xùn)練的效率和穩(wěn)定性激活函數(shù)及其導(dǎo)數(shù)應(yīng)盡可能簡單,以提高網(wǎng)絡(luò)的計算效率文本分類算法文本分類是數(shù)據(jù)挖掘和自然語言處理領(lǐng)域的一項基本任務(wù),它涉及將文本文檔分類到一個或多個預(yù)定義的類別中。文本表示方法One-Hot編碼:假設(shè)詞匯表為{"cat","dog","bird","fish"},則每個詞可以表示為一個4維向量:"cat"為[1,0,0,0],"dog"為[0,1,0,0]TF-IDF方法:TF-IDF方法通過結(jié)合詞頻(TF)和逆文檔頻率(IDF)來加權(quán)詞匯的重要性。詞頻衡量一個詞在單個文檔中的出現(xiàn)頻率,而逆文檔頻率則反映一個詞在整個文檔集中的獨特性,用來降低常見詞的權(quán)重并提升罕見詞的影響力。最終,TF-IDF分?jǐn)?shù)通過將TF與IDF相乘得到。詞嵌入:詞嵌入是一種先進(jìn)的文本表示方法,它將每個詞映射到一個連續(xù)的向量空間中,以捕捉詞語間的語義和語法關(guān)系?;谏疃葘W(xué)習(xí)的模型介紹基于深度學(xué)習(xí)的先進(jìn)分類模型,這些模型特別適用于捕獲文本中的長距離依賴關(guān)系和復(fù)雜的語義信息。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。優(yōu)點:RNN通過內(nèi)部狀態(tài)的循環(huán)傳遞來處理輸入序列中的時間動態(tài)特征缺點:傳統(tǒng)的RNN在處理長序列時常常面臨梯度消失或梯度爆炸的問題,這限制了其在某些應(yīng)用場景中的效能基于深度學(xué)習(xí)的模型長短期記憶網(wǎng)絡(luò)(LSTM):設(shè)計獨特的門控機制有效地解決了長期記憶的挑戰(zhàn),該機制涉及三個核心組件:輸入門、遺忘門和輸出門。輸入門決定新輸入的信息中哪些需要更新到單元狀態(tài)遺忘門判斷單元中的哪些信息應(yīng)當(dāng)被舍棄,以避免信息過載和模型的過擬合輸出門控制從單元狀態(tài)到輸出狀態(tài)的信息流,決定哪些信息是重要的,應(yīng)當(dāng)被用于預(yù)測或影響下一個隱藏狀態(tài)基于深度學(xué)習(xí)的模型門控循環(huán)單元(GRU):GRU通過合并LSTM中的輸入門和遺忘門為一個統(tǒng)一的更新門,并添加了一個重置門來簡化模型結(jié)構(gòu)。更新門在GRU中的功能是決定在每個時間步驟中,應(yīng)該保留多少之前的狀態(tài)信息,以此幫助模型抓取長期依賴關(guān)系。重置門的作用則是在計算當(dāng)前的候選狀態(tài)時,決定應(yīng)該忽略多少過去的狀態(tài)信息,從而使模型能夠根據(jù)新的輸入靈活調(diào)整響應(yīng)。基于LSMT的情感分析案例數(shù)據(jù)集選擇和導(dǎo)入:使用IMDb電影評論數(shù)據(jù)集作為案例數(shù)據(jù)集,通過torchtext庫下載該數(shù)據(jù)集.LSTM模型定義:定義一個情感分析的LSTM模型類SentimentAnalysisLSTM,該類繼承自nn.Module,包含嵌入層、一個或多個LSTM層、一個全連接層、以及一個Sigmoid激活函數(shù)。模型實例化和損失函數(shù)定義:設(shè)置好LSTM模型參數(shù)后創(chuàng)建模型實例(model),并定義二元交叉熵?fù)p失函數(shù)(nn.BCELoss)和Adam優(yōu)化器模型訓(xùn)練過程:通過10個訓(xùn)練周期迭代訓(xùn)練數(shù)據(jù)。在每個周期內(nèi),模型對每個樣本進(jìn)行預(yù)測,計算損失,并通過反向傳播更新權(quán)重,優(yōu)化器在每次迭代后重置梯度。模型評估:在測試集上評估模型性能,計算模型的準(zhǔn)確率。通過比較模型的預(yù)測和真實標(biāo)簽來統(tǒng)計正確預(yù)測的數(shù)量,最終計算出整體的準(zhǔn)確率。Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)回歸分析的基本概念

回歸預(yù)測算法類別(根據(jù)具體的數(shù)據(jù)分析需求):線性回歸非線性回歸線性回歸線性回歸通過最佳擬合直線(也稱為回歸線)來描述自變量和因變量之間的線性關(guān)系。線性回歸模型假設(shè)條件:線性關(guān)系:假定二手車的價格主要由車齡決定,并預(yù)設(shè)這種影響呈現(xiàn)線性關(guān)系。獨立性:獨立性假設(shè)要求數(shù)據(jù)中每一項(如每輛車的價格和車齡)必須是彼此獨立的,意味著任何一輛車的價格都不應(yīng)受到其他車輛的影響。簡單的線性回歸模型表達(dá)式(假設(shè)單個自變量x和因變量y之間存在線性依賴關(guān)系):

線性回歸模型擬合

線性回歸模型擬合

多元線性回歸模型擬合

多元線性回歸模型的表達(dá)式:

使用最小二乘法估計回歸系數(shù)β,最終回歸系數(shù)β的解為:

多元線性回歸模型擬合-一個例子實際應(yīng)用中,通常不會對回歸系數(shù)β進(jìn)行手動運算,而是直接使用集成了最小二乘法的現(xiàn)有工具來直接求解β,以下是使用sklearn庫求解二手車價格的具體例子#簡單二手車價格預(yù)測案例fromsklearn.linear_modelimportLinearRegressionX=np.array([[2104,5,1,45],#面積,臥室數(shù)量,樓層數(shù),房齡[1416,3,2,40],[1534,3,2,30],[852,2,1,36]])Y=np.array([460,232,315,178])#價格model=LinearRegression()#創(chuàng)建線性回歸模型model.fit(X,Y)#使用觀測樣本擬合模型print('截距:',ercept_)#輸出訓(xùn)練得到的截距非線性回歸非線性回歸模型適用情況:自變量與因變量之間的關(guān)系可能遵循一些已知的非線性函數(shù)非線性回歸模型的一般表達(dá)式:非線性回歸模型因變量y的期望函數(shù)表達(dá)為:非線性回歸模型的另一個顯著特點是,期望函數(shù)關(guān)于回歸系數(shù)β的導(dǎo)數(shù)至少會有一個導(dǎo)數(shù)要取決于至少一個回歸系數(shù)。

非線性回歸模型擬合

非線性回歸模型擬合常見的非線性函數(shù)導(dǎo)線性函的變換關(guān)系Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)邏輯回歸邏輯回歸模型可以被認(rèn)為就是一個被Sigmoid函數(shù)所歸一化后的線性回歸模型,邏輯回歸實際上是一種分類技術(shù)Sigmoid函數(shù):將線性回歸模型的輸出值轉(zhuǎn)換為介于0和1之間的概率值邏輯回歸和線性/非線性回歸的不同線性/非線性回歸模型的因變量是連續(xù)變量邏輯回歸模型則是二元分類變量二分類任務(wù)的邏輯回歸模型

Contents0102030405060708基本概念決策樹貝葉斯分類支持向量機神經(jīng)網(wǎng)絡(luò)和文本分類算法線性回歸和非線性回歸邏輯回歸性能評估指標(biāo)08模型調(diào)優(yōu)Accuracy(準(zhǔn)確率),Precision(精確率)andRecall(召回率)Accuracy(準(zhǔn)確率,針對所有類別而言,平均分類效果)Precision(精確率,針對某個類別而言)Recall(召回率,針對某個類別而言)F1Score(精確率與召回率的調(diào)和平均)分類準(zhǔn)確度:估計誤差率分類準(zhǔn)確度:ROC曲線和AUC值ROC曲線:一種通過描繪不同閾值下的真正例率(TPR)與假正例率(FPR)之間關(guān)系的圖形工具。AUC值:ROC曲線下的面積,用以度量分類模型區(qū)分正負(fù)樣本能力的統(tǒng)計指標(biāo)例子:案例:假設(shè)有一個數(shù)據(jù)集,包括患者是否患有某種疾病的實際情況及模型預(yù)測的概率。數(shù)據(jù)情況:分類準(zhǔn)確度:ROC曲線和AUC值案例分析:以有疾病類為感興趣正元組,可以計算在不同閾值下的真正類率(TPR)和假正類率(FPR)的值。通過連接每個閾值下(FPR,TPR)的點來繪制ROC曲線,通過計算ROC曲線與FPR坐標(biāo)的面積得到AUC的值。實踐:使用sklearn庫中的roc_curve和roc_auc_score輔助matplotlib庫繪制ROC曲線和計算AUC的值。Python代碼和繪制結(jié)果如下所示:importnumpyasnpfromsklearn.metricsimportroc_curve,roc_auc_scoreimportmatplotlib.pyplotasplty_true=np.array([1,0,0,1,1,0,1,0,1,0])#數(shù)據(jù)準(zhǔn)備y_scores=np.array([0.90,0.85,0.78,0.65,0.60,0.55,0.52,0.40,0.38,0.30])#模型預(yù)測概率#使用roc_curve函數(shù)計算ROC曲線的各個點fpr,tpr,thresholds=roc_curve(y_true,y_scores)auc=roc_auc_score(y_true,y_scores)#計算AUC值#使用matplotlib繪制ROC曲線……回

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論