商務(wù)智能-分類分析_第1頁
商務(wù)智能-分類分析_第2頁
商務(wù)智能-分類分析_第3頁
商務(wù)智能-分類分析_第4頁
商務(wù)智能-分類分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

分類分析基礎(chǔ)分類算法目錄2基于分類的異常檢測(cè)3高級(jí)分類方法4基本概念11基本概念一般情況下,用元組(x,y)表示每條記錄(或稱為樣例、實(shí)例),其中,x表示屬性的集合,而y是目標(biāo)屬性(也可稱為分類屬性),即樣例的類標(biāo)號(hào)。屬性值可以包含連續(xù)特征,屬性主要是離散的,而類標(biāo)號(hào)必須由離散屬性構(gòu)成。分類(Classification)任務(wù)就是通過學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)(TargetFunction)f,把每個(gè)屬性集x映射的到一個(gè)預(yù)先定義的類標(biāo)號(hào)y。目標(biāo)函數(shù)也稱分類模型(ClassificationModel)。分類是一種有監(jiān)督的學(xué)習(xí)過程,即訓(xùn)練集中記錄的類別是已知的,分類過程即是將每一條記錄歸到對(duì)應(yīng)的類別之中。分類的目的是確定一個(gè)記錄為某一個(gè)已知的類別。分類模型可以用于以下目的:描述建模。是描述真實(shí)世界事件和它們之間關(guān)系的數(shù)學(xué)過程。預(yù)測(cè)建模。是使用數(shù)據(jù)挖掘和概率方法預(yù)測(cè)結(jié)果的過程,每個(gè)模型由多個(gè)可能影響結(jié)果的預(yù)測(cè)變量組成。1基本概念1.訓(xùn)練階段,使用具有類標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集,通過分析由屬性描述的數(shù)據(jù)庫元組來建立分類模型。

2.測(cè)試階段,使用測(cè)試數(shù)據(jù)集來評(píng)估模型的分類準(zhǔn)確率,如果認(rèn)為可以接受,就可以用該模型對(duì)其他數(shù)據(jù)元組進(jìn)行分類。一般來說,測(cè)試階段的代價(jià)遠(yuǎn)低于訓(xùn)練階段。分類的基本過程,一般通過兩步實(shí)現(xiàn)分類首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘的技術(shù),建立分類模型,對(duì)沒有分類的數(shù)據(jù)進(jìn)行分類。2基礎(chǔ)分類算法基礎(chǔ)分類方法主要包括:決策樹歸納、貝葉斯分類、邏輯回歸、基于規(guī)則的分類、基于最近鄰的分類等。這些方法都使用學(xué)習(xí)算法(LearningAlgorithm)來確定分類模型,這種模型能夠很好地?cái)M合輸入數(shù)據(jù)中的類標(biāo)號(hào)和目標(biāo)屬性集的聯(lián)系。通過學(xué)習(xí)算法確定的分類模型不僅要很好地?cái)M合輸入數(shù)據(jù),而且要對(duì)未知樣本的類標(biāo)號(hào)進(jìn)行準(zhǔn)確的預(yù)測(cè)。分類算法分為二分類算法和多分類算法。二分類算法表示分類標(biāo)簽只有兩個(gè)分類,具有代表性的有支持向量機(jī)和梯度提升決策樹等。多分類算法表示分類標(biāo)簽多于兩個(gè)分類,比較常見的有邏輯回歸、樸素貝葉斯、決策樹等。2基礎(chǔ)分類算法決策樹方法最早產(chǎn)生于20世紀(jì)60年代,其中CART(ClassificationandRegressionTree)算法是決策樹最經(jīng)典和最主要的算法。CART算法的基本思想是一種二分遞歸分割方法,在計(jì)算過程中充分利用二叉樹,在一定的分割規(guī)則下將當(dāng)前樣本集分割為兩個(gè)子樣本集,使得生成的決策樹的每個(gè)非葉節(jié)點(diǎn)都有兩個(gè)分裂,這個(gè)過程又在子樣本集上重復(fù)進(jìn)行,直至無法再分成葉節(jié)點(diǎn)為止。決策樹是由決策結(jié)點(diǎn)、分支和葉子組成的,沿決策樹從上到下遍歷的過程中,在每個(gè)結(jié)點(diǎn)都會(huì)遇到一個(gè)測(cè)試,每個(gè)結(jié)點(diǎn)上的測(cè)試輸出導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子結(jié)點(diǎn),這個(gè)過程就是利用決策樹進(jìn)行分類的過程。決策樹2基礎(chǔ)分類算法決策樹的構(gòu)建過程分為以下3個(gè)部分:1.屬性選擇:是指從訓(xùn)練數(shù)據(jù)集中的眾多屬性中選擇一個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的決策標(biāo)準(zhǔn),如何選擇屬性有著很多不同量化評(píng)估標(biāo)準(zhǔn),從而衍生出不同的決策樹算法2.決策樹生成:根據(jù)選擇的特征評(píng)估標(biāo)準(zhǔn),從上至下遞歸地生成子節(jié)點(diǎn),直到數(shù)據(jù)集不可再分則停止決策樹的生長(zhǎng)。3.剪枝:決策樹容易過擬合,一般需要通過剪枝,縮小樹結(jié)構(gòu)規(guī)模、緩解過擬合。2基礎(chǔ)分類算法

屬性選擇常用的方法是使用基于熵的方法來識(shí)別最能夠提供信息的屬性。熵方法基于兩個(gè)基礎(chǔ)的度量來選擇最能提供信息的屬性2基礎(chǔ)分類算法

決策樹2基礎(chǔ)分類算法設(shè)S是n個(gè)樣本的集合。假設(shè)分類的類別有m個(gè),定義m個(gè)不同子集Ci(i=1,2,…m),Si是子集Ci中的樣本數(shù),Pi表示樣本Si占總體n的比例。選A作為分支屬性帶來的信息增益:其中,I()為對(duì)現(xiàn)有樣本默認(rèn)分類的期望信息(不選擇任何屬性):E()為通過選擇A屬性后重新劃分的樣本子集的熵:v為A屬性不同取值的總個(gè)數(shù),

按A屬性的第j個(gè)取值標(biāo)準(zhǔn)進(jìn)行重新劃分的樣本子集為2基礎(chǔ)分類算法第2步計(jì)算條件屬性的熵——條件經(jīng)驗(yàn)熵

2-2計(jì)算收入的條件熵和信息增益2-3計(jì)算學(xué)生的條件熵和信息增益2-4計(jì)算信譽(yù)的條件熵和信息增益第3步選擇節(jié)點(diǎn):選擇信息增益最大的屬性(年齡)繼續(xù)重復(fù)以上步驟,取“年齡”為根屬性,引出一個(gè)分支,樣本按此劃分。對(duì)引出的每一個(gè)分支樣本再用此分類方法進(jìn)行分類,再引出分支。

2基礎(chǔ)分類算法第1步計(jì)算決策屬性的熵——樣本經(jīng)驗(yàn)熵第2步計(jì)算條件屬性的熵——條件經(jīng)驗(yàn)熵

2.1計(jì)算年齡的條件熵和信息增益G(年齡信息增益)=0.9537-0.6877=0.26602.2依次計(jì)算收入層次、學(xué)生、信用等級(jí)、是否購買電腦等屬性的條件熵和信息增益第3步計(jì)算條件屬性的熵——條件經(jīng)驗(yàn)熵2基礎(chǔ)分類算法樸素貝葉斯分類

2基礎(chǔ)分類算法樸素貝葉斯分類P(類別|特征)=P(特征|類別)*P(類別|)/P(特征)2基礎(chǔ)分類算法K最近鄰(k-NearestNeighbors,KNN)算法是一種分類算法,核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。最近鄰分類器KNN算法基本步驟:①構(gòu)建一個(gè)已分好類的數(shù)據(jù)集②計(jì)算一個(gè)新樣本與數(shù)據(jù)集中所有數(shù)據(jù)的距離③按照距離大小進(jìn)行遞增排序④選取距離最小的k個(gè)樣本⑤確定前k個(gè)樣本所在類別出現(xiàn)的頻率,并輸出出現(xiàn)頻率最高的類別2基礎(chǔ)分類算法最近鄰分類器當(dāng)k取3的時(shí)候,我們可以看出距離最近的三個(gè),分別是紅色、紅色、藍(lán)色,因此得到目標(biāo)點(diǎn)為紅色。要確定綠點(diǎn)屬于哪個(gè)顏色(紅色或者藍(lán)色),要做的就是選出距離目標(biāo)點(diǎn)距離最近的k個(gè)點(diǎn),看這k個(gè)點(diǎn)的大多數(shù)顏色是什么顏色。1)計(jì)算測(cè)試數(shù)據(jù)與各個(gè)訓(xùn)練數(shù)據(jù)之間的距離;2)按照距離的遞增關(guān)系進(jìn)行排序;3)選取距離最小的K個(gè)點(diǎn);4)確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率;5)返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類;2基礎(chǔ)分類算法logistic回歸

線性回歸模型假設(shè)因變量Y是定量(quantitative)的,但在很多實(shí)際問題中,因變量卻是定性的(qualitative)。所謂定性變量,是指這些量的取值并非有數(shù)量上的變化,而只有性質(zhì)上的差異。定性變量也稱為分類(categorical)變量,預(yù)測(cè)一個(gè)觀測(cè)的定性響應(yīng)值的過程也稱為分類(classification)。大部分的分類問題都是先從預(yù)測(cè)定性變量取不同類別的概率開始,進(jìn)而將分類問題作為概率估計(jì)的一個(gè)結(jié)果,所以從這個(gè)角度看,分類問題與回歸問題有許多類似之處。根據(jù)定性因變量取值的特點(diǎn),我們又可將其分為二元變量(binaryvariable)和多分類變量(multinomialvariable)。二元變量的取值一般為1和0,當(dāng)取值為1時(shí)表示某件事情的發(fā)生,取值為0則表示不發(fā)生。對(duì)于二元因變量,我們可考慮用Logistic模型來處理。2基礎(chǔ)分類算法logistic回歸

2基礎(chǔ)分類算法logistic回歸

Logistic函數(shù)當(dāng)x趨近于無窮大時(shí),g(x)趨近于1;當(dāng)x趨近于無窮小時(shí),g(x)趨近于0。Logistic函數(shù)的圖形如下2基礎(chǔ)分類算法分類器評(píng)價(jià)指標(biāo)

假設(shè)我們的分類目標(biāo)只有兩類,正例或陽性(positive)、負(fù)例或陰性(negative)則分類結(jié)果包括:(1)TruePositives(TP):被正確地劃分為正例的個(gè)數(shù),即實(shí)際為正例且被分類器劃分為正例的實(shí)例數(shù)(樣本數(shù));(2)FalsePositives(FP):被錯(cuò)誤地劃分為正例的個(gè)數(shù),即實(shí)際為負(fù)例但被分類器劃分為正例的實(shí)例數(shù);(3)FalseNegatives(FN):被錯(cuò)誤地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為正例但被分類器劃分為負(fù)例的實(shí)例數(shù);(4)TrueNegatives(TN):被正確地劃分為負(fù)例的個(gè)數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的實(shí)例數(shù);預(yù)測(cè)結(jié)果可能出現(xiàn)四種情況:如果一個(gè)點(diǎn)屬于陰性(-)并被預(yù)測(cè)到陰性(-)中,即為真陰性值(TrueNegative,TN);如果一個(gè)點(diǎn)屬于陽性(+)但被預(yù)測(cè)到陰性(-)中,稱為假陰性值(FalseNegative,F(xiàn)N);如果一個(gè)點(diǎn)屬于陽性(+)并且被預(yù)測(cè)到陽性中,即為真陽性值(TruePositive,TP);如果一個(gè)點(diǎn)屬于陰性(-)但被預(yù)測(cè)到陽性(+)中,稱為假陽性值(FalsePositive,F(xiàn)P)。2基礎(chǔ)分類算法分類器評(píng)價(jià)指標(biāo)

陰性(-)陽性(+)預(yù)測(cè)分類-+總計(jì)真實(shí)分類-真陰性值(TN)假陽性值(FP)N+假陰性值(FN)真陽性值(TP)P總計(jì)N*P*混淆矩陣2基礎(chǔ)分類算法分類器評(píng)價(jià)指標(biāo)

(1)正確率(accuracy)正確率是我們最常見的評(píng)價(jià)指標(biāo),accuracy=(TP+TN)/(P+N),就是被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好;(2)精度(precision)精度是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,precision=TP/(TP+FP);

precisionisameasureofhowmanyerrorswemakeinclassifyingsamplesasbeingofclassA(3)錯(cuò)誤率(errorrate)錯(cuò)誤率則與正確率相反,描述被分類器錯(cuò)分的比例,errorrate=(FP+FN)/(P+N),對(duì)某一個(gè)實(shí)例來說,分對(duì)與分錯(cuò)是互斥事件,所以accuracy=1–errorrate;(4)靈敏度(sensitive)sensitive=TP/P,表示的是所有正例中被分對(duì)的比例,衡量了分類器對(duì)正例的識(shí)別能力;2基礎(chǔ)分類算法分類器評(píng)價(jià)指標(biāo)

(5)特效度(specificity)specificity=TN/N,表示的是所有負(fù)例中被分對(duì)的比例,衡量了分類器對(duì)負(fù)例的識(shí)別能力;(6)召回率(recall)召回率是覆蓋面的度量,度量有多個(gè)正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。3基于分類的異常檢測(cè)基于樸素貝葉斯的網(wǎng)站虛假賬號(hào)異常檢測(cè)對(duì)網(wǎng)站運(yùn)營(yíng)來說,不真實(shí)賬號(hào)、使用虛假身份是一個(gè)普遍存在的問題,如果通過純?nèi)斯z測(cè),需要耗費(fèi)大量的人力,效率也十分低下,如能引入基于異常的自動(dòng)檢測(cè)機(jī)制,將大大提升工作效率。我們家假設(shè)C=0表示真實(shí)賬號(hào),C=1表示不真實(shí)賬號(hào)。下面我們基于樸素貝葉斯異常值分類對(duì)一個(gè)登錄賬號(hào)是否是真實(shí)賬號(hào)做分類:①確定特征屬性及劃分

這一步要找出可以幫助我們區(qū)分真實(shí)賬號(hào)與不真實(shí)賬號(hào)的特征屬性,在實(shí)際應(yīng)用中,特征屬性的數(shù)量是很多的,但這里為了簡(jiǎn)單起見,這里用少量的特征屬性以及較粗的劃分。我們選擇三個(gè)特征屬性:a1表示日志密度:日志數(shù)量/注冊(cè)天數(shù),a2表示好友密度:好友數(shù)量/注冊(cè)天數(shù),a3:是否使用真實(shí)頭像。下面給出劃分:a1:{a1<=0.05,0.05<a1<0.2,a1>=0.2},a2:{a2<=0.1,0.1<a2<0.8,a2>=0.8},a3:{a3=0(不是),a3=1(是)}。3基于分類的異常檢測(cè)基于樸素貝葉斯的網(wǎng)站虛假賬號(hào)異常檢測(cè)②.獲取訓(xùn)練樣本這里使用運(yùn)維人員曾經(jīng)人工檢測(cè)過的1萬個(gè)賬號(hào)作為訓(xùn)練樣本。③.計(jì)算訓(xùn)練樣本中每個(gè)類別的頻率

用訓(xùn)練樣本中真實(shí)賬號(hào)和不真實(shí)賬號(hào)數(shù)量分別除以一萬,得到:P(C=0)=8900/10000=0.89P(C=1)=110/10000=0.113基于分類的異常檢測(cè)基于樸素貝葉斯的網(wǎng)站虛假賬號(hào)異常檢測(cè)④.計(jì)算每個(gè)類別條件下各個(gè)特征屬性劃分的頻率P(a1<=0.05|C=0)=0.3P(0.05<a1<0.2|C=0)=0.5P(a1>=0.2|C=0)=0.2P(a1<=0.05|C=1)=0.8P(0.05<a1<0.2|C=1)=0.1P(a1>=0.2|C=1)=0.1P(a2<=0.1|C=0)=0.1P(0.1<a2<0.8|C=0)=0.7P(a2>=0.8|C=0)=0.2P(a2<=0.1|C=1)=0.7P(0.1<a2<0.8|C=1)=0.2P(a2>=0.8|C=1)=0.1P(a3=0|C=0)=0.2P(<a3=1|C=0)=0.8P(a3=0|C=1)=0.9P(a3=1|C=1)=0.13基于分類的異常檢測(cè)基于樸素貝葉斯的網(wǎng)站虛假賬號(hào)異常檢測(cè)⑤.使用分類器進(jìn)行鑒別

下面我們使用上面訓(xùn)練得到的分類器鑒別一個(gè)賬號(hào),這個(gè)賬號(hào)使用非真實(shí)頭像,日志數(shù)量與注冊(cè)天數(shù)的比率為0.1,好友數(shù)與注冊(cè)天數(shù)的比率為0.2。P(C=0)*P(x|C=0)=P(C=0)*P(0.05<a1<0.2|C=0)*P(0.1<a2<0.8|C=0)*P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623P(C=1)*P(x|C=1)=P(C=1)*P(0.05<a1<0.2|C=1)P(0.1<a2<0.8|C=1)=P(a3=0|C=1)=0.11*0.1*0.2*0.9=0.00198

由上述分析可知!這個(gè)賬號(hào)為真實(shí)賬號(hào)類別的概率0.0623大于為不真實(shí)賬號(hào)的概率0.00198,因此雖然這個(gè)賬號(hào)沒有使用真實(shí)頭像,但是通過分類器的鑒別其可被歸類為真實(shí)賬號(hào)。這個(gè)例子展示了當(dāng)特征屬性充分多時(shí),樸素貝葉斯分類具有對(duì)個(gè)別屬性的抗干擾性。貝葉斯網(wǎng)絡(luò)(BayesBeliefnetwork),又稱貝葉斯網(wǎng)絡(luò)、信念網(wǎng)絡(luò)、概率網(wǎng)絡(luò),是一個(gè)有向無環(huán)圖(DirectedAcyclicGraph,DAG)它,是一種概率圖模型,根據(jù)概率圖的拓?fù)浣Y(jié)構(gòu),考察一組隨機(jī)變量{X1,X2,X3......Xn}即其n組的條件概率分布的性質(zhì),其中有向無環(huán)圖中節(jié)點(diǎn)表示隨機(jī)變量,連接兩個(gè)節(jié)點(diǎn)之間的箭頭便開始兩個(gè)隨機(jī)變量之間的因果關(guān)系即變量間的條件概率。4高級(jí)分類算法貝葉斯信念網(wǎng)絡(luò)

后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)作為一種先進(jìn)的人工智能技術(shù),神經(jīng)網(wǎng)絡(luò)是受人腦組織的生理學(xué)啟發(fā)而創(chuàng)立的。由一系列互相聯(lián)系的、相同的單元(神經(jīng)元)組成。神經(jīng)網(wǎng)絡(luò)相互間的聯(lián)系可以在不同的神經(jīng)元之間傳遞增強(qiáng)或抑制信號(hào),增強(qiáng)或抑制是通過調(diào)整神經(jīng)元相互間聯(lián)系的權(quán)重系數(shù)實(shí)現(xiàn)。4高級(jí)分類算法后向傳播神經(jīng)網(wǎng)絡(luò)

支持向量機(jī)(SupportVectorMachine,SVM)是一種機(jī)器學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論