如何在人工智能機(jī)器學(xué)習(xí)中實(shí)現(xiàn)分類_第1頁
如何在人工智能機(jī)器學(xué)習(xí)中實(shí)現(xiàn)分類_第2頁
如何在人工智能機(jī)器學(xué)習(xí)中實(shí)現(xiàn)分類_第3頁
如何在人工智能機(jī)器學(xué)習(xí)中實(shí)現(xiàn)分類_第4頁
如何在人工智能機(jī)器學(xué)習(xí)中實(shí)現(xiàn)分類_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

什么是機(jī)器學(xué)習(xí)中的分類分類是將給定數(shù)據(jù)集分類的過程,可以對(duì)結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行。該過程從預(yù)測給定數(shù)據(jù)點(diǎn)的類別開始。這些類通常稱為目標(biāo)、標(biāo)簽或類別。分類預(yù)測建模是近似從輸入變量到離散輸出變量的映射函數(shù)的任務(wù)。主要目標(biāo)是確定新數(shù)據(jù)將屬于哪個(gè)類/類別。讓我們嘗試用一個(gè)簡單的例子來理解這一點(diǎn)。心臟病檢測可以被識(shí)別為一個(gè)分類問題,這是一個(gè)二元分類,因?yàn)橹荒苡袃蓚€(gè)類別,即有心臟病或沒有心臟病。在這種情況下,分類器需要訓(xùn)練數(shù)據(jù)來理解給定的輸入變量與類別的關(guān)系。一旦分類器經(jīng)過準(zhǔn)確訓(xùn)練,它就可以用來檢測特定患者是否患有心臟病。由于分類是監(jiān)督學(xué)習(xí)的一種,因此即使是目標(biāo)也提供了輸入數(shù)據(jù)。讓我們熟悉一下機(jī)器學(xué)習(xí)術(shù)語中的分類。機(jī)器學(xué)習(xí)中的分類術(shù)語分類器

–它是一種用于將輸入數(shù)據(jù)映射到特定類別的算法。分類模型

-該模型對(duì)為訓(xùn)練給出的輸入數(shù)據(jù)進(jìn)行預(yù)測或得出結(jié)論,它將預(yù)測數(shù)據(jù)的類別或類別。特征——特征是所觀察到的現(xiàn)象的單個(gè)可測量的屬性。二元分類——這是一種具有兩種結(jié)果的分類類型,例如——要么是真,要么是假。多類分類——具有兩個(gè)以上類別的分類,在多類分類中,每個(gè)樣本被分配給一個(gè)且僅一個(gè)標(biāo)簽或目標(biāo)。多標(biāo)簽分類

——這是一種分類類型,其中每個(gè)樣本都分配給一組標(biāo)簽或目標(biāo)。初始化

——分配用于分類器的分類器訓(xùn)練分類器–sci-kitlearn中的每個(gè)分類器都使用fit(X,y)方法來擬合用于訓(xùn)練訓(xùn)練X和訓(xùn)練標(biāo)簽y的模型。預(yù)測目標(biāo)

–對(duì)于未標(biāo)記的觀測值X,predict(X)方法返回預(yù)測標(biāo)簽y。評(píng)估——這基本上意味著模型的評(píng)估,即分類報(bào)告、準(zhǔn)確性得分等。分類中的學(xué)習(xí)者類型惰性學(xué)習(xí)器–惰性學(xué)習(xí)器只需存儲(chǔ)訓(xùn)練數(shù)據(jù)并等待測試數(shù)據(jù)出現(xiàn)。使用存儲(chǔ)的訓(xùn)練數(shù)據(jù)中最相關(guān)的數(shù)據(jù)來完成分類。與熱切的學(xué)習(xí)者相比,他們有更多的預(yù)測時(shí)間。例如–k最近鄰,基于案例的推理。熱切學(xué)習(xí)者–熱切學(xué)習(xí)者在獲取預(yù)測數(shù)據(jù)之前根據(jù)給定的訓(xùn)練數(shù)據(jù)構(gòu)建分類模型。它必須能夠致力于適用于整個(gè)空間的單一假設(shè)。因此,他們花費(fèi)大量時(shí)間進(jìn)行訓(xùn)練,而花費(fèi)更少的時(shí)間進(jìn)行預(yù)測。例如——決策樹、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)。分類算法在機(jī)器學(xué)習(xí)中,分類是一個(gè)監(jiān)督學(xué)習(xí)概念,它基本上將一組數(shù)據(jù)分類為類別。最常見的分類問題是——語音識(shí)別、人臉檢測、手寫識(shí)別、文檔分類等。它可以是二元分類問題,也可以是多類問題。機(jī)器學(xué)習(xí)中有很多用于分類的機(jī)器學(xué)習(xí)算法。讓我們看一下機(jī)器學(xué)習(xí)中的那些分類算法。邏輯回歸它是機(jī)器學(xué)習(xí)中的一種分類算法,使用一個(gè)或多個(gè)自變量來確定結(jié)果。結(jié)果是用二分變量來衡量的,這意味著它只有兩種可能的結(jié)果。邏輯回歸的目標(biāo)是找到因變量和一組自變量之間的最佳擬合關(guān)系。它比其他二元分類算法(例如最近鄰)更好,因?yàn)樗康亟忉屃藢?dǎo)致分類的因素。?的優(yōu)點(diǎn)和缺點(diǎn)邏輯回歸專門用于分類,它有助于理解一組自變量如何影響因變量的結(jié)果。邏輯回歸算法的主要缺點(diǎn)是它僅在預(yù)測變量為二元時(shí)才有效,它假設(shè)數(shù)據(jù)不存在缺失值并假設(shè)預(yù)測變量彼此獨(dú)立。用例識(shí)別疾病的危險(xiǎn)因素詞分類天氣預(yù)報(bào)投票應(yīng)用程序

樸素貝葉斯分類器它是一種基于貝葉斯定理的分類算法,該定理給出了預(yù)測變量之間獨(dú)立性的假設(shè)。簡而言之,樸素貝葉斯分類器假設(shè)類中特定特征的存在與任何其他特征的存在無關(guān)。即使這些特征相互依賴,所有這些屬性也會(huì)獨(dú)立地影響概率。樸素貝葉斯模型很容易制作,對(duì)于相對(duì)較大的數(shù)據(jù)集特別有用。即使采用簡單的方法,樸素貝葉斯也優(yōu)于機(jī)器學(xué)習(xí)中的大多數(shù)分類方法。以下是實(shí)現(xiàn)樸素貝葉斯定理的貝葉斯定理。?的優(yōu)點(diǎn)和缺點(diǎn)樸素貝葉斯分類器需要少量的訓(xùn)練數(shù)據(jù)來估計(jì)必要的參數(shù)以獲得結(jié)果。與其他分類器相比,它們本質(zhì)上非???。唯一的缺點(diǎn)是他們被認(rèn)為是一個(gè)糟糕的估計(jì)者。用例疾病預(yù)測文件分類垃圾郵件過濾器情緒分析隨機(jī)梯度下降這是一種非常有效且簡單的擬合線性模型的方法。當(dāng)樣本數(shù)據(jù)較多時(shí),隨機(jī)梯度下降特別有用。它支持不同的損失函數(shù)和分類懲罰。?編輯隨機(jī)梯度下降是指計(jì)算每個(gè)訓(xùn)練數(shù)據(jù)實(shí)例的導(dǎo)數(shù)并立即計(jì)算更新。的優(yōu)點(diǎn)和缺點(diǎn)唯一的優(yōu)點(diǎn)是易于實(shí)現(xiàn)和效率,而隨機(jī)梯度下降的主要缺點(diǎn)是它需要許多超參數(shù)并且對(duì)特征縮放敏感。用例物聯(lián)網(wǎng)更新參數(shù),例如神經(jīng)網(wǎng)絡(luò)中的權(quán)重或線性回歸中的系數(shù)K-最近鄰它是一種惰性學(xué)習(xí)算法,將訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的所有實(shí)例存儲(chǔ)在n維空間中。它是一種惰性學(xué)習(xí)算法,因?yàn)樗粚W⒂跇?gòu)建通用內(nèi)部模型,而是致力于存儲(chǔ)訓(xùn)練數(shù)據(jù)的實(shí)例。?

k個(gè)最近鄰的簡單多數(shù)投票來計(jì)算的。它受到監(jiān)督并獲取一堆標(biāo)記點(diǎn)并使用它們來標(biāo)記其他點(diǎn)。為了標(biāo)記新點(diǎn),它會(huì)查看最接近該新點(diǎn)的標(biāo)記點(diǎn)(也稱為其最近鄰居)。它讓這些鄰居投票,因此大多數(shù)鄰居擁有的標(biāo)簽就是新點(diǎn)的標(biāo)簽。“k”是它檢查的鄰居的數(shù)量。的優(yōu)點(diǎn)和缺點(diǎn)該算法的實(shí)現(xiàn)非常簡單,并且對(duì)噪聲訓(xùn)練數(shù)據(jù)具有魯棒性。即使訓(xùn)練數(shù)據(jù)很大,效率也相當(dāng)高。KNN算法的唯一缺點(diǎn)是不需要確定K的值,并且與其他算法相比計(jì)算成本相當(dāng)高。用例工業(yè)應(yīng)用程序?qū)ふ遗c其他任務(wù)相似的任務(wù)手寫檢測應(yīng)用圖像識(shí)別視頻識(shí)別庫存分析決策樹決策樹算法以樹結(jié)構(gòu)的形式構(gòu)建分類模型。它利用if-then規(guī)則,這些規(guī)則在分類上同樣詳盡且互斥。該過程繼續(xù)將數(shù)據(jù)分解為更小的結(jié)構(gòu),并最終將其與增量決策樹相關(guān)聯(lián)。最終的結(jié)構(gòu)看起來像一棵有節(jié)點(diǎn)和葉子的樹。一次使用一個(gè)訓(xùn)練數(shù)據(jù)按順序?qū)W習(xí)規(guī)則。每次學(xué)習(xí)規(guī)則時(shí),覆蓋該規(guī)則的元組都會(huì)被刪除。該過程在訓(xùn)練集上繼續(xù),直到達(dá)到終止點(diǎn)。?該樹是通過自頂向下遞歸分治方法構(gòu)建的。決策節(jié)點(diǎn)將具有兩個(gè)或多個(gè)分支,葉子代表分類或決策。決策樹中與最佳預(yù)測變量相對(duì)應(yīng)的最頂層節(jié)點(diǎn)稱為根節(jié)點(diǎn),決策樹的最佳之處在于它可以處理分類數(shù)據(jù)和數(shù)值數(shù)據(jù)。的優(yōu)點(diǎn)和缺點(diǎn)決策樹具有易于理解和可視化的優(yōu)點(diǎn),而且只需要很少的數(shù)據(jù)準(zhǔn)備。決策樹的缺點(diǎn)是它可以創(chuàng)建復(fù)雜的樹,從而可以有效地進(jìn)行機(jī)器人分類。它們可能非常不穩(wěn)定,因?yàn)榧词箶?shù)據(jù)的簡單更改也會(huì)阻礙決策樹的整個(gè)結(jié)構(gòu)。用例數(shù)據(jù)探索模式識(shí)別金融中的期權(quán)定價(jià)識(shí)別疾病和風(fēng)險(xiǎn)威脅隨機(jī)森林隨機(jī)決策樹或隨機(jī)森林是一種用于分類、回歸等的集成學(xué)習(xí)方法。

它通過在訓(xùn)練時(shí)構(gòu)建多個(gè)決策樹進(jìn)行操作,并輸出類,即類的模式或分類或平均預(yù)測(回歸)個(gè)別的樹木。?

隨機(jī)森林是一種元估計(jì)器,它在數(shù)據(jù)集的各個(gè)子樣本上擬合許多樹,然后使用平均值來提高模型預(yù)測性質(zhì)的準(zhǔn)確性。子樣本大小始終與原始輸入大小相同,但樣本通常是通過替換來抽取的。的優(yōu)點(diǎn)和缺點(diǎn)隨機(jī)森林的優(yōu)點(diǎn)是由于減少了過擬合,因此比決策樹更準(zhǔn)確。隨機(jī)森林分類器的唯一缺點(diǎn)是它的實(shí)現(xiàn)非常復(fù)雜并且實(shí)時(shí)預(yù)測非常慢。用例工業(yè)應(yīng)用,例如確定貸款申請(qǐng)人是高風(fēng)險(xiǎn)還是低風(fēng)險(xiǎn)用于預(yù)測汽車發(fā)動(dòng)機(jī)機(jī)械部件的故障預(yù)測社交媒體分享分?jǐn)?shù)表現(xiàn)分?jǐn)?shù)人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)由分層排列的神經(jīng)元組成,它們獲取一些輸入向量并將其轉(zhuǎn)換為輸出。該過程涉及每個(gè)神經(jīng)元獲取輸入并向其應(yīng)用一個(gè)函數(shù)(通常是非線性函數(shù)),然后將輸出傳遞到下一層。?一般來說,網(wǎng)絡(luò)應(yīng)該是前饋的,這意味著單元或神經(jīng)元將輸出饋送到下一層,但不涉及到前一層的任何反饋。權(quán)重應(yīng)用于從一層傳遞到另一層的信號(hào),這些權(quán)重在訓(xùn)練階段進(jìn)行調(diào)整,以使神經(jīng)網(wǎng)絡(luò)適應(yīng)任何問題陳述。的優(yōu)點(diǎn)和缺點(diǎn)它對(duì)噪聲數(shù)據(jù)具有很高的容忍度,并且能夠?qū)ξ唇?jīng)訓(xùn)練的模式進(jìn)行分類,在連續(xù)值的輸入和輸出上表現(xiàn)更好。人工神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)是與其他模型相比,它的解釋能力較差。用例筆跡分析黑白圖像的著色計(jì)算機(jī)視覺流程根據(jù)面部特征為照片添加字幕支持向量機(jī)支持向量機(jī)是一種分類器,它將訓(xùn)練數(shù)據(jù)表示為空間中的點(diǎn),這些點(diǎn)按盡可能寬的間隙分為不同的類別。然后通過預(yù)測新點(diǎn)屬于哪個(gè)類別以及它們將屬于哪個(gè)空間來將它們添加到空間中。?的優(yōu)點(diǎn)和缺點(diǎn)它在決策函數(shù)中使用訓(xùn)練點(diǎn)的子集,這使得它具有高效的內(nèi)存并且在高維空間中非常有效。支持向量機(jī)的唯一缺點(diǎn)是該算法不直接提供概率估計(jì)。用例用于比較股票在一段時(shí)間內(nèi)的表現(xiàn)的業(yè)務(wù)應(yīng)用程序投資建議需要準(zhǔn)確性和效率的應(yīng)用分類在此處了解有關(guān)python支持向量機(jī)的更多信息分類器評(píng)估任何分類器完成后最重要的部分是評(píng)估以檢查其準(zhǔn)確性和效率。我們可以通過很多方法來評(píng)估分類器。讓我們看看下面列出的這些方法。堅(jiān)持法這是評(píng)估分類器的最常見方法。在該方法中,給定的數(shù)據(jù)集被分為兩部分作為測試集和訓(xùn)練集,分別為20%和80%。訓(xùn)練集用于訓(xùn)練數(shù)據(jù),未見過的測試集用于測試其預(yù)測能力。交叉驗(yàn)證過度擬合是大多數(shù)機(jī)器學(xué)習(xí)模型中最常見的問題??梢赃M(jìn)行K折交叉驗(yàn)證來驗(yàn)證模型是否過度擬合。?在該方法中,數(shù)據(jù)集被隨機(jī)劃分為k個(gè)互斥的

子集,每個(gè)子集的大小相同。其中,一個(gè)用于測試,其他用于訓(xùn)練模型。所有k次折疊都會(huì)發(fā)生相同的過程。分類報(bào)告分類報(bào)告將給出以下結(jié)果,它是使用cancer_data數(shù)據(jù)集的SVM分類器的示例分類報(bào)告。?準(zhǔn)確性準(zhǔn)確度是正確預(yù)測的觀測值與總觀測值的比率真陽性:正確預(yù)測事件為陽性的數(shù)量。TrueNegative:正確預(yù)測事件是否定的次數(shù)。F1-分?jǐn)?shù)它是精確率和召回率的加權(quán)平均值準(zhǔn)確率和召回率準(zhǔn)確率是檢索到的實(shí)例中相關(guān)實(shí)例的比例,而召回率是已檢索到的相關(guān)實(shí)例占實(shí)例總數(shù)的比例。它們基本上用作相關(guān)性的度量。ROC曲線接受者操作特征或ROC曲線用于分類模型的直觀比較,它顯示了真陽性率和假陽性率之間的關(guān)系。ROC曲線下的面積是模型準(zhǔn)確性的度量。算法選擇?除了上述方法之外,我們還可以按照以下步驟為模型使用最佳算法讀取數(shù)據(jù)根據(jù)我們的依賴和獨(dú)立特征創(chuàng)建依賴和獨(dú)立數(shù)據(jù)集將數(shù)據(jù)分為訓(xùn)練集和測試集使用不同的算法訓(xùn)練模型,例如KNN、決策樹、SVM等評(píng)估分類器選擇最準(zhǔn)確的分類器。盡管選擇最適合您模型的最佳算法可能需要花費(fèi)更多時(shí)間,但準(zhǔn)確性是提高模型效率的最佳方法。讓我們看一下MNIST數(shù)據(jù)集,我們將使用兩種不同的算法來檢查哪一種最適合模型。使用案例什么是MNIST?它是一組70,000張小手寫圖像,并標(biāo)有它們所代表的相應(yīng)數(shù)字。每張圖像有近784個(gè)特征,一個(gè)特征簡單地代表像素的密度,每張圖像是28×28像素。我們將在不同分類器的幫助下使用MNIST數(shù)據(jù)集制作數(shù)字預(yù)測器。加載MNIST數(shù)據(jù)集fromsklearn.datasetsimportfetch_openmlmnist=fetch_openml('mnist_784')print(mnist)?輸出:探索數(shù)據(jù)集importmatplotlibimportmatplotlib.pyplotaspltX,y=mnist['data'],mnist['target']random_digit=X[4800]random_digit_image=random_digit.reshape(28,28)plt.imshow(random_digit_image,cmap=matplotlib.cm.binary,interpolation="nearest")?輸出:分割數(shù)據(jù)我們使用前6000個(gè)條目作為訓(xùn)練數(shù)據(jù),數(shù)據(jù)集多達(dá)70000個(gè)條目。您可以使用X和y的形狀進(jìn)行檢查。因此,為了使我們的模型內(nèi)存高效,我們僅采用6000個(gè)條目作為訓(xùn)練集,1000個(gè)條目作為測試集。x_train,x_test=X[:6000],X[6000:7000]y_train,y_test=y[:6000],y[6000:7000]洗牌數(shù)據(jù)為了避免不必要的錯(cuò)誤,我們使用numpy數(shù)組對(duì)數(shù)據(jù)進(jìn)行混洗。從根本上提高了模型的效率。importnumpyasnpshuffle_index=np.random.permutation(6000)x_train,y_train=x_train[shuffle_index],y_train[shuffle_index]使用邏輯回歸創(chuàng)建數(shù)字預(yù)測器y_train=y_train.astype(8)y_test=y_test.astype(8)y_train_2=(y_train==2)y_test_2=(y_test==2)print(y_test_2)輸出

:fromsklearn.linear_modelimportLogisticRegressionclf=LogisticRegression(tol=0.1)clf.fit(x_train,y_train_2)clf.predict([random_digit])?輸出:交叉驗(yàn)證fromsklearn.model_selectionimportcross_val_scorea=cross_val_score(clf,x_train,y_train_2,cv=3,scoring="accuracy")a.mean()?輸出:使用支持向量機(jī)創(chuàng)建預(yù)測器fromsklearnimportsvmcls=svm.SVC()cls.fit(x_train,y_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論