python人工智能課程

上傳人：1*** IP屬地：湖南上傳時(shí)間：2024-05-12 格式：PPTX 頁數(shù)：101 大小：15.63MB 積分：6 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩96頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)與深度學(xué)習(xí)實(shí)踐聲明Acknowledgments假設(shè)參與此門課程的同學(xué)具有python基礎(chǔ)及高等數(shù)學(xué)基礎(chǔ)。不要求有深刻的算法基礎(chǔ)，但對(duì)于基本的數(shù)據(jù)結(jié)構(gòu)和算法要有一定了解。參考資料：取自于sklearn、tensorflow官方網(wǎng)站、斯坦福大學(xué)CS224d、CS231n課件、Github的部分代碼倉(cāng)庫(kù)、部分來源于網(wǎng)絡(luò)和搜索引擎，也有部分資料和代碼是自行完成的。參考書籍：《機(jī)器學(xué)習(xí)》、《統(tǒng)計(jì)學(xué)習(xí)方法》、《模式識(shí)別與機(jī)器學(xué)習(xí)》、《Hands-OnMachineLearningWithScikit-Learn&TensorFlow》等課后如果有問題，歡迎聯(lián)系交流Day1大綱

?人工智能概述?人工智能中的數(shù)學(xué)基礎(chǔ)?

回歸與分類

?線性回歸，Logistic回歸，Softmax回歸

?決策樹

?多種決策樹模型，Bagging，Boosting思想

?樸素貝葉斯

?自然語言處理，文本分類人工智能概述從人工智能談起智能設(shè)備、聊天機(jī)器人、無人駕駛、機(jī)器人/x/page/y03792kgjj1.html什么是人工智能？人工智能（ArtificialIntelligence），英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它試圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器。機(jī)器人語音識(shí)別圖像識(shí)別自然語言處理專家系統(tǒng)知識(shí)工程機(jī)器學(xué)習(xí)人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能，但能像人那樣的思考，甚至超過人的智能。弱人工智能、強(qiáng)人工智能、超人工智能弱人工智能ArtificialNarrowIntelligence(ANI):弱人工智能是擅長(zhǎng)于單個(gè)方面的人工智能。強(qiáng)人工智能ArtificialGeneralIntelligence(AGI):人類級(jí)別的人工智能。強(qiáng)人工智能是指在各方面都能喝人類比肩的人工智能，人類能干的腦力活它都能干。超人工智能ArtificialSuperIntelligence(ASI):知名人工智能思想家NickBostrom把超級(jí)智能定義為”在幾乎所有領(lǐng)域都比最聰明的人類大腦都聰明很多，包括科學(xué)創(chuàng)新、通識(shí)和社交技能“。圖靈測(cè)試人工智能的歷史1956年夏天：達(dá)特茅斯會(huì)議，提出“人工智能“20世紀(jì)60年代：感知機(jī)20世紀(jì)70年代：專家系統(tǒng)、知識(shí)工程20世紀(jì)80年代：日本第五代機(jī)20世紀(jì)90年代：統(tǒng)計(jì)機(jī)器學(xué)習(xí)2006年：深度學(xué)習(xí)2012年：卷積神經(jīng)網(wǎng)絡(luò)...人工智能的歷史AI發(fā)展現(xiàn)狀？機(jī)器是否具有真正的智能人眼中的圖像機(jī)器是否具有真正的智能計(jì)算機(jī)眼中的圖像目前只能實(shí)現(xiàn)感知智能，尚無法實(shí)現(xiàn)推理智能舉個(gè)例子還有很長(zhǎng)的路要走計(jì)算機(jī)無法真正理解符號(hào)、數(shù)字背后的語義所有的行為都是在“猜”圖像、語音：原始信息，感知智能語言、藝術(shù)：人工信息，推理智能學(xué)習(xí)方法打好機(jī)器學(xué)習(xí)基礎(chǔ)學(xué)會(huì)原理、注重聯(lián)系動(dòng)手實(shí)踐分析數(shù)據(jù)，提升google機(jī)器學(xué)習(xí)教程：/x/page/y03792kgjj1.htmlAngrewNG機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等課程準(zhǔn)備工作

?安裝anaconda3并配置pycharm?安裝sklearn/numpy/pandas/matplotlib/xgboost?

安裝pycharm，并設(shè)置python解釋器路徑?編寫hello，world并成功執(zhí)行人工智能中的數(shù)學(xué)基礎(chǔ)數(shù)學(xué)分析映射與函數(shù)極限導(dǎo)數(shù)

導(dǎo)數(shù)是曲線的斜率，是曲線變化快慢的反應(yīng)；可導(dǎo)一定連續(xù)，反之不然思考：極值如何求解？數(shù)學(xué)分析常用函數(shù)求導(dǎo)公式動(dòng)手實(shí)踐(2)：求sigmoid函數(shù)導(dǎo)數(shù)數(shù)學(xué)分析泰勒展開式常用函數(shù)的泰勒展開在某鄰域內(nèi)，存在一階近似、二階近似、逼近非線性函數(shù)求解數(shù)學(xué)分析梯度下降法

練習(xí)：使用梯度下降法求解y=x2思考：什么情況下有全局最優(yōu)解？

0J(

0,1)

1J(

0,1)數(shù)學(xué)分析練習(xí)

sgd.py運(yùn)行平方函數(shù)→平方函數(shù)的導(dǎo)數(shù)→數(shù)學(xué)分析練習(xí)

sgd.py運(yùn)行GD_decay：x_start-初始位置df-平方函數(shù)epochs-迭代次數(shù)lr-學(xué)習(xí)率decay-學(xué)習(xí)率衰減系數(shù)循環(huán)：迭代計(jì)算下一次x的位置數(shù)學(xué)分析首先生成基礎(chǔ)采樣點(diǎn)給后面使用做了雙重驗(yàn)證并繪制圖像數(shù)學(xué)分析梯度下降法

xt+1=xt-af'(xt)”最快”過于盲目、有缺陷進(jìn)一步利用曲線二階導(dǎo)的信息進(jìn)行迭代求解，稱為牛頓法xt+1=xt-f'(xt)/f''(xt)數(shù)學(xué)分析多元函數(shù)的導(dǎo)數(shù)如何表達(dá)？多元函數(shù)的梯度呢？多元函數(shù)的二階導(dǎo)是什么？f(x)=f(x1,x2,...)一階(偏)導(dǎo)數(shù)：f'x1(x1,x2...),f'x2(x1,x2...),...，它們的線性加和稱為方向?qū)?shù)hessian矩陣G數(shù)學(xué)分析總結(jié)

變量、函數(shù)求導(dǎo)規(guī)則、泰勒展開式Y(jié)anLeCun：可微分式編程線性代數(shù)線性變換指旋轉(zhuǎn)、推移，他們的組合是線性變換為什么研究線性變換線性代數(shù)矩陣和乘法矩陣的本質(zhì)：線性變換！什么情況下矩陣乘法是旋轉(zhuǎn)矩陣呢？線性代數(shù)矩陣僅對(duì)角線有非零值的矩陣為縮放矩陣，對(duì)角線元素代表了每個(gè)維度的縮放強(qiáng)度列向量正交且為單位向量的矩陣，也即正交陣為旋轉(zhuǎn)矩陣思考：這兩個(gè)矩陣的現(xiàn)實(shí)意義？線性代數(shù)分離技術(shù)->特征值分解非常重要且廣泛的應(yīng)用包括：控制系統(tǒng)推薦系統(tǒng)文本相似度處理圖像壓縮...線性代數(shù)分離技術(shù)->svd/NFM分解useritem線性代數(shù)再看特征值分解相似矩陣思考：(1)變換與逆矩陣(2)什么情況下有逆矩陣(3)P與P的逆乘積線性代數(shù)行列式考察單位陣、旋轉(zhuǎn)陣行列式的本質(zhì)：線性變換的縮放因子變換是否降維(秩)線性代數(shù)總結(jié)矩陣<==>線性變換特征值<==>縮放強(qiáng)度行列式<==>縮放強(qiáng)度概率論概率與直觀不斷拋擲一枚硬幣，得到正面與反面的頻率比例是多少呢？

經(jīng)過無數(shù)次拋擲，頻率的極限趨近于X?拋擲趨于無窮次時(shí)，正反面頻率一致，根據(jù)大數(shù)定理概率論概率的計(jì)算已知A、B獨(dú)立時(shí)概率論條件概率全概率公式貝葉斯公式練習(xí)：小明有8支步槍，其中有5支校準(zhǔn)過。校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.8，沒有校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.3，現(xiàn)小明隨機(jī)的選一支槍，結(jié)果中靶，問該槍已被校準(zhǔn)的概率。概率論根據(jù)貝葉斯公式概率論重溫貝葉斯公式強(qiáng)調(diào)：這是一個(gè)非常重要的公式，記住它，基本就掌握了機(jī)器學(xué)習(xí)一半的內(nèi)容概率論期望與方差E(x)表征了數(shù)據(jù)的加權(quán)平均值，D(x)表征了數(shù)據(jù)的波動(dòng)程度概率論變量的分布

有一類試驗(yàn)，比如拋擲硬幣得到正面還是反面，項(xiàng)目成功或失敗，產(chǎn)品是否有缺陷，只有兩個(gè)可能結(jié)果。記這兩個(gè)可能的結(jié)果為0和1，該分布就稱為伯努利分布。概率論變量的分布

伯努利分布重復(fù)N次，就構(gòu)成了二項(xiàng)分布。排列、組合數(shù)公式復(fù)習(xí)：袋子中有五個(gè)標(biāo)號(hào)的小球，每次從中抽取一個(gè)，抽取三次，得到的排列方式有多少種呢？袋子中有五個(gè)標(biāo)號(hào)的小球，每次抽取一個(gè)，抽取三次，不考慮球之間的順序，得到的編號(hào)組合有多少種呢？概率論變量的分布

高斯分布，服從中心極限定律，是非常重要的分布。概率論練習(xí)

multi_guassian.py

概率論熵

世界杯比賽有32支球隊(duì)參加，最少用多少bit信息表示出最后獲勝的隊(duì)伍？總結(jié)人工智能中的數(shù)學(xué)并不難，關(guān)鍵是掌握常用的思維方式練習(xí)推導(dǎo)，理解數(shù)學(xué)表達(dá)式所蘊(yùn)含的現(xiàn)實(shí)意義

機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)基礎(chǔ)理論和概念機(jī)器學(xué)習(xí)基本方法項(xiàng)目實(shí)戰(zhàn)分析機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)主要是研究如何使計(jì)算機(jī)從給定數(shù)據(jù)中學(xué)習(xí)規(guī)律，并利用學(xué)習(xí)到的規(guī)律(模型)來對(duì)未知或無法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講，分為：監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)從學(xué)習(xí)結(jié)果上講，分為：回歸分類強(qiáng)調(diào)：目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講，分為：監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)從學(xué)習(xí)結(jié)果上講，分為：回歸分類強(qiáng)調(diào)：目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work線性回歸線性回歸是最基礎(chǔ)的回歸算法

train0123456789x0123456789y24.6-24.012.2-55.9-57.816.5-7.9-17.3-23.187.4思考：x與y符合什么關(guān)系呢？觀察到x與y的關(guān)系（模型選擇），y=ax+b，建立線性回歸模型通過優(yōu)化方法設(shè)法擬合數(shù)據(jù)，得到最優(yōu)的a評(píng)估該模型是否準(zhǔn)確，查看訓(xùn)練集上的準(zhǔn)確率評(píng)估該模型的泛化性能，在測(cè)試集上的準(zhǔn)確率線性回歸基本概念訓(xùn)練集測(cè)試集(交叉驗(yàn)證法、自助法等)目標(biāo)函數(shù)損失函數(shù)

優(yōu)化方法擬合、過擬合準(zhǔn)確率、泛化性能

線性回歸

目標(biāo)函數(shù)、優(yōu)化方法推導(dǎo)不可能有一個(gè)理想的線性函數(shù)經(jīng)過所有訓(xùn)練集的數(shù)據(jù)點(diǎn)，這個(gè)問題怎么處理呢？高斯：“把偏移都看做誤差”這又是一個(gè)假設(shè)，但是機(jī)器學(xué)習(xí)的套路就是這樣的線性回歸

使用求極值方法求解目標(biāo)函數(shù)線性回歸

使用求極值方法求解目標(biāo)函數(shù)思考：XTX一定可逆嗎？線性回歸

直接采用極值方法求解，有什么缺點(diǎn)？如果不是拿到所有樣本點(diǎn)再求解，僅僅只看眼前的梯度逐漸求解呢？線性回歸

使用梯度下降法求解目標(biāo)函數(shù)

0J(

0,1)線性回歸只根據(jù)眼前的路徑梯度下降求解的方法，稱為隨機(jī)梯度下降法(SGD)實(shí)際上使用樣本的過程中，出于效率和穩(wěn)定性的考慮，我們使用MiniBatch-SGD方法，使用批處理平均來進(jìn)行梯度更新，而不是對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行一次梯度更新

思考：目標(biāo)函數(shù)一定有最小值嗎？線性回歸進(jìn)一步分析

可以對(duì)樣本是非線性的，對(duì)系數(shù)是線性的polynomial方法線性回歸準(zhǔn)確度評(píng)估對(duì)于連續(xù)數(shù)據(jù)(回歸問題)，一般使用方差評(píng)估對(duì)于離散數(shù)據(jù)(分類問題)accuracy、precision/recall例：訓(xùn)練樣本有100個(gè)，正負(fù)標(biāo)記各50個(gè)，經(jīng)過模型分類后，正負(fù)樣本結(jié)果仍為各50個(gè)。在正樣本中，分對(duì)40個(gè)，分錯(cuò)10個(gè)，負(fù)樣本中，分對(duì)30個(gè)，分錯(cuò)20個(gè)，則：accuracy=(100-10-20)/100=0.7precision=40/50=0.8recall=40/60

=0.66

線性回歸準(zhǔn)確度評(píng)估

強(qiáng)調(diào)：F1越大越好，最大值是1，對(duì)于二分類問題，F(xiàn)1=0.5就等價(jià)于”胡猜”線性回歸再談準(zhǔn)確度問題

訓(xùn)練集上的P、R達(dá)到100%，是最好的情況嗎？

線性回歸避免過擬合，引入正則化技術(shù)

分別稱為L(zhǎng)ASSO回歸、Ridge回歸LASSO具有稀疏作用，Ridge收斂更快我們說，目標(biāo)函數(shù)仍然是不帶正則化的原函數(shù)，經(jīng)過改造的上式稱為損失函數(shù)強(qiáng)調(diào)：優(yōu)化的目標(biāo)就是讓loss最小線性回歸練習(xí)：使用線性回歸預(yù)測(cè)房?jī)r(jià)走勢(shì)

degree線性回歸模型擬合及預(yù)測(cè)線性回歸

線性回歸是一種回歸算法模型簡(jiǎn)單、計(jì)算量較小對(duì)誤差敏感對(duì)數(shù)據(jù)預(yù)處理要求較高思考：能否使用線性回歸解決分類問題呢？logistic回歸logistic回歸是最基礎(chǔ)的分類算法回顧伯努利分布，一次實(shí)驗(yàn)的結(jié)果只有0、1兩種選擇根據(jù)貝葉斯公式，如果只考慮P(A|B)，則稱為極大似然估計(jì)

以硬幣實(shí)驗(yàn)為例，現(xiàn)投擲10次，出現(xiàn)正面6次，反面4次假設(shè)硬幣正反概率出現(xiàn)的先驗(yàn)分布P(B)均勻，且上述證據(jù)P(A)已成定局，則求P(B|A)就是求P(A|B)即似然函數(shù)的最大值logistic回歸logistic回歸推導(dǎo)根據(jù)極大似然估計(jì)，假設(shè)事件發(fā)生的概率是p，則最大似然函數(shù)為：

有了P是不夠的！我們要擬合原始數(shù)據(jù)引入sigmoid假設(shè)：擴(kuò)展知識(shí)點(diǎn)：廣義線性模型假設(shè)logistic回歸logistic回歸推導(dǎo)

擴(kuò)展知識(shí)點(diǎn)：廣義線性模型假設(shè)：

logistic回歸繼續(xù)推導(dǎo)

強(qiáng)調(diào)：雖然logistic回歸是最基本的分類模型，但它的使用極為廣泛，尤其在金融、推薦、商業(yè)化等場(chǎng)景中。logistic回歸練習(xí)：使用logistic回歸對(duì)鳶尾花數(shù)據(jù)做分類

logistic回歸logistic回歸是一種分類算法模型簡(jiǎn)單、計(jì)算量較小對(duì)異常數(shù)據(jù)點(diǎn)并不敏感對(duì)數(shù)據(jù)預(yù)處理要求較高

logistic回歸思考，如下數(shù)據(jù)能夠使用logistic分類嗎？這個(gè)技巧稱為核(kernel)方法，是一種非線性分類器，想深入研究的同學(xué)們可以自行查閱svm、kernel相關(guān)資料。Q&A?

Disscussion決策樹決策樹能用來做回歸，也可以用來做分類是一類算法的總稱

決策樹是描述對(duì)數(shù)據(jù)進(jìn)行分類的樹形模型，可以是二叉樹或非二叉樹，內(nèi)部節(jié)點(diǎn)(綠色)表示一個(gè)特征或?qū)傩?，葉子節(jié)點(diǎn)(橘色)表示一個(gè)結(jié)果類。在做回歸任務(wù)時(shí)，以葉子節(jié)點(diǎn)的值指代輸出值。思考：分類標(biāo)準(zhǔn)如何選定？決策樹信息熵：表征了信息不確定性的程度分類屬性應(yīng)當(dāng)以最高熵減為標(biāo)準(zhǔn)進(jìn)行人種分類訓(xùn)練數(shù)據(jù)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo考慮一本書，只有一個(gè)中文漢子，編碼它需要幾個(gè)字節(jié)呢？決策樹以眼睛顏色分類：s(d1)以頭發(fā)顏色分類：s(d2)以身高分類：s(d3)以體重分類：s(d4)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo決策樹上文中計(jì)算了信息增益(等同于信息熵減)，也即間接的利用了所謂的條件熵，這里給出形式化的推導(dǎo)H(Y|X)=H(X,Y)-H(X)決策樹具體步驟

(1)、首先選擇“眼睛”這個(gè)屬性(2)、分裂出三個(gè)中間節(jié)點(diǎn)，之后選擇其他屬性，繼續(xù)劃分(3)、直到新節(jié)點(diǎn)中的類別均一致，或特征都用盡為止思考：第(3)步是最好的情況嗎？剪枝、限制樹高等以上，就是決策樹中的ID3算法決策樹思考如下問題：如果數(shù)據(jù)某一列是人員id(數(shù)字)，那么按信息增益的分裂方式，該列一定會(huì)被作為首選屬性，然而這對(duì)泛化性能毫無益處

這是ID3算法的缺陷，因此C4.5算法采用了信息增益率

隨機(jī)森林一棵樹比較單薄弱分類器的bagging策略隨機(jī)森林在bagging策略上作出修改：(1)、bootstrap采樣

(2)、隨機(jī)選擇特征，選擇最佳屬性建立決策樹(3)、形成隨機(jī)森林，通過投票得到結(jié)果

注：bootstrap來自于”pullupbyyourownbootstraps”，意思是依靠自己的資源，稱為自助法。前面已經(jīng)講過，這是一種對(duì)樣本的重復(fù)利用方法。OOB數(shù)據(jù)：約為36%，用作測(cè)試數(shù)據(jù)。投票!隨機(jī)森林思考如下問題：(1)logistic回歸能否用于形成隨機(jī)森林

(2)隨機(jī)森林有什么好處，同時(shí)有什么問題？

假定當(dāng)前已經(jīng)得到了m-1棵決策樹，是否可以通過現(xiàn)有樣本和決策樹的信息，對(duì)第m棵決策樹的建立產(chǎn)生有益的影響呢？提升提升是一種機(jī)器學(xué)習(xí)思想，可以用于回歸和分類問題，它每一步產(chǎn)生一個(gè)弱預(yù)測(cè)模型，并加權(quán)累加至總模型中，如果每一步?jīng)Q策樹的生成都是根據(jù)損失函數(shù)的梯度方向，則稱之為梯度提升(Gradientboosting)梯度提升算法首先假設(shè)一個(gè)損失函數(shù)，對(duì)于回歸可以采用L2Loss,在這個(gè)基礎(chǔ)上，通過迭代選擇一個(gè)負(fù)梯度方向上的基分類器來逼近局部最小值考慮利用已有信息，每棵樹都在之前的結(jié)果上擬合殘差使用一階導(dǎo)得到gbdt(gradientboostingdecisiontree)、二階導(dǎo)得到xgboost

提升GBDT模型訓(xùn)練數(shù)據(jù)：f(x,y,z)=1,2,3,4,5F0如何選擇？損失函數(shù)計(jì)算？Fm呢？強(qiáng)調(diào)：GBDT基于的決策樹，是一種回歸樹。同時(shí)既不是以ID3、C4.5為方式劃分的，也不是以CART方式劃分的。它的分割方式是窮舉每一個(gè)特征分割點(diǎn)，使LSL最小。提升回顧二階泰勒展開xgboost利用了二階導(dǎo)，并加入了正則化處理提升繼續(xù)推導(dǎo)提升舉個(gè)例子強(qiáng)調(diào)：在一棵樹的構(gòu)建之內(nèi)，不斷選擇分割屬性，并枚舉分割點(diǎn)，使損失函數(shù)下降最快。決策樹練習(xí)：使用xgboost對(duì)鳶尾花數(shù)據(jù)做分類

決策樹總結(jié)決策樹是一類具有可解釋性、泛化性能較好的模型精度高、無需特征歸一化，能夠處理缺失值，共線性特征適合于低維稠密數(shù)據(jù)，不適合高維稀疏數(shù)據(jù)決策樹類算法兼具特征選擇能力在金融、推薦、商業(yè)化領(lǐng)域用途十分廣泛

樸素貝葉斯自然語言處理泛談

南京/市長(zhǎng)/江大橋南京市/長(zhǎng)江/大橋切詞是自然語言處理中最基礎(chǔ)、最重要的工作。切詞是否準(zhǔn)確，直接影響到文本處理的精確度。由于中文的特殊性，切詞精度問題在很長(zhǎng)一段時(shí)期內(nèi)無法得到較好的改善。詞典法規(guī)則法語言模型基于隱馬爾可夫模型等基于LSTM模型，序列標(biāo)注交集型歧義：結(jié)婚的和尚未結(jié)婚的他說的確實(shí)在理組合型歧義：學(xué)生會(huì)宣傳部把手抬起來樸素貝葉斯語言模型看成句子出現(xiàn)的概率問題：這樣分詞問題算是有了一個(gè)可用的解決方案，同時(shí)機(jī)器翻譯等任務(wù)也被整合成了語言模型之間的映射問題。思考：這樣做有什么問題？取n-gram這是語言模型的基礎(chǔ)工作，常見的是3-gram樸素貝葉斯再次回顧貝葉斯公式：

假設(shè)有正常/垃圾兩類文本的訓(xùn)練數(shù)據(jù)，上述公式的意思也可以這樣表達(dá)：思考：A可能是一篇文章、一句話，上述模型如何求解呢？樸素貝葉斯樸素貝葉斯是最基礎(chǔ)的文本分類模型它對(duì)文本做了馬爾科夫假設(shè)

強(qiáng)調(diào)：文本上的馬爾科夫假設(shè)是非常強(qiáng)的約束樸素貝葉斯效果較好，與文本的稀疏性有關(guān)樸素貝葉斯舉個(gè)例子

訓(xùn)練語料內(nèi)容垃圾1您好，請(qǐng)關(guān)注xxx機(jī)器學(xué)習(xí)產(chǎn)品，我們的聯(lián)系方式是xxx12老師好，我想請(qǐng)教您一個(gè)機(jī)器學(xué)習(xí)的問題03最新優(yōu)惠促銷，打折甩賣，免費(fèi)產(chǎn)品咨詢14基于區(qū)塊鏈的版權(quán)數(shù)據(jù)保護(hù)，是

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 辦公表格

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

python人工智能課程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

python人工智能課程

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔