




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)實(shí)踐聲明Acknowledgments假設(shè)參與此門課程的同學(xué)具有python基礎(chǔ)及高等數(shù)學(xué)基礎(chǔ)。不要求有深刻的算法基礎(chǔ),但對(duì)于基本的數(shù)據(jù)結(jié)構(gòu)和算法要有一定了解。參考資料:取自于sklearn、tensorflow官方網(wǎng)站、斯坦福大學(xué)CS224d、CS231n課件、Github的部分代碼倉(cāng)庫(kù)、部分來源于網(wǎng)絡(luò)和搜索引擎,也有部分資料和代碼是自行完成的。參考書籍:《機(jī)器學(xué)習(xí)》、《統(tǒng)計(jì)學(xué)習(xí)方法》、《模式識(shí)別與機(jī)器學(xué)習(xí)》、《Hands-OnMachineLearningWithScikit-Learn&TensorFlow》等課后如果有問題,歡迎聯(lián)系交流Day1大綱
?人工智能概述?人工智能中的數(shù)學(xué)基礎(chǔ)?
回歸與分類
?線性回歸,Logistic回歸,Softmax回歸
?決策樹
?多種決策樹模型,Bagging,Boosting思想
?樸素貝葉斯
?自然語言處理,文本分類人工智能概述從人工智能談起智能設(shè)備、聊天機(jī)器人、無人駕駛、機(jī)器人/x/page/y03792kgjj1.html什么是人工智能?人工智能(ArtificialIntelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它試圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器。機(jī)器人語音識(shí)別圖像識(shí)別自然語言處理專家系統(tǒng)知識(shí)工程機(jī)器學(xué)習(xí)人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣的思考,甚至超過人的智能。弱人工智能、強(qiáng)人工智能、超人工智能弱人工智能ArtificialNarrowIntelligence(ANI):弱人工智能是擅長(zhǎng)于單個(gè)方面的人工智能。強(qiáng)人工智能ArtificialGeneralIntelligence(AGI):人類級(jí)別的人工智能。強(qiáng)人工智能是指在各方面都能喝人類比肩的人工智能,人類能干的腦力活它都能干。超人工智能ArtificialSuperIntelligence(ASI):知名人工智能思想家NickBostrom把超級(jí)智能定義為”在幾乎所有領(lǐng)域都比最聰明的人類大腦都聰明很多,包括科學(xué)創(chuàng)新、通識(shí)和社交技能“。圖靈測(cè)試人工智能的歷史1956年夏天:達(dá)特茅斯會(huì)議,提出“人工智能“20世紀(jì)60年代:感知機(jī)20世紀(jì)70年代:專家系統(tǒng)、知識(shí)工程20世紀(jì)80年代:日本第五代機(jī)20世紀(jì)90年代:統(tǒng)計(jì)機(jī)器學(xué)習(xí)2006年:深度學(xué)習(xí)2012年:卷積神經(jīng)網(wǎng)絡(luò)...人工智能的歷史AI發(fā)展現(xiàn)狀?機(jī)器是否具有真正的智能人眼中的圖像機(jī)器是否具有真正的智能計(jì)算機(jī)眼中的圖像目前只能實(shí)現(xiàn)感知智能,尚無法實(shí)現(xiàn)推理智能舉個(gè)例子還有很長(zhǎng)的路要走計(jì)算機(jī)無法真正理解符號(hào)、數(shù)字背后的語義所有的行為都是在“猜”圖像、語音:原始信息,感知智能語言、藝術(shù):人工信息,推理智能學(xué)習(xí)方法打好機(jī)器學(xué)習(xí)基礎(chǔ)學(xué)會(huì)原理、注重聯(lián)系動(dòng)手實(shí)踐分析數(shù)據(jù),提升google機(jī)器學(xué)習(xí)教程:/x/page/y03792kgjj1.htmlAngrewNG機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等課程準(zhǔn)備工作
?安裝anaconda3并配置pycharm?安裝sklearn/numpy/pandas/matplotlib/xgboost?
安裝pycharm,并設(shè)置python解釋器路徑?編寫hello,world并成功執(zhí)行人工智能中的數(shù)學(xué)基礎(chǔ)數(shù)學(xué)分析映射與函數(shù)極限導(dǎo)數(shù)
導(dǎo)數(shù)是曲線的斜率,是曲線變化快慢的反應(yīng);可導(dǎo)一定連續(xù),反之不然思考:極值如何求解?數(shù)學(xué)分析常用函數(shù)求導(dǎo)公式動(dòng)手實(shí)踐(2):求sigmoid函數(shù)導(dǎo)數(shù)數(shù)學(xué)分析泰勒展開式常用函數(shù)的泰勒展開在某鄰域內(nèi),存在一階近似、二階近似、逼近非線性函數(shù)求解數(shù)學(xué)分析梯度下降法
練習(xí):使用梯度下降法求解y=x2思考:什么情況下有全局最優(yōu)解?
1
0J(
0,1)
0
1J(
0,1)數(shù)學(xué)分析練習(xí)
sgd.py運(yùn)行平方函數(shù)→平方函數(shù)的導(dǎo)數(shù)→數(shù)學(xué)分析練習(xí)
sgd.py運(yùn)行GD_decay:x_start-初始位置df-平方函數(shù)epochs-迭代次數(shù)lr-學(xué)習(xí)率decay-學(xué)習(xí)率衰減系數(shù)循環(huán):迭代計(jì)算下一次x的位置數(shù)學(xué)分析首先生成基礎(chǔ)采樣點(diǎn)給后面使用做了雙重驗(yàn)證并繪制圖像數(shù)學(xué)分析梯度下降法
xt+1=xt-af'(xt)”最快”過于盲目、有缺陷進(jìn)一步利用曲線二階導(dǎo)的信息進(jìn)行迭代求解,稱為牛頓法xt+1=xt-f'(xt)/f''(xt)數(shù)學(xué)分析多元函數(shù)的導(dǎo)數(shù)如何表達(dá)?多元函數(shù)的梯度呢?多元函數(shù)的二階導(dǎo)是什么?f(x)=f(x1,x2,...)一階(偏)導(dǎo)數(shù):f'x1(x1,x2...),f'x2(x1,x2...),...,它們的線性加和稱為方向?qū)?shù)hessian矩陣G數(shù)學(xué)分析總結(jié)
變量、函數(shù)求導(dǎo)規(guī)則、泰勒展開式Y(jié)anLeCun:可微分式編程線性代數(shù)線性變換指旋轉(zhuǎn)、推移,他們的組合是線性變換為什么研究線性變換線性代數(shù)矩陣和乘法矩陣的本質(zhì):線性變換!什么情況下矩陣乘法是旋轉(zhuǎn)矩陣呢?線性代數(shù)矩陣僅對(duì)角線有非零值的矩陣為縮放矩陣,對(duì)角線元素代表了每個(gè)維度的縮放強(qiáng)度列向量正交且為單位向量的矩陣,也即正交陣為旋轉(zhuǎn)矩陣思考:這兩個(gè)矩陣的現(xiàn)實(shí)意義?線性代數(shù)分離技術(shù)->特征值分解非常重要且廣泛的應(yīng)用包括:控制系統(tǒng)推薦系統(tǒng)文本相似度處理圖像壓縮...線性代數(shù)分離技術(shù)->svd/NFM分解useritem線性代數(shù)再看特征值分解相似矩陣思考:(1)變換與逆矩陣(2)什么情況下有逆矩陣(3)P與P的逆乘積線性代數(shù)行列式考察單位陣、旋轉(zhuǎn)陣行列式的本質(zhì):線性變換的縮放因子變換是否降維(秩)線性代數(shù)總結(jié)矩陣<==>線性變換特征值<==>縮放強(qiáng)度行列式<==>縮放強(qiáng)度概率論概率與直觀不斷拋擲一枚硬幣,得到正面與反面的頻率比例是多少呢?
經(jīng)過無數(shù)次拋擲,頻率的極限趨近于X?拋擲趨于無窮次時(shí),正反面頻率一致,根據(jù)大數(shù)定理概率論概率的計(jì)算已知A、B獨(dú)立時(shí)概率論條件概率全概率公式貝葉斯公式練習(xí):小明有8支步槍,其中有5支校準(zhǔn)過。校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.8,沒有校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.3,現(xiàn)小明隨機(jī)的選一支槍,結(jié)果中靶,問該槍已被校準(zhǔn)的概率。概率論根據(jù)貝葉斯公式概率論重溫貝葉斯公式強(qiáng)調(diào):這是一個(gè)非常重要的公式,記住它,基本就掌握了機(jī)器學(xué)習(xí)一半的內(nèi)容概率論期望與方差E(x)表征了數(shù)據(jù)的加權(quán)平均值,D(x)表征了數(shù)據(jù)的波動(dòng)程度概率論變量的分布
有一類試驗(yàn),比如拋擲硬幣得到正面還是反面,項(xiàng)目成功或失敗,產(chǎn)品是否有缺陷,只有兩個(gè)可能結(jié)果。記這兩個(gè)可能的結(jié)果為0和1,該分布就稱為伯努利分布。概率論變量的分布
伯努利分布重復(fù)N次,就構(gòu)成了二項(xiàng)分布。排列、組合數(shù)公式復(fù)習(xí):袋子中有五個(gè)標(biāo)號(hào)的小球,每次從中抽取一個(gè),抽取三次,得到的排列方式有多少種呢?袋子中有五個(gè)標(biāo)號(hào)的小球,每次抽取一個(gè),抽取三次,不考慮球之間的順序,得到的編號(hào)組合有多少種呢?概率論變量的分布
高斯分布,服從中心極限定律,是非常重要的分布。概率論練習(xí)
multi_guassian.py
概率論熵
世界杯比賽有32支球隊(duì)參加,最少用多少bit信息表示出最后獲勝的隊(duì)伍?總結(jié)人工智能中的數(shù)學(xué)并不難,關(guān)鍵是掌握常用的思維方式練習(xí)推導(dǎo),理解數(shù)學(xué)表達(dá)式所蘊(yùn)含的現(xiàn)實(shí)意義
機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)基礎(chǔ)理論和概念機(jī)器學(xué)習(xí)基本方法項(xiàng)目實(shí)戰(zhàn)分析機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)主要是研究如何使計(jì)算機(jī)從給定數(shù)據(jù)中學(xué)習(xí)規(guī)律,并利用學(xué)習(xí)到的規(guī)律(模型)來對(duì)未知或無法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講,分為:監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)從學(xué)習(xí)結(jié)果上講,分為:回歸分類強(qiáng)調(diào):目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講,分為:監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)從學(xué)習(xí)結(jié)果上講,分為:回歸分類強(qiáng)調(diào):目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work線性回歸線性回歸是最基礎(chǔ)的回歸算法
train0123456789x0123456789y24.6-24.012.2-55.9-57.816.5-7.9-17.3-23.187.4思考:x與y符合什么關(guān)系呢?觀察到x與y的關(guān)系(模型選擇),y=ax+b,建立線性回歸模型通過優(yōu)化方法設(shè)法擬合數(shù)據(jù),得到最優(yōu)的a評(píng)估該模型是否準(zhǔn)確,查看訓(xùn)練集上的準(zhǔn)確率評(píng)估該模型的泛化性能,在測(cè)試集上的準(zhǔn)確率線性回歸基本概念訓(xùn)練集測(cè)試集(交叉驗(yàn)證法、自助法等)目標(biāo)函數(shù)損失函數(shù)
優(yōu)化方法擬合、過擬合準(zhǔn)確率、泛化性能
線性回歸
目標(biāo)函數(shù)、優(yōu)化方法推導(dǎo)不可能有一個(gè)理想的線性函數(shù)經(jīng)過所有訓(xùn)練集的數(shù)據(jù)點(diǎn),這個(gè)問題怎么處理呢?高斯:“把偏移都看做誤差”這又是一個(gè)假設(shè),但是機(jī)器學(xué)習(xí)的套路就是這樣的線性回歸
使用求極值方法求解目標(biāo)函數(shù)線性回歸
使用求極值方法求解目標(biāo)函數(shù)思考:XTX一定可逆嗎?線性回歸
直接采用極值方法求解,有什么缺點(diǎn)?如果不是拿到所有樣本點(diǎn)再求解,僅僅只看眼前的梯度逐漸求解呢?線性回歸
使用梯度下降法求解目標(biāo)函數(shù)
1
0J(
0,1)線性回歸只根據(jù)眼前的路徑梯度下降求解的方法,稱為隨機(jī)梯度下降法(SGD)實(shí)際上使用樣本的過程中,出于效率和穩(wěn)定性的考慮,我們使用MiniBatch-SGD方法,使用批處理平均來進(jìn)行梯度更新,而不是對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行一次梯度更新
思考:目標(biāo)函數(shù)一定有最小值嗎?線性回歸進(jìn)一步分析
可以對(duì)樣本是非線性的,對(duì)系數(shù)是線性的polynomial方法線性回歸準(zhǔn)確度評(píng)估對(duì)于連續(xù)數(shù)據(jù)(回歸問題),一般使用方差評(píng)估對(duì)于離散數(shù)據(jù)(分類問題)accuracy、precision/recall例:訓(xùn)練樣本有100個(gè),正負(fù)標(biāo)記各50個(gè),經(jīng)過模型分類后,正負(fù)樣本結(jié)果仍為各50個(gè)。在正樣本中,分對(duì)40個(gè),分錯(cuò)10個(gè),負(fù)樣本中,分對(duì)30個(gè),分錯(cuò)20個(gè),則:accuracy=(100-10-20)/100=0.7precision=40/50=0.8recall=40/60
=0.66
線性回歸準(zhǔn)確度評(píng)估
強(qiáng)調(diào):F1越大越好,最大值是1,對(duì)于二分類問題,F(xiàn)1=0.5就等價(jià)于”胡猜”線性回歸再談準(zhǔn)確度問題
訓(xùn)練集上的P、R達(dá)到100%,是最好的情況嗎?
線性回歸避免過擬合,引入正則化技術(shù)
分別稱為L(zhǎng)ASSO回歸、Ridge回歸LASSO具有稀疏作用,Ridge收斂更快我們說,目標(biāo)函數(shù)仍然是不帶正則化的原函數(shù),經(jīng)過改造的上式稱為損失函數(shù)強(qiáng)調(diào):優(yōu)化的目標(biāo)就是讓loss最小線性回歸練習(xí):使用線性回歸預(yù)測(cè)房?jī)r(jià)走勢(shì)
degree線性回歸模型擬合及預(yù)測(cè)線性回歸
線性回歸是一種回歸算法模型簡(jiǎn)單、計(jì)算量較小對(duì)誤差敏感對(duì)數(shù)據(jù)預(yù)處理要求較高思考:能否使用線性回歸解決分類問題呢?logistic回歸logistic回歸是最基礎(chǔ)的分類算法回顧伯努利分布,一次實(shí)驗(yàn)的結(jié)果只有0、1兩種選擇根據(jù)貝葉斯公式,如果只考慮P(A|B),則稱為極大似然估計(jì)
以硬幣實(shí)驗(yàn)為例,現(xiàn)投擲10次,出現(xiàn)正面6次,反面4次假設(shè)硬幣正反概率出現(xiàn)的先驗(yàn)分布P(B)均勻,且上述證據(jù)P(A)已成定局,則求P(B|A)就是求P(A|B)即似然函數(shù)的最大值logistic回歸logistic回歸推導(dǎo)根據(jù)極大似然估計(jì),假設(shè)事件發(fā)生的概率是p,則最大似然函數(shù)為:
有了P是不夠的!我們要擬合原始數(shù)據(jù)引入sigmoid假設(shè):擴(kuò)展知識(shí)點(diǎn):廣義線性模型假設(shè)logistic回歸logistic回歸推導(dǎo)
擴(kuò)展知識(shí)點(diǎn):廣義線性模型假設(shè):
logistic回歸繼續(xù)推導(dǎo)
強(qiáng)調(diào):雖然logistic回歸是最基本的分類模型,但它的使用極為廣泛,尤其在金融、推薦、商業(yè)化等場(chǎng)景中。logistic回歸練習(xí):使用logistic回歸對(duì)鳶尾花數(shù)據(jù)做分類
logistic回歸logistic回歸是一種分類算法模型簡(jiǎn)單、計(jì)算量較小對(duì)異常數(shù)據(jù)點(diǎn)并不敏感對(duì)數(shù)據(jù)預(yù)處理要求較高
logistic回歸思考,如下數(shù)據(jù)能夠使用logistic分類嗎?這個(gè)技巧稱為核(kernel)方法,是一種非線性分類器,想深入研究的同學(xué)們可以自行查閱svm、kernel相關(guān)資料。Q&A?
Disscussion決策樹決策樹能用來做回歸,也可以用來做分類是一類算法的總稱
決策樹是描述對(duì)數(shù)據(jù)進(jìn)行分類的樹形模型,可以是二叉樹或非二叉樹,內(nèi)部節(jié)點(diǎn)(綠色)表示一個(gè)特征或?qū)傩?,葉子節(jié)點(diǎn)(橘色)表示一個(gè)結(jié)果類。在做回歸任務(wù)時(shí),以葉子節(jié)點(diǎn)的值指代輸出值。思考:分類標(biāo)準(zhǔn)如何選定?決策樹信息熵:表征了信息不確定性的程度分類屬性應(yīng)當(dāng)以最高熵減為標(biāo)準(zhǔn)進(jìn)行人種分類訓(xùn)練數(shù)據(jù)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo考慮一本書,只有一個(gè)中文漢子,編碼它需要幾個(gè)字節(jié)呢?決策樹以眼睛顏色分類:s(d1)以頭發(fā)顏色分類:s(d2)以身高分類:s(d3)以體重分類:s(d4)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo決策樹上文中計(jì)算了信息增益(等同于信息熵減),也即間接的利用了所謂的條件熵,這里給出形式化的推導(dǎo)H(Y|X)=H(X,Y)-H(X)決策樹具體步驟
(1)、首先選擇“眼睛”這個(gè)屬性(2)、分裂出三個(gè)中間節(jié)點(diǎn),之后選擇其他屬性,繼續(xù)劃分(3)、直到新節(jié)點(diǎn)中的類別均一致,或特征都用盡為止思考:第(3)步是最好的情況嗎?剪枝、限制樹高等以上,就是決策樹中的ID3算法決策樹思考如下問題:如果數(shù)據(jù)某一列是人員id(數(shù)字),那么按信息增益的分裂方式,該列一定會(huì)被作為首選屬性,然而這對(duì)泛化性能毫無益處
這是ID3算法的缺陷,因此C4.5算法采用了信息增益率
隨機(jī)森林一棵樹比較單薄弱分類器的bagging策略隨機(jī)森林在bagging策略上作出修改:(1)、bootstrap采樣
(2)、隨機(jī)選擇特征,選擇最佳屬性建立決策樹(3)、形成隨機(jī)森林,通過投票得到結(jié)果
注:bootstrap來自于”pullupbyyourownbootstraps”,意思是依靠自己的資源,稱為自助法。前面已經(jīng)講過,這是一種對(duì)樣本的重復(fù)利用方法。OOB數(shù)據(jù):約為36%,用作測(cè)試數(shù)據(jù)。投票!隨機(jī)森林思考如下問題:(1)logistic回歸能否用于形成隨機(jī)森林
(2)隨機(jī)森林有什么好處,同時(shí)有什么問題?
假定當(dāng)前已經(jīng)得到了m-1棵決策樹,是否可以通過現(xiàn)有樣本和決策樹的信息,對(duì)第m棵決策樹的建立產(chǎn)生有益的影響呢?提升提升是一種機(jī)器學(xué)習(xí)思想,可以用于回歸和分類問題,它每一步產(chǎn)生一個(gè)弱預(yù)測(cè)模型,并加權(quán)累加至總模型中,如果每一步?jīng)Q策樹的生成都是根據(jù)損失函數(shù)的梯度方向,則稱之為梯度提升(Gradientboosting)梯度提升算法首先假設(shè)一個(gè)損失函數(shù),對(duì)于回歸可以采用L2Loss,在這個(gè)基礎(chǔ)上,通過迭代選擇一個(gè)負(fù)梯度方向上的基分類器來逼近局部最小值考慮利用已有信息,每棵樹都在之前的結(jié)果上擬合殘差使用一階導(dǎo)得到gbdt(gradientboostingdecisiontree)、二階導(dǎo)得到xgboost
提升GBDT模型訓(xùn)練數(shù)據(jù):f(x,y,z)=1,2,3,4,5F0如何選擇?損失函數(shù)計(jì)算?Fm呢?強(qiáng)調(diào):GBDT基于的決策樹,是一種回歸樹。同時(shí)既不是以ID3、C4.5為方式劃分的,也不是以CART方式劃分的。它的分割方式是窮舉每一個(gè)特征分割點(diǎn),使LSL最小。提升回顧二階泰勒展開xgboost利用了二階導(dǎo),并加入了正則化處理提升繼續(xù)推導(dǎo)提升舉個(gè)例子強(qiáng)調(diào):在一棵樹的構(gòu)建之內(nèi),不斷選擇分割屬性,并枚舉分割點(diǎn),使損失函數(shù)下降最快。決策樹練習(xí):使用xgboost對(duì)鳶尾花數(shù)據(jù)做分類
決策樹總結(jié)決策樹是一類具有可解釋性、泛化性能較好的模型精度高、無需特征歸一化,能夠處理缺失值,共線性特征適合于低維稠密數(shù)據(jù),不適合高維稀疏數(shù)據(jù)決策樹類算法兼具特征選擇能力在金融、推薦、商業(yè)化領(lǐng)域用途十分廣泛
樸素貝葉斯自然語言處理泛談
南京/市長(zhǎng)/江大橋南京市/長(zhǎng)江/大橋切詞是自然語言處理中最基礎(chǔ)、最重要的工作。切詞是否準(zhǔn)確,直接影響到文本處理的精確度。由于中文的特殊性,切詞精度問題在很長(zhǎng)一段時(shí)期內(nèi)無法得到較好的改善。詞典法規(guī)則法語言模型基于隱馬爾可夫模型等基于LSTM模型,序列標(biāo)注交集型歧義:結(jié)婚的和尚未結(jié)婚的他說的確實(shí)在理組合型歧義:學(xué)生會(huì)宣傳部把手抬起來樸素貝葉斯語言模型看成句子出現(xiàn)的概率問題:這樣分詞問題算是有了一個(gè)可用的解決方案,同時(shí)機(jī)器翻譯等任務(wù)也被整合成了語言模型之間的映射問題。思考:這樣做有什么問題?取n-gram這是語言模型的基礎(chǔ)工作,常見的是3-gram樸素貝葉斯再次回顧貝葉斯公式:
假設(shè)有正常/垃圾兩類文本的訓(xùn)練數(shù)據(jù),上述公式的意思也可以這樣表達(dá):思考:A可能是一篇文章、一句話,上述模型如何求解呢?樸素貝葉斯樸素貝葉斯是最基礎(chǔ)的文本分類模型它對(duì)文本做了馬爾科夫假設(shè)
強(qiáng)調(diào):文本上的馬爾科夫假設(shè)是非常強(qiáng)的約束樸素貝葉斯效果較好,與文本的稀疏性有關(guān)樸素貝葉斯舉個(gè)例子
訓(xùn)練語料內(nèi)容垃圾1您好,請(qǐng)關(guān)注xxx機(jī)器學(xué)習(xí)產(chǎn)品,我們的聯(lián)系方式是xxx12老師好,我想請(qǐng)教您一個(gè)機(jī)器學(xué)習(xí)的問題03最新優(yōu)惠促銷,打折甩賣,免費(fèi)產(chǎn)品咨詢14基于區(qū)塊鏈的版權(quán)數(shù)據(jù)保護(hù),是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年醫(yī)用消毒滅菌設(shè)備項(xiàng)目合作計(jì)劃書
- 科技與可持續(xù)性綠色建筑設(shè)計(jì)的未來路徑
- 合同范本專項(xiàng)條款
- 科技職場(chǎng)溝通禮儀與實(shí)踐
- 公眾號(hào)廣告推廣合同范本
- 口腔會(huì)議合同范本
- 合同范本與合同區(qū)別
- 雙方購(gòu)房轉(zhuǎn)讓合同范本
- 內(nèi)墻涂料仿瓷施工合同范本
- 叉車腳輪銷售合同范例
- 最大攝氧量的測(cè)定
- 人教版四年級(jí)上冊(cè)脫式計(jì)算200題及答案
- 國(guó)網(wǎng)充電站運(yùn)維安全管理
- 青海2024年01月青海省省直機(jī)關(guān)遴選公務(wù)員69人^2024年國(guó)家公務(wù)員考試考試大綱歷年真題筆試歷年高頻考點(diǎn)難、易錯(cuò)點(diǎn)薈萃附答案帶詳解
- 無產(chǎn)權(quán)房屋買賣合同模板
- 一年級(jí)美術(shù)課后輔導(dǎo)教案-1
- 六年級(jí)上冊(cè)數(shù)學(xué)200道口算題
- 能斷金剛:超凡的經(jīng)營(yíng)智慧
- 甲狀旁腺疾病匯報(bào)演示課件
- 智慧社區(qū)建設(shè)中的智能化醫(yī)療與康養(yǎng)服務(wù)
- 大學(xué)英語精讀課文第三冊(cè)
評(píng)論
0/150
提交評(píng)論