統(tǒng)計自然語言處理基本概念_第1頁
統(tǒng)計自然語言處理基本概念_第2頁
統(tǒng)計自然語言處理基本概念_第3頁
統(tǒng)計自然語言處理基本概念_第4頁
統(tǒng)計自然語言處理基本概念_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計自然語言處理基本概念第1頁,課件共73頁,創(chuàng)作于2023年2月模型真實世界中的系統(tǒng)模型1InputOutput模型2Output1Output2如果Output1總是和Ouput接近,Output2總是和Output偏離,我們就認為模型1比模型2好第2頁,課件共73頁,創(chuàng)作于2023年2月

真實系統(tǒng)模型1模型2InputOutput第3頁,課件共73頁,創(chuàng)作于2023年2月第4頁,課件共73頁,創(chuàng)作于2023年2月模型由體系結(jié)構(gòu)和參數(shù)兩部分構(gòu)成舉例:住宅樓多層板樓高層板樓高層塔樓參數(shù)層數(shù):戶型:三室一廳,兩室一廳,……舉架高度:供熱方式:地熱?暖氣片?第5頁,課件共73頁,創(chuàng)作于2023年2月目錄樣本空間(SampleSpace)估計器(Estimator)和隨機過程(StochasticProcess)信息論(InformationTheory)數(shù)據(jù)集分類(DataSetClassification)性能評價(PerformanceMeasure)第6頁,課件共73頁,創(chuàng)作于2023年2月樣本空間

(SampleSpace)第7頁,課件共73頁,創(chuàng)作于2023年2月試驗(Experiment)試驗一個可觀察結(jié)果的人工或自然的過程,其產(chǎn)生的結(jié)果可能不止一個,且不能事先確定會產(chǎn)生什么結(jié)果例如連擲兩次硬幣樣本空間是一個試驗的全部可能出現(xiàn)的結(jié)果的集合舉例連擲兩次硬幣={HH,HT,TH,TT},H:面朝上;T:面朝下第8頁,課件共73頁,創(chuàng)作于2023年2月事件(Event)事件一個試驗的一些可能結(jié)果的集合,是樣本空間的一個子集舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下A={HT,TH,HH},B={HT,TT}第9頁,課件共73頁,創(chuàng)作于2023年2月事件的概率事件的概率重復m試驗,如果事件A出現(xiàn)的次數(shù)為n,則事件A的概率為P(A)=n/m,這稱為概率的頻率解釋,或稱統(tǒng)計解釋頻率的穩(wěn)定性又稱為經(jīng)驗大數(shù)定理舉例:連擲兩次硬幣A:至少一次面朝上B:第二次面朝下P(A)=3/4,P(B)=1/2當試驗不能重復時,概率失去其頻率解釋的含義,此時概率還有其他解釋:貝葉斯學派和信念學派一個人出生時的體重,一個人只能出生一次第10頁,課件共73頁,創(chuàng)作于2023年2月舉例舉例:連續(xù)三次擲硬幣樣本空間={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}事件A:恰好兩次面朝下A={HTT,THT,TTH}做1000次試驗,計數(shù)得386次為兩次面朝下估計:P(A)=386/1000=0.386繼續(xù)做7組試驗,得:373,399,382,355,372,406,359,共8組試驗計算平均值:P(A)=(0.386+0.373+…)/8=0.379,或累計:P(A)=(386+373+…)/8000=3032/8000=0.379統(tǒng)一的分布假設(shè)為:3/8=0.375第11頁,課件共73頁,創(chuàng)作于2023年2月概率空間概率空間的三個公理P(A)0P()=1P(AB)=P(A)+P(B)ifAB=這三條公理也是概率的原始定義推論:P()=0;ABP(A)<P(B);P(ā)=1-P(A)不是所有0和1之間的值都是概率例如:|cos(x)|就不是概率第12頁,課件共73頁,創(chuàng)作于2023年2月概率空間圖示ABAB第13頁,課件共73頁,創(chuàng)作于2023年2月聯(lián)合事件A和B兩個事件的聯(lián)合概率就是A和B兩個事件同時出現(xiàn)的概率A和B的聯(lián)合概率表示為:P(A,B)或P(AB)舉例:連擲兩次硬幣事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}聯(lián)合事件AB={HT}第14頁,課件共73頁,創(chuàng)作于2023年2月條件概率在事件B發(fā)生的條件下事件A發(fā)生的概率P(A|B)=P(A,B)/P(B)P(A|B)=(c(A,B)/T)/(c(B)/T)=c(A,B)/c(B)c(A)代表事件A出現(xiàn)的次數(shù),c(B)同理T是試驗總次數(shù)舉例:兩次擲硬幣問題事件A:第一次面朝上,A={HH,HT}事件B:第二次面朝下,B={HT,TT}AB={HT}P(A|B)=1/2條件概率可以被視為從另外一個樣本空間產(chǎn)生第15頁,課件共73頁,創(chuàng)作于2023年2月概率的乘法原理P(A,B)=P(A|B)P(B)=P(B|A)P(A)ChainRuleP(A1,A2,…,An)=P(A1)P(A2|A1)P(A3|A1,A2)…P(An|A1,A2,…,An)舉例1:詞性標注P(det,adj,n)=P(det)P(adj|det)P(n|det,adj)舉例2:計算一個句子的概率p(w1,w2,…,wn)=p(w1)p(w2|w1)……p(wn|w1…wn-1)第16頁,課件共73頁,創(chuàng)作于2023年2月獨立和條件獨立獨立定義:P(A,B)=P(A)P(B)P(A|B)=P(A),P(B|A)=P(B)條件獨立定義:P(A,B|C)=P(A|B,C)P(B|C)=P(A|C)P(B|C)P(A|B,C)=P(A|C),P(B|A,C)=P(B|C)Na?veBaiysian:假定各特征之間條件獨立P(A1,A2,…,An|B)=i=1,…,nP(Ai|B)避免一個錯誤:P(A|B,C)=P(A|B)P(A|C)第17頁,課件共73頁,創(chuàng)作于2023年2月獨立和條件獨立獨立不意味著條件獨立舉例:色盲和血緣關(guān)系A(chǔ):甲是色盲B:乙是色盲C:甲和乙有血緣關(guān)系P(A,B)=P(A)P(B)P(A,B|C)P(A|C)P(B|C)條件獨立不意味著獨立P(肺癌,買雪茄|吸煙)=P(肺癌|吸煙)P(買雪茄|吸煙)P(肺癌,買雪茄)P(肺癌)P(買雪茄)第18頁,課件共73頁,創(chuàng)作于2023年2月Bayes’Rule根據(jù)乘法原理:P(A,B)=P(A)P(B|A)=P(B)P(A|B)得到貝葉斯原理:P(A|B)=P(A)P(B|A)/P(B)應(yīng)用1argmaxAP(A|B)=argmaxAP(A)P(B|A)/P(B)=argmaxAP(A)P(B|A)應(yīng)用2A1,A2,…,An是特征,B是結(jié)論P(B|A1,A2,…,An)=P(A1,A2,…,An|B)P(B)/P(A1,A2,…,An)其中:P(A1,A2,…,An|B)=i=1,nP(Ai|B)第19頁,課件共73頁,創(chuàng)作于2023年2月Bayes舉例應(yīng)用3英漢統(tǒng)計機器翻譯P(CW1,…,CWm|EW1,…,EWn)=P(EW1,…,EWn|CW1,…,CWm)P(CW1,…,CWm)/P(EW1,…,EWn)漢語句子CW1,…,CWm英語句子EW1,…,EWm翻譯模型:P(EW1,…,EWn|CW1,…,CWm)目標語語言模型:P(CW1,…,CWm)第20頁,課件共73頁,創(chuàng)作于2023年2月隨機變量(RandomVariable)隨機變量是一個函數(shù)X:R。是樣本空間,R是實數(shù)集合人們常常關(guān)心和樣本點有關(guān)的數(shù)量指標數(shù)值也比事件更易于處理,舉例打靶的環(huán)數(shù)舉例:[X=0]={TT};[X=1]={TH,HT};[X=2]={HH}X是兩次擲硬幣面朝上的次數(shù)數(shù)值可以是連續(xù)值,也可以是離散值PX(x)=P(X=x)=dfP(Ax),Ax={a:X(a)=x},通常簡寫作P(x)第21頁,課件共73頁,創(chuàng)作于2023年2月期望Expectation期望是隨機變量的均值E(X)=xX()xPX(x)(對于離散值)E(X)=RxP(x)dx(對于連續(xù)值)舉例:六面擲骰子問題:E(X)=3.511/6+21/6+31/6+41/6+51/6+61/6=3.5兩次六面擲骰子得到的點數(shù)和:E(X)=721/36+32/36+43/36+……=7方差(Variance)E((X-E(X))2)=xX()(x-E(X))2PX(x)(對于離散值)E((X-E(X))2)=R(x-E(X))2P(x)dx(對于連續(xù)值)王勵勤和王皓的期望接近,王勵勤的方差大第22頁,課件共73頁,創(chuàng)作于2023年2月概率分布多項式分布(MultinomialDistribution)P(n1,,nm)=n!/(n1!nm!)p1n1pmnmini=n,做n次試驗輸出第i種結(jié)果的次數(shù)是ni,第i種結(jié)果出現(xiàn)的概率是pi二項式分布(BinomialDistribution)輸出:0或1做n次試驗關(guān)心的是試驗成功的次數(shù)的概率Pb(r|n)=Cnrpr(1-p)n-rCnr是從n個元素中任意取出r個元素的組合數(shù)p是成功的概率如果是等概率分布,則p=1/2,Pb(r|n)=Cnr/2n第23頁,課件共73頁,創(chuàng)作于2023年2月協(xié)方差和相關(guān)系數(shù)協(xié)方差(Covariance)Cxy=E[(X-E(X))(Y-E(Y))]相關(guān)系數(shù)(CorrelationCoefficient)xy=Cxy/(xy)x是隨機變量X的方差y是隨機變量Y的方差-11,>0正相關(guān),<0負相關(guān),=0不相關(guān)第24頁,課件共73頁,創(chuàng)作于2023年2月參數(shù)估計

ParameterEstimation第25頁,課件共73頁,創(chuàng)作于2023年2月參數(shù)估計研究對象的全體所構(gòu)成的集合成為總體(population)數(shù)理統(tǒng)計的任務(wù):已經(jīng)知道總體的一部分個體的指標變量值,以此為出發(fā)點來推斷總體分布的性質(zhì)簡單樣本(simplesample)是指這樣的樣本(X1,X2,…,Xn),它的分量Xi,i=1,…,n是獨立同分布的隨機變量(向量)第26頁,課件共73頁,創(chuàng)作于2023年2月估計器設(shè)(X1,X2,…,Xn)為一個樣本,它的一個與總體分布無關(guān)的函數(shù)(或向量函數(shù))f(X1,X2,…,Xn)稱為一個統(tǒng)計量(statistics)舉例:擲硬幣問題X:面朝上/面朝下T(X1,X2,…,Xn):面朝上的次數(shù)估計器(Estimator)根據(jù)樣本計算參數(shù)一個估計器是隨機變量的函數(shù),同時其自身也可以視為一個隨機變量估計器的準確率依賴于采樣數(shù)據(jù)的大小第27頁,課件共73頁,創(chuàng)作于2023年2月參數(shù)估計所有參數(shù)都是從一個有限的樣本集合中估計出來的一個好的估計器的標準:無偏(unbias):期望等于真實值有效(efficient):方差小一致(consistent):估計的準確性隨樣板數(shù)量的增加而提高一些常用的估計方法極大似然估計最小二成估計貝葉斯估計第28頁,課件共73頁,創(chuàng)作于2023年2月極大似然估計極大似然估計MaximumLikelihoodEstimation(MLE)選擇一組參數(shù),使似然函數(shù)L()達到最大L()=f(x1,x2,…,xn|)=i=1,nf(xi|)舉例:罐里有黑球和白球,比例3:1,今連續(xù)抽取兩球全為黑球,問罐里黑球多還是白球多?設(shè)黑球概率為p,抽取n次拿到x次黑球的概率符合二項分布:fn(x,p)=Cnxpx(1-p)n-x今抽取兩次全是黑球f2(2,p)=C22p2(1-p)0=p2若p=1/4,則f2(2,p)=1/16;若p=3/4,則f2(2,p)=9/16選擇概率大的:p=3/4,黑球多第29頁,課件共73頁,創(chuàng)作于2023年2月隨機過程隨機過程(StochasticProcess)X(t),tTX是一組隨機變量T是過程的索引集合,例如時間或位置如果T是可數(shù)集,則X(t)是離散時間過程舉例:詞性標注C(t),C是詞性,t是位置C(1)=noun,C(2)=verb,…,C(n)=pron第30頁,課件共73頁,創(chuàng)作于2023年2月馬爾可夫過程馬爾可夫過程,也稱馬爾可夫鏈MarcovChain離散時間,離散狀態(tài)無后效性:已知現(xiàn)在狀態(tài),則未來和過去無關(guān)P(Xn=xn|X1=x1,X2=x2,…,Xn-1=xn-1)=P(Xn=xn|Xn-1=xn-1)舉例:拼音輸入法一本[書](輸,淑,叔,舒,……)P(書|一,本)=P(書|本)第31頁,課件共73頁,創(chuàng)作于2023年2月信息論第32頁,課件共73頁,創(chuàng)作于2023年2月信息控制論創(chuàng)始人(維納NorbertWiener)信息既不是物質(zhì)也不是能量,是人類在適應(yīng)外部世界時以及在感知外部世界時而作出協(xié)調(diào)時與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng)ClauseShannon)信息就是能夠用來消除不確定性的東西,是一個事件發(fā)生概率的對數(shù)的負值RobertM.Losee信息可以被定義為一個處理過程的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息信息存在于客體間的差別,而非客體本身題帕三絕新消息的信息量大布什是美國總統(tǒng)(熟知,信息量?。R其頓總統(tǒng)遇難(新知,信息量大)第33頁,課件共73頁,創(chuàng)作于2023年2月信息論1948年美國Shannan香農(nóng)“通信的數(shù)學理論”,用概率測度和數(shù)理統(tǒng)計的方法,系統(tǒng)地討論了通信的基本問題,奠定了信息論的基礎(chǔ)信息的度量有三個基本方向:結(jié)構(gòu)的、統(tǒng)計的和語義的香農(nóng)所說的信息是狹義的信息,是統(tǒng)計信息,依據(jù)是概率的不確定性度量第34頁,課件共73頁,創(chuàng)作于2023年2月自信息量自信息量(Self-information)I(X)=-logP(X)小概率事件包含的信息量大,大概率事件包含的信息量小第35頁,課件共73頁,創(chuàng)作于2023年2月互信息

MutualInformationI(x,y)=log2p(x,y)/(p(x)p(y))比如計算兩個詞的搭配I(偉大,祖國)=log2p(偉大,祖國)/(p(偉大)p(祖國))此值較高,說明“偉大”和“祖國”是一個比較強的搭配I(的,祖國)=log2p(的,祖國)/(p(的)p(祖國))此值較低,因為p(的)太高,“的”和“祖國”不是一個穩(wěn)定的搭配I(x,y)>>0:x和y關(guān)聯(lián)強度大I(x,y)=0:x和y無關(guān)I(x,y)<<0:x和y具有互補的分布第36頁,課件共73頁,創(chuàng)作于2023年2月熵(Entropy)熵(Entropy)Chaos(混沌),無序物理學:除非施加能量,否則熵不會降低舉例:把房間弄亂很容易,整理干凈不容易是不確定性(Uncertainty)的衡量不確定性越高,熵越高,我們從一次實驗中得到的信息量越大第37頁,課件共73頁,創(chuàng)作于2023年2月熵的公式熵H(X)=-xp(x)logxp(x)假設(shè)PX(x)是隨機變量X的分布基本輸出字母表是單位:bits熵是X的平均信息量,是自信息量的期望E(X)=xp(x)

xI(X)=-logp(x),取2為底,I(X)=-log2p(x)E(I(X)=E(-log2p(x))=xp(x)(-log2p(x))

=H(X)H(X)=H(p)=Hp(X)=HX(p)=H(pX)第38頁,課件共73頁,創(chuàng)作于2023年2月熵的例子擲均勻硬幣,={H,T}p(H)=.5,p(T)=.5H(p)=-0.5log20.5+(-0.5log20.5)=132面的均勻骰子,擲骰子H(p)=-32((1/32)log2(1/32))=5事實上,21=2,25=32(perplexity)擲不均勻硬幣p(H)=0.2,p(T)=0.8,H(p)=0.722p(H)=0.01,p(T)=0.99,H(p)=0.081第39頁,課件共73頁,創(chuàng)作于2023年2月好書店,差書店第40頁,課件共73頁,創(chuàng)作于2023年2月什么時候H(p)=0?試驗結(jié)果事先已經(jīng)知道即:x,p(x)=1;y,p(y)=0ifyx熵有沒有上限?沒有一般的上限對于||=n,H(p)log2n均衡分布的熵是最大的第41頁,課件共73頁,創(chuàng)作于2023年2月等概率分布2個輸出的等概率分布,H(p)=1bit32個輸出的等概率分布,H(p)=5bits43億輸出的等概率分布,H(p)=32bits非等概率分布32個輸出,2個0.5,其余為0,H(p)=1bit怎樣比較具有不同數(shù)量輸出的“熵”第42頁,課件共73頁,創(chuàng)作于2023年2月混亂度Perplexity混亂度G(p)=2H(p)平均每次試驗有多少種可能的結(jié)果在NLP中,如果詞表中的詞具有統(tǒng)一的分布概率,則最難預測,熵最大,混亂度最高反之,分布越不均衡,熵越小,混亂度越小第43頁,課件共73頁,創(chuàng)作于2023年2月聯(lián)合熵和條件熵兩個隨機變量:X(空間是),Y()聯(lián)合熵(JointEntropy)(X,Y)被視為一個事件H(X,Y)=-xyp(x,y)log2p(x,y)條件熵(ConditionalEntropy)H(Y|X)=-xyp(x,y)log2p(y|x)p(x,y)是加權(quán),權(quán)值是沒有條件的第44頁,課件共73頁,創(chuàng)作于2023年2月條件熵H(Y|X)=xp(x)H(Y|X=x)=xp(x)(-yp(y|x)log2p(y|x))=-xyp(y|x)p(x)log2p(y|x)=-xyp(x,y)log2p(y|x)第45頁,課件共73頁,創(chuàng)作于2023年2月熵的性質(zhì)熵的非負的H(X)0ChainRuleH(X,Y)=H(Y|X)+H(X)H(X,Y)=H(X|Y)+H(Y)H(X,Y)H(X)+H(Y),X和Y獨立時相等H(Y|X)H(Y),條件熵比熵小第46頁,課件共73頁,創(chuàng)作于2023年2月熵的編碼意義如果一個符號序列是滿足概率分布p的隨機過程產(chǎn)生的,那么對這個序列進行編碼至少需要的bit數(shù)是H(p)壓縮問題如果數(shù)據(jù)中有很多重復的模式,則易于壓縮,因為熵小否則,熵大,不容易壓縮第47頁,課件共73頁,創(chuàng)作于2023年2月編碼實例怎樣給ISOLatin1編碼?通常用8位經(jīng)驗表明:有的字符經(jīng)常出現(xiàn),有的字符很少出現(xiàn)我們可以給經(jīng)常出現(xiàn)的字用較少的bit來表示,給很少出現(xiàn)的字符用較多的bit來表示假設(shè):p(‘a(chǎn)’)=0.3,p(‘b’)=0.3,p(‘c’)=0.3,其余p(x)=0.0004編碼:a:00,b:01,c:10,其余:11b1b2…b8對于符號串:acbbécbaac,編碼為:

acbbécbaac0010010111000011111001000010如果每個符號用8位編碼,需要80位,現(xiàn)在需要28位第48頁,課件共73頁,創(chuàng)作于2023年2月語言的熵p(cn+1|c1…cn)ci是語言中的一個字符c1…cn是歷史h舉例:漢語,n=3p(趙|圍魏救):高p(去|我曾經(jīng)):低計算語言的條件熵-hHcp(c,h)log2p(c|h)第49頁,課件共73頁,創(chuàng)作于2023年2月各種語言的熵按字母計算的零階熵法文:3.98bits 意大利文:4.00bits西班牙文:4.01bits 英文:4.03bits德文:4.10bits 俄問:4.35bits中文(按漢字計算):9.65bits中文(按筆畫計算):3.43bits按詞匯計算的零階熵英語:10.0bits 漢語:11.46bits說明漢語的詞匯豐富語言的冗余度英語:73%;俄語:70%;漢語:63%;古文更低第50頁,課件共73頁,創(chuàng)作于2023年2月Kullback-Leibler距離假設(shè)通過一組試驗估計得到的概率分布為p,樣本空間,隨機變量X真實的分布為q,相同的和X現(xiàn)在的問題是:p和q相比,誤差多大?Kullback-Leibler距離給出的答案是:D(q||p)=xq(x)log2q(x)/p(x) =Eplog(q(x)/p(x))第51頁,課件共73頁,創(chuàng)作于2023年2月KL距離(相對熵)習慣上0log0=0plog(p/0)=DistanceorDivergence(分歧)不對稱D(q||p)D(p||q)也不滿足三角不等式事實上,D(q||p)不是距離,而是分歧H(q)+D(q||p):根據(jù)q分布,對p進行編碼需要的bit數(shù)(交叉熵)第52頁,課件共73頁,創(chuàng)作于2023年2月平均互信息隨機變量:X;Y;pXY(X,Y);pX(x);pY(y)兩個離散集之間的平均互信息I(X,Y)=D(p(x,y)||p(x)p(y))=xyp(x,y)log2(p(x,y)/p(x)p(y))這里說的是兩個離散集的平均互信息互信息衡量已知Y的分布時,對X的預測有多大的幫助,或者說Y的知識降低了H(X)或者說p(x,y)和p(x)p(y)之間的距離第53頁,課件共73頁,創(chuàng)作于2023年2月第54頁,課件共73頁,創(chuàng)作于2023年2月互信息的性質(zhì)I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)I(X,Y)=H(X)+H(Y)-H(X,Y)因為:H(X,Y)=H(X|Y)+H(Y)I(X,X)=H(X)(因為H(X,X)=0)I(X,Y)=I(Y,X)I(X,Y)0第55頁,課件共73頁,創(chuàng)作于2023年2月交叉熵

Cross-Entropy典型情況:我們得到一個觀察序列T={t1,t2,…tn},ti估計:y:p(y)=c(y)/|T|,定義:c(y)=|{tT,t=y}|但是,真實的q不知道,再大的數(shù)據(jù)也不夠問題:用p對q進行估計是否準確?方法:用一個不同的觀察序列T’估計實際的q第56頁,課件共73頁,創(chuàng)作于2023年2月交叉熵Hp’(p)=H(p’)+D(p’||p)Hp’(p)=-xp’(x)log2p(x)p’當然也不是真實的分布,但是我們視為真實世界的分布,以便測試p交叉混亂度:Gp’(p)=2Hp’(p)第57頁,課件共73頁,創(chuàng)作于2023年2月條件交叉熵實踐中計算的往往是條件交叉熵兩個樣本空間樣本空間:,隨機變量Y,yY上下文樣本空間:,隨機變量X,xX實驗得到的分布p(y|x),“真實”分布p’(y|x)Hp’(p)=-y,xp’(y,x)log2p(y|x)條件交叉熵中的權(quán)值是p’(y,x),不是p’(y|x)第58頁,課件共73頁,創(chuàng)作于2023年2月在實際應(yīng)用中,在全部兩個樣本空間上做累加通常不是很方便,因此常常簡化使用如下公式:Hp’(p)=-y,xp’(y,x)log2p(y|x)=-1/|T’|i=1…|T’|log2p(yi|xi)事實上,就是在T’上進行累加,然后歸一化

=-1/|T’|log2i=1…|T’|p(yi|xi)第59頁,課件共73頁,創(chuàng)作于2023年2月舉例={a,b,…,z},概率分布(估計值)p(a)=0.25,p(b)=0.5,p()=1/64,{c,…,r},p()=0,{s,…,z}測試數(shù)據(jù)為:barb,p’(a)=p’(r)=0.25,p’(b)=0.5在上做累加abcd…qrs…z-p’()log2p()0.50.50001.500=2.5也可以在測試數(shù)據(jù)上進行累加,然后歸一化si barb-log2p(si)1261=10(1/4)10=2.5第60頁,課件共73頁,創(chuàng)作于2023年2月H(p)和Hp’(p)之間可能有各種關(guān)系包括‘’,‘’,‘’舉例(參照上例)H(P)=2.5測試數(shù)據(jù):barbHp’(p)=1/4(1+2+6+1)=2.5測試數(shù)據(jù):probableHp’(p)=1/8(6+6+6+1+2+1+6+6)=4.25測試數(shù)據(jù):abbaHp’(p)=1/4(2+1+1+2)=1.5第61頁,課件共73頁,創(chuàng)作于2023年2月交叉熵的使用不是比較數(shù)據(jù),而是比較分布如果我們有兩個分布p和q,哪一個更好呢?面對“真實數(shù)據(jù)”S,p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論