第8講自然語言的熵_第1頁
第8講自然語言的熵_第2頁
第8講自然語言的熵_第3頁
第8講自然語言的熵_第4頁
第8講自然語言的熵_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第8講信源冗余度與自然語言的熵背景知識:

實際的信源可能是非平穩(wěn)的,其極限熵不一定存在??梢约俣ㄋ瞧椒€(wěn)的,用平穩(wěn)信源的來代替。對于一般平穩(wěn)的離散信源,求值也是極其困難的。

進一步假設(shè)它是m階馬爾可夫信源,用m階馬爾可夫信源的信息熵來近似。最簡單的馬爾可夫信源是記憶長度為m=1的信源,信源的熵:

對于一般的離散信源都可以近似地用不同記憶長度的馬爾可夫信源來逼近。進一步簡化,可以建設(shè)信源為無記憶信源,信源符號有一定的概率分布。最后可以假定是等概率分布的離散無記憶信源。1

由此看出,由于信源輸出符號間的依賴關(guān)系也就是信源信號的相關(guān)性使信源的實際熵減小。信源輸出符號間統(tǒng)計約束關(guān)系越長,信源的實際熵越小。當(dāng)信源輸出符號間彼此不存在依賴關(guān)系且為等概率分布時,信源的實際熵等于最大熵。定義:一個信源的熵率(極限熵)與具有相同符號集的最大熵的比值稱為熵的相對率:

可見對于有記憶信源,最小單個消息熵應(yīng)為,即從理論上看,對有記憶信源只需傳送即可。但是這必需要掌握信源全部概率統(tǒng)計特性和所有的記憶關(guān)系。這顯然是不現(xiàn)實的。實際上,往往只能掌握有限的N維,這時只需傳送,那么與理論值相比,就多傳送了。為了定量描述信源熵的有效性,定義了信源冗余度:

信源的冗余度來自兩個方面:1、信源符號間的相關(guān)性信源符號間相關(guān)程度越大,符號間的依賴關(guān)系越長,信源的實際熵越小;2、另一方面是信源符號分布的不均勻性使信源的實際熵越小。

為了更經(jīng)濟有效的傳送信息,需要盡量壓縮信源的冗余度,壓縮冗余度的方法就是盡量減小符號間的相關(guān)性,并且盡可能的使信源符號等概率分布。

從提高信息傳輸效率的觀點出發(fā),人們總是希望盡量去掉冗余度。但是從提高抗干擾能力角度來看,卻希望增加或保留信源的冗余度,因為冗余度大的消息抗干擾能力強。

信源編碼是減少或消除信源的冗余度以提高信息的傳輸效率。信道編碼則通過增加冗余度來提高信息傳輸?shù)目垢蓴_能力。

中華人民共和國中國母親病愈,身體健康母病愈例:一個輸出A、B、C、D四個符號的信源,它輸出10個符號的序列包含最大可能的信息量為:

當(dāng)信源的符號間有依賴關(guān)系時,或概率分布不均勻時,信源熵要下降,因此信源輸出的序列總信息量也要下降。假定信源由于符號間的相關(guān)性或不等概率,信源熵下降到比特/符號

正由于信源存在著冗余度,即存在著不必要傳送的信息,因此信源也就存在進一步壓縮信息率的可能性。冗余度越大,壓縮潛力也就越大。可見它是信源編碼,數(shù)據(jù)壓縮的前提與理論基礎(chǔ)。下面,以英文為例,計算文字信源的冗余度。首先給出英文字母(含空檔)出現(xiàn)概率如下:下面,首先求得獨立等概率情況,即其次,計算獨立不等概率情況再次,若僅考慮字母有一維相關(guān)性,求

還可進一步求出:

最后,利用統(tǒng)計推斷方法求出,由于采用的逼近的方法和所取的樣本的不同,推算值也有不同,這里采用Shannon的推斷值。這樣,可以計算出:

這一結(jié)論說明,英文信源,從理論上看71%是多余成分。即有71%是由語言結(jié)構(gòu)定好的,而剩下的29%可由寫文章的人自由發(fā)揮的。直觀地說100頁英文書,理論上看僅有29頁是有效的,其余71頁是多余的。正是由于這一多余量的存在,才有可能對英文信源進行壓縮編碼。為計算這些熵,要計算字母之間的一維條件概率、二維條件概率二階馬爾可夫信源,條件概率為個。香農(nóng)做法:對于其它文字,也有不少人作了大量的統(tǒng)計工作,現(xiàn)簡述如下:英文法文德文西班牙文中文(按8千漢字計算)漢字的編碼

GB2312-80

國家標準漢字編碼簡稱國標碼。該編碼集的全稱是“信息交換用漢字編碼字符集—基本集”,國家標準代號是“GB2312-80”。該編碼的主要用途是作為漢字信息交換碼使用。國標碼中收集了二級漢字,共約7445個漢字及符號。其中,一級常用漢字3755個,漢字的排列順序為拼音字典序;二級常用漢字3008個,排列順序為偏旁序;還收集了682個圖形符號。一般情況下,該編碼集中的二級漢字及符號已足夠使用。國標碼規(guī)定:一個漢字用兩個字節(jié)來表示,每個字節(jié)只用前七位,最高位均未作定義(見圖)。為了方便書寫,常常用四位十六進制數(shù)來表示一個漢字。b7b6b5b4b3b2b1b0b7b6b5b4b3b2b1b00×××××××0×××××××國標碼的格式

例如:漢字“大”的國標碼是“3473”(十六進制數(shù))。國標碼是一種機器內(nèi)部編碼,其主要作用是:用于統(tǒng)一不同的系統(tǒng)之間所用的不同編碼。通過將不同的系統(tǒng)使用的不同編碼統(tǒng)一轉(zhuǎn)換成國標碼,不同系統(tǒng)之間的漢字信息就可以相互交換。GB2312編碼表的格式和布局

國際漢字編碼也用類似于ASCCII碼表的形式給出,將漢字和必要的非漢字字符排列在94×94方陣的區(qū)域中。方陣中的每一個位置的行和列分別用一個七位二進制編碼表示,稱為區(qū)碼和位碼,每一個漢字和非漢字字符對應(yīng)于方陣中的一個位置,因此,可以把漢字和非漢字字符所在位置的區(qū)碼和位碼作為它們的編碼。區(qū)碼和位碼的存儲各占一個字節(jié),所以在國際漢字編碼中,每個漢字和非漢字字符占用倆個字節(jié)。表2-6給出了GB2312編碼表的局部格式。

表GB2312編碼局部表

位碼:低7位區(qū)碼:高7位0100100100100100100100100100001

0010

0011

01000101

0110

0111

1000

1001010203040506070809011000016011000117011001018011001119011010020011010121啊阿埃挨哎唉哀皚癌薄雹保堡飽寶抱報暴病并玻菠播撥缽波博場嘗常長償腸廠敞暢礎(chǔ)儲矗搐觸處揣川穿怠耽擔(dān)丹單鄲撣膽旦

在“國際基本集”中,從16區(qū)到55區(qū)是常用的一級漢字,從56區(qū)到87區(qū)是二級漢字除此之外還收錄了一般符號202個(包括間隔、標點、運算符號、單位符號、制表符號),序號60個(1~20共20個,(1)~(20)共20個,①~⑩共10個,(一)~(十)共10個),數(shù)字22個(0~9共10個,Ⅰ~Ⅻ共12個),拉丁字母52個,日本假名169個,希臘字母48個,俄文字母66個,漢語拼音符號、注音符號63個。這些符號占1區(qū)到10區(qū)。該字符集共收入了漢字和圖形符號共7445個。因為全表共94區(qū)、94位,所以最多可表示的字符個數(shù)為94×94,即8836個。表中的空位作為擴充之用。GB2312編碼表的總體布局如下表所示。GB2312編碼表總體布局位區(qū)01~94位01至94區(qū)123456789…16~5556~8788…94常用符號(94)序號、羅馬數(shù)字(72)GB1988圖形字符集(94)日文平假名(83)日文片假名(86)希臘字母(48)俄文字母(66)漢語拼音符(26)、注音字母(37)制表符(76)…第一級漢字(3755個)第二級漢字(3008個)…

GB2312中的6763個漢字是在文化部1965年發(fā)布的《印刷通用漢字字形表》(6196字)的基礎(chǔ)上,根據(jù)需要增加了500多個科技名詞、地名和姓名用字,既基本上滿足了各方面的需要,又有利于降低漢字信息處理系統(tǒng)的成本,提高漢字編碼的效率,有利于漢字信息處理技術(shù)的推廣和應(yīng)用。GB2312廣泛應(yīng)用于我國通用漢字系統(tǒng)的信息交換及硬、軟件設(shè)計中。例如,目前漢字字模庫的設(shè)計都以GB2312為準,絕大部分漢字數(shù)據(jù)庫系統(tǒng)、漢字情報檢索系統(tǒng)等軟件也都以GB2312為基礎(chǔ)進行設(shè)計。GB2312是漢字信息處理技術(shù)領(lǐng)域內(nèi)的基礎(chǔ)標準,許多其他標準都與它密切相關(guān),例如,漢字點陣字型標準、磁盤格式標準的制定均根據(jù)GB2312標準。什么是信息?關(guān)于信息的定義,眾說紛紜。哲學(xué)家說,信息就是認識論。數(shù)學(xué)家則認為信息是概率論。物理學(xué)家把信息定義為熵。通信專家把信息看作是消除不確定性。表明信息科學(xué)尚未形成一套統(tǒng)一的、完整的、得到公認的理論。獲取信息的過程是一個由未知到已知的過程(哲學(xué)),或者說由不確定到確定的過程(通信)。因此信息可以看作是消除不確定性。信息分析與統(tǒng)計的工具是概率論(數(shù)學(xué))。具有實際意義的平均信息量稱為熵(物理)。對信息量的認識理解衡量信息多少的物理量稱為信息量。信息量的大小與消息所描述事件的出現(xiàn)概率有關(guān)。若概率很小,受信者感覺很突然,該消息所含信息量就很大;若概率很大,受信者事先已有所估計,則該消息信息量就越??;若受信者收到完全確定的消息,則沒有信息.臨

診斷是要在互不相容的疾病中作出鑒別。設(shè)每個疾病發(fā)生的先驗概率分別為P(a1),P(a2),……P(an)醫(yī)生做診斷前,病人所患的疾病是不確定,如上所述,信源的熵就是這種不確定性大小的量度。請用信息論思想闡述臨床診斷的實質(zhì)和過程。

在診斷過程中,每進行一項檢查獲得一個征候信息表現(xiàn)時,它就給醫(yī)生對疾病的認識帶來一定的信息量,醫(yī)生對患者所患疾病認識的不確定性就會減少。設(shè)征候S有m個互不相容的表現(xiàn)s1,s2,…,sm,當(dāng)sj出現(xiàn)時,疾病ai發(fā)生的概率設(shè)為P(ai|sj),i=1,2,…,n,j=1,2,…,m在獲得征候表現(xiàn)sj后,信源(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論