信息論與編碼理論基礎第二章_第1頁
信息論與編碼理論基礎第二章_第2頁
信息論與編碼理論基礎第二章_第3頁
信息論與編碼理論基礎第二章_第4頁
信息論與編碼理論基礎第二章_第5頁
已閱讀5頁,還剩138頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息論與編碼理論基礎第二章2023/4/191第1頁,共143頁,2023年,2月20日,星期五§2.1離散型隨機變量的非平均信息量(事件的信息量)2023/4/192第2頁,共143頁,2023年,2月20日,星期五非平均互信息量輸入消息碼字(輸出)p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000例2.1.12023/4/193第3頁,共143頁,2023年,2月20日,星期五非平均互信息量輸入消息碼字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/30000000100002023/4/194第4頁,共143頁,2023年,2月20日,星期五直觀認識對觀察者來說,同樣觀察事件011,但輸入消息等概情況下“收獲”要大些,即得到的“信息”要多些。越是不太可能發(fā)生的事件竟然發(fā)生了,越是令人震驚。獲得的“信息”要多些。2023/4/195第5頁,共143頁,2023年,2月20日,星期五非平均互信息量例2.1.2輸入消息碼字p(xk)收到0收到01收到010X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp2023/4/196第6頁,共143頁,2023年,2月20日,星期五直觀認識在接收010的過程中,消息出現(xiàn)的可能性,即后驗概率也在不斷變化,但變化趨勢不再像例2.1.1那樣單調地變化,而是有起伏的,且最后并未達到1或0.觀察到010之后不能斷定是哪個消息出現(xiàn)了。但是由觀察結果計算出來的某個消息出現(xiàn)的后驗概率大于1/2或小于1/2,使我們可比未觀察前較有把握地推斷消息出現(xiàn)的可能性,因而多少得到了一些有關出現(xiàn)的“信息”。若p<1/2,則1-p>1/2,也即010是消息x1的輸出可能性大。2023/4/197第7頁,共143頁,2023年,2月20日,星期五直觀認識從上述兩個系統(tǒng)可以看出,在一個系統(tǒng)中我們所關心的輸入是哪個消息的問題,只與事件出現(xiàn)的先驗概率和經過觀察后事件出現(xiàn)的后驗概率有關。信息應當是先驗概率和后驗概率的函數(shù),即

I(xk;yj)=f[Q(x),P(xk|yj)]2023/4/198第8頁,共143頁,2023年,2月20日,星期五研究表明:信息量就表示成為事件的后驗概率與事件的先驗概率之比的對數(shù)函數(shù)!!!2023/4/199第9頁,共143頁,2023年,2月20日,星期五非平均互信息量(本章將給出各種信息量的定義和它們的性質。)定義2.1.1(非平均互信息量)給定一個二維離散型隨機變量(因此就給定了兩個離散型隨機變量。事件xk∈X與事件yj∈Y的互信息量定義為2023/4/1910第10頁,共143頁,2023年,2月20日,星期五非平均互信息量直觀認識若信源發(fā)某符號xi,由于信道中噪聲的隨機干擾,收信者收到的是xi的某種變形yj,收信者收到y(tǒng)j后,從yj中獲取xi的信息量用I(xi;yj)表示,則有I(xi;yj)=[收到y(tǒng)j

前,收信者對信源發(fā)xi

的不確定性]-[收到y(tǒng)j

后,收信者對信源發(fā)xi仍然存在的不確定性]=收信者收到y(tǒng)j

前后,收信者對信源發(fā)xi

的不確定性的消除2023/4/1911第11頁,共143頁,2023年,2月20日,星期五非平均互信息量性質其中底數(shù)a是大于1的常數(shù)。常用a=2或a=e,當a=2時互信息量的單位為“比特”?;バ畔⒘康男再|:(1)I(xk;yj)=loga(rkj/(qkwj))。因此有對稱性:I(xk;yj)=I(yj;xk)。(2)當rkj=qkwj時I(xk;yj)=0。(即當(rkj/qk)=wj時,I(xk;yj)=0。又即當(rkj/wj)=qk時,I(xk;yj)=0。換句話說,當“X=xk”與“Y=yj”這兩個事件相互獨立時,互信息量為0)。2023/4/1912第12頁,共143頁,2023年,2月20日,星期五非平均互信息量性質(3)當rkj>qkwj時I(xk;yj)>0,當rkj<qkwj時I(xk;yj)<0。(當(rkj/qk)>wj時,I(xk;yj)>0;當(rkj/qk)<wj時,I(xk;yj)<0。換句話說,當“X=xk”與“Y=yj”這兩個事件相互肯定時,互信息量為正值;當“X=xk”與“Y=yj”這兩個事件相互否定時,互信息量為負值。)2023/4/1913第13頁,共143頁,2023年,2月20日,星期五條件互信息和聯(lián)合事件互信息三個事件集的條件互信息定義(定義2.1.2)為可以推廣到任意有限多個空間情況2023/4/1914第14頁,共143頁,2023年,2月20日,星期五互信息的可加性系統(tǒng)u1u2u3系統(tǒng)u1u2u3意味著:(u2,u3)聯(lián)合給出的關于u1的信息量等于u2給出的關于u1的信息量與u2已知條件下u3給出的關于u1的信息量之和。2023/4/1915第15頁,共143頁,2023年,2月20日,星期五非平均自信息量定義2.1.3(非平均自信息量)給定一個離散型隨機變量{X,xk,qk,k=1~K}。事件xk∈X的自信息量定義為I(xk)=loga(1/qk),其中底數(shù)a是大于1的常數(shù)。自信息量的性質:(1)I(xk)≥0。(2)qk越小,I(xk)越大。(3)I(xk;yj)≤min{I(xk),I(yj)},即互信息量不超過各自的自信息量。證明注意到總有rkj≤min{qk,ωj}。(為什么?什么情況下相等?)。因此根據(jù)定義,I(xk;yj)≤I(xk),I(xk;yj)≤I(yj)。得證。2023/4/1916第16頁,共143頁,2023年,2月20日,星期五非平均自信息量的直觀認識若信源發(fā)某符號xi,沒有信道中噪聲的隨機干擾,收信者收到的yj就是xi本身。收信者收到y(tǒng)j=xi后,當然就完全消除了對信源發(fā)符號xi的不確定性,即

[收到y(tǒng)j=xi

后,收信者對信源發(fā)xi仍然存在的不確定性]=0I(xi;xi)=[收到xi前,收信者對信源發(fā)xi

的不確定性]=I(xi)

2023/4/1917第17頁,共143頁,2023年,2月20日,星期五2023/4/1918第18頁,共143頁,2023年,2月20日,星期五2023/4/1919第19頁,共143頁,2023年,2月20日,星期五2023/4/1920第20頁,共143頁,2023年,2月20日,星期五條件的非平均自信息量定義2.1.4(條件的非平均自信息量)給定一個二維離散型隨機變量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}。在事件yj發(fā)生的條件下事件xk的條件自信息量定義為I(xk|yj)=loga(1/P(X=xk|Y=yj))=loga(wj/rkj)。(條件的非平均自信息量實際上是非平均自信息量的簡單推廣,只不過將概率換成了條件概率)。

條件的非平均自信息量的特殊性質:I(xk|yj)=I(xk)-I(xk;yj)。2023/4/1921第21頁,共143頁,2023年,2月20日,星期五聯(lián)合的非平均自信息量定義2.1.5(聯(lián)合的非平均自信息量)給定一個二維離散型隨機變量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}。事件(xk,yj)∈(X,Y)的自信息量定義為I(xk,yj)=loga(1/rkj)。(聯(lián)合的非平均自信息量實際上是非平均自信息量的簡單推廣。即可以將(X,Y)直接看成是一維的隨機變量)。

聯(lián)合的非平均自信息量的特殊性質:I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2023/4/1922第22頁,共143頁,2023年,2月20日,星期五非平均信息量(事件的信息量)小結非平均互信息量I(xk;yj)。非平均自信息量I(xk),I(yj)。條件的非平均自信息量I(xk|yj),I(yj|xk)。聯(lián)合的非平均自信息量I(xk,yj)。相互關系:I(xk;yj)≤min{I(xk),I(yj)}。I(xk|yj)=I(xk)-I(xk;yj)。I(xk,yj)=I(yj)+I(xk|yj)=I(xk)+I(yj|xk)。I(xk,yj)=I(xk)+I(yj)-I(xk;yj)。2023/4/1923第23頁,共143頁,2023年,2月20日,星期五聯(lián)合自信息、條件自信息和互信息I(xk)I(yj)I(xk;yj)2023/4/1924第24頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量——熵2023/4/1925第25頁,共143頁,2023年,2月20日,星期五2023/4/1926第26頁,共143頁,2023年,2月20日,星期五2023/4/1927第27頁,共143頁,2023年,2月20日,星期五2023/4/1928第28頁,共143頁,2023年,2月20日,星期五平均自信息量——熵定義2.2.1(平均自信息量——熵)離散型隨機變量{X,xk,qk,k=1~K}的平均自信息量(又稱為熵)定義為如下的H(X),其中底數(shù)a是大于1的常數(shù)。2023/4/1929第29頁,共143頁,2023年,2月20日,星期五2023/4/1930第30頁,共143頁,2023年,2月20日,星期五2023/4/1931第31頁,共143頁,2023年,2月20日,星期五2023/4/1932第32頁,共143頁,2023年,2月20日,星期五平均自信息量——熵注意:(1)事件xk的自信息量值為I(xk)=loga(1/qk),因此H(X)是隨機變量X的各事件自信息量值的“數(shù)學期望”。(2)定義H(X)時,允許某個qk=0。(此時將qkloga(1/qk)

通盤考慮)此時補充定義qkloga(1/qk)=0。這個定義是合理的,因為2023/4/1933第33頁,共143頁,2023年,2月20日,星期五平均自信息量——熵例2.2.1

離散型隨機變量X有兩個事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。則X的平均自信息量(熵)為H(X)=ploga(1/p)+(1-p)loga(1/(1-p))。觀察H(X)(它是p的函數(shù),圖2.2.1給出了函數(shù)圖象,該圖象具有某種對稱性),有當p=0或p=1時,H(X)=0。(隨機變量X退化為常數(shù)時,熵為0)當0<p<1時,H(X)>0。p越靠近1/2,H(X)越大。(X是真正的隨機變量時,總有正的熵。隨機性越大,熵越大)當p=1/2時,H(X)達到最大。(隨機變量X的隨機性最大時,熵最大。特別如果底數(shù)a=2,則H(X)=1比特)2023/4/1934第34頁,共143頁,2023年,2月20日,星期五圖2.2.1H(X)1.00.500.51P

2023/4/1935第35頁,共143頁,2023年,2月20日,星期五2023/4/1936第36頁,共143頁,2023年,2月20日,星期五2023/4/1937第37頁,共143頁,2023年,2月20日,星期五2023/4/1938第38頁,共143頁,2023年,2月20日,星期五2023/4/1939第39頁,共143頁,2023年,2月20日,星期五2023/4/1940第40頁,共143頁,2023年,2月20日,星期五2023/4/1941第41頁,共143頁,2023年,2月20日,星期五2023/4/1942第42頁,共143頁,2023年,2月20日,星期五條件平均自信息量(條件熵)定義2.2.2(條件熵)給定一個二維離散型隨機變量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}。稱如下定義的H(X|Y)為X相對于Y的條件熵。2023/4/1943第43頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)定義2.2.3(聯(lián)合熵)二維離散型隨機變量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}的聯(lián)合熵定義為2023/4/1944第44頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)熵、條件熵、聯(lián)合熵之間的關系:(1)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。(由定義容易證明)(2)當X與Y相互獨立時,H(Y|X)=H(Y),因此此時H(X,Y)=H(X)+H(Y)。證明此時2023/4/1945第45頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)熵的性質

對于隨機變量{X,xk,qk,k=1~K}的熵H(X)=∑kqkloga(1/qk),有以下的性質。1、H(X)與事件{xk,k=1~K}的具體形式無關,僅僅依賴于概率向量{qk,k=1~K}。而且H(X)與概率向量{qk,k=1~K}的分量排列順序無關。2、H(X)≥0。完全同理,H(X|Y)≥0;H(Y|X)≥0;H(X,Y)≥0。3、確定性:當概率向量{qk,k=1~K}的一個分量為1時(此時其它分量均為0),H(X)=0。(這就是說,當隨機變量X實際上是個常量時,不含有任何信息量)。2023/4/1946第46頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)4、可忽略性:當隨機變量X的某個事件的概率很小時,該事件對熵的貢獻可以忽略不計。(雖然小概率事件的自信息量很大。這是因為當qk→0時,qkloga(1/qk)→0)。5、可加性:H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此,H(X,Y)≥H(X);H(X,Y)≥H(Y)。(性質5有一個隱含的結論:設X的概率向量為{q1,q2,…,qK},Y的概率向量為{q1,q2,…,qK-2,qK-1+qK},其中qK-1qK>0,則H(X)>H(Y)。)2023/4/1947第47頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)6、極值性:H(X)≤logaK。當q1=q2=…=qK=1/K時,才有H(X)=logaK。(以下是極值性的證明過程)引理1

對任何x>0總有l(wèi)nx≤x-1。證明令f(x)=lnx-(x-1),則f‘(x)=1/x-1。因此當0<x<1時f‘(x)>0;當x>1時f‘(x)<0。換句話說,當0<x<1時,f(x)的值嚴格單調增;當x>1時,f(x)的值嚴格單調減。注意到f(1)=0。所以對任何x>0總有f(x)≤f(1)=0。得證。2023/4/1948第48頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)引理2

設有兩個K維概率向量(什么叫概率向量?每個分量都是非負的,且各分量之和等于1){qk,k=1~K}和{pk,k=1~K}。則總滿足2023/4/1949第49頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)證明注意到引理1,2023/4/1950第50頁,共143頁,2023年,2月20日,星期五§2.2離散型隨機變量的平均自信息量(熵)引理2得證。(注意:此證明過程省略了若干細節(jié),比如當概率向量的某個分量為0時,情況比較復雜)極值性的證明{qk,k=1~K}是一個K維概率向量。令pk=1/K,k=1~K。則{pk,k=1~K}也是一個K維概率向量。由引理2,H(X)=∑kqkloga(1/qk)≤∑kqkloga(1/(1/K))=logaK。得證。2023/4/1951第51頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量2023/4/1952第52頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量2023/4/1953第53頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量定義2.4.1(平均互信息量)給定一個二維離散型隨機變量{(X,Y),(xk,yj),rkj,k=1~K;j=1~J}(因此就給定了兩個離散型隨機變量{X,xk,qk,k=1~K}和{Y,yj,wj,j=1~J})。X與Y的平均互信息量定義為如下的I(X;Y):2023/4/1954第54頁,共143頁,2023年,2月20日,星期五注意:

①事件對(xk,yj)的“非平均互信息量”值為I(xk;yj)。

②此外,可以定義“半平均互信息量”I(xk;Y)和I(X;yj)。I(xk;Y)表示事件“X=xk”與隨機變量Y之間的半平均互信息量;I(X;yj)表示事件“Y=yj”與隨機變量X之間的半平均互信息量。2023/4/1955第55頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量平均互信息量的性質

1、I(X;Y)≥0。(雖然每個“非平均互信息量”I(xk;yj)未必非負,但平均互信息量I(X;Y)非負)證明2023/4/1956第56頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量{rkj,k=1~K;j=1~J}是一個概率向量:{qkwj,k=1~K;j=1~J}是另一個概率向量:故由引理2知,2023/4/1957第57頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量2、對稱性:I(X;Y)=I(Y;X)。3、平均互信息量的熵表示:I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)。證明2023/4/1958第58頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量2023/4/1959第59頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量3’、若X與Y相互獨立,則I(X;Y)=0,H(X|Y)=H(X),H(Y|X)=H(Y),H(XY)=H(X)+H(Y)。證明若X與Y相互獨立,則rkj=qkwj,k=1~K;j=1~J。因此此時loga(rkj/(qkwj))=0,k=1~K;j=1~J。因此I(X;Y)=0。再由性質3,性質3’得證。2023/4/1960第60頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量4、I(X;Y)≤H(X),I(X;Y)≤H(Y)。(性質4有多種簡單的證明方法。第一種證明方法:由I(X;Y)的定義,loga(rkj/(qkwj))≤loga(1/qk)。第二種證明方法:由性質3,I(X;Y)=H(X)-H(X|Y)≤H(X)。)4’、若X是Y的確定的函數(shù)X=g(Y),則I(X;Y)=H(X)≤H(Y)。若Y是X的確定的函數(shù)Y=g(X),則I(X;Y)=H(Y)≤H(X)。(證略)2023/4/1961第61頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量一般印象(平均互信息量I(X;Y)的各種性質與我們對“平均互信息量”這個名詞的直觀理解非常吻合)。一般情形:總有0≤I(X;Y)≤min{H(X),H(Y)}。一種極端情形:若X與Y相互獨立,則I(X;Y)=0。另一種極端情形:若X、Y中有一個完全是另一個的確定的函數(shù),則I(X;Y)=min{H(X),H(Y)}。2023/4/1962第62頁,共143頁,2023年,2月20日,星期五§2.4離散型隨機變量的平均互信息量定理2.4.1(信息處理定理)對于以下給定的系統(tǒng)串聯(lián)有:I(X;Y)≤I(X;Z)。信息處理定理的含義:串聯(lián)的系統(tǒng)越多,兩端的平均互信息量越小。信息處理定理的證明思想:注意到X、Z、Y構成了馬爾可夫鏈。簡單地說,在已知Z的條件下,X與Y條件獨立。根據(jù)這種馬爾可夫鏈結構,可以證明I(X;Y)≤I(X;Z)。(證略)2023/4/1963第63頁,共143頁,2023年,2月20日,星期五§2.1~§2.4諸概念直觀理解兩個事件的非平均互信息量:互相肯定的程度。一個事件的非平均自信息量:令人震驚的程度。一個隨機變量的平均自信息量(熵):不可預測的程度。一個隨機變量X相對于另一個隨機變量Y的條件熵:當Y的值確定時,X剩余的不可預測的程度。二維隨機變量(XY)的聯(lián)合熵:聯(lián)合不可預測的程度。兩個隨機變量X與Y的平均互信息量:互相依賴的程度。(當Y的值確定時,X的可預測的程度;當Y的值確定時,所能夠給出的X的信息量)(當X的值確定時,Y的可預測的程度;當X的值確定時,所能夠給出的Y的信息量)事件X=x與隨機變量Y的半平均互信息量:當X=x時,所能夠給出的Y

的信息量。2023/4/1964第64頁,共143頁,2023年,2月20日,星期五§2.2和§2.4中的若干公式

恒等式I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)由定義容易看出第一類不等式H(X)≤logaK;I(X;Y)≥0;H(XY)≤H(X)+H(Y);H(X|Y)≤H(X);H(Y|X)≤H(Y)。根據(jù)引理1和引理2來證明第二類不等式I(X;Y)≤min{H(X),H(Y)};H(XY)≥max{H(X),H(Y)}。根據(jù)概率論的基本事實來證明獨立情形下的等式I(X;Y)=0,H(X|Y)=H(X),H(Y|X)=H(Y),H(XY)=H(X)+H(Y)。第一類不等式的特殊情形2023/4/1965第65頁,共143頁,2023年,2月20日,星期五§2.5連續(xù)型隨機變量的平均互信息量和微分熵2023/4/1966第66頁,共143頁,2023年,2月20日,星期五事件互信息量定義2.5.1

給定二維連續(xù)型隨機變量{(X,Y),p(X,Y)(x,y)}(因此就給定了兩個連續(xù)型隨機變量{X,pX(x)}和{Y,pY(y)})。事件x∈X與事件y∈Y的互信息量定義為2023/4/1967第67頁,共143頁,2023年,2月20日,星期五平均互信息量定義2.5.2

給定二維連續(xù)型隨機變量{(X,Y),p(X,Y)(x,y)}(因此就給定了兩個連續(xù)型隨機變量{X,pX(x)}和{Y,pY(y)})。X與Y的平均互信息量定義為2023/4/1968第68頁,共143頁,2023年,2月20日,星期五平均互信息量性質平均互信息量的性質

1、I(X;Y)≥0。2、對稱性:I(X;Y)=I(Y;X),3、信息處理定理:對于如下的系統(tǒng)串聯(lián)有I(X;Y)≤I(X;Z)。4、2023/4/1969第69頁,共143頁,2023年,2月20日,星期五微分熵、相對熵(連續(xù)型隨機變量為什么不能類似地定義平均自信息量——熵?這是因為,連續(xù)型隨機變量的事件有無窮多個,每個事件發(fā)生的概率無窮小。如果類似地定義熵,則熵是無窮大。因此只能定義所謂“微分熵”,而“微分熵”的直觀合理性大打折扣。比如“微分熵”可以是負的)微分熵的定義給定連續(xù)型隨機變量{X,pX(x)}。X的微分熵(又稱為相對熵)定義為2023/4/1970第70頁,共143頁,2023年,2月20日,星期五聯(lián)合微分熵聯(lián)合的微分熵的定義給定二維連續(xù)型隨機變量{(X,Y),p(X,Y)(x,y)}。(X,Y)的聯(lián)合的微分熵定義為2023/4/1971第71頁,共143頁,2023年,2月20日,星期五例題例2.5.1

設(XY)是連續(xù)型的二維隨機變量,其聯(lián)合分布密度函數(shù)pXY(xy)為二維高斯概率密度函數(shù)(二元正態(tài)密度函數(shù)):2023/4/1972第72頁,共143頁,2023年,2月20日,星期五例題2023/4/1973第73頁,共143頁,2023年,2月20日,星期五例題例2.5.2設X~U(a,b),求X的微分熵(相對熵)(我們將發(fā)現(xiàn),X的相對熵未必非負)。2023/4/1974第74頁,共143頁,2023年,2月20日,星期五例題例2.5.3設X~N(m,σ2),求X的微分熵(相對熵)(我們將發(fā)現(xiàn),X的相對熵未必非負)。2023/4/1975第75頁,共143頁,2023年,2月20日,星期五例題熵功率2023/4/1976第76頁,共143頁,2023年,2月20日,星期五微分熵的極大化(已知:當離散型隨機變量X的事件有K個時,H(X)≤logaK;只有當X服從等概分布時才有H(X)=logaK)1.峰值功率受限均勻分布相對熵最大定理2.5.1

若連續(xù)型隨機變量X的取值范圍在區(qū)間(-M,M)之內(即當x不在區(qū)間(-M,M)時,fX(x)=0),則Hc(X)≤loga2M;只有當X服從U(-M,M)分布時才有Hc(X)=loga2M。2023/4/1977第77頁,共143頁,2023年,2月20日,星期五微分熵的極大化2.平均功率受限高斯分布相對熵最大定理2.5.2

若連續(xù)型隨機變量X的方差等于σ2

,則Hc(X)≤(1/2)loga(2πeσ2);只有當X服從N(m,σ2)分布時才有Hc(X)=(1/2)loga(2πeσ2)。3.平均功率大于等于熵功率2023/4/1978第78頁,共143頁,2023年,2月20日,星期五§2.6凸函數(shù)與(離散型隨機變量的)平均互信息量的凸性2023/4/1979第79頁,共143頁,2023年,2月20日,星期五凸函數(shù)凸集R:a,b屬于R,qa+(1-q)b也屬于R,其中0≤q≤1概率矢量矢量a的所有分量和為1上凸函數(shù)2023/4/1980第80頁,共143頁,2023年,2月20日,星期五凸函數(shù)的性質f(a)是上凸的,-f(a)是下凸的f1(a),…,fL(a)是R上的上凸函數(shù),c1,…,cL是正數(shù),c1f1(a)+…+cLfL(a)也是上凸函數(shù)f(a)是上凸函數(shù),E[f(a)]≤f[E(a)],E為求數(shù)學期望2023/4/1981第81頁,共143頁,2023年,2月20日,星期五K-T條件f(a)是定義域R上的上凸函數(shù),a是概率矢量。偏導數(shù)存在且連續(xù),f(a)在R上為極大的充分必要條件2023/4/1982第82頁,共143頁,2023年,2月20日,星期五互信息的凸性記離散型隨機變量X的事件為1,2,…,K。記X的概率分布為P(X=k)=qk,k=1~K。記離散型隨機變量Y的事件為1,2,…,J。記條件概率P(Y=j|X=k)=p(j|k)。則rkj=P((X,Y)=(k,j))=qkp(j|k),(概率論中的乘法公式)wj=P(Y=j)=∑kqkp(j|k),(概率論中的全概率公式)2023/4/1983第83頁,共143頁,2023年,2月20日,星期五互信息的凸性p(j|k)給定,I(X;Y)是q(x)的上凸函數(shù)q=(q1,q2,…,qK)給定,I(X;Y)是p(j|k)的下凸函數(shù)2023/4/1984第84頁,共143頁,2023年,2月20日,星期五互信息的凸性設條件概率{p(j|k),k=1~K,j=1~J}被確定。此時I(X,Y)是概率向量q=(q1,q2,…,qK)的函數(shù)。我們希望找到這樣的概率向量,使得對應的I(X,Y)達到最大。這就是說,記我們希望找到這樣的K維概率向量a=(a1,a2,…,aK),使得2023/4/1985第85頁,共143頁,2023年,2月20日,星期五互信息的凸性(本節(jié)的核心內容是定理2.6.2,但它有太長的推導。)簡述定理2.6.2的含義

K維概率向量a=(a1,a2,…,aK)使得當且僅當:以a為X的概率向量的時候,I(X=k;Y)對所有ak>0的k都取一個相同的值C;I(X=k;Y)對所有滿足ak=0的k都取值不超過上述的相同值C

。其中2023/4/1986第86頁,共143頁,2023年,2月20日,星期五§2.6凸函數(shù)與(離散型隨機變量的)平均互信息量的凸性I(X=k;Y)表示什么?表示事件X=k與隨機變量Y之間的“半平均互信息量”。2023/4/1987第87頁,共143頁,2023年,2月20日,星期五§2.6凸函數(shù)與(離散型隨機變量的)平均互信息量的凸性例設X的事件有0、1;Y的事件有0、1;已知p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。當X服從等概分布(a0=P(X=0)=1/2;a1=P(X=1)=1/2)時,I(X;Y)達到最大。因為此時2023/4/1988第88頁,共143頁,2023年,2月20日,星期五§2.6凸函數(shù)與(離散型隨機變量的)平均互信息量的凸性2023/4/1989第89頁,共143頁,2023年,2月20日,星期五習題課2.3擲一對無偏的骰子,若告訴你得到的總的點數(shù)為:(a)7;(b)12。試問各得到了多少信息量?[2.3的解答]這是求事件的自信息量。記隨機變量X=“總的點數(shù)”,則所以,事件“X=7”的自信息量為log2(36/7);事件“X=12”的自信息量為log2(36)。2023/4/1990第90頁,共143頁,2023年,2月20日,星期五習題課2.4經過充分洗牌后的一付撲克(含52張牌),試問:(a)任何一種特定排列所給出的信息量是多少?(b)若從中抽取13張牌,所給出的點數(shù)都不相同時得到多少信息量?[2.4的解答]這是求事件的自信息量。(a)任一特定排列的概率都是(1/52!),所以自信息量為log2(52!);(b)從52張牌中抽取13張牌,共有種抽取方法。而使得所給出的點數(shù)都不相同的抽取方法有種。所以事件“點數(shù)都不相同”的概率為,自信息量為。2023/4/1991第91頁,共143頁,2023年,2月20日,星期五習題課2.6園丁植樹一行,若有3棵白楊、4棵白樺和5棵梧桐。設這12棵樹可隨機地排列,且每一種排列都是等可能的。若告訴你沒有兩棵梧桐樹相鄰時,你得到了多少關于樹的排列的信息?[2.6的解答]共有12!種不同的排列。滿足“沒有兩棵梧桐樹相鄰”的排列個數(shù)為8×1+7×2+6×3+5×4+4×5+3×6+2×7+1×8=120(為什么?)記X=“樹的排列情況”,Y=“梧桐樹有無相鄰位置”。則本題要求半平均互信息量2023/4/1992第92頁,共143頁,2023年,2月20日,星期五習題課X有12!個不同的事件x,每個事件x的概率為1/(12!)。Y有2個不同的事件,“Y=無”的概率為120/(12!),“Y=有”的概率為(12!-120)/(12!)。以下要計算:在“Y=無”的條件下,X=x(x為某個特定排列)的條件概率P(X=x|Y=無)。若在x這個特定排列中,梧桐樹有相鄰位置,則P(X=x|Y=無)=0;若在x這個特定排列中,梧桐樹無相鄰位置,則2023/4/1993第93頁,共143頁,2023年,2月20日,星期五習題課2023/4/1994第94頁,共143頁,2023年,2月20日,星期五習題課2.7某校入學考試中有1/4考生被錄取,3/4考生未被錄取。被錄取的考生中有50%來自本市,而落榜考生中有10%來自本市。所有本市的考生都學過英語,而外地落榜考生中以及被錄取的外地考生中都有40%學過英語。(a)當己知考生來自本市時,給出多少關于考生是否被錄取的信息?(b)當已知考生學過英語時,給出多少有關考生是否被錄取的信息?(c)以x表示是否被錄取,y表示是否為本市學生,z表示是否學過英語,x、y和z取值為0或1。試求H(x),H(y|x),H(z|y)。2023/4/1995第95頁,共143頁,2023年,2月20日,星期五[2.7的解答](a)是求事件“來自本市”與隨機變量“是否被錄取”的半平均互信息量。(b)是求事件“學過英語”與隨機變量“是否被錄取”的半平均互信息量。以x表示是否被錄取(0表示被錄取,1表示未被錄取),y表示是否為本市學生(0表示本市學生,1表示非本市學生),z表示是否學過英語(0表示學過英語,1表示未學過英語),則P(xyz=000)=(1/4)×(50%)×1=12.5%;P(xyz=001)=(1/4)×(50%)×0=0;P(xyz=010)=(1/4)×(50%)×(40%)=5%;P(xyz=011)=(1/4)×(50%)×(60%)=7.5%;P(xyz=100)=(3/4)×(10%)×1=7.5%;P(xyz=101)=(3/4)×(10%)×0=0;P(xyz=110)=(3/4)×(90%)×(40%)=27%;P(xyz=111)=(3/4)×(90%)×(60%)=40.5%。2023/4/1996第96頁,共143頁,2023年,2月20日,星期五各個邊際分布(xy)聯(lián)合分布P(xy=00)=12.5%;P(xy=01)=12.5%;P(xy=10)=7.5%;P(xy=11)=67.5%。(xz)聯(lián)合分布P(xz=00)=17.5%;P(xz=01)=7.5%;P(xz=10)=34.5%;P(xz=11)=40.5%。x概率分布P(x=0)=25%;P(x=1)=75%。y概率分布P(y=0)=20%;P(y=1)=80%。z概率分布P(z=0)=52%;P(z=1)=48%。(yz)聯(lián)合分布P(yz=00)=20%;P(yz=01)=0;P(yz=10)=32%;P(yz=11)=48%。2023/4/1997第97頁,共143頁,2023年,2月20日,星期五習題課2023/4/1998第98頁,共143頁,2023年,2月20日,星期五習題課2023/4/1999第99頁,共143頁,2023年,2月20日,星期五習題課2.8在A、B兩組人中進行民意測驗,組A中的人有50%講真話(T),30%講假話(F),20%拒絕回答(R)。而組B中有30%講真話,50%講假話和20%拒絕回答。設選A組進行測驗的概率為p,若以I(p)表示給定T、F或R條件下得到的有關消息來自組A或組B的平均信息量,試求I(p)的最大值。[2.8的解答]I(p)是什么信息量?記X=“選擇的組號”,X的事件有A和B;Y=“得到的回答”,Y的事件有T、F、R。則I(p)=I(X;Y)。2023/4/19100第100頁,共143頁,2023年,2月20日,星期五習題課計算X的概率分布:P(X=A)=p;P(X=B)=1-p。計算Y的概率分布:P(Y=T)=p×50%+(1-p)×30%=30%+p×20%;P(Y=F)=p×30%+(1-p)×50%=50%-p×20%;P(Y=R)=p×20%+(1-p)×20%=20%。計算聯(lián)合概率分布:P(XY=AT)=50p/100;P(XY=BT)=30(1-p)/100;P(XY=AF)=30p/100;P(XY=BF)=50(1-p)/100;P(XY=AR)=20p/100;P(XY=BR)=20(1-p)/100。2023/4/19101第101頁,共143頁,2023年,2月20日,星期五習題課2023/4/19102第102頁,共143頁,2023年,2月20日,星期五習題課2.9隨機擲三顆骰子,以X表示第一顆骰子拋擲的結果,以Y表示第一和第二顆骰子拋擲的點數(shù)之和,以Z表示三顆骰子的點數(shù)之和。試求H(Z|Y)、H(X|Y)、H(Z|XY),H(XZ|Y)和H(Z|X)。[2.9的解答]求H(Z|Y),必須先求(YZ)的聯(lián)合概率分布和Y的概率分布;求H(X|Y),必須先求(XY)的聯(lián)合概率分布和Y的概率分布;求H(Z|X),必須先求(XZ)的聯(lián)合概率分布和X的概率分布;求H(Z|XY),必須先求(XYZ)的聯(lián)合概率分布和(XY)的聯(lián)合概率分布;求H(XZ|Y),必須先求(XYZ)的聯(lián)合概率分布和Y的概率分布。2023/4/19103第103頁,共143頁,2023年,2月20日,星期五(XYZ)的聯(lián)合概率分布為:

P((XYZ)=(x,y,z))=1/216;x=1~6,y=x+1~x+6,z=y+1~y+6。

(XY)的聯(lián)合概率分布為:

P((XY)=(x,y))=1/36;x=1~6,y=x+1~x+6。2023/4/19104第104頁,共143頁,2023年,2月20日,星期五習題課(YZ)的聯(lián)合概率分布為:P((YZ)=(2,3))=1/63,P((YZ)=(2,4))=1/63,…,P((YZ)=(2,8))=1/63,P((YZ)=(3,4))=2/63,P((YZ)=(3,5))=2/63,…,P((YZ)=(3,9))=2/63,…,P((YZ)=(6,7))=5/63,P((YZ)=(6,8))=5/63,…,P((YZ)=(6,12))=5/63,P((YZ)=(7,8))=6/63,P((YZ)=(7,9))=6/63,…,P((YZ)=(7,13))=6/63,P((YZ)=(8,9))=5/63,P((YZ)=(8,10))=5/63,…,P((YZ)=(8,14))=5/63,…,P((YZ)=(11,12))=2/63,P((YZ)=(11,13))=2/63,…,P((YZ)=(11,17))=2/63,P((YZ)=(12,13))=1/63,P((YZ)=(12,14))=1/63,…,P((YZ)=(12,18))=1/63。2023/4/19105第105頁,共143頁,2023年,2月20日,星期五2023/4/19106第106頁,共143頁,2023年,2月20日,星期五習題課(XZ)的聯(lián)合概率分布為:P((XZ)=(1,3))=1/63,P((XZ)=(1,4))=2/63,…,P((XZ)=(1,7))=5/63,P((XZ)=(1,8))=6/63,P((XZ)=(1,9))=5/63,…,P((XZ)=(1,12))=2/63,P((XZ)=(1,13))=1/63;P((XZ)=(2,4))=1/63,P((XZ)=(2,5))=2/63,…,P((XZ)=(2,8))=5/63,P((XZ)=(2,9))=6/63,P((XZ)=(2,10))=5/63,…,P((XZ)=(2,13))=2/63,P((XZ)=(2,14))=1/63;…,P((XZ)=(6,7))=1/63,P((XZ)=(6,8))=2/63,…,P((XZ)=(6,12))=5/63,P((XZ)=(6,13))=6/63,P((XZ)=(6,14))=5/63,…,P((XZ)=(6,17))=2/63,P((XZ)=(6,18))=1/63。2023/4/19107第107頁,共143頁,2023年,2月20日,星期五習題課2023/4/19108第108頁,共143頁,2023年,2月20日,星期五習題課X的概率分布:P(X=x)=1/6,其中x=1~6。Y的概率分布:當y=2~7時,P(Y=y)=(y-1)/36;當y=8~12時,P(Y=y)=(13-y)/36。Z的概率分布:

P(Z=3)=1/216,P(Z=4)=3/216,P(Z=5)=6/216,P(Z=6)=10/216,P(Z=7)=15/216,P(Z=8)=21/216,P(Z=9)=25/216,P(Z=10)=27/216,P(Z=11)=27/216,P(Z=12)=25/216,P(Z=13)=21/216,P(Z=14)=15/216,P(Z=15)=10/216,P(Z=16)=6/216,P(Z=17)=3/216,P(Z=18)=1/216。2023/4/19109第109頁,共143頁,2023年,2月20日,星期五習題課X值123456概率1/61/61/61/61/61/6Y值23456789101112概率1/362/363/364/365/366/365/364/363/362/361/36Z3456789101112131415161718概率13610152125272725211510631636363636363636363636363636363632023/4/19110第110頁,共143頁,2023年,2月20日,星期五將以上的概率分布代入以下的計算公式:2023/4/19111第111頁,共143頁,2023年,2月20日,星期五習題課2023/4/19112第112頁,共143頁,2023年,2月20日,星期五2023/4/19113第113頁,共143頁,2023年,2月20日,星期五習題課2.10設有一個系統(tǒng)傳送10個數(shù)字:0,1,…,9。奇數(shù)在傳送時以0.5的概率錯成另外的奇數(shù)(?!),而偶數(shù)總能正確接收。試求收到一個數(shù)字平均得到的信息量。[2.10的解答]問題一:這是什么信息量?“收到一個數(shù)字平均得到的信息量”似乎指的是“收到的數(shù)字”這個隨機變量的平均自信息量(熵):H(收到的數(shù)字)?!鞍l(fā)送一個數(shù)字x時,所給出的收到數(shù)字的平均信息量”應該指的是半平均互信息量:I(發(fā)送的數(shù)字=x;收到的數(shù)字)?!鞍l(fā)送數(shù)字時,所給出的收到數(shù)字的平均信息量”應該指的是平均互信息量:I(發(fā)送的數(shù)字;收到的數(shù)字)。2023/4/19114第114頁,共143頁,2023年,2月20日,星期五習題課問題二:既然是求“收到的數(shù)字”這個隨機變量的平均自信息量(熵),那么“收到的數(shù)字”的概率分布如何計算?假設“發(fā)送的數(shù)字”服從等概分布:P(發(fā)送的數(shù)字=j)=1/10,j=0~9則P(收到的數(shù)字=偶數(shù)x)=P(發(fā)送的數(shù)字=偶數(shù)x)=1/10;P(收到的數(shù)字=奇數(shù)x)=P(發(fā)送的數(shù)字=奇數(shù)x)×0.5+P(發(fā)送的數(shù)字=另個奇數(shù)u1)×0.125+P(發(fā)送的數(shù)字=另個奇數(shù)u2)×0.125+P(發(fā)送的數(shù)字=另個奇數(shù)u3)×0.125+P(發(fā)送的數(shù)字=另個奇數(shù)u4)×0.125=1/10(bits)2023/4/19115第115頁,共143頁,2023年,2月20日,星期五習題課這就是說,當假設“發(fā)送的數(shù)字”服從等概分布時,“收到的數(shù)字”服從等概分布。H(收到的數(shù)字)=log10。I(發(fā)送的數(shù)字;收到的數(shù)字)2023/4/19116第116頁,共143頁,2023年,2月20日,星期五習題課2.11令{ul,u2,…,u8}為一等概消息集,各消息相應被編成下述二元碼字:ul=0000,u2=0011,u3=0101,u4=0110u5=1001,u6=1010,u7=1100,u8=1111碼字通過轉移概率為p的BSC傳送。試求(a)接收的第一個數(shù)字0與ul之間的互信息量。(b)接收的前二個數(shù)字00與ul之間的互信息量。(c)接收的前三個數(shù)字000與ul之間酌互信息量。(d)接收的前四個數(shù)字0000與ul之間的互信息量。[2.11的解答]顯然是求事件之間的(非平均)互信息量。首先什么是“轉移概率為p的BSC”?解釋如下(詳見第四章)。2023/4/19117第117頁,共143頁,2023年,2月20日,星期五習題課“轉移概率為p的BSC”是這樣一種輸入/輸出機制:(1)在一個固定時刻,P(輸出0|輸入0)=P(輸出1|輸入1)=1-pP(輸出1|輸入0)=P(輸出0|輸入1)=p(2)在不同時刻的輸入/輸出操作是相互獨立的:P(t1t2…tn時刻輸出v1v2…vn|t1t2…tn時刻輸入u1u2…un)=P(t1時刻輸出v1|t1時刻輸入u1)×P(t2時刻輸出v2|t2時刻輸入u2)×…×P(tn時刻輸出vn|tn時刻輸入un)2023/4/19118第118頁,共143頁,2023年,2月20日,星期五習題課(a)P(接收的第一個數(shù)字為0)=P(發(fā)送的第一個數(shù)字為0)×P(接收的第一個數(shù)字為0|發(fā)送的第一個數(shù)字為0)+P(發(fā)送的第一個數(shù)字為1)×P(接收的第一個數(shù)字為0|發(fā)送的第一個數(shù)字為1)=P(發(fā)送的第一個數(shù)字為0)×(1-p)+P(發(fā)送的第一個數(shù)字為1)×p=P(發(fā)送ul或u2或u3或u4)×(1-p)+P(發(fā)送u5或u6或u7或u8)×p=(1/2)×(1-p)+(1/2)×p=1/2。2023/4/19119第119頁,共143頁,2023年,2月20日,星期五習題課P(發(fā)送ul)=1/8。P(發(fā)送ul,且接收的第一個數(shù)字為0)=P(發(fā)送ul)×P(接收的第一個數(shù)字為0|發(fā)送ul)=P(發(fā)送ul)×P(接收的第一個數(shù)字為0|發(fā)送的第一個數(shù)字為0)=(1/8)×(1-p)。因此,I(發(fā)送ul;接收的第一個數(shù)字為0)2023/4/19120第120頁,共143頁,2023年,2月20日,星期五(b)P(接收的前兩個數(shù)字為00)=P(發(fā)送的前兩個數(shù)字為00)×P(接收的前兩個數(shù)字為00|發(fā)送的前兩個數(shù)字為00)+P(發(fā)送的前兩個數(shù)字為01)×P(接收的前兩個數(shù)字為00|發(fā)送的前兩個數(shù)字為01)+P(發(fā)送的前兩個數(shù)字為10)×P(接收的前兩個數(shù)字為00|發(fā)送的前兩個數(shù)字為10)+P(發(fā)送的前兩個數(shù)字為11)×P(接收的前兩個數(shù)字為00|發(fā)送的前兩個數(shù)字為11)=P(發(fā)送ul或u2)×(1-p)2+P(發(fā)送u3或u4)×(1-p)p+P(發(fā)送u5或u6)×p(1-p)+P(發(fā)送u7或u8)×p2=1/42023/4/19121第121頁,共143頁,2023年,2月20日,星期五習題課P(發(fā)送ul,且接收的前兩個數(shù)字為00)=P(發(fā)送ul)×P(接收的前兩個數(shù)字為00|發(fā)送ul)=P(發(fā)送ul)×P(接收的前兩個數(shù)字為00|發(fā)送的前兩個數(shù)字為00)=(1/8)×(1-p)2。因此,I(發(fā)送ul;接收的前兩個數(shù)字為00)2023/4/19122第122頁,共143頁,2023年,2月20日,星期五(c)P(接收的前三個數(shù)字為000)=P(發(fā)的前面為000)×P(收的前面為000|發(fā)的前面為000)+P(發(fā)的前面為001)×P(收的前面為000|發(fā)的前面為001)+P(發(fā)的前面為010)×P(收的前面為000|發(fā)的前面為010)+P(發(fā)的前面為011)×P(收的前面為000|發(fā)的前面為011)+P(發(fā)的前面為100)×P(收的前面為000|發(fā)的前面為100)+P(發(fā)的前面為101)×P(收的前面為000|發(fā)的前面為101)+P(發(fā)的前面為110)×P(收的前面為000|發(fā)的前面為110)+P(發(fā)的前面為111)×P(收的前面為000|發(fā)的前面為111)=P(發(fā)u1)×(1-p)3+P(發(fā)u2)×p(1-p)2+P(發(fā)u3)×p(1-p)2+P(發(fā)u4)×p2(1-p)+P(發(fā)u5)×p(1-p)2+P(發(fā)u6)×p2(1-p)+P(發(fā)u7)×p2(1-p)+P(發(fā)u8)×p3=1/82023/4/19123第123頁,共143頁,2023年,2月20日,星期五習題課P(發(fā)送ul,且接收的前三個數(shù)字為000)=P(發(fā)送ul)×P(接收的前三個數(shù)字為000|發(fā)送ul)=P(發(fā)送ul)×P(接收的前三個數(shù)字為000|發(fā)送的前三個數(shù)字為000)=(1/8)×(1-p)3。因此,I(發(fā)送ul;接收的前三個數(shù)字為000)2023/4/19124第124頁,共143頁,2023年,2月20日,星期五(d)P(接收的前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論