
二章信息量和熵ppt课件.ppt
66页第二章第二章 信息量和熵信息量和熵信息量和熵信息量和熵l2.1 离散变量的非平均信息量l2.2 离散集的平均自信息量-熵l2.3 离散集的平均互信息量l2.4 延续随机变量的互信息和熵l2.5 凸函数和互信息的凸性2.1 离散变量的非平均信离散变量的非平均信息量息量输入,输出空间定义输入,输出空间定义l输入空间X={xk,k=1,2,…,K},概率记为q(xk)l输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)l结合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为p(xkyj) lp(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)非平均互信息量非平均互信息量l例2.1.1输入消息码字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/81/81/81/81/81/81/81/41/41/41/40000001/21/2000000010000非平均互信息量非平均互信息量输入消息码字p(xk)收到0收到01收到011X1X2X3X4X5X6X7x80000010100111001011101111/81/41/81/41/161/161/161/161/61/31/61/30000001/32/3000000010000非平均互信息量非平均互信息量l例2.1.2输入消息码字p(xk)收到0收到01收到011X1X20001111/21/21-pp1/21/21-pp1-p1-p0011pp非平均互信息量非平均互信息量非平均互信息量非平均互信息量定定义2.1.1(非非平平均均互互信信息息量量) 给定定一一个个二二维离离散散型型随随机机变量量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}〔因此就〔因此就给定了两个离散型随机定了两个离散型随机变量量{X, xk, qk, k=1~K}和和{Y, yj, wj, j=1~J}〕〕。
事事件件xk∈∈X与事件与事件yj∈∈Y的互信息量定的互信息量定义为非平均互信息量非平均互信息量其中底数a是大于1的常数常用a=2或a=e,当a=2时互信息量的单位为“比特〞几点阐明: 〔1〕I(xk; yj)=loga(rkj/(qkwj))因此有对称性:I(xk; yj)=I(yj; xk)〔2〕当rkj=qkwj时I(xk; yj)=0〔当两个事件相互独立时,互信息量为0〕〔3〕当rkj>qkwj时I(xk; yj)>0,当rkj 熵熵留意:〔1〕事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望〞〔2〕定义H(X)时,允许某个qk=0〔此时将qkloga(1/qk) 通盘思索〕此时补充定义qkloga(1/qk)=0这个定义是合理的,由于熵熵例例2.2.1 离散型随机变量离散型随机变量X有两个事件有两个事件x1和和x2,,P(X=x1)=p,,P(X=x2)=1-p那么那么X的平均自信息量〔熵〕为的平均自信息量〔熵〕为H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 察看察看H(X)〔它是〔它是p的函数,图的函数,图2.2.1给出了函数图象,该图象具给出了函数图象,该图象具有某种对称性〕,有有某种对称性〕,有当当p=0或或p=1时,时,H(X)=0〔随机变量〔随机变量X退化为常数时,熵为退化为常数时,熵为0〕〕当当0 0p越接近越接近1/2,, H(X)越大 〔〔X是真正是真正的随机变量时,总有正的熵随机性越大,熵越大〕的随机变量时,总有正的熵随机性越大,熵越大〕当当p=1/2时,时,H(X)到达最大。 〔随机变量到达最大〔随机变量X的随机性最大时,的随机性最大时,熵最大特别假设底数熵最大特别假设底数a=2,那么,那么H(X)=1比特〕比特〕 条件熵〔定义条件熵〔定义2.2.2〕〕 XY独立时有H(X|Y)=H(X)结合熵结合熵熵的性质熵的性质l对称性l非负性l确定性l扩展性l可加性l极值性l是H(P)上凸函数熵是概率矢量的函数熵是概率矢量的函数lP=(p1, p2, …, pk)可以看作是K维矢量,当 ,常称作是概率矢量;l故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函数熵的性质-对称性熵的性质-对称性l矢量的各分量p1,p2,…pk的次序恣意改动时,熵值不变l熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关熵的性质-非负性熵的性质-非负性lHK(P) = HK(p1, p2, …, pK) ≥0l可由单个事件自信息量的非负性得到熵的性质-确定性熵的性质-确定性l假设事件集X中有一个事件为必然事件,其他事件为不能够事件,那么此集合的熵值为0熵的性质-扩展性熵的性质-扩展性熵的性质-可加性熵的性质-可加性lH(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44)p1p2p3p4q11q12q13q14熵的性质-极值性熵的性质-极值性l引理1: lnx≤x-1l引理2:lH(X|Y) ≤H(X)lH(U1…UN) ≤H(U1)+…+H(UN)熵的性质-凸性熵的性质-凸性lH(P)是P的上凸函数2.3 离散集的平均互信息离散集的平均互信息量量平均互信息量平均互信息量定义定义2.4.1(平均互信息量平均互信息量) 给定一个二维离散型随机给定一个二维离散型随机变量变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}〔因此就〔因此就给定了两个离散型随机变量给定了两个离散型随机变量{X, xk, qk, k=1~K}和和{Y, yj, wj, j=1~J}〕。 〕X与与Y的平均互信息量定义为的平均互信息量定义为如下的如下的I(X; Y)::平均互信息量平均互信息量留意:事件对(xk, yj)的互信息量值为I(xk; yj)此外,可以定义半平均互信息量I(xk; Y)和I(X; yj)平均互信息量的性质平均互信息量的性质l非负性 I(X;Y) ≥0l对称性 I(X;Y)=I(Y;X)l平均互信息用熵与条件熵表示l平均互信息与熵的关系: I(X;Y) ≤H(X) or H(Y)l假设X是Y确实定的函数X=g(Y),那么I(X;Y)=H(X)≤H(Y); 假设Y是X确实定的函数Y=g(X),那么I(X; Y)=H(Y)≤H(X)平均互信息量平均互信息量普通印象普通印象〔平均互信息量〔平均互信息量I(X; Y)的各种性的各种性质与我与我们对“互互信息量〞信息量〞这个名个名词的直的直观了解非常吻合〕了解非常吻合〕普通情形:普通情形:总有有0≤I(X; Y)≤min{H(X), H(Y)}一种极端情形:假一种极端情形:假设X与与Y相互独立,那么相互独立,那么I(X; Y)=0另一种极端情形:假另一种极端情形:假设X、、Y中有一个完全是另中有一个完全是另一个确一个确实定的函数,那么定的函数,那么I(X; Y)=min{H(X), H(Y)}。 平均互信息量平均互信息量H(X)H(Y)I(X;Y)H(Y|X)H(X|Y)平均条件互信息与结合互信息平均条件互信息与结合互信息信息处置定理信息处置定理lZ出现情况下,X和Y独立系统1系统2XZY信息处置定理信息处置定理2.4 延续随机变量的互信延续随机变量的互信息和相对熵息和相对熵延续随机变量的互信息延续随机变量的互信息定定义2.5.1 给定二定二维延延续型随机型随机变量量{(X, Y), f(X,Y)(x, y)}〔〔因此就因此就给定了两个延定了两个延续型随机型随机变量量{X, fX(x)}和和{Y, fY(y)}〕事件事件x∈∈X与事件与事件y∈∈Y的互信息量定的互信息量定义为延续随机变量的平均互信息延续随机变量的平均互信息I(X; Y | Z)I(XY; Z)定义定义2.5.2 给定二维延续型随机变量给定二维延续型随机变量{(X, Y), f(X,Y)(x, y)}〔因〔因此就给定了两个延续型随机变量此就给定了两个延续型随机变量{X, fX(x)}和和{Y, fY(y)}〕 X与与Y的平均互信息量定义为的平均互信息量定义为 性质性质非负性对称性数据处置定理关系延续随机变量的相对熵延续随机变量的相对熵〔延续型随机变量为什么不能类似地定义平均自信息量——熵?这是由于,延续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。 假设类似地定义熵,那么熵是无穷大因此只能定义所谓“相对熵〞,而“相对熵〞的直观合理性大打折扣〕相对熵的定义相对熵的定义 给定延续型随机变量给定延续型随机变量{X, fX(x)} X的相对熵定义为的相对熵定义为延续随机变量的相对熵延续随机变量的相对熵HC(XY)HC(Y | X), HC(Y | X) ≤HC(Y)互信息与相对熵I(X ; Y)=HC(X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(X, Y)HC(X, Y)=HC(X)+HC(Y)-I(X ; Y) 均匀随机变量的相对熵均匀随机变量的相对熵例2.5.2 设X~U(a, b),求X的相对熵〔我们将发现, X的相对熵未必非负〕正态随机变量的相对熵正态随机变量的相对熵例2.5.3 设X~N(m, σ2),求X的相对熵〔我们将发现, X的相对熵未必非负〕正态随机变量的相对熵正态随机变量的相对熵熵功率相对熵不具有非负性例2.5.3练习:练习:试求指数分布延续信源的熵试求指数分布延续信源的熵相对熵的极大化相对熵的极大化l1.峰值功率受限l均匀分布相对熵最大:HC(X) ≤log 2Ml2.平均功率受限l高斯分布相对熵最大l3.平均功率大于等于熵功率2.5 凸函数与互信息的凸凸函数与互信息的凸性性凸函数凸函数l凸集R:a,b属于R,qa+(1-q)b也属于R,其中0≤q≤1l概率矢量:l矢量a的一切分量非负,且和为1l概率矢量全体所构成的区域R是凸的l上凸函数l下凸函数凸函数的性质凸函数的性质1.f(a)是上凸的,-f(a)是下凸的2.f1(a),…,fL(a)是R上的上凸函数,c1,…,cL是正数,c1f1(a)+…+cLfL(a)也是上凸函数3.Jensen不等式:4. f(a)是上凸函数,E[f(a)]≤f[E(a)],E为求数学期望记离散型随机变量X的事件为1,2,…,K。 记X的概率分布为P(X=k)=qk,k=1~K记离散型随机变量Y的事件为1,2,…,J记条件概率P(Y=j|X=k)=p(j|k)那么rkj=P((X, Y)=(k,j))=qkp(j|k),〔概率论中的乘法公式〕wj=P(Y=j)=∑k qkp(j|k),〔概率论中的全概率公式〕互信息的凸性互信息的凸性互信息的凸性互信息的凸性设条件概率{p(j|k),k=1~K,j=1~J}被确定此时I(X; Y)是概率向量q=(q1, q2, …, qK)的函数我们希望找到这样的概率向量,使得对应的I(X; Y)到达最大这就是说,记我们希望找到这样的K维概率向量a=(a1, a2, …, aK),使得K-T条件条件lf(a)是定义域R上的上凸函数,a是概率矢量偏导数 存在且延续, f(a)在R上为极大的l 充分必要条件l 其中l为一常数互信息的凸性互信息的凸性p(y | x)给定,I(X; Y)是q(x)的上凸函数q(x)给定,I(X; Y)是p(y | x)的下凸函数互信息的凸性互信息的凸性定理定理2.6.2的含的含义 K维概率向量概率向量a=(a1, a2, …, aK)使得使得当且当且仅当:以当:以a为X的概率向量的的概率向量的时候,候,I(X=k; Y)对一切一切ak>0的的k都取一个一都取一个一样的的值C;; I(X=k; Y)对一切一切满足足ak=0的的k都都取取值不超越上述的一不超越上述的一样值C 。 互信息的凸性互信息的凸性I(X=k; Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量〞互信息的凸性互信息的凸性例例 设设X的事件有的事件有0、、1;; Y的事件有的事件有0、、1;; 知知p(0|0)=1-u;;p(1|0)=u;;p(0|1)=u;;p(1|1)=1-u当当X服从等概分布〔服从等概分布〔a0=P(X=0)=1/2;;a1=P(X=1)=1/2〕时,〕时,I(X;Y)到达最大由于此时到达最大由于此时互信息的凸性互信息的凸性小结小结l信息的度量——熵,信息量l熵的极大性l熵,平均互信息的关系l条件熵,结合熵,条件互信息,结合互信息l互信息的凸性l信息处置定理讨论讨论l10个硬币中有一个分量偏轻,其他9个为规范分量在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么?l世界杯冠军预测方法l信息论与大数据。












