
第二章信息熵..ppt
84页上次课的回顾,什么是信息?信号,消息,信息的区别? 通信系统模型 Shannon信息论重点研究内容?,1,通信系统模型,对信息论的学习从信源开始 由于信源发送什么消息预先是不可知的,只能用概率空间来描述信源2,单符号离散信源,信源发出的消息是离散的,有限的或可数的,且一个符号代表一条完整的消息 例如: 投骰子每次只能是{1,2,…6}中的某一个 其中的数叫做事件/元素,以一定的概率出现; 信源可看作是具有一定概率分布的某些符号的集合3,对于离散随机变量,取值于集合,单符号离散信源的数学模型为,(2.1.2),单符号离散信源的数学模型,4,需要注意 的是:大写字母X 代表随机变量,指的是信源整体带下标的小写字母: 代表随机事件的某一结果或信源的某个元素两者不可混淆单符号离散信源的数学模型,5,2.1.2 自信息和信息熵,6,,1,是非负值,,2,3,的单调递减函数4,自信息量 引入,必然事件,不可能的事件,一个随机事件发生某一结果后所带来的信息量称为自信息量,简称自信息7,单位:比特(2为底)、奈特、笛特(哈特),定义:,一个随机事件发生某一结果后所带来的信息量称为自信息量,简称自信息。
8,当随机事件ai发生以前,I(ai)表示事件ai的不确定性; 当随机事件ai发生以后,I(ai)表示事件ai所含有(或所提供)的信息量 注意:信息量是数值,信息量单位只是为了表示 不同底数的对数值,并没有量纲的含义9,联合自信息量,针对两个符号离散信源,10,代入式(2.1.3)就有,定义:,联合自信息,11,条件自信息量,定义:,12,练习题,中国福利彩票双色球规则:中奖号码为7位,从红球选六个,从蓝色球中选一个,红球为32选1,蓝色球为16选1 某期中奖号码为:7 16 21 17 1 19 2 (1)猜中第一个球为“7”的难度? (2)第一个球出现后,猜中第二个球号码为“16”的难度? (3)已知前五个球号码,猜中第六个号码为“19”的难度? (4)猜中全部红篮球的难度?,13,信源熵,14,已知单符号离散无记忆信源的数学模型,信源熵,15,信源熵,自信息量指的是某一信源发出某一消息所含的信息,不能作为整个信源的信息测度信源整体的信息量如何测定呢? 我们可以定义信源各个离散消息的自信量的数学期望为信源的平均信息量,以此来测定信源整体的信息量16,信源熵,各离散消息自信息量的数学期望,即信源的平均信息量。
2.1.16),信源的信息熵;香农熵;无条件熵;熵函数;熵 单位:比特/符号底数不同,单位不同),17,例[2.1.3],由式(2.1.16)的定义,该信源的熵为,继续讨论上一节的例题,即某地二月份天气构成的信源为,18,信源熵H(X)表示信源输出后,离散消息所提供的平均信息量信源熵H(X)表示信源输出前,信源的平均不确定度信源熵H(X)反映了变量X的随机性1,2,3,信源熵的意义,H(X)=0.08bit/sign,H(Y)=1bit/sign,说明X的不确定小19,补充例题:一个布袋内放有100个球,其中80个球是红色的,20个球是白色的,问:(1)若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量2)若每次摸出一个球后又放回袋中,再进行下一次的摸取,那么如此摸取n次后,求平均摸取一次所能获得的自信息量解:(1)概率空间为: x1表示摸出的球为红球,x2表示摸出的球为白球 当被告知摸出的是红球,则获得的信息量是: I(x1)=-㏒p(x1)=-㏒0.8(比特) 当被告知摸出的是白球,则获得的信息量是: I(x2)=-㏒p(x2)=-㏒0.2(比特),,20,(2)每次摸出一个球后又放回袋中,再进行下一次的摸取,如此摸取n次后,红球出现的次数为np(x1)次,白球出现的次数为np(x2)次。
随机摸取n次后共获得信息量为: ∴平均摸取一次所能获得的自信息量为:,,,,,=0.72(比特/次),np(x1)I(x1)+np(x2)I(x2),补充例题,21,此例说明: ①自信息量I(x1)和I(x2)只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因此各个符号的自信息量就不同所以自信息量不能作为信源总体的信息量; ②可以用平均自信息量H(x),即信息熵H(x)从平均意义上来表征信源的总体特征,也可以表征信源的平均不确定性补充例题,22,信源熵与信息量的比较,熵 信息量,23,条件熵,定义 在联合集(XY)上,定义条件自信息量的数学期望,,为集合Y相对于集合X的条件熵 特别地,当X,Y相互独立时,有 H(X|Y)=H(X) 下面根据定义,讨论条件熵的具体计算方法 (1) 根据前文的定义可知,观察到消息bj后,ai保留的不确定性为 I(ai|bj)=-logp(ai|bj),24,条件熵,(2) 根据信息熵的定义,观测到消息bj后,整个信源X保留的平均不确定性为,,(3) 最后分析观测到整个信源集合Y后,整个信源X所保留的平均不确定性,就是条件熵,H(X|Y)的物理意义在于,观测到集合Y后,集合X保留或者剩余的不确定性。
25,条件熵,【例2.2-3】已知X,Y∈{0,1},X,Y构成的联合概率为p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y) 解:∵,,题中已知p(xiyj),需求p(xi/yj) ∵ p(xi/yj)= p(xiyj)/p(yj),已知p(xiyj),求p(yj),26,条件熵,当j=0时, p(y1=0)=p(x1y1=00)+p(x2y1=10)=1/8+3/8=4/8=1/2 当j=1时, p(y2=1)=p(x1y2=01)+p(x2y2=11)=1/8+3/8=4/8=1/2 P(0/0)=p(x=0/y=0)=p(x1y1)/p(y1)=p(00)/p(0) =(1/8)∕(1/2)=1/4 = p(1/1) 同理有p(1/0)=p(0/1)=3/4 ∴H(X/Y) =-1/8㏒(1/4)-3/8㏒(3/4)-3/8㏒(3/4)-1/8㏒(1/4) =0.406(比特/符号),27,,联合熵,28,信源熵、条件熵、联合熵之间的关系,H(XY)= H(X)+H(Y/X) H(XY)= H(Y)+H(X/Y) 条件熵小于无条件熵,H(Y/X)≤H(Y)。
当且仅当y和x相互独立p(y/x)=p(y),H(Y/X)=H(Y) 两个条件下的条件熵小于一个条件下的条件熵H(Z/X,Y)≤H(Z/Y) 当且仅当p(z/x,y)=p(z/y)时取等号29,信源熵、条件熵、联合熵之间的关系,联合熵小于信源熵之和, H(YX)≤H(Y)+H(X) 当两个集合相互独立时得联合熵的最大值 H(XY)max=H(X)+H(Y),信源熵、条件熵、联合熵之间的关系,,30,总结,31,(1 )非负性 H(X) 0 0<p(ai)<1,当取对数的底大于1时,log p(ai)<0,- p(ai) log p(ai) >0,即得到的熵为正值只有当随机变量是一确知量时熵才等于零2. 信息熵的基本性质,32,(2)确定性 H(1,0)=H(1,0,0)=H(1,0,0…,0)=0 性质说明:从总体来看,信源虽然有不同的输出符号,但它只有一个符号几乎必然出现,而其它符号则是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零信息熵的基本性质,33,信息熵的基本性质,(3)对称性 X中的n个消息概率改变顺序,不影响熵的值34,X与Z信源的差别:它们所选择的具体消息/符号含义不同 X与Y信源的差别:选择的同一消息,概率不同 三者的信源熵是相同的,总体统计特性相同,信息熵的基本性质,(3)对称性,35,熵函数的对称性表明: 信源熵只与信源概率空间的总体结构有关,与概率分量和各信源符号的对应关系,乃至各信源符号本身无关。
信息熵的基本性质,(3)对称性,36,,(4)扩展性 性质说明:由n个消息增加到n+1个,若它的概率很小,可忽略对熵的贡献,虽然概率很小的事件出现后,给予接收者的信息量很大,但对熵的贡献很小,可以忽略不计,信息熵的基本性质,37,(5)可加性 H(XY) = H(X)+ H(Y) X和Y独立 H(XY)=H(X)+ H(Y/X) H(XY)=H(Y)+ H(X/Y),信息熵的基本性质,证明:,38,信源中包含n个不同离散消息时,信源熵H(X)有,当且仅当X中各个消息出现的概率全相等时,上式取等号信息熵的基本性质,(6)极值性——最大离散熵定理,39,证明:,40,对于单符号离散信源,当信源呈等概率分布时具有最大熵信息熵的基本性质,41,二进制信源是离散信源的一个特例H(X) = -log –(1-) log(1-) =H(),,即信息熵H(x)是的函数 取值于[0,1]区间,可画出熵函数H() 的曲线来,如右图所示举例,42,已知Y后,从中得到了一些关于X的信息,从而使X的不确定度下降极值性,信息熵的基本性质,可以证明,43,信息熵的基本性质,(7)条件熵不大于无条件熵,H(X)≥H(X|Y) 当且仅当X与Y相互独立时等号成立。
证明 根据条件熵的定义,,,为了利用香农辅助定理,将上述公式中的p(ai|bj)看做香农辅助定理中的pi,为了证明上述定理成立,需要构造合适的qi 由于证明目标是为了找出条件熵H(X|Y)与熵H(X)之间的关系,所以令qi=p(ai),于是得到,44,信息熵的基本性质,(7)条件熵不大于无条件熵,,代入上述表达式,可以得到,,,即 H(X)≥H(X|Y) 证毕45,信源分类,连 续 信 源,随机变量,信源,离 散 信 源,单符号,多符号,随机矢量,随机过程,离散无记忆信源,离散有记忆信源,平稳序列信源,马尔可夫信源,46,输出的消息序列中各符号之间无相互依赖关系的信源亦称为单符号离散平稳无记忆信源的扩展信源序列长度就是扩展次数例:单符号信源{0,1},经过二次扩展,变成了:{00,01,10,11},经过三次扩展,形成的信源? 经过N次扩展,形成的信源?,2.3多符号离散平稳无记忆信源,无记忆信源的扩展信源,47,2.3.1 数学模型,48,2.3.1 数学模型,49,,可证明序列信息的熵为,2.3.2信源熵,50,单符号信源如下,求二次扩展信源熵,扩展信源:,例题,51,,例题,52,反映信源记忆特性的两方法:,用联合概率反映信源记忆特性 -平稳序列信源,用条件概率反映信源记忆特性 -马尔可夫信源,1,2,2.3.3有记忆信源,53,各维联合概率均与时间起点无关,离散平稳信源,54,二维信源,1,55,二维信源的信源熵,56,一般地,信源熵的说明,结论:离散无记忆信源的二次扩展信源可以看作二维离散平稳信源的特例,57,例2.2.3,原始信源:,条件概率:,例题,58,平均符号熵:,信源熵:,例题,59,N维信源,2,60,☞,N维信源的信源熵,61,,平均符号熵:,极限熵:,,平均符号熵与极限熵,62,对离散平稳信源若H1(X)< ,则有以下性质: (1) 多维离散有记忆信源的熵是起始时刻随机变量X1的熵与各阶条件熵之和; (2)条件熵H(XN/X1X2…XN-1)随N的增加是递减的;,一些性质,63,(3) 平均符号熵HN (X)也是随N增加而递减的; (4) H 存在,并且:,一些性质,64,小结,离散无记忆信源的N次扩展 离散平稳有记忆信源 平均符号熵 极限熵,65,2.3.4 有记忆的特点:,有限的相关符号组构成的序列,有限记忆长度;,发出一个个符号,每发一个符号状态要发生转移。
信源输出不仅与符号集有关,而且与状态有关;,1,2,3,66,以信源输出符号序列内各符号间条件概率来反映记忆特性的一类信源。
