
信息论第2章 信息的度量.ppt
32页第2章 信息的度量,重庆交通大学信息与工程学院通信工程系李益才2012月,第2章 信息的度量,2.1 自信息和互信息 2.2 平均自信息 2.3 平均互信息,2.1 自信息和互信息,几个重要概念自信息:一个事件(消息)本身所包含的信息量,它是由事件的不确定性决定的比如抛掷一枚硬币的结果是正面这个消息所包含的信息量 互信息:一个事件所给出关于另一个事件的信息量,比如今天下雨所给出关于明天下雨的信息量平均自信息(信息熵):事件集(用随机变量表示)所包含的平均信息量,它表示信源的平均不确定性比如抛掷一枚硬币的试验所包含的信息量 平均互信息:一个事件集所给出关于另一个事件集的平均信息量,比如今天的天气所给出关于明天的天气的信息量2.1.1 自信息,随机事件的自信息量I()是该事件发生概率p()的函数,并且应该满足以下公理化条件: I(),是 p()的严格递减函数当p(x1)
I(x2) ,概率越小,事件发生的不确定性越大,事件发生以后所包含的自信息量越大极限情况下当p() =0时, I() →∞ ;当p() =1时, I() =0另外,从直观概念上讲,由两个相对独立的不同的消息所提供的信息量应等于它们分别提供的信息量之和。
可以证明,满足以上公理化条件的函数形式是对数形式2.1.1 自信息,定义2.1 随机事件的自信息量定义为该事件发生概率的对数的负值设事件的概率为p(),则它的自信息定义为,从图2.1种可以看到上述信息量的定义正是满足上述公理性条件的函数形式I()代表两种含义:当事件发生以前, 等于事件发生的不确定性的大小;当事件发生以后,表示事件所含有或所能提供的信息量图2.1 自信息量,2.1.1 自信息,自信息量的单位常取对数的底为2,信息量的单位为比特(bit,binary unit)当p()=1/2时,I()=1比特,即概率等于1/2的事件具有1比特的自信息量若取自然对数(对数以e为底),自信息量的单位为奈特(nat,natural unit) 1奈特=log2e比特=1.443比特 工程上用以10为底较方便若以10为对数底,则自信息量的单位为哈特莱(Hartley)1哈特莱=log210比特=3.322比特如果取以r为底的对数(r>1),则I()=-logrp()制单位 1r制单位= log2r比特,[例] 8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每行一次测量可获得多少信息量?最少需要多少次测量才能获知和确定哪个灯泡已损坏。
解:收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性),已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即,第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit)第三次测量获得的信息量 = I [P (x3)] =1(bit)至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit)经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2,一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4,2.1.2 互信息,定义2.2 一个事件yj所给出关于另一个事件的信息定义为互信息,用I(;yj)表示 互信息I(;yj)是已知事件yj后所消除的关于事件的不确定性,它等于事件本身的不确定性I()减去已知事件yj后对 仍然存在的不确定性I(|yj) 互信息的引出,使信息得到了定量的表示,是信息论发展的一个重要的里程碑。
2.2 平均自信息,2.2.1 平均自信息(信息熵)的概念自信息量是信源发出某一具体消息所含有的信息量,发出的消息不同,所含有的信息量也不同因此自信息量不能用来表征整个信源的不确定度定义平均自信息量来表征整个信源的不确定度平均自信息量又称为信息熵、信源熵,简称熵因为信源具有不确定性,所以我们把信源用随机变量来表示,用随机变量的概率分布来描述信源的不确定性通常把一个随机变量的所有可能的取值和这些取值对应的概率 [X,P(X)] 称为它的概率空间2.2.1 平均自信息(信息熵)的概念,定义2.3 随机变量X的每一个可能取值的自信息I()的统计平均值定义为随机变量X的平均自信息量: 这里q为的所有X可能取值的个数熵的单位也是与所取的对数底有关,根据所取的对数底不同,可以是比特/符号、奈特/符号、哈特莱/符号或者是r制单位/符号通常用比特/符号为单位 一般情况下,信息熵并不等于收信者平均获得的信息量,收信者不能全部消除信源的平均不确定性,获得的信息量将小于信息熵熵的计算[例]: 有一布袋内放l00个球,其中80个球是红色的,20个球是白色的随便摸出一个球,猜测是什么颜色,那么其概率空间为:,如果被告知摸出的是红球,那么获得的信息量是: I (a1) =-log p(a1) =-log0.8= 0.32 (比特)如被告知摸出来的是白球,所获得的信息量应为: I (a2) = -log p(a2) = -log0.2 = 2.32 (比特)平均摸取一次所能获得的信息量为 : H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号),熵的含义,熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。
在信源输出后,信息熵H(X)表示每个消息提供的平均信息量;在信源输出前,信息熵H(X) 表示信源的平均不确定性;信息熵H(X) 表征了变量X的随机性例如,有两信源X、Y,其概率空间分别为:,计算其熵,得:H(X)=0.08( bit /符号) H(Y)=1(bit / 符号)H(Y)>H(X),因此信源Y比信源X的平均不确定性要大[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占1/8)、小雨(占1/8)又设乙地的天气预报为:晴 (占7/8),小雨(占1/8)试求两地天气预报各自提供的平均信息量若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0另一种是晴、阴、小雨、大雨出现的概率都相等为1/4试求这两极端情况所提供的平均信息量又试求乙地出现这两极端情况所提供的平均信息量两个信源,解:甲地天气预报构成的信源空间为:,则其提供的平均信息量即信源的信息熵:,乙地天气预报的信源空间为:,结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小甲地极端情况:,极端情况1:晴天概率=1,结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。
极端情况2:各种天气等概率分布,乙地极端情况:,极端情况1:晴天概率=1,结论:在极端情况2下,甲地比乙地提供更多的信息量 因为,甲地可能出现的消息数比乙地可能出现的消息数多极端情况2:各种天气等概率分布,2.2.2 熵函数的性质,信息熵H(X)是随机变量X的概率分布的函数,所以又称为熵函数如果把概率分布p(),i=1,2,…,q,记为p1,p2,…,pq,则熵函数又可以写成概率矢量P=(p1,p2,…,pq)的函数的形式,记为H(P) 熵函数H(P)具有以下性质: 对称性 说明熵函数仅与信源的总体统计特性有关2.2.2 熵函数的性质,确定性 在概率矢量中,只要有一个分量为1,其它分量必为0,它们对熵的贡献均为0,因此熵等于0也就是说确定信源的不确定度为0非负性 对确定信源,等号成立信源熵是自信息的数学期望,自信息是非负值,所以信源熵必定是非负的2.2.2 熵函数的性质,扩展性 这个性质的含义是增加一个基本不会出现的小概率事件,信源的熵保持不变连续性 即信源概率空间中概率分量的微小波动,不会引起熵的变化2.2.2 熵函数的性质,递增性 这性质表明,假如有一信源的n个元素的概率分布为(p1,p2,…,pn),其中某个元素xn又被划分成m个元素,这m个元素的概率之和等于元素的概率,这样得到的新信源的熵增加,熵增加了一项是由于划分产生的不确定性。
极值性: 式中n是随机变量X的可能取值的个数 极值性表明离散信源中各消息等概率出现时熵最大,这就是最大离散熵定理连续信源的最大熵则与约束条件有关2.2.2 熵函数的性质,上凸性: H(P)是严格的上凸函数,设则对于任意小于1的正数 有以下不等式成立: 凸函数在定义域内的极值必为极大值,可以利用熵函数的这个性质可以证明熵函数的极值性2.2.2 熵函数的性质,二制信源是离散信源的一个特例 该信源符号只有二个,设为“0”和“1”符号输出的概率分别为“”和“1- ”,即信源的概率空间为:,H(X) = -log –(1-) log(1-) =H(),即信息熵H(x)是的函数取值于[0,1]区间,可画出熵函数H() 的曲线来,如右图所示2.2.3 联合熵与条件熵,一个随机变量的不确定性可以用熵来表示,这一概念可以方便地推广到多个随机变量 定义2.4 二维随机变量 XY的概率空间表示为 其中 满足概率空间的非负性和完备性:,2.2.3 联合熵与条件熵,二维随机变量XY的联合熵定义为联合自信息的数学期望,它是二维随机变量XY的不确定性的度量。
定义2.5 给定X时,Y的条件熵:其中,H(Y|X)表示已知X时,Y的平均不确定性2.2.3 联合熵与条件熵,各类熵之间的关系联合熵与信息熵、条件熵的关系: 这个关系可以方便地推广到N个随机变量的情况: 称为熵函数的链规则推论:当二维随机变量X,Y相互独立时,联合熵等于X和Y各自熵之和: 条件熵与信息熵的关系:联合熵和信息熵的关系: 当X、Y相互独立时等号成立2.3 平均互信息,2.3.1 平均互信息的概念 为了从整体上表示从一个随机变量Y所给出关于另一个随机变量X的信息量,我们定义互信息I(;yj)在XY的联合概率空间中的统计平均值为随机变量X和Y间的平均互信息:定义2.6,2.3.2 平均互信息的性质,非负性:平均互信息是非负的,说明给定随机变量Y后,一般来说总能消除一部分关于X的不确定性 互易性(对称性):对称性表示Y从X中获得关于的信息量等于X从Y中获得关于的信息量平均互信息和各类熵的关系: 当X,Y统计独立时,,2.3.2 平均互信息的性质,极值性:极值性说明从一个事件提取关于另一个事件的信息量,至多只能是另一个事件的平均自信息量那么多,不会超过另一事件本身所含的信息量。
凸函数性: 定理2.1 当条件概率分布 给定时,平均互信息 是输入分布 的上凸函数 定理2.2 对于固定的输入分布 ,平均互信息量 是条件概率分布 的下凸函数。












