您所在位置：网站首页 > 中学教育 > 试题/考题 > 英语信源汉语信源信息熵的研究

英语信源汉语信源信息熵的研究.doc

5页

卖家[上传人]：tia****nde

文档编号：36885417

上传时间：2018-04-03

文档格式：DOC

文档大小：58KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28金贝

下载

/ 5 举报版权申诉马上下载

文本预览

下载提示

常见问题

英语信源、汉语信源及其信息熵的研究摘要摘要英语信源和汉语信源是两种不同的自然语信源，而信息熵反映了信源的记忆长度，信源的记忆长度越长，熵就越小只有当记忆长度为 0，即信源符号间彼此没有任何依赖关系且等概率分布时，信源熵达到最大值也就是说，信源符号相关性越强，所提供的平均信息量就越小所以，研究这两种信源的信息熵，就可以得出每种信源中符号的相关性，和提供的平均信息量，量化的来比较两种语言关键词关键词英语信源汉语信源信息熵正文正文一、英语信源及其信息熵英语字母有 26 个，加上空格，共 27 个符号根据熵的性质，信源的最大熵02log 274.76(/)Hbit symbol但实际上，英语中的字母并非等概率出现，字母之间还有严格的依赖关系如果我们对英语书中 27 个符号出现的概率加以统计，可得：27 个英语字符出现的概率符号概率符号概率符号概率空格0.2S0.052Y,M0.012 E0.105H0.047G0.011 T0.072D0.035B0.0105 O0.0654L0.029V0.008 A0.063C0.023K0.003 N0.059F,U0.0225X0.002I0.055M0.021J,Q0.001 R0.054P0.0175Z0.001如果不考虑上述符号之间的依赖关系，即近似地认为信源是离散无记忆信源，根据离散上的定义可得2712 1( )log( )4.03(/)ii iHp ap abit symbol 按上述表格中的概率分布，随机选择英语字母排列起来，得到一个信源输出序列：AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SETRYGAIETRWCO…可见，这些字母完全是随机排列，毫无相关性，却不是英语单词，所以我们应该考虑字母的依赖性。

为了进一步逼近实际情况，可把婴语信源近似地看作 1 阶，2阶，…，阶马尔可夫信源，求得相应的熵23.32(/)Hbit symbol33.1(/)Hbit symbol异推出，马尔可夫信源阶数越高，输出的序列越接近实际情况当依赖关系延伸到无穷远时，信源输出就是真正的英语所以我们求马尔可夫信源的极限熵1.4(/)Hbit symbol二、汉语信源及其信息熵对于英语，字符数少，可轻松的计算出英语信源的信息熵，但是对于汉语这个中文字符极其庞大的信源，科学家们做出了大量的统计与计算方法同上面的英语信源信息熵的计算，不过计算量增加了非常多下面是截取的一些统计资料CCL 语料库-现代汉语总字频数：307,317,060 总字种数：9711 字频表：的:11523375 一:4140344 是:3291508 了:3059837 在:2933070 人:2827726 不:2733842 国:2645758 有:2507415 中:2182025 他:2029395 这:1968713 我:1940875 和:1872750 大:1832977 个:1701835 上:1615128 为:1607942 年:1529238 地:1464121 来:1456483 会:1445285 到:1353359 们:1350664 出:1262480 要:1259098 以:1240442 发:1218837 说:1186888 时:1137791 生:1133029 作:1114127 家:1092024 对:1074655 业:1018180 经:1015211 就:996530 日:991991 行:988420 成:944114 也:906313 工:891269 多:880855 学:860176 于:844000 得:839902 自:833435 子:824453 民:821583 过:810433 着:802863 方:801878 后:801821 下:797775 可:796081 能:792017 进:780713 部:779801 开:747231 新:746180 而:742961 主:741817 里:735032 现:730526 同:727742 全:723495 用:718945 产:713207 理:712150 法:709521 市:708052 之:705141 事:685890 动:683263 本:681058 者:680848 长:677790 你:677378 那:676119 实:670861 …… …… …… …… …… …… …… …… …… ……中国科学家冯志伟等人的对中文字符信息熵计算的结果是：汉字容量：1 1052 1830 4912 5104 5211 12370信息熵值：0 7.53 9.52 9.61 9.63 9.64 9.65随着汉字容量增大，信息熵的增加趋缓；汉字增加到 12370 以后，不再使信息熵有明显的增加。

通过数理语言学中著名的齐普夫定律（ZIPF'S LAW）核算，汉字的容量极限是 12366 个汉字，汉字的平均信息量是 9.65 比特三、英语信源和汉语信源的比较显而易见，汉语信源的信源熵远远大于英语信源的信息熵，说明英语信源的记忆长度比汉语的长，相关性比汉语信源强，非常简洁很多人认为信源的信息熵小就一定好，但并不是这样，并不是信息熵小就好，信息熵大也有他的好处汉语是“表意文字” ，英语是“表音文字” 表意文字要求汉字拥有了一个数量庞大的字符集，但现代汉语已经不用增加字符来表达新的概念，而是创造新词，加上对汉字汉语的规范化，这已经基本上达到了减少了使用字数的目的，大大减少了汉字的冗余度汉字对拼音文字的这种信息熵优势是什么概念？简单的比喻就是十进制数与二进制数的差别十进制数字系统需要人记忆 0-9，10 个符号，二进制只需要记忆 0 和 1 两个符号十进制乘除要记忆 9X9 表，二进制只需要学会与、或、非的简单逻辑但是，人类在日常生活中为什么不使用二进制数字系统呢？因为那样很浪费，一个数字“7”表示成二进制就成了“111” ，记个大数不把人累死？反过来，人类为什么不用十六进制，或更高的进制呢？一方面是人脑智力的限制，另一方面，十六进制也未必能大幅度提高信息熵。

这种信息熵反映在文字上，就是联合国文件中，中文版本一定是最薄的信息熵高是不是就不利于计算机处理呢？这方面恐怕还很难下结论简单的比较汉与英文的输入速度是不能说明问题的，因为“字”与“word”是不同的概念要比较只能比较同一内容的中英文两个不同文本，计算击键数的差值在“词”的单位基础上，现代汉语与英语是可以进行比较的现代英语为了应付不断涌现的新事物、新思想、新科技、新概念，也在不断地造词无非是借助拉丁词根、或重新组合已有单词，结果越是专业科技的词汇，就越长、越难记或者是大量使用缩写：如 WTO、FBI、IBM、UFO 等等，缩写一多就容易混淆、难以理解在这方面，现代汉语造词的优势就十分突出了这就是汉字字符集信息熵高的优势汉语是有他独特的魅力的。

点击阅读更多内容