好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

英语信源汉语信源信息熵的研究.doc

5页
  • 卖家[上传人]:tia****nde
  • 文档编号:36885417
  • 上传时间:2018-04-03
  • 文档格式:DOC
  • 文档大小:58KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 英语信源、汉语信源及其信息熵的研究摘要摘要 英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小只有当记忆长度为 0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源熵达到最大值也就是说,信源符号相关性越强,所提供的平均信息量就越小所以,研究这两种信源的信息熵,就可以得出每种信源中符号的相关性,和提供的平均信息量,量化的来比较两种语言关键词关键词 英语信源 汉语信源 信息熵正文正文 一、英语信源及其信息熵英语字母有 26 个,加上空格,共 27 个符号根据熵的性质,信源的最大熵02log 274.76(/)Hbit symbol但实际上,英语中的字母并非等概率出现,字母之间还有严格的依赖关系如果我们对英语书中 27 个符号出现的概率加以统计,可得:27 个英语字符出现的概率 符号概率符号概率符号概率 空格0.2S0.052Y,M0.012 E0.105H0.047G0.011 T0.072D0.035B0.0105 O0.0654L0.029V0.008 A0.063C0.023K0.003 N0.059F,U0.0225X0.002I0.055M0.021J,Q0.001 R0.054P0.0175Z0.001如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得2712 1( )log( )4.03(/)ii iHp ap abit symbol 按上述表格中的概率分布,随机选择英语字母排列起来,得到一个信源输出序列:AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SETRYGAIETRWCO…可见,这些字母完全是随机排列,毫无相关性,却不是英语单词,所以我们应该考虑字母的依赖性。

      为了进一步逼近实际情况,可把婴语信源近似地看作 1 阶,2阶,…,阶马尔可夫信源,求得相应的熵23.32(/)Hbit symbol33.1(/)Hbit symbol异推出,马尔可夫信源阶数越高,输出的序列越接近实际情况当依赖关系延伸到无穷远时,信源输出就是真正的英语所以我们求马尔可夫信源的极限熵1.4(/)Hbit symbol二、汉语信源及其信息熵对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计与计算方法同上面的英语信源信息熵的计算,不过计算量增加了非常多下面是截取的一些统计资料CCL 语料库-现代汉语 总字频数:307,317,060 总字种数:9711 字频表: 的:11523375 一:4140344 是:3291508 了:3059837 在:2933070 人:2827726 不:2733842 国:2645758 有:2507415 中:2182025 他:2029395 这:1968713 我:1940875 和:1872750 大:1832977 个:1701835 上:1615128 为:1607942 年:1529238 地:1464121 来:1456483 会:1445285 到:1353359 们:1350664 出:1262480 要:1259098 以:1240442 发:1218837 说:1186888 时:1137791 生:1133029 作:1114127 家:1092024 对:1074655 业:1018180 经:1015211 就:996530 日:991991 行:988420 成:944114 也:906313 工:891269 多:880855 学:860176 于:844000 得:839902 自:833435 子:824453 民:821583 过:810433 着:802863 方:801878 后:801821 下:797775 可:796081 能:792017 进:780713 部:779801 开:747231 新:746180 而:742961 主:741817 里:735032 现:730526 同:727742 全:723495 用:718945 产:713207 理:712150 法:709521 市:708052 之:705141 事:685890 动:683263 本:681058 者:680848 长:677790 你:677378 那:676119 实:670861 …… …… …… …… …… …… …… …… …… ……中国科学家冯志伟等人的对中文字符信息熵计算的结果是:汉字容量:1 1052 1830 4912 5104 5211 12370信息熵值:0 7.53 9.52 9.61 9.63 9.64 9.65随着汉字容量增大,信息熵的增加趋缓;汉字增加到 12370 以后,不再使信息熵有明显的增加。

      通过数理语言学中 著名的齐普夫定律(ZIPF'S LAW)核算,汉字的容量极限是 12366 个汉字,汉字的平均信息量是 9.65 比特三、英语信源和汉语信源的比较显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明英语信源的记忆长度比汉语的长,相关性比汉语信源强,非常简洁很多人认为信源的信息熵小就一定好,但并不是这样,并不是信息熵小就好,信息熵大也有他的好处汉语是“表意文字” ,英语是“表音文字” 表意文字要求汉字拥有了一个数量庞大的字符集,但现代汉语已经不用增加字 符来表达新的概念,而是创造新词,加上对汉字汉语的规范化,这已经基本上达到了减少了使用字数的目的,大大减少了汉字的冗余度汉字对拼音文字的这种信息熵优势是什么概念?简单的比喻就是十进制数与二进制数的差别十进制数字系统需要人记忆 0-9,10 个符号,二进制只需要记忆 0 和 1 两个符号十进制乘除要记忆 9X9 表,二进制只需要学会与、或、非的简单逻辑但是,人类在日常生活中为什么不使用二进制数字系统呢?因为那样很浪 费,一个数字“7”表示成二进制就成了“111” ,记个大数不把人累死?反过来,人类为什么不用十六进制,或更高的进制呢?一方面是人脑智力的限制,另一 方面,十六进制也未必能大幅度提高信息熵。

      这种信息熵反映在文字上,就是联合国文件中,中文版本一定是最薄的信息熵高是不是就不利于计算机处理呢?这方 面恐怕还很难下结论简单的比较汉与英文的输入速度是不能说明问题的,因为“字”与“word”是不同的概念要比较只能比较同一内容的中英文两个不同文 本,计算击键数的差值在“词”的单位基础上,现代汉语与英语是可以进行比较的现代英语为了应付不断涌现的新事物、新思想、新科技、新概念,也在不断地 造词无非是借助拉丁词根、或重新组合已有单词,结果越是专业科技的词汇,就越长、越难记或者是大量使用缩写:如 WTO、FBI、IBM、UFO 等等, 缩写一多就容易混淆、难以理解在这方面,现代汉语造词的优势就十分突出了这就是汉字字符集信息熵高的优势汉语是有他独特的魅力的。

      点击阅读更多内容
      相关文档
      高一历史上学期期末考前必刷卷统编版03考试版A4含答案.docx 高中英语考试各题型突破攻略听力篇高一高二高三的都要看.docx 高一历史上学期期末考前必刷卷统编版01考试版A3含答案.docx 高中英语考试各题型突破攻略语法填空篇高一高二高三的都要看.docx 高一历史上学期期末考前必刷卷统编版02考试版A3含答案.docx 高中英语考试各题型突破攻略完形填空篇高一高二高三的都要看.docx 高中英语考试各题型突破攻略作文篇高一高二高三的都要看.docx 高考政治如何规范化答题?.docx 高一历史上学期期末考前必刷卷统编版03考试版A3含答案.docx 高一历史上学期期末考前必刷卷统编版02考试版A4含答案.docx 高一历史上学期期末测试卷01统编版中外历史纲要上129课含答案.docx 日历表2028年日历中文版纵向排版周一开始带周数带农历带节假日调休安排1.docx 日历表2028年日历中文版横向排版周一开始带农历带节假日调休安排1.docx 八年级数学北师大版上册课时练第7章《3 平行线的判定》含答案解析.docx 日历表2029年日历中文版横向排版周一开始带周数带农历带节假日调休安排1.docx 日历表2028年日历中文版纵向排版周一开始带周数带农历.docx 人教版二年级数学下册同步测试-有余数的除法含答案解析3含答案.docx 日历表2028年日历中文版横向排版周一开始带农历1.docx 人教版二年级数学下册同步测试-总复习含答案解析-人教新课标含答案.docx 日历表2028年日历中文版横向排版周一开始带周数带农历1.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.