好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

关于汉语的字和词的数量的宏观估计.doc

26页
  • 卖家[上传人]:平***
  • 文档编号:13597409
  • 上传时间:2017-10-24
  • 文档格式:DOC
  • 文档大小:97.04KB
  • / 26 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 关于汉语的字和词的数量的宏观估计《现代汉语拉丁化拼音文字》词表《现代汉语拉丁化拼音文字》=《汉语拼音方案》 (稍许修订)+增补标调法+《汉语拼音正词法基本规则》+《现代汉语词典》 (和其它规范词典)的词汇、词语一一定型+其他相关法律法规的基本原则《现代汉语拉丁化拼音文字》词表目前收集到的词汇约有十二万个《现代汉语拼音文字》的词汇达 126 657条按汉字计,单字词约八千条,实际上多数单字本身并不是词另有注音单字约四百五十个,多音单字约六百五十个双字词约八万条三字词约两万条四字词约两万条五字及五字以上词语(短语、歇后语、谚语、惯用语)约两千五百条名词有待于扩充包括:古今中外人名姓氏世界各地地名(国名、企事业单位名等)山脉,河流,湖泊等地理名词天文名词医药、疾病名词(新名词)科学技术名词文学艺术名词体育名词电子通讯名词动物名词植物名词物件名称名词缩略语等等,总集应该达到40万以上词表词语分组及数量:分部 字数 累   计     比例(%)A     1117    1117    0.882B     7014    8131    5.538C     2446  10577    1.931CH    5455  16032    4.307D     7861  23893    6.207E     673  24566    0.531F     4371  28937    3.451G     6378  35315    5.036H     6500  41815    5.132IJ     8239  50054    6.505JU    1271  51325    1.003K     3129  54454    2.470L     6378  60832    5.036LY    366  61198    0.289M     4757  65955    3.756N     2599  68554    2.052NY    116  68670    0.092O       97  68767    0.077P     2920  71687    2.305Q     3773  75460    2.979QU    1124  76584    0.887R     2103  78687    1.660S     2615  81302    2.065SH    7723  89025    6.098T     5223  94248    4.124UVW     4189  98440    3.308X     6159  104599    4.863XU    1387  105986    1.095Y     7648  113634    6.038YU    2465  116099    1.946Z     3404  118503    2.688ZH    7154  126657    5.648合计         126657  100.000其中“ I、 U、 V”组用于特殊用途,不计数。

      “ I”组存放部分单音注音汉字; “ U”组存放部分多音注音汉字;“ V”组存放部分双字和三字注音汉字 “JU、QU、XU ”组包括“炯、穷、兄”等声音开头的词语 “LY、NY” 组包括“吕、女”等声音开头的词语按词长(每个词语汉字字数即音节)分词   长       数   量     比   例(%)01字词         7874      6.21702字词       77935      61.53203字词       18782      14.82904字词       19655      15.51805字词         1279   06字词         568   07字词         263   08字词           80   09字词         162   10字词           17   11字词           28   12字词           3   13字词           3   14字词           1   15字词           7      1.904合计         126657    100.000多字词语是由基本词汇组成的。

      有的是文言文成分(成语)占主要地位,形成了固定搭配例如:三 K 党世界e家59岁现象(五十九岁现象)山穷水尽疑无路,柳暗花明又一村踏破铁鞋无觅处,得来全不费功夫先天下之忧而忧,后天下之乐而乐有心栽花花不开,无心插柳柳成荫怎么写,让实践来完成本人没有能力把所有辞书上的词语汇集起来让感兴趣的人加入吧如果有人赐给我一万条词语(电子版) ,我经过过滤,有一千条纳入了本词表,本人会赠给你十二万条词语本贴由值班版主王良辰于2007年8 月18日 17:39:56修改过现代汉语拉丁化拼音文字 Wangk Liangchenkb = Wang2 Liangchen27 = Wáng Liángchén多元字母标调法: 1声-v,w; 2声-k,b; 3声-f,t ; 4声-p,y; 5声-x本贴由王良辰于2007年8月18日17:28:04在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.关于汉语的字和词的数量的宏观估计字的方面,我们已根据统计资料作出过结论,现代汉语一般用字量的上限是5000个这个结论有来自多方面的统计支持,其中王小波《黄金时代》 、王小波《白银时代》 、王朔《动物凶猛》 、王朔《过把瘾就死》 、 《檀香刑》 、 《中华人民共和国刑法》 、 《基督教圣经 Bible》 、姚国华《全球人文审思》共六个不同来源(不同作者)八部书累计字数 160万,用字 4935个(何况已包括一两百生僻字在内) 。

      另有,金庸《笑傲江湖》 (上) (下) 、老舍《四世同堂》三本书累计字数148万,用字4224个未能合并统计,但可以肯定地说,任何一个普通人,甚至任何一个文化人(文字专家除外) ,能把上面两组中的任一组基本读下来,识字量就足够了词的方面,我们也应该有一个粗略的估计,如果总以为前面有一座无限的、不可认知的大山,那样不利于对汉语的正确认识,不利于开展汉语教育工作这次王良辰先生公布了其在整理现代汉语拉丁化拼音文字词表中已收集到的词汇达 126 657条按词长(每个词语汉字字数即音节)分布:词   长       数   量     比   例(%)01字词         7874      6.21702字词       77935      61.53203字词       18782      14.82904字词       19655      15.51805字词         1279   06字词         568   07字词         263   08字词           80   09字词         162   10字词           17   11字词           28   12字词           3   13字词           3   14字词           1   15字词           7      1.904合计         126657    100.000从上表可见,词汇的数量主要集中在双字词上面,这是汉语的一个非常重要的特性,是汉语表意的最主要方式。

      为了对汉语词汇作机器化的处理,我提出过一个班氏“词结”的新概念(见《班氏“词结” 论》 ) ,“词结”是一种三字以上的、比词的结构松散、比词组的结构紧密的一个组合体,它是介于词和词组之间的一个层次 “运动场、跑马场、涮羊肉、留级生、中医院” 等这些东西,以前一般认为它们是“词”,但对语言文字的信息处理发展到现代,对语料的处理手段发展到机器处理的时候,再把这些看作是“词” ,就会引来不少的麻烦和困惑班氏提出,在汉语中,两字的定义为词(有数量不多的一字词和极少量不可切分的三字四字词,可作为特例看待) ,三字四字的定义为词结,把它们看成是2+1、1+2、2+2、2+1+1等表现形式的词结这样,人工或机器判断词与非词就容易得多了,进行切分、汇集、统计、组合等操作处理也就简单快捷得多了1982年修订版的、32 开本1243页的大部头《新华词典》 “收单字一万二千个,收词约两万六千条,其中一般语词约占60%,社会科学和自然科学词语约占40% ”1983年第二版1994年修订的、32开本1722页的大部头《现代汉语词典》在前版“所收条目,包括字、词、词组、熟语、成语等,共计五万六千余条”的基础上,扩展到“ 六万余条”。

      据以上种种,汉语的基本词汇大约就在五六万范围这个基本词汇包括语词和社会常见词汇(高频的、通用的) ,但不包括非常见的人名、地名、事件名、公司名、医药名、罕见动植物名、科技名词等专业术语,这些专业词汇应该算在社会知识、百科知识的范畴的如果进一步用班氏词结的标准来切分、处理,则汉语的基本词汇量大约在三万左右(参考上述两种词典可知) 所以,摆在汉语教育者、修习者面前的基本字词量,大概就是4800个字、3万条词,这是有一系列统计资料支持的比较客观的估算对汉语的基本字词量作出正确的估算有什么意义呢?长期以来,不管是外国人或华人中国人,都人云亦云地过分夸大了汉语学习的难度,甚至怀疑汉语的科学性统计资料客观地显示了,汉语使用的字、词量只需要远远低于英语的单词量就足够了我查了一下上述提到的两种词典,“猪肉、牛肉、羊肉” 这类词条根本没有收入词典由于汉语有“字” (语素、词素)这个层次,汉语的大部分词汇都是语素组合词,词义是可以自释的,星期一至星期日、一月至十二月,这些也不需要作为“词” 来特别记忆处理,甚至外科、内科、儿科、妇科等等都是“可有可无” 的词,这是汉语的一个独特的性质,是英语等不可比拟的本贴由值班版主班门斧于2007年8 月21日 03:33:43修改过本贴由班门斧于2007年8月21日02:12:03在〖汉语拼音与输入法论坛 - 汉语拼音第一网站〗发表.按词长(每个词语汉字字数即音节)分词   长       数   量     比   例(%)01字词         7874      6.21702字词       77935      61.53203字词       18782      14.82904字词       19655      15.51805字词         1279   06字词         568   07字词         263   08字词           80   09字词         162   10字词           17   11字词           28   12字词           3   13字词           3   14字词           1   15字词           7      1.904合计         126657    100.000从这个统计看出,我们在打文章时需要输入单字的概率是6.217%使用词语输入的概率是93.783%由统计是得不出这个结论的,显然的数据与结论脱节。

      现在都是这各情况,摆一大堆数据好像很认真专业似的,其实结论和数据根本不符完全是为了结论强摆数据,而不是根据数据得结论,也不是知道是故意的,还是不懂逻辑乱下结论最新一代中文输入法—汉字词语码编码技术作者:曾养志 曾巍 曾嵘【摘 要】本技术根据汉字起源于象形文字,经指事、象形、形声、会意、转注和假借而发展演化、始终具有。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.