
专题辅导第四讲:关于现代汉字的字量.doc
8页第 1 页 共 8 页专题第四讲:关于现代汉字的字量一、现代汉字的总字数字量就是汉字单字的数量现代汉字的属性里涉及到字量的研究作为一种文字,好学好用、效率高才会受到人们的欢迎,汉字是语素文字,单字的数量一直就比较多,第一讲中就讲到,汉字的一个特点是字数繁多,特别是跟拼音文字字母的数量相比,这个特点很突出由于汉字字数繁多,给汉字的学习、使用和汉字的机械处理和信息处理带来了不便汉字不但数量繁多,而且字数不定一个文字体系,它的字数虽然多,但是字数一定,学习和使用也还是方便的而汉字字数既多又不确定,针对这种不确定性,周有光先生用了八个字来概括:出生不报,死亡不消死了一个成年人,要到公安部门去消户口,国家的人口总数就随时可以掌握而当新的汉字产生后并没有一个主管部门管理登记,一个汉字退出了汉字流通领域,不再使用了,成为“死字”了,也没有到哪个部门去声明现在汉字的现状是有用的、没用的、正在使用的和已经不用的都混杂在一起当有人问,记录现代汉语一共要用多少字,我们无法回答这种状况是我们的汉字研究还没有取得好的进展的反映因此,我们研究汉字的字量,就是想把字数不定转变为字数确定字量研究的目的是要实现现代汉字的定量,同时还要想办法适当地减少和限制汉字的字数。
自古至今汉字的总字数究竟有多少,没有办法做精确的回答根据现在有的大型字典的收字的字数,大概有 5 万多字在大型字典收的古往今来的 5 万多个字里面,记录现代汉语实际上用不到这么多记录现代汉语收用的字据估计不到 1 万除了这1 万多以外的 4 万多属于什么性质呢?应该属于记录古代汉语要专门用到的字从现代汉语记录的角度来说,那 4 万多字可以认为是“死字” 字量研究就要把记录现代汉语要用的和不用的字区分开来这样,我们在教育里、在一般社会用字里就可以把汉字限制在记录现代汉语所用的字(即现代汉字)范围内那些记录古代汉语需要用到的字,是那些研究古代的历史、文学、哲学等的专家要使用的这也就是说要把 5万多个汉字一分为二我们的兴趣就在记录现代汉语要使用的这不到 1 万的字把全部汉字一分为二的工作,叫“字形”的审定我们对一个汉字研究它属于什第 2 页 共 8 页么性质,即指它是现代汉语用到的字呢,还是古代汉语专门要用到的字如果这个工作做好了,我们就可以把现代汉字由字数不定转变为字数有定周有光先生在 20 世纪 50 年代就提出,我们要研究一个现代汉字的全表,把所有记录现代汉字用到的字都收到这个表里,不管有多少字。
把所有不是现代汉字的字从这个表内清除出去,放到另外的地方如果有了这个表,也就实现了汉字字量的有定2000 年,全国人民代表大会通过了《中华人民共和国国家通用语言文字法》 ,这是语言文字生活中的一件大事在国家制定的通用语言文字法里提出来,我们国家使用的汉字是规范汉字《中华人民共和国国家通用语言文字法》里明确要求社会用字要使用规范汉字我们理解,这里所说的规范汉字,大体上也就相当于二十世纪五十年代周先生讲的现代汉字全表里的汉字 《国家通用语言文字法》公布了两年多,正在逐步地推行落实可是我们直到现在,还没有一个规范汉字表在《国家通用语言文字法》里,并没有给规范汉字下一个明确的定义,这样,按国家的规定要使用规范汉字,人们却并不知道哪些字是规范的,那怎么执行《国家通用语言文字法》呢?为了解决这个问题,我们应该有一个规范汉字表2001 年《语文建设》第 3 期,北京大学的苏培成教授发表了一篇论文《要有一张规范汉字表》 ,就是从贯彻语言文字法的角度提出研制规范汉字表的任务国家主管语文的部门已经将规范汉字表的研制工作立项,正组织专家进行这项工作从上个世纪周先生提出现代汉字全表到最近几年语言文字法提出来的规范汉字表一脉相承。
其实质是一样的,就是要研制出一张现代汉字用字的全表有了这张字表,现代汉字字量的研究就进入一个新的阶段从学术的角度,如何研制规范汉字表呢?大体的思路和操作程序应该是这样的:现代白话文著作里使用的字,基本上都是我们所说的现代汉字这需要收集相当数量的现代白话文——有影响的、有代表性的著作、报纸、书刊但是因为各种复杂的原因,现代白话文著作里也会夹有少量古代汉语用字这是因为现代白话文里有时要引用古书、引用古诗和古代的文章,引用的古书里有些字是现代汉语根本不用的除此之外,现代白话文的用字里还有一部分是现代方言用字我们研制的规范汉字表是记录现代汉语使用的字,不包括古代汉语专用字,指的是记录现代汉语普通话要用到的字,不包括记录现代汉语方言用的字这些字必须是合乎现有规范的,那些不规第 3 页 共 8 页范的字应该去掉这样的要求是合理的,是应该可以做到的根据研究的需要收集相当数量的现代白话文,这里面主要是现代汉语用字,也会夹杂一些古代汉语专用字,也会夹杂一些现代方言用字,也可能有个别的不规范字因此,在研制字表时,应该把从现代白话文收集到的字进行加工,进行字形的审定:1.去掉其中的古代汉语专用字例如觳、觫,这是古书里才出现的字,现代汉语里没有“觳觫”这样的词,也不用这两个字。
古书里“觳觫”的意思是因恐惧而浑身发抖,这两个字从实际使用情况来看,就是古代汉语专用字再如“曌”字,这个字是唐代女皇武则天命令大臣专门为她造的字,就是她自己名字的专用字武则天一共造了十几个字,这些字到现在都没有流传下来,一般人也不愿意用“曌”字,所以这个字也是古代汉语专用字如果我们收集的现代白话文字种里有这样的字,就应该去掉如果做得好,就会把现代汉语用字和古代汉语专用字区别开当然,具体的文字情况十分复杂,有些字到底属于现代汉语用字还是古代汉语用字很难区分遇到这种情况,可以暂时把它归为现代汉语用字,再看它的发展2.去掉现代汉语用字里的一定数量的汉语方言用字汉语方言非常复杂,为了记录方言特别在南方方言区有一大批方言字,这些字有时也会出现在书面语里在《规范汉字表》做时,也应该把这些字去掉,例如囡,是南方方言的专用字,普通话、记录普通话的词汇不用这个字;第二个是冇,这也是方言字,记录普通话不用;第三个字,俺们的“俺” ,北方方言这些字在《规范汉字表》时都应该去掉3.去掉现代白话文里出现的不规范字例如表示第三人称的“它” ,第三人称代词中, “他”指男性, “她”指女性, “它”指没有生命的事物, “它”是规范写法。
但在二十世纪上半叶,表示无生命事物的第三代词还有一种写法,即“牠” ,也念“tā” ,现在已被“它”取代,如今再用“牠” ,就是使用不规范字 《规范汉字表》里不应该出现这样的字又如酸碱盐的“碱” , “碱”是规范写法,而它的异体字“硷”则是不规范字,也应该去掉再如电功率单位千瓦,传统的写法是把两个字挤在一个方块里,写作“瓩” ,仍然读作“qiān wǎ” 汉字是一个方块字一个音节, “瓩”这样的字,一个方块字两个音节,因此,这个字和整个汉字体系不合1977 年,国家主管部门发布了文件,规定把这个字去掉,用“千瓦”两个字代替所以,一个方块字两个音节第 4 页 共 8 页的的字是不规范字,应该从《规范汉字表》里去掉通过以上 3 个步骤规范现代白话文的用字,就可以得到《规范汉字表》了因为汉字情况十分复杂,研制规范汉字表将是一个很长的过程,初定表可能有一些不完善的地方,应该在实践中逐渐修改,经过一定时间的努力,就能制出一张规范的《现代汉字表》 根据上一讲所讲的几次大规模的字形统计,所得到的最多的一次的总字数是七千多,当然,几次字形统计得到的字种一定有相重的、漏掉的,除去重复的,加上漏掉的,估计现代汉字规范汉字表里的字数不到一万。
有人认为,汉字字数繁多不是缺点而是优点,但是汉字作为记录语言的工具,字数繁多,会给学习和使用带来很多的困难,说它是缺点更符合实际二、通用字和常用字根据现代汉字在使用中的特点,可以对它们进行分类分类是科学研究必不可少的一个步骤把种类分清楚了,就说明我们对它已经有了相当的认识对汉字的分级定量现代汉字可以做两个层次的分类:第一层:通用字和罕用字全部现代汉字除去通用字就是罕用字通用字是书写、印刷现代白话文一般要用到的字,也可以说是现代白话文出版、印刷上用到的字,过去出版印刷用的是铅字,一个大型印刷厂的排字车间通常准备了成千个铅字,印刷时根据书稿、文稿,从字架上把需要的字拣下来,排好,做成纸型来印刷所谓通用字,就是一般的印刷厂都要准备的字一个人掌握了通用字,从字量来说,在一般的阅读和写作上就足够了在通用字范围以外还有一些字,就是使用机会很少、频率很低的罕用字罕用字主要是一些科学技术上专有名词的用字,比如动植物的名称用字里就有一批罕用字现代汉字应该分为通用字和罕用字两类,重点是在通用字上第二层:常用字和非常用字对通用字进行第二次分层,可分为常用字和非常用字顾名思义,常用字就是经常要用到的字,更明确地说,主要指的是基础教育用字,也就是使用频率很高、九年第 5 页 共 8 页义务教育要用的字。
常用字是通用字里非常重要的一部分通用字里还有非常用字这就是现代汉字的分级通用字和常用字这两个重要的概念是研究字量时应该注意的为了实现现代汉字的定量,特别是分级定量,一定要有好的通用字表和常用字表,它们对于现实的文字生活有重要的指导规范意义新中国建立后的 50 多年,在不同的时期,为了满足需要,曾经研制并公布过几次通用字表和常用字表,在通用字表和常用字表的研究制订上已经积累了比较丰富的经验为了对汉字的定量工作有一个较明确的认识,下面是研制通用字表和常用字表的根据:应该从所有的现代汉字中把通用字或常用字选出来、定下来,这是个学术上的课题,也是个科研的课题在学术上如果不解决这个问题,字表就做不好根据几十年的经验,要研究制订通用字表和常用字表,要遵守以下 4 个标准:1.要根据字的频率不能只靠个人的用字经验,因为每个人的文化程度不一样,学术领域、工作领域不一样,需要有客观的依据,其中最重要的就是字频统计如果字频统计是经过科学论证的,选取语料是合理的,得出的结果就有重要的参考价值选择常用字时,要首先考虑使用频率很高的汉字;选择通用字时,由于它的范围比常用字宽,在已有的已经确定的常用字范围外,还应该再考虑使用频率相对较高的其他字。
这样,就能从根本上提高通用字表、常用字表制订的科学性但字频统计也难免有局限,而且在语料的选择上不可能做到十全十美,所以研究常用字表、通用字表时要考虑字频,但又不能只根据字频一个标准有人做常用字表只根据字频,只要频率高就是常用字,这样虽然有很高的合理性,但必然也有某些缺陷某些字本来不是常用字,由于语料选择不当,增大了出现频率,结果把非常用字确定为常用字在过去的常用字表研制中有过这种现象,所以还必须有其他的标准2.要根据字的使用度使用度是在汉字字形、字量研究中,学者们提出的一个重要概念一个字的使用度包含两个重要的参数,一个是频率,另一个是它的分布是广还是窄考虑一个字的重要性还要考虑它的分布,就是英文的“distribution” 研究汉字,有时要考虑分布,具体到确定通用字、常用字的时候什么是字的分布呢?举例来说,两个字,即使使用频率相同,在实际的文字生活中的重要性也不一定一样,第 6 页 共 8 页还要看它的分布,也就是要看它在不同类别的文章中出现的情况用汉字写的书面语,根据交际的需要,有不同的类别,例如政论文、应用文、文艺文(小说、诗歌)等等,在进行字频统计时所选择的语料不限于一本书、一篇文章。
在考虑“两个字频率相等,重要性不一定相同”时,假如其中一个字分布很广,在政论文、应用文、文艺文等里都有出现,假定一共选择了 5 本书,这个字在 5 本书里都出现,就说明这个字分布较广,反之,假如另一个字只出现在政论文,而且只在 1 本书里出现,就说明这个字分布较窄考虑字的分布,包括出现文章的类别和出现的同类文章在一定量的书籍中的数量显而易见,如果一个字分布很广,在现实的文字生活中。
