
学位论文数据库中重名和用字的统计分析-以河海大学为例.docx
8页学位论文数据库中重名和用字的统计分析以河海大学为例 摘 要: 本x文利用我馆自建的我校学位论文数据库,选取已建数据的作者姓名作为统计分析对象,对作者姓名的姓氏情况、重名情况和同姓名情况进行了统计分析,对取名用字进行了统计分析,最后给出了姓氏中的大姓、最爱用的名和最高频率用字的情况关键词: 学位论文;姓名文化;姓名重名;人名用字;数据挖掘引言我馆从2 0 0 4年下学期开始实行学位论文提交,建校硕博士学位论文全文数据库在学位论文审核建库的过程中,需要和毕业研究生打交道,经常会遇到一些不常见的姓,如“仉”、“亓”、“眭”等等,或者一些冷僻字的名,如“??”、“??”、“??”等等,有时还会碰到一些很常见的姓名,如“曹操”、“曹雪芹”、“刘翔”、“刘谦”等等还发现有的人名正好是一个常用词,如“白天”、“周密”、“田野”等等,还有一个更为常见的同名同姓的情况,如王伟、王晶晶、王晓燕均有多个等等数据库中究竟有多少姓,它们的使用情况如何,究竟有多少名字,同名同姓的情况如何,名字的用字频率如何,都成为我感兴趣并想了解的内容一、数据样例选取将我馆从2004年以来所建的数据库中的姓名从库中导出到EXCEL中,对姓名用LEN()、IF、MId()等函数和&算符以及排序等功能,就很容易将上面想了解的情况进行统计。
首先去掉音译名,得到汉语姓名样例数据16176个,这些数据中的姓名长度为2-4个字,姓有单姓和复姓,名有单字、叠字、双字和三字具体如下表:由表1可知,大部分姓名由2至3个汉字构成其中2个字的姓名占36.52%,3个字的姓名占63.40%下面对这批数据做一些统计分析二、姓氏情况16176个姓名中,共有478个姓,出现100次及以上的姓有29个,复姓有5个,其中欧阳出现11次,淳于、司马、太史、诸葛各出现1次现列出出现100次及以上的姓如下王(1245),张(1175),李(955),刘(756),陈(745),吴(409),周(398),杨(395),徐(345),朱(317),赵(305),孙(303),黄(288),胡(209),马(197),高(151),曹(146),郭(139),郑(128),何(122),谢,许,宋(121),丁(120),陆(118),顾(107),林(106),蔡(100),沈注:括号中为出现次数,如次数同前则省略,下同出现1次的姓125个由表2可知,占6.07%的姓,出现的次数占60.24%,占60.67%的姓,出现的次数仅占5.03%,即大部分姓集中在少数一些姓上。
在中国最新姓氏排名上[1],前29个排名为:王,李,张,刘,陈,杨,黄,孙,周,吴,徐,赵,朱,马,胡,郭,林,何,高,梁,郑,罗,宋,谢,唐,韩,曹,许,邓对比这里的样例数据可以看出,大体相符,稍有差别三、单字名(一)单名总情况单字名有5913个(其中6个复姓),共有801个其中出现30次及以上的有如下:伟(133),磊(113),静(109),勇(89),涛(83),敏(82),杰(76),飞(74),军,俊(73),娟(67),鹏,峰(66),斌(64),波,超,强(62),华(58),亮(57),颖(56),健(54),艳(51),洁(49),丽,辉(47),明,燕,丹(46),莉,玲,芳(44),洋(43),娜(42),浩(41),慧,刚(39),凯,萍(38),宇,林(35),宁(33),平,琳(31),鑫,佳(30),婷出现1次单名达310个由表3可知,占单名38.70%,出现的次数仅为总次数的5.24%100%-38.70%=61.30%单名至少被重名一次,同名10 0次以上的仅有3个,占总数的0. 3 7%,同名次数达到6.00%二)单名重姓名情况单字名5913中,重姓名的有828个,2355次,出现8次及以上的有15个,如下具体如下:王伟(16),张伟,张磊(12),李伟,刘洋,王飞(11),李娜,王勇(10),张明(9),张鑫,陈刚(8),杨杰,张莉,王玲,张鹏由表4 可知, 重名2次的有5 3 5种,占总数的64.61%,出现1 0 7 0次,占总次数的4 5 . 4 4 % 。
2355/5913*100%=39.83%,即在单名中,有39.49%的姓名至少被重复1次,最多的是王伟有16次四、 叠字名(一)叠字名总情况叠字名有173个,538次叠字名出现10次以上的有13个,205次,如下婷婷(30),晶晶(29),姗姗(24),丽丽(17),莉莉(15),丹丹(14),媛媛(13),伟伟(12),玲玲(11),佳佳(10),娟娟,琳琳,薇薇(二)叠字名重姓名情况叠字名重姓名的一共有32个,68次,如下王晶晶(4),徐珊珊(3),张婷婷,周丹丹(2),陶飞飞,孙佳佳,吴佳佳,曹晶晶,陈晶晶,刘晶晶,张晶晶,陈娟娟,刘娟娟,宋兰兰,王磊磊,张丽丽,褚琳琳,张琳琳,王玲玲,周玲玲,张露露,张宁宁,李珊珊,吴珊珊,陈双双,刘婷婷,王婷婷,吴婷婷,杨婷婷,李薇薇,王薇薇,张伟伟68/538*100%=12.64%,即在叠字名中,有12.64%的姓名至少被重复1次,最多是王晶晶有4次五、双字名(一)双字名总情况双字名一共有9712+9=9721个,其中重名的一共有1199个,3882次重名达10次及以上的有34种,501个,如下海燕(31),志刚(24),建华(22),晓燕,晓东(20),海涛(17),建军,志强,冬梅(16),晓红,振华,春燕,海波,旭东,大伟(14),海峰,红霞,宏伟,晓明,丽娜(13),玉梅,丽华(12),文静,文娟,建平(11),俊杰,文婷,小燕,晓敏,云峰,国庆(10),建峰,丽娟,志伟(二)双字名重姓名情况双字名同姓名的一共有2 6 1个,5 4 8次,其中同名3次以上的有19种,64个,如下。
王晓燕(6),王大伟(4),王建华,王志刚,张文静,陈晓燕(3),胡志刚,李小林,刘宏伟,刘丽华,孙国强,王春燕,王海燕,王小平,王晓东,王晓刚,张海珍,张建华,张文明548/9721*100%=5.64%,即在双字名中,有5.64%的姓名至少被重复1次,最多的是王晓燕有6次3字名仅有4个数据,且不重复下面也不对其统计六、名字用字频率统计单字名和叠字名用字上面已讨论过,这里仅对双字名的第1个字和第2个字做一统计一)双字名第1字用字情况第1个字有947种,9721次重复100次以上的有14种,2794次晓(402),海(299),文(254),志(249),小(235),建(234),玉(172),永(170),春(152),丽(135),国(133),红(130),金(124),明(105)(二)双字名第2字用字情况第2个字有941种,9721次重复100次以上的有16种,2521次华(386),军(209),明(204),峰(178),伟(168),平(166),东(143),波(133),娟(128),强(126),红(122),霞(119),梅(115),燕,辉(107),杰(102)(三)名字用字总频度情况单名字、叠字名字、双名字第1个字和第2个字,一共有1461个字,共出现25893次。
出现大于100次及以上的字有63个,共出现12078次,如下华(515),晓(429),海(386),伟(381),文(380),明(364),军(313),丽(289),志(287),建(274),红(268),春(254),峰(247),小(235),国(219),平(215),玉(212),永(208),艳(207),娟(206),东(205),燕(201),波(199),强(194),敏(187),杰,静(182),飞(180),勇(175),涛(172),玲(170),磊(166),林(165),云(162),亮(160),芳(158),辉,金(151),宇,霞(150),新(145),鹏(143),刚(142),梅(137),斌(136),慧(132),荣,超(128),成(122),萍,龙(119),庆(113),俊(110),亚(108),莉(106),宏,江(104),立(103),君(102),婷,祥,利(101),锋在单名字、叠名字、双名字第1个字和第2个字中均出现的字有132个,总共出现11416次华(515),晓(429),伟(381),文(380),明(364),军(313),丽(289),建(274),红(268),春(254),平(215),玉(212),艳(207),娟(206),东(205),燕(201),强(194),敏(187),静(182),飞(180),涛(172),玲(170),磊(166),林(165),云(162),亮(160),芳( 1 5 8 ) , 新(145),鹏(143),慧( 1 3 2 ) , 荣,成( 1 2 2 ) , 萍,庆( 1 1 3 ) , 莉(106),江(104),君(102),婷,利(101),丹(96),青,健(95),英,颖(91),宁(86),兵(83),佳(77),琳(74),琴(72),瑞(72),学(71),晶(69),冬(65),星(64),凯(59),兰(58),鑫,洋,元(54),维(53),美(48),天,媛,欣(47),安(46),彬,彦,景(42),威,莹,栋(40),向,方(39),珍,冰(38),璐,山,凌(37),倩,乐(34),培,鸣(33),蓉,巍,婧(32),琼,思(31),泉(30),玮,银,巧(29),南(28),雯(27),翠(26),克,聪(24),力(23),扬, 会( 2 2 ) ,润,双,杨,程( 2 0 ) , 芸(19),露(18),菲( 1 7 ) , 黎,柳,晴,璇,钢( 1 6 ) , 田(15),园,蓓(14),??,苗,茜,夏,寒(13),菁(12),微,焕(11),灿(10),环,卉,灵,非(9),堂(8),沛(7),笑,杏,舒(6)仅出现一次的字共有485个,其中单名中、叠字名中、双字名中第1个字和第2个字各有134个、10个、186个和155个。
七、结论(一)重名情况经过上面的分析可知,数据库中姓名的姓氏排名和全国最新排名基本一致姓名重名比较普遍,在单名、叠字名和双字名中,各分别有39.83%、12.64%和5.64%,总的重姓名情况如下表11由表11可知,单名的重名比例最高,虽然叠字名重姓名的比例在叠字名中高达12.64%,比双字名高,但由于用叠字名的仅占总姓名的3.33%,所以叠字名在总姓名中的重复比例为最小二)名字用字频率情况总的名字用字量为:5913+538+9721*2=25893(次),用到的汉字为1461个其中出现次数最多的是“华”,达515次,出现1次的字有485个表明有些字是人们取名字很喜欢用的,而有些字人们很少用汉字为数众多,目前最全的有出处汉字九万多个,常用的只有三千五[2]取名一般要考虑遵循形、音和义的美,一些消极贬义的字不适合,并忌讳不好意义的谐声字,有的还会考虑生辰八字、辈分[3],另外,中国人取名字还具有鲜明的时代感等等[4]被当作人名使用的汉字,仅仅是汉字中的一小部分[5]再有姓名一般为2-3个字,这就造成姓名重名在所难免,为避免重名,一些人取名用冷僻字,据报道,全国仅名字中带有生僻字的人就多达六千多万[6]。
一些字无法输入,给信息化造成不便,也影响了人们正常交往和工作有人建议人名用字要规范化[7],甚。












