
中文信息处理基础-詹卫东课程Chapter_09_Name_Recognizer.ppt
9页1,第九讲 中文姓名识别,詹卫东http:/,2,提纲,概率法姓名识别的基本思想概率法姓名识别的数据基础概率法姓名识别的过程示例,3,一 概率法姓名识别的基本思想,汉字(z): 通用语料库 总词数CW 专门的姓氏语料库 总字数CN 作为单字词使用的次数 CW(z) 作为姓氏使用的次数 CSN(z) 作为名使用的次数 CGN(z)一个汉字作为姓的可能性一个汉字作为名的可能性一个汉字串作为姓名的可能性,CSN(z)/CW,CSN(z)/CN - CW(z)/CW,CGN(z)/CW,CGN(z)/CN - CW(z)/CW,sFee(z),gFee(z),sgFee(z1z2) = sFee(z1) + gFee(z2)sgFee(z1z2z3) = sFee(z1) + gFee(z2z3),单名,双名,4,二 概率法姓名识别的数据基础,单名阈值 # define Max2Fee -5双名阈值 # define Max3Fee -2,5,三 概率法猜测中文姓名的过程,例子: 她的名字是叫谭柳华吧,1 从右向左取出词串(直到非单字词为止): 是 叫 谭 柳 华 吧,2 在上述单字词串(碎片)中寻找可能是中文姓名的部分: 是 叫 谭 柳 华 吧,把“谭柳”加入候选姓名,把“谭柳华”加入候选姓名,把“柳华”加入候选姓名,把“柳华吧”加入候选姓名,6,得到四个候选姓名:谭柳(-10.3450) 谭柳华(- 16.2774) 柳华(- 9.4401) 柳华吧(- 6.8817),7,产生输出串 : 是 叫 谭柳华 吧,先处理姓名左边的词串:,是/,叫/,poffset = 4,8,继续处理剩余的“碎片: 她 的,“她 的” 费用: 14.2829 不是姓名,因此,作为单字词输出,得到最后结果:,是/,叫/,谭柳华/,吧/,名字/,的/,她/,9,课后练习,改进例子程序,使得可以识别数字在例子程序中增加跟踪功能,将分析过程中的全部侯选词及其费用输出到一个文件中。
