您所在位置：网站首页 > 高等教育 > 大学课件 > 中文信息处理基础-詹卫东课程Chapter_09_Name_Recognizer

中文信息处理基础-詹卫东课程Chapter_09_Name_Recognizer.ppt

9页

卖家[上传人]：清晨86****784

文档编号：205906154

上传时间：2021-10-29

文档格式：PPT

文档大小：109KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5金贝

下载

/ 9 举报版权申诉马上下载

文本预览

下载提示

常见问题

1,第九讲中文姓名识别,詹卫东http:/,2,提纲,概率法姓名识别的基本思想概率法姓名识别的数据基础概率法姓名识别的过程示例,3,一概率法姓名识别的基本思想,汉字（z）：通用语料库总词数CW 专门的姓氏语料库总字数CN 作为单字词使用的次数 CW(z) 作为姓氏使用的次数 CSN(z) 作为名使用的次数 CGN(z)一个汉字作为姓的可能性一个汉字作为名的可能性一个汉字串作为姓名的可能性,CSN(z)/CW,CSN(z)/CN - CW(z)/CW,CGN(z)/CW,CGN(z)/CN - CW(z)/CW,sFee(z),gFee(z),sgFee(z1z2) = sFee(z1) + gFee(z2)sgFee(z1z2z3) = sFee(z1) + gFee(z2z3),单名,双名,4,二概率法姓名识别的数据基础,单名阈值 # define Max2Fee -5双名阈值 # define Max3Fee -2,5,三概率法猜测中文姓名的过程,例子：她的名字是叫谭柳华吧,1 从右向左取出词串（直到非单字词为止）：是叫谭柳华吧,2 在上述单字词串（碎片）中寻找可能是中文姓名的部分：是叫谭柳华吧,把“谭柳”加入候选姓名,把“谭柳华”加入候选姓名,把“柳华”加入候选姓名,把“柳华吧”加入候选姓名,6,得到四个候选姓名：谭柳(-10.3450) 谭柳华(- 16.2774) 柳华(- 9.4401) 柳华吧(- 6.8817),7,产生输出串：是叫谭柳华吧,先处理姓名左边的词串：,是/,叫/,poffset = 4,8,继续处理剩余的“碎片：她的,“她的” 费用： 14.2829 不是姓名,因此，作为单字词输出，得到最后结果：,是/,叫/,谭柳华/,吧/,名字/,的/,她/,9,课后练习,改进例子程序，使得可以识别数字在例子程序中增加跟踪功能，将分析过程中的全部侯选词及其费用输出到一个文件中。

点击阅读更多内容

相关文档

进入店铺

收藏店铺

相似文档更多>

正为您匹配相似的精品文档