
中文标注任务规范.doc
3页群音信息服务有限公司2014 年 3 月 9 日星期日中文标注任务规范1.标注任务目标标注任务就是标注声音文件内容,把“内容栏”的文本与音频红框中真实发音修改一致,最终获取到语音正常的声音文件2.标注任务方式标注音频数据总分两大类,好数据、坏数据好数据指发音人是在与系统对话,且语音波形完整、内容清晰的正常数据;坏数据指无效数据;内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字) ;内容与音频不一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致详细说明见下表:数据分类子分类标注方式内容与音频一致无需操作完成本条标注,点击“下一句”好数据内容与音频不一致内容栏文本根据声音文件修改一致,点击“下一句”坏数据无点击“标记不可用”或“配置的快捷键” ,继续标注群音信息服务有限公司2014 年 3 月 9 日星期日3.好数据文本录入标准3.1 内容文本要与真实音频发音完全一致,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字;3.2 真实发音为“我去哪哪里呀” , “哪”字有重复,就要忠实地录成“我去哪哪里呀” 另由于口音或个人习惯导致的音变,按普通话标注音录入;3.3 多音字或生活中有不同发音的字,也按普通话标注音录入。
例如, “办公室”的“室” ,有人说成 shǐ,有人说成shì,都录成“办公室” ;3.4 对于儿化音,也要忠实于发音录入例如,发音是“哪儿” ,就录成“哪儿” ,没有发出儿化音的,就录成“哪” ;3.5 发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如, “what’s your name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键” ;“*”录入“星号键” ;3.6 不允许录入阿拉伯数字,需转换汉字,例如, “1”转”一“或“幺”根据真实发音录入,如读“120”可录入“幺二零” ;也可点击【数字转中文】 【数值转中文】进行“阿拉伯”到“汉字”转换;3.7 语句中包含英文单词或字母,根据发音录入,字母要大写,字母与字母之间空一格, “单词要小写” ,单词与单词之间空一格,汉字与字母或单词之间不需要空格;例如,发音一个字母读“O P P O”则按照字母录入,若是连读“oppo” ,则按照单词录入;例如、如“三 W 点”则根据真实发音录入;3.8 语气词用最常用写法,例如嗯,哦,哎,呃,啊,啦,嘞,吗,嘛(陈述句用)等,识别结果有语气词或“干嘛”不影响语义无需修改。
4.坏数据判断标准坏数据是指声音文件中出现的非正常语音,语音波形不完整、语音不清晰、纯方言、没有人说话等现象,具体如下:4.1 音频无主发音人类型:纯环境噪音;两个人对话、纯人声噪音;纯音乐、说唱;纯人声非语音,例如笑,打喷嚏,咳嗽等;纯机器人的声音;4.2 音频有主发音人类型:1)语音波形不完整现象指语句首字音或尾字音被截,打开音频前后无静音段,从听感上首字音或尾字音不完整,此为截断数据;2)发音人语音不清晰类型:例如方言、口音严重,除英语以外其他外语;群音信息服务有限公司2014 年 3 月 9 日星期日3)发音人录音效果差:发音人喷麦严重,发音人嘘嗓子说话;4)设备噪音类型: 滴滴音、震动音、log 音波形大于主说话人且影响识别结果;5)人声噪音类型:主发音人对系统说话时,把旁边人声音录进去且声音清晰影响识别结果;6)严重上下截幅类型:主说话人声贝高造成波形超出上下边界线且影响识别结果2014-3-9 23:16。












