
手机自然通话语音数据-标注规范v1.4 (1).docx
7页实施规范1 / 8自然通话语音数据标注规范数据堂(北京)科技股份公司二○一五年五月 实施规范2 / 8文档控制更改记录日期 作者 版本号 更改记录2015-06-02 卜辉 V1.02015-07-15 许明涛 V1.1 使用旧的切割工具2015-08-04 陶景林 V1.2 调整语音中包含英文部分的转写规范2015-08-07 卜辉 V1.3 标注信息更新2015-08-07 卜辉 V1.4 标注信息更新 实施规范3 / 8目录文档控制 ...................................................................................................................................21 前言 ...................................................................................................................................32 数据要求 ...........................................................................................................................33 数据来源 ...........................................................................................................................34 标注属性 ...........................................................................................................................35 数据处理过程 ..................................................................................错误!未定义书签。
6 数据约束 .........................................................................................错误!未定义书签7 交付格式 .........................................................................................错误!未定义书签8 质量保证 ...........................................................................................................................39 最新疑问 ...........................................................................................................................3 实施规范4 / 81 前言本文档为“自然通话项目”的标注规范,阅读人员为录制实施人员。
2 数据要求最终要标注出 9000 小时的有效语音数据3 数据来源录制好的语音数据4 标注4.1 标注要求对切开的每个语音段,进行标注做标注的语音段周围尽量留 0.2~0.3 秒静音段,如本身没有这么长静音的情况不强求 (V1.3 修改内容)注:音频为近端说话者的声音 (近端:装有采集软件的麦克风录制的语音远端:装有采集软件的听筒传出的语音 ) 是否有效无效标注无效判断是否为有效或无效语音的原则: 实施规范5 / 81) 如果一段语音中两个人说话重叠声音大小接近,重叠部分比较多,则标注为无效语音;如果重叠部分较少,一两个词情况,截取不重叠部分标为有效如果重叠另一个人声音很小可忽略2) 如果一段语音声音极小,小到几乎听不到,则标注为无效3) 如果一段语音中只含有噪声或者静音(视为无声音) ,则标注为无效4) 如果只有一个“嗯” 、 “啊” 、 “哇噻” 、 “喂”等,则标注为无效 5) 一句话有听不清楚的部分,不能判断内容转写不出正确结果的情况下,则标注为无效。
6)语音段内容为非近端说话人声音的视为无效 (如果无法判断是否是近端还是远端可查听标注语音段的前后语音段来判断 )7)以上情况视为无效,其他正常语音均为有效 噪音标注:[s]: 表示说话人的各种非文本内容的噪声信息,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声 [n]: 非人发出的声音,主要是一些偶然出现的噪声,例如:鼠标操作声音,敲击键盘的声音等 [t]: 稳定的噪声,主要是录音环境的一些非偶然噪声,例如周围汽车声,音乐,风声,空调声等 [p]: 非说话人的周围人发出的噪音,包括唇咂嘴,咳嗽,清嗓子声,啧啧声,笑声等问:噪音符号什么时候加?答:对于有效语音段明显的噪音且作为独立的声音段时才加(说话同时的噪音不用加,不明显的噪声也不用加) 例 1:A 说完“今天”后笑了下,继续说“我去吃饭了” ,那么标为“今天[s] 我去吃饭了”例 2:A 说话时,周围产生了噪音,那么因为噪音不构成独立声音段,所以不需要标噪音符号 (注意) 例 3:如在整个语音都存在音乐声比较明显,同时开头和结尾存在静音段情况下,在开头结尾处加上[t] (如果开头和结尾没有静音段,则不用加[t],音乐声不明显也可以忽略不加。
)● 内容标注数据处理人员根据所听到的音频写出内容,力求使文本内容与音频发音内容保持一致一般准则如下:1). 如果两个人说话重叠声音大小差不多,重叠部分切出去标无效例:两个人说话重叠,甲说:“今天的天气好热呀!”话还没完,乙说:“嗯 ”“嗯”字正好跟“热”字重叠了,且两个人声音大小差不多则把“今天的天气好”切成一句 “热呀”标成无效2). 转写的内容必须和听到的语音完全一致,不能多字、少字、错字3). 音频中的阿拉伯数字要写成汉字形式,如“一二三” ,而不是“123”注意区分“一”和“幺” “二”和“两” 实施规范6 / 84). 音频中有英文发音的应写成相应的汉字或英文具体分为以下几种情况: 网址中包含的所有的字母均或单词,均为大写例如:发音内容为””, 应转写为“三 W 点 PP 点 COM“ 发音中包含的英文单词,转写时全部为小写 发音中包含的英文字母,转写时全部为大写 对于一些专有名词,或者一些英文缩写全部大写,例如:WTO、ERP等。
5). 语气词: 音频中说话人清楚地讲出的语气词并且紧接着正常语音,如 “呃 啊 嗯 哦 唉 呐”等后接”吃了“,要按照正确发音进行转写例:“嗯 吃了”语气词除了 “了 不 ”没有口字旁,其他基本上都有口字旁6). 标注内容的完整性要与实际发音一致,不得删减如发音为:我是北北京人;“北”字有重复现象,标注的时候要写成:我是北 实施规范7 / 8北京人7). 发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普通人名等,可以选择同音字代替,但需要保证标注读音正确● 时间轴标注尽量把有效语音的前后静音或噪音时间标长些标注方法:1)原始音频2)标注有效语音● 带静音或噪音的语音内容区分如图所示在一句语音内容中红色箭头间部分为静音,静音部分超过 1 秒以上按照两个语音段多标注,不能标注两个的情况按照内容清晰的语音段做优先(指标一个) (V1.4 修改内容) 实施规范8 / 85 质量保证按句统计标注准确率要求达到 95%以上。
请严格按照此标准进行标注 按选取的“语音段”为单位,某个语音段出现有效性错误、内容错误或噪音错误,则该语音段就认为错误例:有效性错误=出现无效的内容标注为有效内容错误=音频与转写的文本内容不符合 (错一个字视为文本与音频不符)噪音错误=音频噪音没有标出或影响语音内容,表位有效的视为不合格 准确率=错误的语音段数量 / 总的语音段数量6 最新疑问。












