logo

做语音标注项目,这个6个规范你得熟练掌握!

来源:淘丁集团

今天淘丁数据标注分享在做语音项目的时候通用的一些标注规范。

标注规范

1.进行有效语音判定
在执行语音数据标注时,语音有效性判定是必不可少的环节,为保证最终可用语音数据的高质量,不合格的无效语音段必须加以说明和丢弃。

判定一段语音为无效语音的情况有:

(1)该段语音是用规定之外的语言朗读的,如规定是用印度英语朗读,而实际却是用中式英语朗读的;
(2)整段语音段没有说话人的语音,只含有噪声或者静音(可视为无声音);
(3)语音段中含有很强的背景噪声,以至于覆盖掉说话人的声音;
(4)说话人的声音极小而导致无法听清语音内容;
(5)说话人语速过快而导致发音不清楚或吞音;
(6)说话人发音时一字一顿,每个停顿时间超过1秒;
(7)说话人发音时语气夸张,故意“怪里怪气”地朗读;
(8)语音段存在切音、吞音、丢帧、喷麦、重音等异常;
(9)语音段存在影响语音清晰度的空旷音、混响等异常。

做语音标注项目,这个6个规范你得熟练掌握!插图

2.确定语音的噪声情况
常见噪声包括但不限于主体人物以外其他人的说话声、咳嗽声。如果能听到明显的噪声,则选择“含噪声”,听不到,则选“安静”

3.确定说话人数量
谈话人数量,即标注出语音内容是由几个人说出的。像我们项目部同事昨天审核的是一个游戏项目,有时候就有两三个人的说话声音。

4.确定说话人的性别
简单易懂,就是听语音标注出说话人是男声、女声还是儿童音,还别说有时候真的会分不清楚的。

5.是否包含口音
在语音标注过程中,如果有多个人说话,这时候就要标记处第一个说话的人是否有口音,“否”则代表无口音,“是”则代表有口音。

对于语音合成,说话人识别等语音研究而言,说话人信息也是非常重要的特征,因此有些语音数据还需要对说话人的信息加以标识,因此说话人的性别、年龄、口音也是重点的标注规范。

6.语音内容转写
也就是我们说的转写内容,这是语音标注的重中之重。语音内容转写的基本原则为“所听即所写”即转写文本必须与说话人发音内容完全一致。注意:语音内容转写具有主观性,对于语音段中模棱两可的片段,不同标注人员可能标注的结果不同。

做语音标注项目,这个6个规范你得熟练掌握!插图1

文字转写结果需要用汉字表示,常用词语要保证汉字正确;转写内容需要与实际发音内容完全一致,不允许出现修改与删减的问题;转写时对于语音中正常的停顿,可以标注常规的标点符号;遇到数字,根据数字具体的读法标注为汉字形式,不能出现阿拉伯数字形式的标注;对于儿化音,根据音频中说话人的实际发音情况进行标注。

语音标注与人工智能有着密切的关系,因此与语音标注相关的问题都值得我们重视和学习。一般来说,语音标注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图App上的小麦克风功能,或者京东客服里的直接说出问题,JIMI对应解决等功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点修正语音和文字之间的误差,这就是语音标注。

做语音标注项目,这个6个规范你得熟练掌握!插图2

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

做语音标注项目,这个6个规范你得熟练掌握!插图3

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

做语音标注项目,这个6个规范你得熟练掌握!插图4

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。