logo

科普 | 详解语音数据标注及语音数据标注基本规范

来源:淘丁集团

随着深度学习算法的发展,智能语音处理技术正在经历革命性的变化,算法、算力、数据成为驱动智能语音处理技术快速发展的三大因素。其中,语音数据资源是智能语音处理技术的基石,只有拥有大规模精准、高质量的语音数据集,智能语音处理技术才会有更好的发展。

近些年来,在人工智能发展的浪潮下,智能语音处理领域获得了突破性进展,尤其是在深度学习的不断渗入下,以端到端技术为代表的各种新算法不断出现并应用在实际业务系统中,极大地提升了智能语音处理技术的效果。

那我们来详细了解一下,语音数据标注都有哪些任务分类?以及语音数据标注基本标注规范都有哪些呢?

科普 | 详解语音数据标注及语音数据标注基本规范插图

01//语音数据标注分类

语音数据标注任务具有不同的形式,大致可从以下不同纬度考察它们的特点:

(1)按照智能应用场景,可划分为智能家居、智能会议、智能客服、智能车载等;
(2)按照语音信号处理研究方向,可划分为语音识别、语音合成、说话人识别、情感识别、语音分离等;
(3)按照音源与拾音器之间的距离,可划分为近场语音、远场语音;
(4)按照语音时长,可划分为短语音、长语音;
(5)按照难度等级,可划分为简单、中等、高难度;
(6)按照口音,可划分为普通话、方言、带地方口音的普通话等。

除此之外,小语种、外语相关的语音数据标注任务则需要有相应专业背景的专业人士来完成,这也加大了标注任务的难度。

科普 | 详解语音数据标注及语音数据标注基本规范插图1

02//语音数据标注基本标注规范

一、 语音段落截取

对于多段落的长语音,比如演讲语音、会议记录等,标注人员需要从中截取出多个语音小段,对切开的每个语音小段,进行分开标注。在截取语音段时需注意以下事项:

①考虑语义连贯性,以说话人的一整句为单位进行截取。若一整句的时长超过8秒,也可以截取成分句。根据经验,每个语音小段平均在5-6秒左右;

②每个时间边界的最佳位置应在语音波形图的最低点;

③不同说话人的语音分开截取到不同的语音小段;

④截取的语音小段前后尽量保留0.2至0.3秒的静音段,若本身没有这么长时间的静音则不强求;

⑤尽可能截取没有突发噪音的语音段,可以为了避开突发噪音,而缩短语音前后的预留静音时间,但不能出现切音的情况;

⑥只有一个字表示应答的(如嗯、哦、对),不用单独分割成独立语音段;

⑦若说话人第一遍读错句子,停顿后又重复朗读一遍该句子,则只截取朗读正确的句子即可。

科普 | 详解语音数据标注及语音数据标注基本规范插图2

二、 有效语音判定

在语音数据标注时,不合格的无效语音段必须加以说明和丢弃。判定一段语音为无效语音的情况有:

①该段语音是用规定之外的语言朗读的,比如规定是用印度英语朗读,而实际却是用中式英语朗读的;
②整段语音段没有说话人的语音,只含有噪声或者静音(可视为无声音);
③语音段中含有很强的背景噪音,以至于覆盖掉说话人的声音;
④说话人的声音极小而导致无法听清语音内容;
⑤说话人语速过快而导致发音不清楚或吞音;
⑥说话人发音时一字一顿,每个停顿时间超过1秒;
⑦说话人发音时语气夸张,故意怪里怪气地朗读;
⑧语音段存在切音、吞音、丢帧、喷麦、重音等异常;
⑨语音段存在影响语音清晰度的空旷音、混响等异常。

科普 | 详解语音数据标注及语音数据标注基本规范插图3

三、 语音内容转写

语音数据标注的重中之重即语音内容的转写。语音内容转写的基本原则为“所听即所写”,即转写文本必须与说话人发音内容完全一致。具体规范包含以下几个方面:

①词汇:转写的词汇必须和听到的语音完全一致,不能多字、少字、错字;
②感叹词:在转写语音中出现的感叹词时应使用其标准拼写格式,如“呃、啊、嗯、哦、唉、呐”等,要按照正确发音进行转写;
③数字:所有数字应根据实际发音转写为文本,绝不能写成阿拉伯数字;
④英文:语音中的英文发音应转写成相应的汉字或英文,根据不同情况而定;
⑤标点符号:陈述句用“。”,疑问句用“?”,感叹句用“!”等;
⑥其他符号:如果存在除标点符号以外的其他符号,要根据发音转写成对应汉字或英文;
⑦噪音:有些情况下,除了需要转写语音内容之外,也需要标识语音段中含有的噪音情况,一般有分为四类(NSPT)。

科普 | 详解语音数据标注及语音数据标注基本规范插图4

四、 说话人属性标注

对于语音合成、说话人识别等语音研究而言,说话人信息也是非常重要的特征,因此,有些语音数据还需要对说话人的信息加以标识,比如说话人的性别、年龄、口音等。若语音段含有多个说话人的声音,则需要分别标注所有说话人的以上属性,并标注说话人身份信息,如记为“speaker 1”、“speaker 2”等。

在当今互联网时代下,高质量的语音数据集对于语音产业的蓬勃发展起到关键作用,具有重大实用意义。

科普 | 详解语音数据标注及语音数据标注基本规范插图5

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

科普 | 详解语音数据标注及语音数据标注基本规范插图6

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

科普 | 详解语音数据标注及语音数据标注基本规范插图7

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。