淘丁数据标注 | 语音标注必须要了解的基础知识
常见的语音声音特征
(1)音色/音质:由发音体决定,指能够区分两种不同声音的基本特征,比如人说话的声音和小提琴的声音。在语音信号处理技术中,人声识别研究常将音色作为重要研究对象
(2)音调:指声音的高低,由声波的频率决定。例如,在一般情况下,男声听起来比较低沉,而女声听起来会比较尖锐
(3)音强:指声音的强弱,由声波的波动幅度决定,可简单理解为语音信号波形图中的信号幅度
(4)音长,指声波震动持续的长短,也称时长,由发音时间的长短决定

02.几个重要的语音概念
采样
由于声音为模拟连续信号,而计算机只能处理数字离散信号,因此要用计算机来分析和处理声音,就需要经历模数转换过程[Anlog to Digital Converter,即ADC],即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来,其样本值用二进制码0和1来表示,这些0和1构成了数字音频文件,其过程实际上是将模拟音频信号转换成数字离散信号。
采样率
采样率表示了每秒对原始信号采样的次数,单位为Hz。显然,在一秒内采样的点越多,获取的信息越丰富,数字化语音信号的保真度越高,但占用的资源也越多。如果采样率低于语音频率的两倍,则会产生低频失真、信号混淆现象。

在进行语音信号处理时,不同任务对采样率高低的要求不同,在选择合适的采样率时应均衡考虑信号保真度与存储空间。目前,主流的采样有8kHz、16kHz、22.05kHz、44.1kHz等
采样精度
采样精度就是指存放一个采样值所使用的比特数目。当用8个比特(采样精度为8位)存放一个采样值时,对声音振幅的分辨等级理论上为256个,即0至255;当用16个比特(采样精度为16位)存放一个采样值时,对声音振幅的分辨等级理论上为65536个,即0到65536。如果您将采样精度设置为16位,计算机记录的采样值范围则为-32768到32767之间的整数。
声道/声音道数
声音通道数:也称声道数,是指输入或输出信号的通道数,也就是声音录制时的音源数量或回放时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声、四声环绕等。
声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时,只要使用单声道就可以了。
信噪比
信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB,8位采样率的信噪比大约是48dB。在录音时,在录音时简单估计噪音大小的办法是:当没有语音信号输入的时候,如果麦克风输入的信号振幅值超过200(单位为采样值,相当于46dB),则噪声就比较大,需要进行一定控制,如在比较安静的环境下录音,关闭窗户、空调、电扇等噪声源,远离电脑等噪声源等等,选用比较好的带有屏蔽的麦克风,选用比较好的声卡等等。噪声的振幅值越低越好,录音室里的录音一般可以控制在10以下(单位为采样值,相当于20dB)。
注:采样率和采样精度的设置以越高越好,采样率和采样精度越高则声音的质量越高,不过考虑到存储空间和语音信号的特点,一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源,则使用立体声,否则都使用单声道。

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。
欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。