淘丁数据标注 | 语音标注必须要了解的基础知识

发稿时间：2022-10-26来源：淘丁数科

常见的语音声音特征

（1）音色/音质：由发音体决定，指能够区分两种不同声音的基本特征，比如人说话的声音和小提琴的声音。在语音信号处理技术中，人声识别研究常将音色作为重要研究对象

（2）音调：指声音的高低，由声波的频率决定。例如，在一般情况下，男声听起来比较低沉，而女声听起来会比较尖锐

（3）音强：指声音的强弱，由声波的波动幅度决定，可简单理解为语音信号波形图中的信号幅度

（4）音长，指声波震动持续的长短，也称时长，由发音时间的长短决定

02.几个重要的语音概念

采样

由于声音为模拟连续信号，而计算机只能处理数字离散信号，因此要用计算机来分析和处理声音，就需要经历模数转换过程[Anlog to Digital Converter，即ADC]，即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来，其样本值用二进制码0和1来表示，这些0和1构成了数字音频文件，其过程实际上是将模拟音频信号转换成数字离散信号。

采样率

采样率表示了每秒对原始信号采样的次数，单位为Hz。显然，在一秒内采样的点越多，获取的信息越丰富，数字化语音信号的保真度越高，但占用的资源也越多。如果采样率低于语音频率的两倍，则会产生低频失真、信号混淆现象。

在进行语音信号处理时，不同任务对采样率高低的要求不同，在选择合适的采样率时应均衡考虑信号保真度与存储空间。目前，主流的采样有8kHz、16kHz、22.05kHz、44.1kHz等

采样精度

采样精度就是指存放一个采样值所使用的比特数目。当用8个比特（采样精度为8位）存放一个采样值时，对声音振幅的分辨等级理论上为256个，即0至255；当用16个比特（采样精度为16位）存放一个采样值时，对声音振幅的分辨等级理论上为65536个，即0到65536。如果您将采样精度设置为16位，计算机记录的采样值范围则为-32768到32767之间的整数。

声道/声音道数

声音通道数：也称声道数，是指输入或输出信号的通道数，也就是声音录制时的音源数量或回放时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声、四声环绕等。

声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时，只要使用单声道就可以了。

信噪比

信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB，8位采样率的信噪比大约是48dB。在录音时，在录音时简单估计噪音大小的办法是：当没有语音信号输入的时候，如果麦克风输入的信号振幅值超过200（单位为采样值，相当于46dB），则噪声就比较大，需要进行一定控制，如在比较安静的环境下录音，关闭窗户、空调、电扇等噪声源，远离电脑等噪声源等等，选用比较好的带有屏蔽的麦克风，选用比较好的声卡等等。噪声的振幅值越低越好，录音室里的录音一般可以控制在10以下（单位为采样值，相当于20dB）。

注：采样率和采样精度的设置以越高越好，采样率和采样精度越高则声音的质量越高，不过考虑到存储空间和语音信号的特点，一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源，则使用立体声，否则都使用单声道。

淘丁内容安全业务自2018年4月开始，服务于互联网平台线上产品安全审核工作，对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核，对有害信息进行人工甄别，确保产品绝对安全。

淘丁数据标注团队现有人员规模近500人，业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作，日常处理项目量级均为百万级以上，部分数据量级超过千万，拥有稳定充足的业务来源。各类标注项目经验丰富，可为人员提供标准化、体系化的培训。

淘丁集团专注于互联网内容安全和数据标注业务领域，拥有千人专业团队，经验丰富，准确率高，服务类别多，团队体系成熟，能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作，咨询热线：029-85799062。

下一篇
淘丁快讯！长安区副区长杨永涛莅临淘丁集团调研参观 »