logo

淘丁数据标注 | 数据标注的注意事项都有哪些?

来源:淘丁集团

数据标注作为人工智能发展道路上的基石,是人工智能发展的重要环节。数据标注的过程是通过人工贴标签的方式,为机器提供可学习的样本数据,最终使机器可以自主识别数据。在深度学习模型的测试过程中,高质量的数据标注往往能更好地提高模型训练的质量。

数据标注类型主要包括图像标注、文本标注、语音标注和3D点云标注四大类。在标注过程中,为了确保标注数据的准确率,需要注意很多事项。

图像标注

图像标注是一个将标签添加到图像的过程。它可以为整个图像添加一个标签,也可以分别为图像内每组像素添加多个标签。

注意事项

l 在拉框标注或语义分割时,其标注对象就是将图像中所需标注类别分别进行框选/分割标注,框选之后每个框都会有一个对应的类别。

l 在被遮挡的情况下,遮挡部分需要脑补,但是不要脑补到图像外。

l 不遗漏框/打点数,不误标框/打点数,不多标框/打点数。

l 若出现图像较模糊无法标注的则不标。

文本标注

文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们就可以教会机器如何来识别文本中所隐含的意图或者情感,使机器更加人性化的理解语言。

注意事项

l 同类标注属性,标注方式要保持一致。

l 在文字标注过程中,由于部分文字间隔近,若同页中有相同的元素,可以考虑隔行标注,避免标注都挤到一起。

l 标注标签的定义要细化到集体场景。

l 前期主观性的标签要具象化,明确好详细的标签边界。

l 同时标多个标签时,要避免漏标、错标、多标。

语音标注

语音标注主要是由标注员将听到的音频中的声音转写下来,并加上对应的标签。

语音标注的语种一般分为中文、方言、英文等。根据语音时长可以分为长语音和段语音,一般在三秒左右的语音分为短语音,其中语音的长短、声音质量、有无预打标结果,是否需要切割等因素都会有较大的影响语音转写的速度。

注意事项

l 确定是否包含有效语音;确定语音的噪声情况;确定说话人数量;确定说话人性别、确定是否有口音、有效语音内容转写。

l 整句话无法分辨出内容的,标为无效;背景噪音过大的,标为无效。

l 在语音标注中,除了被采集者的声音外,还可能听到其他的背景音,在一般情况下,这些都可以被当作杂音进行处理。

l 在前期语音清洗时,需要删去无效音频;在语音切割时,要保证有效音频前后静音两秒,截取时间过长或者过短都不符合语音数据标注规范。

l 语音标注的过程中的最好是使用降噪耳机,如果耳机质量不高在标注过程中,会产生很多的杂音不利于标注,容易出错。

3D点云标注

3D点云标注是在激光雷达采集的3D图像中,通过3D框将目标物体标注出来。目标物体包括车辆、行人、广告标志和树木等,供计算机视觉、无人驾驶等人工智能模型训练使用。

注意事项

l 标注类型具体如下图所示:

淘丁数据标注 | 数据标注的注意事项都有哪些?插图

l 目标本身须全部被3D框包围,不漏点且不包含噪点。

l 若目标物体边界清晰,则3D框边界距离目标主体真实边界最多不能大于10cm。

l 若目标物体因扫描不全而导致点云缺失,需脑补缺失面边界,可按照以下数值标注:

淘丁数据标注 | 数据标注的注意事项都有哪些?插图1

l 若行人若带有背包、雨伞等物件,行人的3D框需包含这些小物件。

l 若行人距离过近时,行人框可能有一定程度的重叠,可正常标注。

l 要注意三视图是否贴合;注意正前方方向是否正确。

l 所有地面上的目标物体其3D标注框底部须贴合地面,不能高于地面或低于地面。

l 若目标物体距离过远导致目标所在区域点云稀少、没有地面点或者难以确定3D框下底面高度的情况时,可参考最近的地面点云线的高度和点云中距离最近的3D框来确定大致高度。

l 点云框要按照车辆行驶方向标注。

l 标注范围:100m半径范围。

l 场景中同一车辆、障碍物、行人多次出现时其属性ID 要保持一致。

l 若出现一些特殊辆时,如扫水车、水泥罐等,需要按照最大外接立方体的形状去标注出3D框。

l 若出现一辆分成多个部分的情况,比如拖挂多节的卡、多截的公交等,需要将每一节体分别标注3D框。

l 仅标注确定位置和形状的物体,通过图像和点云都无法判定的障碍物无需框注。

l 若目标为行人推自行、推购物、推婴儿等场景时,行人与应分别拉框标注。

l 注意不遗漏框,不误标框,不多标框,残影和杂点不需要标注。

l 注意标注方向需正确。

l 注意框要求紧密贴合点云,不可漏标点,外围边界不超过清晰点云边界的10cm位置,标注准确率在99%以上。

淘丁数据标注 | 数据标注的注意事项都有哪些?插图2

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁数据标注 | 数据标注的注意事项都有哪些?插图3

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁数据标注 | 数据标注的注意事项都有哪些?插图4

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。