logo

淘丁科普:数据标注工作的重要环节——数据质检

来源:淘丁集团

不管是数据采集、数据清洗还是数据标注,通过人工处理的方式并不能保证结果完全正确。为了提高输出数据的正确率,数据质检成为重要的一环,而最终通过质检环节的数据才算是真正过关。

淘丁科普:数据标注工作的重要环节——数据质检插图

01.数据质检的重要性

数据是人工智能的基础与核心之一,如果不能精准把控数据标注的质量,那么对于人工智能的发展将产生极大的阻碍,对于标注项目来讲就是一个无限返修的过程。

02.合格的质检员

质检员负责标注数据的质量审核、标注问题的修正及批量问题数据的再标注任务分发等,能够有效地向上级主管(数据标注组负责人)/ 管理员汇报标注进度和问题,善于与数据标注员、算法工程师进行团队合作和问题反馈。

在数据标注任务中,质检人员并不是固定的,也不是一开始就存在的。所有项目的质检人员都是从标注师中选拔出来的优秀者。如果未经过考察便匆忙确定质检人员,必然会出现质检人员理解不如标注师的情况,反而会起不到质量控制的作用。

在质检过程中,也会伴随着标注师的考核,对于质量不合格的标注师务必要及时采取相应的校正措施,在必要的情况下,要执行二次培训测试或淘汰机制。

上述方式并不见得适用全部项目,需要酌情考虑,必要时采用其他方式或几种方式组合来达到质量控制的目的。

03.质检不合格怎么办

质量检查时,需要一名或多名质检员对数据层层把关。如果数据不合格,就交由数据标注人员返工,直到最终审核通过为止。

04.数据标注质量检验方法

专业的数据标注平台为顺应行业发展,多数会配置辅助标注的工具去提高数据标注的准确度,避免了纯手工标注出现较大误差。同时,通过人机协作的方法准确地把控每一环节的数据质量问题。

淘丁科普:数据标注工作的重要环节——数据质检插图1

在此基础上,再根据项目情况,选择以下基础质检方法:

· 实时检验

实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务进行过程中。

优点:质检员能实时掌握标注进度,及时发现并解决问题,保障后续标注过程不再出现此类错误。标注、质检人员同步处理标注结果,算法工程师同步导出质检完成数据,真正做到实时标注,实时反馈。

缺点:对人员配置及管理要求高,大型项目需配备多名质检员。

· 全样检查

对已标注好的数据集中的逐一检查。

优点:能够保障数据标注的准确率,需求方满意度高。

缺点:人工成本高,与需求方之间的合作耗时耗力。

· 抽样检查

抽样检验是一种辅助性检验方法,抽取一定比例的数据检查。

优点:适用于质检员和标注员比例失衡,标注员过多、质检员不足的情况。

缺点:相比另外两种检查方法,该方法错误率偏高。

如果通过质检环节仍不能保证标注质量,则需要对数据进行审核。数据审核的实施人主要是专家级项目经理或者专家级质检人员,目的主要是对质检通过的数据进行审核,可以采用抽样审核或者全审的方式,具体取决于实际的任务要求。数据审核环节的目的不仅在于使标注质量更高,它还起到对质检人员的监督作用。

以上内容来源于网络。