logo

淘丁科普丨数据标注质检及验收

来源:淘丁集团

数据标注的质量直接关系到模型训练的准确度,因此数据标注质量控制与验收显得尤为重要。如何有效地监控数据标注质量,以及如何验收数据标注的成果,是当前机器学习和深度学习领域必须关注和面对的问题。

质量监控

相互协作式自检:数据标注团队内部各个小组间进行互相检查,各小组的组长对自己组内的数据质量负责。互相协作质检完成且合格后,统一提交到项目质检组进行质检。

多轮次质量检查:分为自检-质检-验收这三个轮次。在自检和质检环节,分设3级质检员:低级质检员,中级质检员,高级质检员。项目组每完成一批数据,均采用相互协作质检的自检方式,协作质检完成后,交由质检组进行质检,质检通过后,交付客户进行验收。

质检方法

1️⃣逐条检查

逐条检查是较为传统的标注质量检查方法,指对数据集中的每一条数据按照标注规则进行手动核查,保证标注结果的正确性,同时符合标注规范。这种方法需要耗费大量的人力和时间,但是可以确保标注结果精确和高质量。

2️⃣抽样检查

抽取检查是目前较为普遍的标注质量检查方法,指从数据集中随机抽取一部分数据进行检查。这种方法可以节省时间和人力,同时还能有效提升标注的效率和准确性。

· 简单抽样

要求抽样人员客观的、随机的并且按照一定概率抽取一定数量的样本,在实际项目中,抽样概率与数量往往来自客户的要求。

· 系统抽样

要求每隔一段时间进行检测,然后再从抽取的每个时间间隔的数据样本在进行随机抽样。

· 分层抽样

适用于对不同类型且拥有多个加工环境的,即变量较多的项目进行评估。

3️⃣机器检查

机器检查是为了避免人为因素误差,利用自然语言处理(NLP)技术,通过计算机算法对标注数据进行检查和自动纠错。这种方法可以大大削减人力物力,并且能从更全面的范围对数据进行检查。

机器检查目前使用较少,机器检查输出的准确率并不能完全代表数据的准确率,机器检查后仍然需要人工进行质检。机器检查在未来随着技术的进步有望发展成主流标注质量检查方法。

无论采用哪种方法,都需要保证数据标注的质量。在实践中,三种方法可以根据实际情况进行选择和灵活应用。