logo

淘丁数据标注之数据清洗

来源:淘丁集团

在了解数据清洗之前,我们需要弄清楚为什么要进行数据清洗?

数据清洗技术是提高数据质量的有效方法。数据清洗作为数据预处理中至关重要的环节,清洗后数据的质量很大程度上决定了AI算法的有效性。

什么是数据清洗?

数据清洗是发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。

因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”进行“清洗”。

数据清洗目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

淘丁数据标注之数据清洗插图

要清洗的数据及清洗方法

· 数据缺失

数据缺失的产生的原因主要分为机械原因和人为原因

机械原因:由于机械原因导致的数据收集或保存的失败造成的数据缺失

人为原因:由于人的主观失误、历史局限或有意隐瞒造成的数据缺失

不同的数据存储和环境中对于缺失值的表示不同

清洗方法:

  • 删除缺失值

当样本数很多的时候,并且出现缺失值的样本在整个的样本的比例相对较小,这种情况下,我们可以使用最简单有效的方法处理缺失值的情况。那就是将出现有缺失值的样本直接丢弃。这是一种很常用的策略。

  • 均值填补法

根据缺失值的属性相关系数最大的那个属性把数据分成几个组,然后分别计算每个组的均值,把这些均值放入到缺失的数值里面就可以了。

  • 热卡填补法

对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有变量按Y的取值大小进行排序。

还有类似于最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等。

· 有噪声

异常值:超过有明确取值范围的数据

离群点:通过对数据分析、可视化或者聚类方法检测离群点,根据情况判断决定是否要去除该数据

清洗方法:

  • 分箱法

分箱方法通过考察数据的“近邻”(即,周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。

用箱均值光滑:箱中每一个值被箱中的平均值替换。

用箱中位数平滑:箱中的每一个值被箱中的中位数替换。

用箱边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用。

  • 回归法

可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

· 数据不一致

逻辑错误:比如年龄与生日不符

数据类型:相同数据的数据类型不一致

清洗方法:

不一致数据的清洗在某些情况下可以参照其他材料使用人工进行修改,可以借助工具来找到违反限制的数据。

例如:如果知道数据的函数依赖关系,通过函数关系修改属性值。但是大部分的不一致情况都需要进行数据变换,即定义一系列的变换纠正数据,也有很多商业工具提供数据变换的功能,例如数据迁移工具和ETL工具等,但是这些功能都是有限的。

· 重复值数据

数据本身存在或数据清洗后可能会产生的重复值

清洗方法:

重复值的存在会影响后续模型训练的质量,造成计算及存储浪费。这里要注意的是去除重复值的操作一般最后进行。

常用的数据清洗工具

工具一:Excel

Excel是目前最流行的一款个人计算机数据处理软件电子表格软件。适用于小规模数据、数据属性较多的情况。如果不考虑性能和数据量,可以处理大部分数据相关的处理工作。

淘丁数据标注之数据清洗插图1

工具二:VBA(Visual Basic宏语言)

VBA主要用于扩展Windows的应用功能,也可以说是应用程序视觉化的Basic脚本。VBA可以使现有的应用程序自动化,并通过自定义创建解决问题的方案。它是一种Excel可以识别的语言,可以实现Excel中没有提供的功能。

淘丁数据标注之数据清洗插图2

工具三:Python

Python是一种面向对象、直译式计算机程序设计语言,也是一种功能强大的通用程序设计语言,适合与大规模的数据处理。Python语言简洁、易读、可扩展。它最初被设计用来编写自动化脚本。它越来越多地被用来开发独立的大型项目,因为版本不断更新,语言新功能也在增加。

淘丁数据标注之数据清洗插图3

数据清洗是数据标注中非常重要的一步,其重要性不容忽视。使用合适的工具可以使数据清洗更加高效方便。

淘丁数据标注之数据清洗插图4

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁数据标注之数据清洗插图5

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁数据标注之数据清洗插图6

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。