logo

淘丁集团 | 数据标注过程中如何保护用户数据安全?

来源:淘丁集团

近期,在《麻省理工科技评论》在一篇万字长文调查中,一位年轻女子坐在自家的马桶上的图片也被扫地机器人拍摄下来,并被流传到网上、大范围传播。

但事实上,这也并非是一件新鲜事了。例如,2020年秋,一系列从低角度拍摄的照片突然出现在了网络论坛上。

其内容全是家庭生活中场景——家具的陈列,电视播放的节目内容,甚至连家庭成员的脸都看得一清二楚。

比如下图,一个八九岁的男孩,正趴在走廊的地板上,并很高兴地注视着面前的这个物体。

淘丁集团 | 数据标注过程中如何保护用户数据安全?插图

根据爆料,这些图片全部由iRobot开发的Roomba J7系列扫地机器人拍摄,之后则会被发给 Scale AI 进行处理。Scale AI 是一家人工智能数据标注公司。

扫地机器人为何会拍下“主人家”的生活照片?这些照片又是如何被泄露出去的?

这里就不得不提到数据标注了。数据标注是IT互联网公司常见的一个职位,与之对应的是数据标注员或人工智能训练师。他们使用自动化的工具从互联网上抓取、收集文本、图片、语音等数据,然后对抓取的数据进行整理与标注,从而让人工智能机器进行学习,达到越来越智能的目的。

淘丁集团 | 数据标注过程中如何保护用户数据安全?插图1

数据标注是一份低薪、需要大量人工的工作。但一二线城市人工成本较高、且缺少相应的人力。因此,数据标注公司或平台,会将这份工作外包出去,选择陕西、山西、贵州等偏远地区的人工,在降低人力成本的同时,也为当地解决了部分就业问题。

据了解,数据标注预计到2030年将达到133亿美元的市场价值。目前,国内从事数据标注行业的人群已达上千万,其中90%为数据标注员,这些数据标注员分布在全国各地、大大小小的团队内。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……

数据标注行业既然与“数据”有关,那么安全性一定是很多企业等各方关注的重点。尤其是随着数据安全法、个保法等法律法规的落地实施,从数据的采集、数据的标注,再到数据的保存,数据标注团队在每一个环节都必须保证数据不被泄露、不被窃取。

但是,数据标注团队对工作人员的行为安全管控一直存疑。比如,在此次事件中,用户的隐私照、家庭环境、家庭成员人脸等敏感信息泄露,也与工作人员有关。

淘丁集团 | 数据标注过程中如何保护用户数据安全?插图2

2020年,Scale AI发布了一项全新的任务——Project IO。其特点是,视角从地面以大约45度向上,图像内容为世界各地的墙壁、天花板和地板,以及上面的各种东西,当然也包括人。通常来说,这些负责标注的工人会在Facebook、Discord和其他社交平台上建群,然后在其中讨论和工作有关的各种问题,比如分享处理延迟付款的建议,谈论报酬最好的任务,或请其他人帮忙等等。

数据标注员随意截图、分享平台内容,是很难被平台监测到的。因此,这成为数据表平台泄露用户隐私数据的主要原因之一。

那么,数据标注平台要如何在不侵犯工作人员隐私、在保证效率的同时,对平台的用户数据安全实施安全管控呢?

淘丁集团基于多年的数据标注经验,自主研标注工具。我们依托全球资源优势,在国内外拥有大规模的标注专家,能够24小时不间断地为您提供数据标注服务。若您想了解关于标注工具的更多信息,请联系我们。

淘丁集团 | 数据标注过程中如何保护用户数据安全?插图3

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的服务。

来源:素材来源于网络,如有侵权,请联系删除。