logo

太原淘丁科技分享:2021,数据标注行业的发展将面临大洗牌!?

来源:淘丁集团

山西淘丁科技有限公司

山西淘丁科技有限公司(简称“淘丁科技”、“山西淘丁科技”、“太原淘丁科技”),是一家多元化发展的互联网型企业,属于陕西淘丁集团旗下全资子公司。公司在“互联网+”新思维的领导下,将年轻化、互联网化和产业一体化作为新时期发展的引擎,基于大数据、人工智能、云计算等高新技术,以专业的数据标注和内容审核团队为互联网行业提供快捷、高效、优质的数据标注、内容服务,打造专业化数据标注、内容审核服务平台,全方位满足不同行业的业务需求,公司以助力企业快速创新发展为己任,致力于推进山西人工智能产业化新生态。

太原淘丁科技分享:2021,数据标注行业的发展将面临大洗牌!?插图

目前人工智能商业化在算力、算法层面已达到阶段性基本成熟,想要更加契合落地需求、解决行业具体痛点,还需要大量经过标注处理的相关数据做算法训练支撑。

可以说数据决定了AI的落地程度,更具前瞻性的数据集产品和高度定制化数据服务成为了行业发展的主流。

  • 趋势:行业洗牌,竞争加剧

数据标注行业历经多年发展,目前已进入一个快速增长期。

相关统计资料显示,2019年国内数据标注行业市场规模为30.9亿元,未来几年的平均年增长率为21.8%,预计到2025年,国内数据标注市场规模将突破100亿元大关。

从微观角度来看,市场规模的不断扩大,意味着会吸引到更多的行业参与者,同时也意味着潜在市场竞争的加剧。由于数据标注行业的准入门槛较低,且过于依赖人力,导致行业内部云集了大量中小规模的数据服务供应商。

随着行业技术门槛的提升、AI企业需求的变化以及人力成本的增加,中小型数据服务供应商将面临越来越严峻的生存压力,在未来1-2年内,行业内部将大概率迎来一波“洗牌期”。

从宏观角度来看,随着AI商业化落地进程的加快,AI企业对于数据服务供应商也提出了新的要求,高质量、精细化、定制化的数据集越来越受到需求方的青睐,这对于数据服务供应商的技术实力、精细化管理能力、流程把控能力等都带来了新的考验。

太原淘丁科技分享:2021,数据标注行业的发展将面临大洗牌!?插图1
  1. 挑战:新需求下落后的行业发展水平

如上文所述,“更具前瞻性的数据集产品和高度定制化数据服务成为行业发展的主流”,然而目前的行业发展水平还远远无法满足这些新需求,数据标注行业面临以下挑战:

01、不同的行业、不同的业务场景对数据标注的需求存在一定的差异性,现有的标注任务还不够细化, 缺乏定制化标注能力。

数据标注的应用场景十分广泛,具体来说有自动驾驶、智慧安防、新零售、AI教育、工业机器人、智慧农业等领域。

不同的应用场景对应不同的标注需求,比如自动驾驶领域主要涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,而智慧安防领域则主要涉及面部识别、人脸探测、视觉搜索、人脸关键信息点提取以及车牌识别等内容,这对数据服务供应商的定制化标注能力提出了新的挑战。

02、标注效率与数据质量均较低,且欠缺人机协作能力。

数据标注行业的特殊性决定了其对于人力的高依赖性,目前主流的标注方法是标注员根据标注需求, 借助相关工具在数据上完成诸如分类、画框、注释和标记等工作。

由于标注员能力素质的参差不齐以及标注工具功能的不完善,数据服务供应商在标注效率以及数据质量上,均有所欠缺。

此外,目前很多数据服务供应商忽视或完全不具备人机协作能力,并没有意识到AI对于数据标注行业的反哺作用。

03、品牌数据标注服务提供商依赖众包、转包模式,造成标注结果质量的层次不齐。

现阶段,数据标注主要依靠人力来完成,人力成本占据数据标注服务企业总成本的绝大部分。因此很多品牌数据服务供应商都放弃自建标注团队,转而通过分包、转包的模式完成标注业务。

与自建标注团队相比,众包与转包的方式,成本较低且比较灵活,但是与自建标注团队相比,这两种模式信息链过长,且质量难以把控,从长远角度来看,自建标注团队更加符合行业发展的需求。

04、基于众包、转包模式下的数据标注任务会造成用户数据缺乏安全性, 并面临隐私泄露的风险。

一些特殊行业的需求方,比如金融机构和政府部门格外注重标注数据的安全性, 但是一些数据标注企业出于成本方面的考虑,会将这些敏感的数据分发、转包给其他服务商或者个人,这就带来了巨大的潜在数据泄露风险。如何建立一套完善的数据安全防护机制就成为当下诸多数据服务供应商需要着重考量的因素。

综上而言,数据标注行业前景广阔,但也面临诸多挑战。

在可预见的行业变革期内,无论是中小数据服务供应商还是品牌数据服务供应商都无法在这场变革中独善其身,唯有不断提升自身技术实力、快速迭代自身业务以适应需求变化、并打造品牌与实力的双重口碑效应,才能在激烈的市场竞争中更具优势,建立高度排他性技术壁垒。