logo

淘丁数据标注 | 数据标注流程之数据采集

来源:淘丁集团

在数据标注进行前,我们需要采集到足够多的原始数据。数据是从哪来的?怎么得出的这些数据?是广大企业迫切需要解决的问题。

国外最大的劳务众包平台亚马逊劳务众包平台,每天都有大量的人员在线进行数据采集和标注工作。

那么,这些采集的数据一般来源于哪里呢?

数据来源

· 内部数据

内部数据是企业内部长期积累的原始数据。企业在生产运营中会产生与自身业务相关的大量数据,例如:百度搜索指数、腾讯公司业绩数据、阿里巴巴集团财务及运营数据、新浪微博微指数等。

淘丁数据标注 | 数据标注流程之数据采集插图

大型互联网公司拥有海量用户,有天然的数据积累优势,还有一些有数据意识的中小型企业,也开始积累自己的数据。

· 购买数据

数据平台是以数据交易为主营业务的平台,例如:数据堂、国云数据市场、贵阳大数据交易所等数据平台。在各个数据交易平台上购买各行各业各种类型的数据,根据数据信息、获取难易程度的不同,价格也会有所不同。

· 公开数据

政府和机构也会发布一些公开数据,成为业内权威信息的来源。例如:中华人民共和国国家统计局数据、中国人民银行调查统计、世界银行公开数据、联合国数据、纳斯达克、新浪财经美股实时行情等。这些数据通常都是由各地政府统计上报,或者是由行业内专业的网站、机构等提供。

淘丁数据标注 | 数据标注流程之数据采集插图1

· 网络爬虫

如果数据市场上没有需要的数据,或者价格太高不愿意购买,那么可以利用爬虫技术,抓取网站上的数据。

无论是搜索引擎,还是个人或单位获取目标数据,都需要从公开网站上爬取大量数据,在此需求下,爬虫技术应运而生,并迅速发展成为一门成熟的技术。

淘丁数据标注 | 数据标注流程之数据采集插图2

爬虫方法:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→进行后续的分析与应用

· 定制化采集

根据机器学习任务类型进行布置场景进行采集,或在相关场所安置传感器进行采集。目前主流的传感器数据采集是通过加装工业智能网关来实现,工业智能网关通过连接传感器,将数据采集后上传到云平台,实现数据应用。

采集数量

采集多少数据才足够呢?

对于这一问题人们达成了共识:采集的数据越多越好。

淘丁数据标注 | 数据标注流程之数据采集插图3

这就是所谓的大数据,这意味着你可以通过人工智能看到海量数据背后的规律。例如,互联网购物软件具有推荐功能,它能够利用大数据分析为用户推荐商品,并将商品推广给具有相似背景、性别和年龄的其他用户。

采集格式及步骤

采集数据的格式取决于AI的应用场景,采集格式包括图像、语音、文本、视频等。如果需要构建图像识别系统,则需要收集数千张图片,其中包括用于系统训练检测的图片。

采集步骤一般为:确定采集范围与数量——明确数据来源——核实数据采集方法

解决了数据采集问题,下期我们聊聊如何进行数据清洗…

淘丁数据标注 | 数据标注流程之数据采集插图4

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁数据标注 | 数据标注流程之数据采集插图5

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁数据标注 | 数据标注流程之数据采集插图6

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。