logo

淘丁数据标注丨标注过程中的这些特殊名词都指什么?

来源:淘丁集团

人工智能看似给人深不可测的感觉,但实际上人工智能的发展背后是需要大量的人类数据作为支撑,进而通过机器算法不断地模拟人类活动进行深度学习,识别这些数据样本去实现机器替代人工的愿景。
机器是如何理解这些数据的呢?在这里我们就要提到一个重要名词:“数据标注”。数据标注简而言之就是人类通过计算机等工具对各类型的数据如:文本、视频、图像、音频等,通过不同的标注方式为他们贴上标签并提供给机器学习的过程。

因此数据标注是人工智能发展过程中,必不可少的一个环节,今天呢,小编就给大家整理了一些在标注过程中常常会遇到的一些特殊名词,一起来看看它们都代表什么意思吧。

淘丁数据标注丨标注过程中的这些特殊名词都指什么?插图

1.标签(Label)

标签呢,主要是标识数据的特征、类别和属性等。
标签的主要作用是用来,建立数据与机器学习训练要求所定义的机器可读数据编码间的联系。

简单来说的话:就如同我们对数据分类后需要给不同类别的数据按照要求“贴上”相对应的“标志”,举一个简单的例子,比如在语音标注中,我们会遇到一段音频的内容是一段音乐,那相对应的标签就是“music”。

2.标注任务(Annotation Task)

这个不会读也没关系,简单的认识就可以。
标注任务的定义:是指按照数据标注规范对数据集进行标注的过程。
这个不用多讲,就是做数据标注。

3.标注员(DataLabeler)

它的定义是:负责对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注的专业从业人员。

4.标注工具(DataLabeler)

是指数据标注员完成标注任务产生标注结果所需的工具和软件。标注工具按照自动化程度不同,可分为手动标注工具、半自动标注工具和自动标注工具。具体的标注工具在后续的分享中,我们会一一来学习。

淘丁数据标注丨标注过程中的这些特殊名词都指什么?插图1

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁数据标注丨标注过程中的这些特殊名词都指什么?插图2

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁数据标注丨标注过程中的这些特殊名词都指什么?插图3

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。