logo

淘丁数据标注:70%的AI落地都靠它,文本数据标注的类型和应用

来源:淘丁集团

淘丁数据标注:70%的AI落地都靠它,文本数据标注的类型和应用插图作为常见数据标注类型之一,文本标注指将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域。

标注问题的目的在于学习模型,使该模型能够对观测序列给出标记序列作为预测。这也决定了标注问题的工作流程,即输入是一个观测序列,之后输出是一个标记序列或者状态序列。需要注意的是,标记个数是有限的,但其组合所成的标记序列的个数是依照序列长度呈指数级增长的。

淘丁数据标注:70%的AI落地都靠它,文本数据标注的类型和应用插图1

从本质上来看,文本数据标注就是一个监督学习的过程,而标注问题就是更复杂结构预测问题的简单形式。

那么,在实际的生产生活或服务中,文本数据标注都有哪些类型及应用场景?

一、文本数据标注类型

文本是最常用的数据类型。70%的公司均离不开文本。文本的数据标注包括各种标注,如情绪、意图、属性、关系、实体、类别和搜索等类型。

01.命名实体标注

实体标注:实体标注需要将一句话中的实体提取出来,如电视,足球,门等。有时候还需要将划分这句话的类别如音乐,百科,新闻等或者是标注出文本中的动作指令(开门,播放等),许多企业都会在各种应用场景中应用命名实体标注功能。

02.情感标注

情感标注∶此类标注通常需要判定一句话包含的情感,如三级情感标注(正向,中性,负向),要求高的会分成六级甚至十二级情感标注。为了获得这些数据,经常要用到人工标注者,因为他们可以评估所有网络平台(包括社交媒体和电商网站)上的情绪和评论内容,并能够标记和报告中辱骂、敏感的关键字或新词。

03.关系标注

关系标注是对复句的句法关联和语义关联做出重要标示的一种任务,是复句自动分析的形式标记。下面对涉及关系标注的知识图谱做简要介绍。

知识图谱,也叫知识库,客户用来做查询和推理用。知识图谱的结构包括实体、属性和关系。例如,用户提问“北纬38”56,东经116”20的城市在哪个国家”,机器回答“这个城市是北京,且在中国”

04.意图标注

随着人们越来越多地使用人机交互进行交流,机器必须能够理解自然语言和用户意图。多意向数据收集和分类可将意向划分为若干关键类别,包括请求、命令、预订、推荐和确认。

如客户要明确查询天气,里面有“查询天气”“查询气象-雨”“查询气象-雾”“查询气象-气温”等意图

05.语义标注

语义标注既可以改进产品列表,又可以确保客户能够找到想要的产品。这有助于把浏览者转化为买家。语义标注服务通过标记产品标题和搜索查询中的各个组件,帮助训练算法,以识别各组成部分,提高总体搜索相关性

二、文本数据标注的应用场景

文本标注应用范围很广泛,具体来说,文本数据标注应用比较多的场景包括新零售行业、客服行业、广告行业、金融行业和医疗行业等:应用类型主要有数据清洗、语义识别、实体识别、场景识别、情绪识别以及应答识别等。

01.客服行业

在客服行业文本标注主要集中在场景识别和应答识别,客服基本可分为人工客服和电子客服,其中人工客服又可细分为文字客服、视频客服和语音客服三类以不少电商平台的智能客服机器为例,当用户在购物遇到问题,需要与机器人沟通交流时人工智能将根据用户的咨询内容且对应的场景,然后让用户选择更细分的应答模式,再定位到用户的实际场景中,根据用户的具体问题给出对应的回答,整个过程就好比是把用户的问题用漏斗状的筛子过一遍。

淘丁数据标注:70%的AI落地都靠它,文本数据标注的类型和应用插图2

在初期建立应答体系的时候,需要对海量用户咨询语言所产生的文字材料进行分类,把应对的用户咨询的问题事先标记好,然后放进对应的模型中,例如我看到的这台电视电脑CPU是什么型号

在这一步中,数据标注的具体工作就是给句子的场景打标,将用户问题细分应对的场景中,在进行这种标注时需要人工智能非常熟悉本行业的业务逻辑数,其实这就是建立机器人的应答知识库,机器人在收到用户发出的指令时,需要识别这些指令和哪个细分问题的,你额度最高,然后选取哪个问题的答案作为给用户的答案

02.新零售行业

新零售是指个人、企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。

在此过程中,需要对客户的问题进行精准定位,既需要对客户的问题进行量身定制,又需要考虑多数客户的共性要求,这就需要借助文本数据标注的方法,将顾客的相应问题做出标记。

03.金融行业

线上平台标注和线下表格标注是金融行业文本标注主要的标注形式。以现代商业的企业签约举例:在企业的商务合同中,对关键信息的读取就显得尤为重要。例如,合同中提到的公司名称,合同编号、发票编号、相关金额,到期日期和风险提示等,这些内容囊括了甲乙双方公司的核心信息。对于一个规模较大的公司来说,每天的签约合同非常之多,如果采用一个或几个人对这些合同中的相关信息加以提收乃至核对,这项任务就显得十分繁重而且意义不大。

在人工智能时代,可以考虑建立一个企业合同分析模型,对合同中的相关信息进行提取,从而可以减少劳动量,降低人力成本,提高工作效率。

04.广告行业

广告行业是在市场经济充分发展的条件下逐步形成的,从单一的广告活动发展成为独立的广告行业经历了漫长的过程。广告制作作为广告行业的重点工作之一,都需要广告设计工作者的辛勤劳动

考虑到未来商品市场的发展趋势。以及单个商品的文案设计与广告其他工作,类别相近且销量较高的商品文案可相互借鉴,将已有的单个商品文案进行综合,取其精华、去其糟粕,通过文本数据标注将文案中的“精华”与“糟粕”标记出来,让文案设计工作者可以在案例中进行提取综合,这无疑将提高工作效率。

05.医疗行业

在医疗行业对自然语言进行标注处理,对专业度要求比较高,需要专门的医学人才才能进行标注,往往本行业的标注的对象是从病列中抽取出来的一些字段,病例里面的体查项和既往病史是有模板的,直接识别可以,替换项的结果就可以,这往往比较容易的。但是主诉和医生对患者的描述通常每次都会有所差异。

淘丁数据标注:70%的AI落地都靠它,文本数据标注的类型和应用插图3

文本数据标注的重要性

在人工智能的三要素数据、算力和算法中,数据相当于AI算法的燃料。简单理解,文本数据标注相当于为“投喂”AI准备“饲料”,机器学习中的监督学习和半监督学习都需要人工标注好的数据进行学习,其训练集、验证集和测试集都是标注过的数据。

总结来看,文本标注是一个大工程,也是当前深度学习模型时代的基础之基础,我们需要也必须关注这些底层的数据能力。