logo

淘丁集团 | 关于文本审核的技术与逻辑

来源:淘丁集团

随着互联网的不断发展,网络安全隐患也逐渐的暴露出来,为了整顿互联网环境,国家的监管力度也是不断提升,内容审核的标准也在不断提升,暴力、血腥、政治、黄赌毒及危机青少年不良社会导内容向已成为重点关注区域。

今天,小编给大家带来的内容就是——内容审核中的文本审核的技术与逻辑是什么。

淘丁集团 | 关于文本审核的技术与逻辑插图

文本审核的技术与逻辑

文本可能是一个签名、一个词组,一段文本甚至是一篇文章,还有些文字附带在图片上,如一张海报,一张头像图等。从内容上分,内容应该分为三种,文字,图形与语言。在文字上来说,国内图书有中图法,国外有亚马逊分类法,高斯分类等。

对于图片中存在的文字,识别最多使用的还是OCR(文本识别技术)。对于长短文本及变形变异字体中,会使用到垃圾文本处理技术(在AI技术来讲:CRF分词,NLP,n-gram算法,随机森林算法)随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,通过对文本的处理进行归类,自动预测文本内容的形式。

当你要做预测的时候,新的观察值随着决策树自上而下走下来并被赋予一个预测值或标签。一旦森林中的每棵树都给有了预测值或标签,所有的预测结果将被归总到一起,所有树的投票返回做为最终的预测结果。简单来说,99.9%不相关的树做出的预测结果涵盖所有的情况,这些预测结果将会彼此抵消。少数优秀的树的预测结果将会脱颖而出,从而得到一个好的预测结果。

在对于上下段落中,突然出现的垃圾文本或不相关的文字或词组,会采用上下语义识别技术(LSTM深度神经网络,word-embedding)。此算法技术,会判断此句话中是否跟上下文结合,是否是一段无效的垃圾文本,最常见场景是我们在评论区随意敲打着一串自己都看不懂的文本。此技术很适合用于评论区的灌水,刷屏,甚至辱骂性的文字内容。

对文本内容的审核

对于图片的识别,目前单靠机器识别,还无法满足审核的需求,目前机器识别技术只能辅助人工审核,暂无法全面机器审核。AI机器审核只相当于人类三岁的智商,还处于弱智能时代,所以为了增强内容审核安全及无延迟的用户体验,还是需要人工团队来审核的。

内容审核除了有文本审核之外,还包括图像审核、视频审核、语音审核、直播审核和人脸审核

淘丁集团 | 关于文本审核的技术与逻辑插图1

淘丁内容安全业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、色情、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。

淘丁集团 | 关于文本审核的技术与逻辑插图2

淘丁数据标注团队现有人员规模近500人,业务分部在西安、宝鸡、渭南、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。

淘丁集团 | 关于文本审核的技术与逻辑插图3

淘丁集团专注于互联网内容安全和数据标注业务领域,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求。

欢迎互联网公司、人工智能机构对接洽谈合作,咨询热线:029-85799062。