logo

淘丁内容安全审核|内容巡检仅靠关键词过滤是否安全?

来源:淘丁集团

为了确保内容安全,对于拥有官方APP、官网、各新媒体账号的企事业单位而言,内容巡检已经逐渐成为不可或缺的一个环节,尤其是在重大会议召开前后。

内容巡检目前主要有两种技术流派,一种是通过关键词匹配,纯机检模式,巡检效率高,漏判、误判率较高,机器生成巡检报告可读性较差,费用较低;另一种是通过AI语义+人工审核模式,通过复合使用“AI+人工”的各自优势,巡检准确率可以达到99.9%以上,巡检报告可读性强,量化分析准确,费用相对略高。

淘丁内容安全审核|内容巡检仅靠关键词过滤是否安全?插图

01.关键词巡检相对简单,容易造成误判或漏判

市面上的新媒体内容巡检产品大多是对于关键词的巡检,基于关键词过滤的逻辑,通过对抓取的新媒体内容匹配关键词,识别内容中是否存在涉政违规、涉黄、暴恐、违禁、不良价值观、广告等内容安全风险。通常抓取的内容数据清洗不够准确,只使用关键词匹配会导致巡检的质量不尽如人意,经常出现误判或漏判。

关键词巡检机制是基于特征的,直接认定某个字或词违规,通过对单个违规敏感词进行过滤,以实现文本内容的巡检。但是这样特别容易造成误判,比如“黑夜总会过去,白天总会到来”“惹下大麻烦”会被判定为存在敏感词“夜总会”“大麻”。

此外,关键词的上下文如果出现否定性的内容,这个文本很可能是正常的。举个例子,文本中虽然包含“色情”这个关键词,但是前面出现了“反对”“抵制”这类词,这个文本仍然是正常的。再比如,虽然文本中含有落马官员的名字,但是整体内容是对其的批判,这个文本也是正常的。

还有,也正是因为关键词巡检机制的缺陷,避开巡检反而很容易,越来越多的违规内容用同音字代替,标点符号隔开,特殊符号、表情替换,违规字体拆开等方式出现,成为漏网之鱼,比如用“弓虽”替代“强”,用“月月鸟”替代“鹏”。关键词过滤很大程度上已经失效,无法满足内容巡检的需求。

淘丁内容安全审核|内容巡检仅靠关键词过滤是否安全?插图1

02.AI内容巡检亟需更高精准的语义识别能力和更完善的审核规则

文本识别存在多样性、复杂性等特点,应对更高难度的挑战,内容巡检产品必须拥有更强大的敏感词库、更高精准的语义识别能力和更完善的审核规则,不仅要基于关键词,也要基于上下文的语言环境,从语义维度进行分析,做到真正理解句子内字词的含义,避免单一关键词巡检机制造成的误判或漏判。

淘丁集团严控内容安全审核
淘丁内容安全从场景、技术和合规三个角度构建了全面的数字内容安全框架,帮助企业打造“清朗、有序、融合”的网络空间。目前,淘丁提供多维度、多场景的内容保护解决方案。同时支持多场景模式,.文本,图像,视频,音频多个场景下都可以准确识别。

对于普通公司而言,自建内容审核平台以及持续的技术投资,都会增加企业的压力,因此可以将内容保护功能对接到淘丁内容安全,在减少成本的同时增强网络净化能力