淘丁内容安全审核｜内容巡检仅靠关键词过滤是否安全？

发稿时间：2022-11-14来源：淘丁数科

为了确保内容安全，对于拥有官方APP、官网、各新媒体账号的企事业单位而言，内容巡检已经逐渐成为不可或缺的一个环节，尤其是在重大会议召开前后。

内容巡检目前主要有两种技术流派，一种是通过关键词匹配，纯机检模式，巡检效率高，漏判、误判率较高，机器生成巡检报告可读性较差，费用较低；另一种是通过AI语义+人工审核模式，通过复合使用“AI+人工”的各自优势，巡检准确率可以达到99.9%以上，巡检报告可读性强，量化分析准确，费用相对略高。

01.关键词巡检相对简单，容易造成误判或漏判

市面上的新媒体内容巡检产品大多是对于关键词的巡检，基于关键词过滤的逻辑，通过对抓取的新媒体内容匹配关键词，识别内容中是否存在涉政违规、涉黄、暴恐、违禁、不良价值观、广告等内容安全风险。通常抓取的内容数据清洗不够准确，只使用关键词匹配会导致巡检的质量不尽如人意，经常出现误判或漏判。

关键词巡检机制是基于特征的，直接认定某个字或词违规，通过对单个违规敏感词进行过滤，以实现文本内容的巡检。但是这样特别容易造成误判，比如“黑夜总会过去，白天总会到来”“惹下大麻烦”会被判定为存在敏感词“夜总会”“大麻”。

此外，关键词的上下文如果出现否定性的内容，这个文本很可能是正常的。举个例子，文本中虽然包含“色情”这个关键词，但是前面出现了“反对”“抵制”这类词，这个文本仍然是正常的。再比如，虽然文本中含有落马官员的名字，但是整体内容是对其的批判，这个文本也是正常的。

还有，也正是因为关键词巡检机制的缺陷，避开巡检反而很容易，越来越多的违规内容用同音字代替，标点符号隔开，特殊符号、表情替换，违规字体拆开等方式出现，成为漏网之鱼，比如用“弓虽”替代“强”，用“月月鸟”替代“鹏”。关键词过滤很大程度上已经失效，无法满足内容巡检的需求。

02.AI内容巡检亟需更高精准的语义识别能力和更完善的审核规则

文本识别存在多样性、复杂性等特点，应对更高难度的挑战，内容巡检产品必须拥有更强大的敏感词库、更高精准的语义识别能力和更完善的审核规则，不仅要基于关键词，也要基于上下文的语言环境，从语义维度进行分析，做到真正理解句子内字词的含义，避免单一关键词巡检机制造成的误判或漏判。

淘丁集团严控内容安全审核
淘丁内容安全从场景、技术和合规三个角度构建了全面的数字内容安全框架，帮助企业打造“清朗、有序、融合”的网络空间。目前，淘丁提供多维度、多场景的内容保护解决方案。同时支持多场景模式，.文本，图像，视频，音频多个场景下都可以准确识别。

对于普通公司而言，自建内容审核平台以及持续的技术投资，都会增加企业的压力，因此可以将内容保护功能对接到淘丁内容安全，在减少成本的同时增强网络净化能力

下一篇
特别关注｜国务院新闻办公室发布《携手构建网络空间命运共同体》白皮书 »