内容安全服务

产品功能

更新时间: 2022-08-30 21:06:00

• 敏感词匹配

敏感词匹配是待检测文本与敏感词特征库匹配，找出文本中所有敏感词。该匹配算法的检测时间复杂度与敏感词数量无关，是常量，1000个字内的文本检测时间在100ms以内。

系统初始化有9万余个敏感词，来自各省市公安部门下发的监控敏感词，后续将持续收集各地公安部门下发的敏感词列表以更新敏感词特征库。

• 智能语义分析

敏感词匹配的检测方式可能会造成部分正常内容被误识别，因此智能语义分析引擎可用于解决此问题。

智能语义分析技术具有能够进行十分精细化处理的能力，首先是对输入模型的文本数据进行预处理，然后通过人工标注的方法来获得良好的样本特征，再使用朴素贝叶斯算法对其进行分类。系统发布时，已通过大量样本训练良好的模型，在应用中，引擎获取文本内容，与系统的模型匹配，如匹配值超过正常内容值，则判定为疑似非法内容。系统可选择直接拦截，或先放行再由人工审核是否拦截。采用此方式即便违法文本中不含违法敏感词，也能识别。

• 多媒体智能识别

系统通过一系列的图像特征（如肤色、人脸、姿态等），通过深度机器学习技术，自动识别出淫秽、色情等疑似非法图片。引擎在深度学习训练中，分为以下一些步骤：

（1）数据预处理，预处理训练数据和预测数据，把待分析识别的图像进行预处理，然后保存到数据库中。

（2）模型训练，进行网络结构的基础配置和模型训练的配置，即可开始训练模型。

（3）预测检验与分析，模型完成训练后，在其他测试数据集上检验模型的正确性。达到预期的准确率后，即可使用该模型。

引擎在获取显示屏的图片后，调用已训练的模型，进行单帧图片检测，并得出检测值，根据预设阈值，判定该图片是否存在违法违规。当显示屏播放的是视频，只需抽帧，检测图片即可。

• 图片相似度

为提高图片检测准确率及减少系统压力，我们引入白名单机制，采用图片匹配算法，计算图片相似度，根据图片相似度判断该图片是否在白名单库中。

• 个人信息检测

检测网页内容、附件中是否包含个人敏感信息，检测方式主要是匹配身份证、银行卡、姓名、手机号码、住址等。

• 备案检测

备案检测主要是针对外链的域名，采用工信部的实时接口检测域名是否已备案。当发现外链域名是未备案域名时，系统将列为重点检测对象，提高检测准确率。