关于构建内容审核体系思考

关于构建内容审核体系思考

对于很多企业尤其是互联网内容企业如大型论坛、直播等来说,内容安全可以说是企业的生死线。内容审核能够甄别并过滤出涉黄、暴恐、违禁、不良价值观、广告等风险内容,确保企业平台上的信息符合法律法规和运营规则,从而保障企业的内容安全‌。

1 服务划分

服务架构

  • 业务层:产品的使用者,包括C端和B端用户,其中B端用户一般代表着商家,其发布的内容影响力相对来说会比较大,也是内容审核的重点。
  • 接入层:通用网关,负责鉴权、路由转发、负载均衡等
  • 应用层:应用层包含对单体资源的审核与业务复合型资源的打包审核,其中资源审核又分为机审和人审,机审误杀率实际上是比较高的,因此对于机审非PASS的需要介入人审,最终结果以人审为主
  • 服务层:服务层主要是所依赖的第三方服务,用于机器审核
  • 基础层:包含依赖的公共组件

将内容审核服务收归并对外暴露一套接口以供其他业务接入,其他业务无需自己再维护一套机审逻辑
通过送审-机审-人审架构,实现业务零风险

2 机审必要性

机审可以大大降低人工复核量,节约成本

  • 机审可以极大地降低人工复核量,对于一些机审PASS的就可以不再关注,只需关注机审存疑和直接拒绝的即可
  • 灵活的审核策略与执行策略,针对不同业务指定不同审核规则,进而实现业务级审核粒度
  • 鉴于机审存在误差,对于要求严格的业务,考虑多厂商交叉审核,只要有一个厂商认为图片有问题就流入人审复核

3 审核体系构建

机审主流程

  • 机审整体流程如上图所示,其中图片、文本类机器审核响应速度很快,无需异步处理可实时获取到审核结果,但对于音频、视频、文档这类审核时间较长,需等审核完成后由厂商回调得到最终结果
  • 图中红色 countdown动作 表示审核完成(最终态)计数动作,当countdown计数器降为0时会回调业务方,告知业务方业务资源最终审核状态,如动态是否审核通过,以此判断是否允许发布或全员可见

3.1 审核策略择路

由于业务多样、资源类型不同、多厂商审核的原因,审核策略也就会存在多样,因此审核策略需要拎出来单独管理
此外,除了这种全局策略,对于电商这种存在店铺概念的还需支持店铺级审核策略及新店铺规则
审核策略择路

审核策略优先级为 店铺级 > 新店铺 > 全局策略
策略分级的优点

  • 当做白名单用:如当店铺自成立以来从无违规时,可为此店铺配置全放行策略,甚至是不审核,可以根据实际调整
  • 当做黑名单用:当有一些店铺总是在红线附近横跳时也可将此店铺加入黑名单,并配置机审严格策略,让机审作为其结果而不用流入人审
  • 新店铺自定义规则:对于新店铺,大部分情况下不需要太严格的审核策略,因此当度为新店铺配置一个规则是有必要的
  • 店铺审核个性化配置:店铺级策略可支持但店铺定制化审核策略,为指定店铺不同来源路径下的资源配置不同审核策略

3.2 多厂商交叉审核

鉴于使用单厂商存在误判且无法容灾,考虑接入多云,只有当多厂商审核结果都为PASS时才放行,否则进入人审
多云交叉审核

对于交叉审核注意点有以下几条

  • 优先选择机审准确率高的厂商作为第一道审核线,以降低二次送审次数,节约成本
  • 当A厂商结果为PASS时才需流入B厂商,若第一道审核已经判断为非PASS时,则无需进入第二道审核
  • 第一道审核发生异常时自动以第二道审核为主,但需配置监控告警,及时感知送审异常
  • 多云审核最终结果可根据具体情况而定

3.2 送审-机审-人审全流程

素材从送审-机审-人审全流程大致如下

审核全流程

  • 送审:业务统一送审到内容审核,由内容审核统一做机审,根据素材类型和业务类型不同做对应的响应
  • 机审:内容审核服务作为底层服务接收其他业务送审素材,统一送至云厂商,并接收云厂商审核结果回调将审核结果落库并通知送审业务方最终结果
  • 人审:对于存在违规嫌疑的素材将会流入到人审阶段,人审分为初审与复审。初审只过滤违规片段,与业务分离实现脱敏,初审拒绝的将会流入到复审;复审审核内容与具体业务强相关,并且包含此业务所有素材

4 其他问题

  • 送审优化:业务方送审条件需额外设计,如帖子浏览量达某阈值之后再送审等
  • 直播审核优化:直播审核违规截帧片段再审核,进一步降低误杀率
  • 文本审核优化:文本审核增加白名单,避免相同文本重复审核
  • 去重处理:除直播外所有资源审核需加去重操作,如根据素材ID + 策略ID做key审核之前做去重