风控审核未通过 淘丁内容风控:内容审核基础——审核方式、流程与审核维度
是前两者的弥补,有很多违规内容以前没有出现过;所以不在规则可以过滤的范围内,或者非常隐蔽,规则难以严格过滤。
用户的投诉是发现新问题的重要渠道。通过知乎的危机事件,我们更应该重视对投诉的审核,并及时据此对机器审核做出补充。
4. 结果复审
通常采取抽查方式,比如通过复审机器删除的内容,看规则或算法是否过于严格;比如通过查看人工删除和通过的内容,看员工的工作是否按要求执行;比如通过内容的整体巡查,看是否存在新的问题未被注意到。 二、审核流程
具体流程,以下图为例:
先过机器审核,机器审核 通过 或 不通过; 对机器审核不通过的,再进行人工复审; 对机器审核通过的,再进行人工抽样审核。
三、审核的四个维度
这里一般都是对四个维度进行审核,关键字审核,用户发布次数限制,重复内容过滤和白/黑名单用户。
1. 关键词审核
词语过滤的环节,关键词主要分为三类:
1)禁止关键词
只要匹配到这个词,内容就被自动删除或禁止提交。通常只有极少数词会被纳入禁止关键词,比如明确的**、邪教以及广告的专属关键词。
2)审核关键词
这是最常见的关键词种类,只要匹配到就会自动进入后台进行审核,文章中的关键词会被高亮并罗列出来,有助于审核人员快速判断。审核关键词也应该尽量是专属关键词,以防止太多内容被拦截到后台。
3)替换关键词
在许多平台,我们会在文中看到莫名的号或字母缩写*,这可能不是文章作者写的,而是这个词被系统自动替换。平台不希望出现这个关键词,但用别的代替读者通常也能读懂。比如一些政治、宗教、不文明用语类词语,都有可能被自动替换。
当然,管理员在添加关键词时,很多时候并不是直接把关键词添加到后台。否则用户用很简单的方式就可以避过关键词过滤,比如在关键词内加一个空格,系统就难以匹配到。
所以,一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字,x 是忽略的字节数。在!网站后台有明确说明,如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “” 等等。
对于中文字符,若使用 GBK、Big-5 版本,每个中文字符相当于 2 个字节;若使用 UTF-8 版本,每个中文字符相当于 3 个字节。
另外,关键词还可以支持正则表达式,来匹配具有一定模式的关键词。比如”/1d{10}([^d]+|$)/”(不包括引号)用来匹配手机号码。正则表达式的内容过多,大家有兴趣可以搜索学习一下。
2. 用户发布次数限制
主要限制一名用户无限制地发送评论。
对这种情况可以设置同一用户一分钟内最多发送一条评论;一小时内最多发送10条评论,一天最多发送三十条评论,评论次数如果超出时则弹出toast“发言太多累了吧,请休息下”的提示。
其实这个限制上线后,发现发广告的人会不断注册新号来规避这个问题,后续可以考虑再加上。新用户需注册多长时间才可发布评论,或需绑定手机号才可以发布评论这些严格的条件。
3. 重复内容过滤
这种一般都是对于发广告的。
对比时去掉除汉字外的任何符号,如“抖丶音”、“快aabb手”,对比时用“抖音”“快手”;将评论与同一用户上条评论作对比,10个汉字以上的若与其中一条重复率达70%(20,60%;30,50%)则弹出toast“请不要发布重复内容”;同时将评论仅与评论库最近发布50条的评论作对比,20个汉字以上的若与其中一条重复率达80%则机审失败(30,70%;50,60%);
在对比重复内容时一定要去掉一些无关的符号。因为很多小广告喜欢加空格,逗号这些。他们也通常备用好几条文案,可以将评论库的拿出来对比;这样也可以规避他们换号,换文案的问题。
4. 白名单用户,黑名单用户
白名单用户、黑名单用户需要有个可编辑的后台,可随时增减;若同一用户一天内机审失败的评论超过10,则自动列入黑名单。
白名单的用户不受发布次数限制,但内容需要检查广告词、敏感词、屏蔽词,如果一天内发布的评论超过10条机审失败,也自动列入黑名单。列在黑名单的用户发布评论时,弹出toast“您暂时无法发布评论”或机审直接失败。
最后补充下,其实没有对IP进行限制是因为在公共区域的wifi好像IP是一样的,尽管非常希望处理掉垃圾评论这一问题,但我还是希望在不影响到普通用户的前提下。
淘丁集团,专业内容风控、数据标注服务公司,拥有千人专业团队,经验丰富,准确率高,服务类别多,团队体系成熟,能快速响应大量业务需求,专注于互联网内容风控和数据标注业务领域。欢迎互联网公司、人工智能企业对接、洽谈合作。
淘丁内容风控业务自2018年4月开始,服务于互联网平台线上产品安全审核工作,对各类违法、**、涉政等不良违禁信息实行7*24小时即时审核,对有害信息进行人工甄别,确保产品绝对安全。目前,风控团队人员规模发展近700人。
淘丁数据标注团队现有人员规模近1000人,业务分部在西安、宝鸡、临汾、太原等地。淘丁与国内大型企业深入合作,日常处理项目量级均为百万级以上,部分数据量级超过千万,拥有稳定充足的业务来源。各类标注项目经验丰富,可为人员提供标准化、体系化的培训。