TimePPT
2017-07-28 21:54:44 +08:00
说到这里多说两句吧。因为工作关系做过一段时间反垃圾的产品工作。
最先必须认识到一个问题:黄反过滤其实是一门技术加运营持续投入的工作。
首先看量级:
如果内容量级不大,怎么都能搞。网上找或者找关系找到一个比较新的几万几十万敏感词的词表 loading 到内存里,起一个 server 直接判断过滤简单粗暴,但有效——当然,错报和漏报率肯定也不会低。
但这种方法一旦遇到变种或者量级一大就不管用了,错报、漏报率会蹭蹭往上涨,如果自己人工加规则,跑到最后自己都会疯了。
如果量级大到一定程度,就得考虑长久的黄反策略,什么贝叶斯过滤、回归聚类、机器学习都得往上怼。
再次看业务需求:
业务方涉及到的仅仅是评论内容,还是说有大段文章内容。对黄反实时性要求有多高?错报率和漏报率容忍度有多高?这些直接影响着产品技术策略。
还有就是有没有富媒体内容,比如评论带图带视频,那就不单单是过滤关键词的问题了,还得有图像识别黄反。
另外,业务层面要不要求留有余地,比如 KPI 向的允许一定擦边球存在,所谓水至清则无鱼……运营人员很可能不希望你赶尽杀绝呢 233
最后讲策略:
UGC 内容在大面上策略无非是先审后发还是先发后审,这两种的产品策略是不一样的,而且需要按照上峰要求调整。所以产品设计上要留有余地。
另外,因为任何机器算法都做不到极高的准确率和覆盖率,那么错报、漏报肯定是有的。
目前大量级的产品在黄反层面绝大多数是靠机器初筛+人工二次筛选,特别是图片视频黄反,单靠机器比文字黄反难度大很多。
还有就是在产品策略上增加举报按钮,让用户协助完成黄反的前端自审核。
以上种种,就是一些经验之谈。
正因为黄反工作其实是比较严肃复杂的工作,这也是为啥我建议一般企业直接买稳定的三方黄反服务的原因,持续投入成本其实很高,且这部分工作有时候在公司级别是不太被重视的,出力不讨好,没问题时候没功劳,有问题就找你麻烦了(比如杀多了 KPI 指标降了啊,漏报导致踩红线了啊……)