v 友们对评论敏感词过滤有什么好的解决方案吗

holyghost

2017-07-28 15:03:11 +08:00

DAT?

holyghost

2017-07-28 15:03:41 +08:00

@holyghost double array trie

Famio

2017-07-28 15:05:15 +08:00

感觉 GFW 可以放出一些 api 来…………无责任猜想

xshwy

2017-07-28 15:05:54 +08:00

@Famio 哈哈哈哈那就可以炸了

sparrww

2017-07-28 15:08:25 +08:00

有什么好的库也可以推荐一下~~~

murmur

2017-07-28 15:26:31 +08:00

有关部门没有告诉你们该过滤哪些么

Mutoo

2017-07-28 15:27:33 +08:00

之前搞游戏开发的时候，有专门的词库，不知道同事哪里搞来的。

Light3

2017-07-28 15:30:56 +08:00

用付费的第三方把..自己搞那几个敏感词太累..

minuux

2017-07-28 15:34:54 +08:00

可以试试 https://github.com/nowgoo/dict

SourceMan

2017-07-28 15:38:45 +08:00

http://www.jianshu.com/p/ed3fe9f5badd 已经用上了，性能还好
主要是维护关键字而已，目前已经生成好了小几万的 keyword tree

XiaoFaye

2017-07-28 15:42:17 +08:00

先什么都不要过滤，很快应该就有人联系你要过滤什么了，如果很久都没人联系你？说明你的网站没人用，更不用担心了。

stabc

2017-07-28 15:46:54 +08:00

这东西官方是不可能给的，因为我们互联网是开放的。只有通过收集多家的库来实现。

iyuli

2017-07-28 16:23:06 +08:00

像阿凡达那样创造全新的语言，就无法过滤了

ivechan

2017-07-28 16:25:02 +08:00

感觉都是词库式的把..

FanWall

2017-07-28 16:51:00 +08:00

我猜某些部门会主动给你的...

反编译某些程序的时候会看到一大堆...不忍直视= =然后保存下来疯狂搜索→ →

TimePPT

2017-07-28 21:35:59 +08:00

三方服务吧，安全省心，自己折腾维护成本太高。
比如网易易盾云安全解决方案还不错，老牌的也有一些，搜搜不少。

不过说实在的，现在市面上的商用解决方案对火星文这种特型垃圾评论效果都一般，其他还行。

TimePPT

2017-07-28 21:54:44 +08:00

说到这里多说两句吧。因为工作关系做过一段时间反垃圾的产品工作。

最先必须认识到一个问题：黄反过滤其实是一门技术加运营持续投入的工作。

首先看量级：
如果内容量级不大，怎么都能搞。网上找或者找关系找到一个比较新的几万几十万敏感词的词表 loading 到内存里，起一个 server 直接判断过滤简单粗暴，但有效——当然，错报和漏报率肯定也不会低。
但这种方法一旦遇到变种或者量级一大就不管用了，错报、漏报率会蹭蹭往上涨，如果自己人工加规则，跑到最后自己都会疯了。
如果量级大到一定程度，就得考虑长久的黄反策略，什么贝叶斯过滤、回归聚类、机器学习都得往上怼。

再次看业务需求：
业务方涉及到的仅仅是评论内容，还是说有大段文章内容。对黄反实时性要求有多高？错报率和漏报率容忍度有多高？这些直接影响着产品技术策略。
还有就是有没有富媒体内容，比如评论带图带视频，那就不单单是过滤关键词的问题了，还得有图像识别黄反。
另外，业务层面要不要求留有余地，比如 KPI 向的允许一定擦边球存在，所谓水至清则无鱼……运营人员很可能不希望你赶尽杀绝呢 233

最后讲策略：
UGC 内容在大面上策略无非是先审后发还是先发后审，这两种的产品策略是不一样的，而且需要按照上峰要求调整。所以产品设计上要留有余地。
另外，因为任何机器算法都做不到极高的准确率和覆盖率，那么错报、漏报肯定是有的。
目前大量级的产品在黄反层面绝大多数是靠机器初筛+人工二次筛选，特别是图片视频黄反，单靠机器比文字黄反难度大很多。
还有就是在产品策略上增加举报按钮，让用户协助完成黄反的前端自审核。

以上种种，就是一些经验之谈。
正因为黄反工作其实是比较严肃复杂的工作，这也是为啥我建议一般企业直接买稳定的三方黄反服务的原因，持续投入成本其实很高，且这部分工作有时候在公司级别是不太被重视的，出力不讨好，没问题时候没功劳，有问题就找你麻烦了（比如杀多了 KPI 指标降了啊，漏报导致踩红线了啊……）

TimePPT

2017-07-28 22:01:19 +08:00

还有补充一下：
黄反这种一般都跟审查相关，有一些敏感词的第一手资料其实是跟 ZF 走的比较近的公司或者大体量公司才有的（比如 BAT，家门户、搜索公司），所以词表的维护上一般公司其实是迟滞的、后验的，很多踩线问题后知后觉结果被 WJ 抓到就得被去叫喝茶，严重的被下线服务被整顿甚至关停都有可能。
我朝黄反的红线基本上是涉政 > 涉暴 > 涉黄，这点必须清楚。

另外，黄反在运营层面的重要作用是为了避免垃圾信息干扰正常运营，但运营其实对这块的要求大多很模糊，原因很多，比方说上面我提到的 KPI 导向……所以这块也得留出余地来，否则惹的一身骚，出力不讨好就难受了。

est

2017-07-28 22:11:34 +08:00

反黄的 KPI 制定部门是 zf 关系部。

什么？公司没有 zf 关系部？那肯定某天就被偷税漏税传播色情了。