v 友们对评论敏感词过滤有什么好的解决方案吗

2017-07-28 14:57:15 +08:00
 sparrww

同主题。。。

7022 次点击
所在节点    PHP
23 条回复
holyghost
2017-07-28 15:03:11 +08:00
DAT?
holyghost
2017-07-28 15:03:41 +08:00
@holyghost double array trie
Famio
2017-07-28 15:05:15 +08:00
感觉 GFW 可以放出一些 api 来…………无责任猜想
xshwy
2017-07-28 15:05:54 +08:00
@Famio 哈哈哈哈 那就可以炸了
sparrww
2017-07-28 15:08:25 +08:00
有什么好的库也可以推荐一下~~~
murmur
2017-07-28 15:26:31 +08:00
有关部门没有告诉你们该过滤哪些么
Mutoo
2017-07-28 15:27:33 +08:00
之前搞游戏开发的时候,有专门的词库,不知道同事哪里搞来的。
Light3
2017-07-28 15:30:56 +08:00
用付费的 第三方把..自己搞那几个 敏感词 太累..
minuux
2017-07-28 15:34:54 +08:00
SourceMan
2017-07-28 15:38:45 +08:00
http://www.jianshu.com/p/ed3fe9f5badd 已经用上了,性能还好
主要是维护关键字而已,目前已经生成好了小几万的 keyword tree
XiaoFaye
2017-07-28 15:42:17 +08:00
先什么都不要过滤,很快应该就有人联系你要过滤什么了,如果很久都没人联系你?说明你的网站没人用,更不用担心了。
stabc
2017-07-28 15:46:54 +08:00
这东西官方是不可能给的,因为我们互联网是开放的。只有通过收集多家的库来实现。
holajamc
2017-07-28 15:52:27 +08:00
iyuli
2017-07-28 16:23:06 +08:00
像阿凡达那样创造全新的语言,就无法过滤了
ivechan
2017-07-28 16:25:02 +08:00
感觉都是词库式的把..
FanWall
2017-07-28 16:51:00 +08:00
我猜某些部门会主动给你的...

反编译某些程序的时候会看到一大堆...不忍直视= =然后保存下来疯狂搜索→ →
TimePPT
2017-07-28 21:35:59 +08:00
三方服务吧,安全省心,自己折腾维护成本太高。
比如网易易盾云安全解决方案还不错,老牌的也有一些,搜搜不少。

不过说实在的,现在市面上的商用解决方案对火星文这种特型垃圾评论效果都一般,其他还行。
TimePPT
2017-07-28 21:54:44 +08:00
说到这里多说两句吧。因为工作关系做过一段时间反垃圾的产品工作。

最先必须认识到一个问题:黄反过滤其实是一门技术加运营持续投入的工作。

首先看量级:
如果内容量级不大,怎么都能搞。网上找或者找关系找到一个比较新的几万几十万敏感词的词表 loading 到内存里,起一个 server 直接判断过滤简单粗暴,但有效——当然,错报和漏报率肯定也不会低。
但这种方法一旦遇到变种或者量级一大就不管用了,错报、漏报率会蹭蹭往上涨,如果自己人工加规则,跑到最后自己都会疯了。
如果量级大到一定程度,就得考虑长久的黄反策略,什么贝叶斯过滤、回归聚类、机器学习都得往上怼。

再次看业务需求:
业务方涉及到的仅仅是评论内容,还是说有大段文章内容。对黄反实时性要求有多高?错报率和漏报率容忍度有多高?这些直接影响着产品技术策略。
还有就是有没有富媒体内容,比如评论带图带视频,那就不单单是过滤关键词的问题了,还得有图像识别黄反。
另外,业务层面要不要求留有余地,比如 KPI 向的允许一定擦边球存在,所谓水至清则无鱼……运营人员很可能不希望你赶尽杀绝呢 233

最后讲策略:
UGC 内容在大面上策略无非是先审后发还是先发后审,这两种的产品策略是不一样的,而且需要按照上峰要求调整。所以产品设计上要留有余地。
另外,因为任何机器算法都做不到极高的准确率和覆盖率,那么错报、漏报肯定是有的。
目前大量级的产品在黄反层面绝大多数是靠机器初筛+人工二次筛选,特别是图片视频黄反,单靠机器比文字黄反难度大很多。
还有就是在产品策略上增加举报按钮,让用户协助完成黄反的前端自审核。

以上种种,就是一些经验之谈。
正因为黄反工作其实是比较严肃复杂的工作,这也是为啥我建议一般企业直接买稳定的三方黄反服务的原因,持续投入成本其实很高,且这部分工作有时候在公司级别是不太被重视的,出力不讨好,没问题时候没功劳,有问题就找你麻烦了(比如杀多了 KPI 指标降了啊,漏报导致踩红线了啊……)
TimePPT
2017-07-28 22:01:19 +08:00
还有补充一下:
黄反这种一般都跟审查相关,有一些敏感词的第一手资料其实是跟 ZF 走的比较近的公司或者大体量公司才有的(比如 BAT,家门户、搜索公司),所以词表的维护上一般公司其实是迟滞的、后验的,很多踩线问题后知后觉结果被 WJ 抓到就得被去叫喝茶,严重的被下线服务被整顿甚至关停都有可能。
我朝黄反的红线基本上是涉政 > 涉暴 > 涉黄,这点必须清楚。

另外,黄反在运营层面的重要作用是为了避免垃圾信息干扰正常运营,但运营其实对这块的要求大多很模糊,原因很多,比方说上面我提到的 KPI 导向……所以这块也得留出余地来,否则惹的一身骚,出力不讨好就难受了。
est
2017-07-28 22:11:34 +08:00
反黄的 KPI 制定部门是 zf 关系部。

什么?公司没有 zf 关系部?那肯定某天就被偷税漏税传播色情了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/378618

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX