电影网站:关于大量关键字屏蔽与替换的设计思路

2015-09-14 20:24:35 +08:00
 xiaoks

前几个月我做了一个电影分享网站,在运营的过程中发现:很多人分享 18 禁的内容,在评论里还有可能出现一些污秽语言。

为了保证网站内部氛围的健康,之前采用在 code 写关键字的形式进行屏蔽。但是在运营的过程中还是会发现有不足,很多关键字依然没能屏蔽掉。关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。

希望大家能分享一下简单有效设计思路,谢谢!

ps :思路可行的前提下,尽量保证程序有效率。

4406 次点击
所在节点    程序员
13 条回复
kslr
2015-09-14 20:27:12 +08:00
DFA 算法,关键字去青云的青云志我记得有个文章里面带了份北京公安局给的关键词名单。
yinheli
2015-09-14 21:00:03 +08:00
https://log.qingcloud.com/?p=389
检索到了. 或许我也需要.
virusdefender
2015-09-14 21:04:22 +08:00
@yinheli 这关键词也太粗了吧

自制
购买
直销
订购

提供
专卖
热销
批发
供应
专供
买卖
自制
订购

专卖
热销
供应
买卖

销售
直销
批发
供应

这都是关键词...
imn1
2015-09-14 21:05:47 +08:00
有这个关键词详单分享一下
seiwev
2015-09-14 21:11:52 +08:00
都做电影分享网站了还怕 18 禁?电影分享一样被禁。
9hills
2015-09-14 21:16:30 +08:00
> 关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。

如果只是解决这个问题,那你把关键词做成可动态加载的字典不就好了。存到数据库里也行啊

当时高级点还有些别的方法
mengzhuo
2015-09-14 21:20:13 +08:00
直接上 cuckoo filter 不就结了,关键是分词得做好
2015813
2015-09-14 22:49:09 +08:00
这个自己写的话很麻烦,建议用现场代码
nowcoder
2015-09-15 09:51:33 +08:00
自己写很容易。把关键词做成一个字典树。 对 ugc 进行查找,效率很高的。 去百度搜 DFA ,字典树,敏感词代码到处都是,根本没几行
nowcoder
2015-09-15 10:08:30 +08:00
@kslr 求名单地址
jugelizi
2015-09-15 13:18:59 +08:00
存到数据库发布后状态为 0 不立即显示呀,后台跑个任务过滤完成了再显示出来
dingyaguang117
2015-09-17 19:28:52 +08:00
请搜索 AC 自动机
kslr
2015-10-22 16:16:30 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/220689

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX