V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
fising
V2EX  ›  站长

有没有靠谱的敏感信息过滤系统?

  •  
  •   fising · 2014-12-20 18:08:46 +08:00 · 4440 次点击
    这是一个创建于 3655 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有没有靠谱的过滤敏感信息的系统?政治、色情、宗教或者违法信息等
    jerryjhou
        1
    jerryjhou  
       2014-12-20 18:12:24 +08:00 via iPad
    如果V2EX装了这种东西,你的问题根本就发不出来。
    能问一下你要干什么吗?
    fising
        2
    fising  
    OP
       2014-12-20 18:13:55 +08:00
    @jerryjhou 我没说 V2EX 装了这东西,我是要问有没有好用的而已。
    jerryjhou
        3
    jerryjhou  
       2014-12-20 18:14:14 +08:00 via iPad   ❤️ 1
    http://discuz.qq.com/service/security

    这个就是,但是真的很恶心
    lsylsy2
        4
    lsylsy2  
       2014-12-20 18:33:08 +08:00   ❤️ 1
    @jerryjhou 想在墙内飘,这种东西有时候少不了
    你建个DZ论坛,就保留在默认状态,过一个月上去看看,已经被垃圾信息塞满了
    jerryjhou
        5
    jerryjhou  
       2014-12-20 18:40:22 +08:00 via iPad   ❤️ 1
    @lsylsy2 垃圾信息=敏感信息?反正我是不会把政治宗教和色情违法并列的
    fising
        6
    fising  
    OP
       2014-12-20 18:42:50 +08:00
    @jerryjhou 不必那么较真吧?
    jerryjhou
        7
    jerryjhou  
       2014-12-20 18:46:00 +08:00 via iPad
    @fising 确实不该,但是我实在是反感这种东西(这玩意的过滤标准是不可调整的)
    a2z
        8
    a2z  
       2014-12-20 18:46:45 +08:00
    @jerryjhou
    信息就是信息,没有违法一说。
    lsylsy2
        9
    lsylsy2  
       2014-12-20 18:52:47 +08:00
    @jerryjhou 反正我遇到过大法的帖子,我觉得那就是彻头彻尾的垃圾信息。
    跑题了,LZ的重点并不是他想过滤的是什么,而是他想要一个过滤系统而已。如果在天朝想做事情,怎么着都要一套。
    顺便同求一套关键词系统,最好能部署在Nginx层,当关键词触发到达阈值时,给管理员发邮件提醒。
    lsylsy2
        10
    lsylsy2  
       2014-12-20 18:54:27 +08:00
    @jerryjhou
    我的“过滤标准”很简单:网警给我啥我就过滤啥。
    我个人的宗教政治观点是一回事,我(我们)的东西能不能在天朝活下去是另一回事。
    blijf
        11
    blijf  
       2014-12-20 19:17:30 +08:00
    您好
    我朝已自带敏感信息过滤系统 XD
    abelyao
        12
    abelyao  
       2014-12-20 19:40:54 +08:00 via Android
    往简单了说就是一个黑字典,或者叫脏字典,但是这东西经常会添加新的。往大的说,可能是一个在线服务接口,有这东西也不错,楼主如果发现有 api 也圈我一下,然后如果要字典文件呢,可以找那些发短信的服务商要一份。
    abelyao
        13
    abelyao  
       2014-12-20 19:41:56 +08:00 via Android
    楼上没有一个正经回答楼主问题的,V2 怎么也这样了
    kslr
        14
    kslr  
       2014-12-20 19:43:52 +08:00 via Android
    有限状态机 适合这种应用 python有现成的
    caixiexin
        15
    caixiexin  
       2014-12-20 19:52:06 +08:00   ❤️ 1
    现成的系统不大清楚,方法倒是有,就是用敏感词字典表来做,之前工作上做过敏感词检测模块,给你点思路。
    1.项目启动时对载入敏感词库作为缓存(一个大map,敏感词为key,取任意值为value)。 对请求传入的文本分词,遍历分词结果,每个分词在map中查找,如果有值,则请求文本存在敏感词。
    2.把敏感词库拼接成一个大的正则表达式,然后直接对文本匹配。
    3.使用DFA(确定性有限状态自动机) DFA算法
    -----------
    由于之前的需求比较简单,我用的是第一种的改进方法。后来整理了篇博文,但愿对你有帮助。
    http://my.oschina.net/u/1010578/blog/308904
    ps:当初见过敏感词字典后,感觉打开了新世界大门,好多没见过的词= =
    jerryjhou
        16
    jerryjhou  
       2014-12-20 20:30:26 +08:00 via iPad
    @abelyao 麻烦看看三楼,我不是给了链接吗?什么叫没有正经回答
    jerryjhou
        17
    jerryjhou  
       2014-12-20 20:33:29 +08:00 via iPad
    @lsylsy2 V2EX怎么也有了编辑功能? 提醒系统里写的是XX功(气功的全称),怎么到帖子里一看变成了大法(da fa)
    lsylsy2
        18
    lsylsy2  
       2014-12-20 20:39:06 +08:00
    abelyao
        19
    abelyao  
       2014-12-20 20:52:04 +08:00
    @jerryjhou "防水墙属于Discuz!云平台下的服务,您需要先开通Discuz!云平台。"
    xiaolvmu
        20
    xiaolvmu  
       2014-12-20 21:50:48 +08:00 via Android   ❤️ 1
    这个……如果是论坛的话,esotalk有一个Word Fliter Extension。你可以参考它的源代码#^_^#
    jerryjhou
        21
    jerryjhou  
       2014-12-21 01:09:41 +08:00 via iPad
    @abelyao 他又没说不是论坛,我怎么知道符不符合他的需求。这个东西本身是属于敏感信息过滤系统的吧?
    jerryjhou
        22
    jerryjhou  
       2014-12-21 01:10:32 +08:00 via iPad
    @abelyao 而且应该是符合的,他感谢了那个回复
    fising
        23
    fising  
    OP
       2014-12-21 08:16:51 +08:00 via iPad
    @jerryjhou 我想要一个通用解决方案
    fising
        24
    fising  
    OP
       2014-12-21 08:17:13 +08:00 via iPad
    @jerryjhou 我想要一个通用解决方案。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5493 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 533ms · UTC 08:55 · PVG 16:55 · LAX 00:55 · JFK 03:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.