对于垃圾邮件内容检测,有什么更好的技术呢?

2014-05-19 21:37:17 +08:00
 jamiesun
3996 次点击
所在节点    程序员
11 条回复
megaforce
2014-05-19 21:41:07 +08:00
以前看过一本书《ending spam》,里面有讲一些技术

http://shop.oreilly.com/product/9781593270520.do
binux
2014-05-19 21:49:14 +08:00
在谈论更好之前,让我们先来看下现在的技术有什么缺陷,为什么不好吧
Tianpu
2014-05-19 21:54:44 +08:00
spamassassin自动学习。

其实一般更头疼的是发出的邮件不进收件箱吧?
kidlj
2014-05-20 10:17:53 +08:00
黑客与画家里有一篇?
Actrace
2014-05-20 14:42:18 +08:00
最简单的,关键字检测,校长表示很管用.
ety001
2014-05-20 14:44:17 +08:00
正准备业余时间做一个类似 https://www.spamgourmet.com/ 的网站,然后计划统计出一份黑名单来,通过接口形式公布出来。这样就可以做一个插件,检测你当前要注册的网站是否有给你发垃圾邮件的风险。感觉防垃圾邮件的防源头才行。
RangerWolf
2014-05-20 17:42:09 +08:00
@ety001 觉得你的idea不错啊 准备怎么搞?
jamiesun
2014-05-20 18:11:17 +08:00
根据邮件服务器dns反向解析做白名单可以解决一点点问题,关键还是内容,仅从关键字比较简单粗暴,误杀率太高,我觉得还是需要"大数据",在数据基础上做分析,把各种垃圾内容抽象出规则,这非单体力量所能, 不知道有没有类似的开放服务.
davidli
2014-05-20 19:01:29 +08:00
SpamAssassin有现成的。如果要自己做的话,
纯文本的话贝叶斯、SVM之类常规的方法就已经有很高的成功率了。
但是现在垃圾邮件厂商越来越精,比如会把广告文本放到图片里。这时一个简单粗暴又容量足够大的黑名单这时候就很好用了。(PS:看过一篇论文,里面列举了垃圾邮件过滤面临的四个主要问题,只记得这一个了。
ety001
2014-05-20 21:15:43 +08:00
@RangerWolf 在弄创(feng)业(tou)的(bu)事(hao)情(zhao)中,所以这个计划暂时搁置了,估计得等7月份就能有点时间了。
表示当时有这个想法的时候,把域名都注册好了。。。 http://fuckspam.in
原计划是要先把spamgourmet.com的功能实现出来,然后再实现API,做chrome插件(目的在于提醒当前访问页面的泄露邮箱的风险),然后再成立一个志愿性质的组织,邀请更多的人加入。
现在还比较头疼的就是如何才能鼓励用户去举报发垃圾邮件的人,毕竟这个里面的操作步骤有些繁琐。

PS:当时注册这个域名的时候,真心被垃圾邮件烦透了。。。大早上起来邮箱就20多封垃圾邮件。。。
RangerWolf
2014-05-20 21:59:56 +08:00
目前我比较感兴趣的是在过滤垃圾评论上~
我看了spamgourmet.com 真的很多用户么? 我感觉UI属于上个世纪的风格啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/113302

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX