四条垃圾短信,请教如何分别提取关键词

2015-04-04 14:43:16 +08:00
 snowhs
> XXX新机场正式获批!此前只北京、上海拥有双机场,资源绝对罕有!总12萭,每月两千多,还拿首批千亿空港原始股!两征!4000287785

> \d{4}你好,只需本人有效-证件就可申请各-行《五到五十万》的透-支-佧,条件宽松,联系18402892703小李

> \d{4}您好,我行能为你申办一张可周转的信用卡,咨询:132李5815经1106理

> 需用普通 [嘌]
> 18628188410刘 (会.计)

其中第四条,我已经去匹配正文中含有"嘌"并带有电话号码或链接的模式了。但是这种匹配很好破。也想听听大家有没有更好的意见。

谢谢!
7526 次点击
所在节点    程序员
35 条回复
9hills
2015-04-04 14:46:08 +08:00
关键词做垃圾短信识别是最原始的方法。。
snowhs
2015-04-04 14:48:30 +08:00
@9hills 愿意花点时间时间指教一下更好的办法吗?
lhx2008
2015-04-04 14:48:44 +08:00
匹配标点符号 ?我是来打酱油的
!*2 [*] (*) - 信用卡
sun1534
2015-04-04 14:51:20 +08:00
转化成 拼音。。再?
snowhs
2015-04-04 14:53:07 +08:00
@lhx2008 我试过去掉正文里所有的\W,然后再去找关键词,但是后来发现信用卡和发票这两个大类基本上都已经进化到用同音字来规避了。例如上面的例二。不过例三的李经理倒是要被这种方法网住。
snowhs
2015-04-04 14:53:39 +08:00
@sun1534 屌!要试试!
yylzcom
2015-04-04 14:54:36 +08:00
还是云比较靠谱,就像WordPress的akismet一样。有客户举报过一次他以后相同/类似内容的短信都会被拦截。关键字这样的局限性太大。

以前用LBE的做得还不错,后来360和联通官方营业厅客户端的也还行。
9hills
2015-04-04 15:01:01 +08:00
@snowhs 这个非常成熟了,随便Google 下就好多。。原理和垃圾邮件相通
snowhs
2015-04-04 15:01:44 +08:00
@yylzcom 自己做这个事情,一个原因是不信任LBE/360/联通等等,另一个是当作游戏玩。

如果要把这个事情当真来做,确实应该累积用户、累积数据然后做供用户订阅的线上黑名单吧。但是我没打算在这事上投入多少精力。
snowhs
2015-04-04 15:02:38 +08:00
@9hills 抱歉伸手,能提议几个搜索关键词么?
mringg
2015-04-04 15:03:18 +08:00
亻言用卡,木仓
9hills
2015-04-04 15:04:58 +08:00
@snowhs 垃圾短信识别算法,嗯关键词就是这么简单。。

另外开做之前,不管你用什么算法,短信语料库的数据量和质量是第一位。巧妇难为无米之炊。。。。
9hills
2015-04-04 15:06:18 +08:00
另外垃圾短信的原则是宁可错过,不能误杀。你不能只看拦截率,也要看误杀率。
NeoAtlantis
2015-04-04 15:12:40 +08:00
云的另一个问题是用户的隐私吧。。。短信都传出去了反正我觉得不太好
snowhs
2015-04-04 15:12:58 +08:00
@9hills 谢谢建议~

不过这东西是写给自己用的,我不在意误杀,也不在意不小心用了我的应用的人的重要短信(例如: "我的前任啊,这是我为了规避某垃圾短信拦截程序的联系人白名单专门用的一个新手机号,你看到这条短信的时候,我在#{离你几分钟路程的一个地址}的天台上,双十一.特惠.大奖.等你拿,再见了世界。")被误杀之后会受到什么伤害~
snowhs
2015-04-04 15:22:07 +08:00
@NeoAtlantis 让用户自己选择要不要标记一条短信是垃圾短信,然后自己选择要不要上传垃圾短信到服务器上交给开发者分析好了。
snowhs
2015-04-04 15:38:07 +08:00
@9hills 找到了几篇相关论文,谢谢指点~
NeoAtlantis
2015-04-04 15:54:17 +08:00
@snowhs 用户都看到垃圾短信了,还要垃圾短信软件干嘛?除非说是从垃圾短信的收件箱里面标记为不是垃圾短信(但是这样也需要判断)。或者有没有可能把过滤算法下发到手机,类似病毒库更新那种。。。
xiaole
2015-04-04 15:56:36 +08:00
@snowhs 这个挺考验开发者良心的,其实我觉得,让用户选择上传=懒得上传
kshift
2015-04-04 16:28:17 +08:00
说真的,换了 1709 的号码到现在都没怎么收到过垃圾短信。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/181539

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX