熊猫吃短信:全新的基于机器学习的垃圾短信过滤应用(iOS ¥ 1 元特价)

2017-12-04 11:28:18 +08:00
 waylybaye

作为一个生活在移动互联网时代的技术宅,饱受骚扰短信之苦,但没有一个简单的又不用上传自己短信的过滤应用。于是我从自己收到的两万多条短信以及测试期间用户提交的短信样本中训练出了熊猫。

iOS 11 带来了非常强大的 CoreML 机器学习框架,开发者都用来做视觉处理了,我就用它做一个文本归类的应用吧,让熊猫可以在手机里安家。

熊猫吃短信

准确的语义识别

熊猫从庞大的样本中学习到了垃圾短信的文本模式,可以非常准确的从复杂的语义环境中对短信进行分类。比如下图中非常相似的 [京东支付] 的两条短信。

你可以拷贝短信后,在应用里面点击 准确性测试 来测试准确度。

使用非常简单

您只需要安装后打开 设置 → 信息 → 未知与过滤信息 然后选中 熊猫吃短信 即可。熊猫就会默默的帮你吃掉垃圾短信。

关注隐私

熊猫不需要服务器端,不需要联网。应用自带完整的训练模型,使用 CoreML 就可以在手机上对短信进行分类。iOS 11 的沙盒限制也不允许短信过滤器访问网络以及向主 App 共享数据。虽然通过配置项可以让 iOS 11 向自己的服务器上发送短信在云端判断,但是熊猫并没有使用这一功能。

自动进化

熊猫正在飞速成长中,分类准确性依赖于熊猫有没有见过类似的信息。但是世界那么大,总有没吃过的东西,熊猫也有见识浅的时候。基于自愿原则,您可以在应用里面提交新的短信样本喂养熊猫,熊猫会从新的样本中学习到新的垃圾或者正常短信模式。

注意:提交短信样本会将短信匿名上传到服务器上,并非本地训练,熊猫将在云端完成学习,然后分发到所有人的手机上。

关于偏食

由于熊猫是我教的(监督学习),其一定程度上继承了我的喜好,对于有些比较模糊的短信,比如优惠、促销信息,我是一律标记为骚扰短信的。但是有些人可能会喜欢收到此类通知,大家自行取舍。

系统限制

由于 iOS 11 的系统设计原因,被过滤的短信也会显示角标,以及在 Apple Watch 上通知。另外 iOS 11 过滤短信是基于对话的过滤,如果同一个号码既发骚扰短信又发正常短信,那么整个对话都会被过滤。这种现象常见于五位数的号码,但 10 开头的短信发送端口非常少见。

最后

16938 次点击
所在节点    分享创造
191 条回复
twor2
2017-12-04 15:19:12 +08:00
安装后怎么让我知道起到作用了? 不会用..
xingwing
2017-12-04 15:23:29 +08:00
把我浦发银行的短信,标记为垃圾了 @waylybaye
waylybaye
2017-12-04 15:32:44 +08:00
@twor2 等你收到垃圾短信了就知道效果了……你也可以拷贝下短信自己试试准确性


@xingwing 浦发的好像是有误判,我在训练新的模型,这次样本很多。你也可以试试是不是被其它短信牵连了……
fyibmsd
2017-12-04 15:38:27 +08:00
会误拦截验证码短信吗
lianz
2017-12-04 15:42:37 +08:00
不错,支持一个。
waylybaye
2017-12-04 15:56:32 +08:00
@fyibmsd 我不能说百分之百的不会,因为我的训练样本中也有不少类似送苹果笔记本输入“验证码”这样的诈骗短信。一般来说正常的验证码几乎不会被拦截,我自己是没有遇到过被拦截的情况。
whlvi
2017-12-04 16:02:25 +08:00
@waylybaye 全家桶快齐了 哈哈 从国区跟随到美区
yanze0613
2017-12-04 16:21:57 +08:00
已买,支持一下
loryyang
2017-12-04 16:26:56 +08:00
我觉得需要小心处理用户上传短信,别把模型带偏了。。
batilo
2017-12-04 16:28:11 +08:00
会有 android 版本么?
waylybaye
2017-12-04 16:32:00 +08:00
@whlvi 哈哈哈哈,打游击战的感觉

@batilo android 上应该有不少好用的短信拦截的应用吧,我就不重复造轮子了
waylybaye
2017-12-04 16:32:37 +08:00
@loryyang 有这个考虑的,目前我都是人工校对的。不过样本快多到我人工处理不过来的地步了……
blakejia
2017-12-04 16:33:32 +08:00
有没有根据号码判断呢?单纯根据内容判断。是不是比较容易误判
waylybaye
2017-12-04 16:36:30 +08:00
@blakejia 不会啊,目前号码没加入特征中,没发现影响判断结果,号码的特征不太重要。
luoyuhui
2017-12-04 16:57:37 +08:00
已下载\(^o^)/~
cloverstd
2017-12-04 17:21:35 +08:00
@waylybaye #34 知道可以滚到,但是不太协调和方便
onenightintokyo
2017-12-04 17:37:16 +08:00
活捉八爷
RangerWolf
2017-12-04 17:49:03 +08:00
要是能过滤微信朋友圈的推广、营销消息就牛掰了!

自我感觉现在短信的应用场景,最多的就是验证码。

不过作为玩 NLP 的一员, 还要给楼主点个赞! (没有钱买 iPone, 只能精神支持了 :doge )
whlvi
2017-12-04 17:49:51 +08:00
@waylybaye 你的 hyper app 最开始国区上架就开始用 后来过去大片封杀和转到美区
qiongmay
2017-12-04 17:53:59 +08:00
误拦的短信可以找到吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411764

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX