熊猫吃短信:全新的基于机器学习的垃圾短信过滤应用(iOS ¥ 1 元特价)

2017-12-04 11:28:18 +08:00
 waylybaye

作为一个生活在移动互联网时代的技术宅,饱受骚扰短信之苦,但没有一个简单的又不用上传自己短信的过滤应用。于是我从自己收到的两万多条短信以及测试期间用户提交的短信样本中训练出了熊猫。

iOS 11 带来了非常强大的 CoreML 机器学习框架,开发者都用来做视觉处理了,我就用它做一个文本归类的应用吧,让熊猫可以在手机里安家。

熊猫吃短信

准确的语义识别

熊猫从庞大的样本中学习到了垃圾短信的文本模式,可以非常准确的从复杂的语义环境中对短信进行分类。比如下图中非常相似的 [京东支付] 的两条短信。

你可以拷贝短信后,在应用里面点击 准确性测试 来测试准确度。

使用非常简单

您只需要安装后打开 设置 → 信息 → 未知与过滤信息 然后选中 熊猫吃短信 即可。熊猫就会默默的帮你吃掉垃圾短信。

关注隐私

熊猫不需要服务器端,不需要联网。应用自带完整的训练模型,使用 CoreML 就可以在手机上对短信进行分类。iOS 11 的沙盒限制也不允许短信过滤器访问网络以及向主 App 共享数据。虽然通过配置项可以让 iOS 11 向自己的服务器上发送短信在云端判断,但是熊猫并没有使用这一功能。

自动进化

熊猫正在飞速成长中,分类准确性依赖于熊猫有没有见过类似的信息。但是世界那么大,总有没吃过的东西,熊猫也有见识浅的时候。基于自愿原则,您可以在应用里面提交新的短信样本喂养熊猫,熊猫会从新的样本中学习到新的垃圾或者正常短信模式。

注意:提交短信样本会将短信匿名上传到服务器上,并非本地训练,熊猫将在云端完成学习,然后分发到所有人的手机上。

关于偏食

由于熊猫是我教的(监督学习),其一定程度上继承了我的喜好,对于有些比较模糊的短信,比如优惠、促销信息,我是一律标记为骚扰短信的。但是有些人可能会喜欢收到此类通知,大家自行取舍。

系统限制

由于 iOS 11 的系统设计原因,被过滤的短信也会显示角标,以及在 Apple Watch 上通知。另外 iOS 11 过滤短信是基于对话的过滤,如果同一个号码既发骚扰短信又发正常短信,那么整个对话都会被过滤。这种现象常见于五位数的号码,但 10 开头的短信发送端口非常少见。

最后

16796 次点击
所在节点    分享创造
191 条回复
QAPTEAWH
2017-12-04 11:33:05 +08:00
1 元买不了吃亏上当,先买了。

如果有防骚扰电话功能就好了。否则还是得装腾讯管家之流,而腾讯管家附带短信过滤(效果不议)。
leots
2017-12-04 11:33:05 +08:00
之前在微博上看到这个 app 感觉很棒
想买来支持一下,可惜没有升级到 iOS11
mpich
2017-12-04 11:36:01 +08:00
语料能 share 吗…
coolcoffee
2017-12-04 11:39:07 +08:00
mark 一下,我现在都是直接屏蔽所有短信,要接验证码再进去看。

现在 iOS 很扯淡的就是,就算识别为辣鸡短信,仍然会显示“+1 ”
SourceMan
2017-12-04 11:41:35 +08:00
买不了吃亏买不了上当,支持再支持
scp055
2017-12-04 11:42:11 +08:00
mark 下,有时间研究下 coreML
waylybaye
2017-12-04 11:43:48 +08:00
@QAPTEAWH 电话过滤需要庞大的号码库,这个我就无能为力了… PS:企鹅好像不拦截自家的短信?

@leots CoreML 和短信过滤都是 11 才有的…

@mpich 我自己的显然不能,太多隐私信息,用户贡献的我也不知道自己有没有权利 share,没有加授权协议……

@coolcoffee 是的,这个不知道苹果是基于什么考虑的设计。
yksoft1
2017-12-04 11:47:13 +08:00
为啥不用 tensorflow 做模型,这样可以跨平台。。
lingo
2017-12-04 11:48:29 +08:00
@coolcoffee 跟你一样,突然意识到自己已经几乎没用过短信了,索性通知全关。几个月下来也没啥影响。
waylybaye
2017-12-04 11:49:10 +08:00
Mirage09
2017-12-04 11:49:23 +08:00
不支持其它语言...但是支持英语么?
yksoft1
2017-12-04 11:50:53 +08:00
@waylybaye 显然不用 CoreML,直接把 tensorflow 的库放进去,用其 C++的接口做
waylybaye
2017-12-04 11:50:57 +08:00
@Mirage09 目前只有很少的英语训练集,所以应该是不支持的
ytterbium
2017-12-04 11:52:24 +08:00
@waylybaye 训练语料哪搞的?好厉害
waylybaye
2017-12-04 11:53:59 +08:00
@yksoft1 我没试过不太清楚,我觉得它的 C++接口应该没有对 iPhone 进行硬件优化吧(瞎猜的
waylybaye
2017-12-04 11:56:48 +08:00
@ytterbium 我自己手工一个个标注的啊,累死我了。之前有在网上下载短信语料,但是一旦用于目前的垃圾短信识别基本没法用,于是我就放弃公开语料自己收集了。借用朋友的一句话 “脱离生活的样本都是假样本”
sobigfish
2017-12-04 12:13:45 +08:00
用支付宝的红包支持了下(居然还可以两个红包合用😂)
sobigfish
2017-12-04 12:20:10 +08:00
“提交短信样本会将短信匿名上传到服务器上”
提交时可以把里面的数字脱敏么,比如验证码 比如手机号
waylybaye
2017-12-04 12:27:11 +08:00
@sobigfish 可以可以,我正打算做这件事呢 👍
QAPTEAWH
2017-12-04 12:27:39 +08:00
@coolcoffee 角标可以关掉。我短信是关闭声音、角标、锁屏显示的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411764

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX