熊猫吃短信:全新的基于机器学习的垃圾短信过滤应用(iOS ¥ 1 元特价)

2017-12-04 11:28:18 +08:00
 waylybaye

作为一个生活在移动互联网时代的技术宅,饱受骚扰短信之苦,但没有一个简单的又不用上传自己短信的过滤应用。于是我从自己收到的两万多条短信以及测试期间用户提交的短信样本中训练出了熊猫。

iOS 11 带来了非常强大的 CoreML 机器学习框架,开发者都用来做视觉处理了,我就用它做一个文本归类的应用吧,让熊猫可以在手机里安家。

熊猫吃短信

准确的语义识别

熊猫从庞大的样本中学习到了垃圾短信的文本模式,可以非常准确的从复杂的语义环境中对短信进行分类。比如下图中非常相似的 [京东支付] 的两条短信。

你可以拷贝短信后,在应用里面点击 准确性测试 来测试准确度。

使用非常简单

您只需要安装后打开 设置 → 信息 → 未知与过滤信息 然后选中 熊猫吃短信 即可。熊猫就会默默的帮你吃掉垃圾短信。

关注隐私

熊猫不需要服务器端,不需要联网。应用自带完整的训练模型,使用 CoreML 就可以在手机上对短信进行分类。iOS 11 的沙盒限制也不允许短信过滤器访问网络以及向主 App 共享数据。虽然通过配置项可以让 iOS 11 向自己的服务器上发送短信在云端判断,但是熊猫并没有使用这一功能。

自动进化

熊猫正在飞速成长中,分类准确性依赖于熊猫有没有见过类似的信息。但是世界那么大,总有没吃过的东西,熊猫也有见识浅的时候。基于自愿原则,您可以在应用里面提交新的短信样本喂养熊猫,熊猫会从新的样本中学习到新的垃圾或者正常短信模式。

注意:提交短信样本会将短信匿名上传到服务器上,并非本地训练,熊猫将在云端完成学习,然后分发到所有人的手机上。

关于偏食

由于熊猫是我教的(监督学习),其一定程度上继承了我的喜好,对于有些比较模糊的短信,比如优惠、促销信息,我是一律标记为骚扰短信的。但是有些人可能会喜欢收到此类通知,大家自行取舍。

系统限制

由于 iOS 11 的系统设计原因,被过滤的短信也会显示角标,以及在 Apple Watch 上通知。另外 iOS 11 过滤短信是基于对话的过滤,如果同一个号码既发骚扰短信又发正常短信,那么整个对话都会被过滤。这种现象常见于五位数的号码,但 10 开头的短信发送端口非常少见。

最后

16476 次点击
所在节点    分享创造
191 条回复
waylybaye
2017-12-05 12:32:54 +08:00
@hubert3 10 没办法……谁都支持不了

@zhr0769 1 元是中国特有的价格,其他区对应最低价格的本地货币
JasonMerlin
2017-12-05 13:42:52 +08:00
支持了, 已购买~
trotyoung
2017-12-05 13:52:21 +08:00
@waylybaye 你就知道我是个汉…而且你这么暴露我……
wanwan
2017-12-05 14:02:02 +08:00
支持下
jackysc
2017-12-05 14:21:12 +08:00
发现除了那个被下架的 app 以外 楼主的 app 我都入手了。。
zyu0090
2017-12-05 14:30:32 +08:00
把短信删完之后,短信.app 里面没有新建短信的加号了。。这锅谁背啊??
waylybaye
2017-12-05 14:40:59 +08:00
@trotyoung 🌝

@jackysc 😎

@zyu0090 反正不是我背……
zyu0090
2017-12-05 15:28:38 +08:00
@waylybaye 好神奇。。收了一条短信那个编写按钮就出来了。。。不过还是闪一闪的。。
waylybaye
2017-12-05 15:36:21 +08:00
@zyu0090 #bugOS
zyu0090
2017-12-05 15:48:16 +08:00
@waylybaye 提个小建议,提交垃圾短信样本之后可以考虑来个 feedback,我一直在等。。。
kimcool
2017-12-05 16:05:23 +08:00
超棒啊!购买支持下!
waylybaye
2017-12-05 16:15:14 +08:00
@zyu0090 正在想交互方式…
lxz6597863
2017-12-05 16:40:29 +08:00
支持,试用中
Pu
2017-12-05 16:45:02 +08:00
已购
xjoker
2017-12-05 16:58:14 +08:00
全家桶用户前来支持
caiyue1993
2017-12-05 17:20:03 +08:00
看来 CoreML 有点意思,感谢作者的实践
trotyoung
2017-12-05 17:28:56 +08:00
@waylybaye 好罢
latteczy
2017-12-05 17:43:18 +08:00
@waylybaye #105 不是瞎填的啊,我是从我的收件箱里面找的垃圾短信复制上去的
waylybaye
2017-12-05 17:56:09 +08:00
@caiyue1993 哈哈,我也是好奇这么久了为啥没有人想着用 CoreML 来做文本分类就自己搞了个。

@latteczy hmmm 正常填的我都发了邀请了,但是也有不少人没有安装,也许你填错邮箱了,或者被当成垃圾邮件了……
kuhung
2017-12-05 18:37:25 +08:00
老哥,你的线下基线多少?用 ACC 还是 F1 做评价指标?从一个建模人员看,你的模型还有很大提升空间。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411764

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX