熊猫吃短信:全新的基于机器学习的垃圾短信过滤应用(iOS ¥ 1 元特价)

2017-12-04 11:28:18 +08:00
 waylybaye

作为一个生活在移动互联网时代的技术宅,饱受骚扰短信之苦,但没有一个简单的又不用上传自己短信的过滤应用。于是我从自己收到的两万多条短信以及测试期间用户提交的短信样本中训练出了熊猫。

iOS 11 带来了非常强大的 CoreML 机器学习框架,开发者都用来做视觉处理了,我就用它做一个文本归类的应用吧,让熊猫可以在手机里安家。

熊猫吃短信

准确的语义识别

熊猫从庞大的样本中学习到了垃圾短信的文本模式,可以非常准确的从复杂的语义环境中对短信进行分类。比如下图中非常相似的 [京东支付] 的两条短信。

你可以拷贝短信后,在应用里面点击 准确性测试 来测试准确度。

使用非常简单

您只需要安装后打开 设置 → 信息 → 未知与过滤信息 然后选中 熊猫吃短信 即可。熊猫就会默默的帮你吃掉垃圾短信。

关注隐私

熊猫不需要服务器端,不需要联网。应用自带完整的训练模型,使用 CoreML 就可以在手机上对短信进行分类。iOS 11 的沙盒限制也不允许短信过滤器访问网络以及向主 App 共享数据。虽然通过配置项可以让 iOS 11 向自己的服务器上发送短信在云端判断,但是熊猫并没有使用这一功能。

自动进化

熊猫正在飞速成长中,分类准确性依赖于熊猫有没有见过类似的信息。但是世界那么大,总有没吃过的东西,熊猫也有见识浅的时候。基于自愿原则,您可以在应用里面提交新的短信样本喂养熊猫,熊猫会从新的样本中学习到新的垃圾或者正常短信模式。

注意:提交短信样本会将短信匿名上传到服务器上,并非本地训练,熊猫将在云端完成学习,然后分发到所有人的手机上。

关于偏食

由于熊猫是我教的(监督学习),其一定程度上继承了我的喜好,对于有些比较模糊的短信,比如优惠、促销信息,我是一律标记为骚扰短信的。但是有些人可能会喜欢收到此类通知,大家自行取舍。

系统限制

由于 iOS 11 的系统设计原因,被过滤的短信也会显示角标,以及在 Apple Watch 上通知。另外 iOS 11 过滤短信是基于对话的过滤,如果同一个号码既发骚扰短信又发正常短信,那么整个对话都会被过滤。这种现象常见于五位数的号码,但 10 开头的短信发送端口非常少见。

最后

16491 次点击
所在节点    分享创造
191 条回复
loserwn
2017-12-05 18:54:22 +08:00
@waylybaye 我已经支持。感谢作品。我有个问题,根据你对比判断,现在腾讯手机助手支持的「垃圾短信」拦截机制是通过什么方法?跟你通过 CoreML 最大的不同是什么?有明显的对比例子么?
waylybaye
2017-12-05 19:12:49 +08:00
@kuhung 用的 F1,不过根据我的测试,准确度跟样本息息相关,所以我现在主要在做标注样本的收集工作…
Lothar
2017-12-05 19:16:32 +08:00
支持买了~不过不能帮忙归档老的短信哎。。
waylybaye
2017-12-05 19:20:09 +08:00
@loserwn 根据腾讯自己的介绍:

> 2 )智能识别及过滤垃圾短信,查看短信更快捷;
> 默认过滤诈骗违法等短信,开启“过滤增强”智能模式后可进一步过滤广告推销短信

它的离线判断应该只是过滤诈骗违法短信的,要过滤推销短信需要上传到服务器进行判断。

明显的区别就是离线状态它不拦截财付通理财类的推广,以及其它各种营销推广短信。我没试过它的云查怎么样,我是绝对不会把自己短信上传的。
waylybaye
2017-12-05 19:25:39 +08:00
@waylybaye 不对,是我误解了,它的“过滤增强”模式好像和云查不是一回事。过滤增强模式应该也是离线的。
xinhugo
2017-12-05 19:45:15 +08:00
不错,已购
kuhung
2017-12-05 20:15:48 +08:00
这里就会有个问题:用户会把垃圾短信上传,而部分误判的、有隐私的正样本选择不上传,最后训练的正负样本和现实分布不同,误判率会上升...
waylybaye
2017-12-05 20:35:04 +08:00
@kuhung 不会啊,虽然不到 1:1 但是差别也不是太大… 好多人都知道提交验证码、通知类的短信。
dsphper
2017-12-06 09:44:36 +08:00
楼主我出两元求模型加余料
dsphper
2017-12-06 09:44:47 +08:00
语料
waylybaye
2017-12-06 10:46:38 +08:00
@dsphper 你出 4 块我直接把源码卖给你呗……
vinxee
2017-12-06 14:19:54 +08:00
为什么不直接用腾讯手机管家?免费而且里面是一个十几人的团队用机器学习技术来识别的,数据量还贼多。
waylybaye
2017-12-06 14:39:01 +08:00
@vinxee 没人不让你用啊,爱用哪个用哪个。
feifan00x
2017-12-06 15:16:01 +08:00
已买
zyu0090
2017-12-06 15:17:50 +08:00
有没有办法不让来垃圾短信显示角标?
waylybaye
2017-12-06 16:16:29 +08:00
@zyu0090 没办法…等苹果改吧…… 一个很傻的方法是在设置里面把整个信息的角标都禁了
Thiece
2017-12-07 12:00:04 +08:00
@waylybaye 一天用下来,对于熊猫对于电商营销的判断还是不尽人意,(双 11 买的东西比较多,现在快双 12 了,营销短信哗哗的就过来了),我想帮助熊猫的成长,但是很明显 IOS 一条一条的复制喂养效率太低了,有什么更高效的方法吗?我手机上可提供的样本还是蛮多的(每次换手机短信都同步过去几年来一直积累)
waylybaye
2017-12-07 12:29:47 +08:00
@Thiece 你可以用 iMazing 把短信全部导出来打包发给我 😜

这两天刚收集了差不多一万条短信,我正标注然后训练呢。
shunia
2017-12-07 15:28:06 +08:00
哇,这功能,神 tm 牛*,赶紧去买买买
permaylau
2017-12-07 22:54:55 +08:00
不错,希望出 android 版,我用我的博客:春晓网,www,uwexp.com 给你的产品宣传一下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411764

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX