Hello,大家好,我自己做个几个私人项目经常会遇到广告或者垃圾评论,所以写了个文本过滤器。
这个项目目的是使用机器学习/人工智能来判别垃圾内容,现阶段用户输入句子会先经过分词,然后通过朴素贝叶斯模型判别成正常,色情,赌博,政治敏感四个类别。现在每个类别各使用了 100 个训练数据,辨别准确率大约为 93%。
开箱即用,快速上手
内置预训练模型以及文件缓存,开箱即用。同时使用 numpy 库做矩阵计算,判断速度非常快
准确率高
现阶段使用了 400 个训练数据,准确率达到 93%。 下载后可以通过运行
python -m unittest tests.test_bayes
得到准确率测试结果
This may takes some time
Completed 0 tasks, 20 tasks left.
Completed 5 tasks, 15 tasks left.
Completed 10 tasks, 10 tasks left.
Completed 15 tasks, 5 tasks left.
The error rate is 6.83%
测试 20 次,每次从数据集随机取出 20 个数据作为测试数据,剩下的作为训练数据。然后计算平均错误率
可定制
自己可以添加修改数据源,增加训练正确率
希望大家多提建议或者意见
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.