用第三方数据和一个开源文本分类库撸了一个短语垃圾分类器

2016-07-06 11:39:45 +08:00

bobuick

git 里只有 load handler 的部分，训练数据太大了，没放上去。随便玩玩，大神轻喷，准确率还没做仔细评测，应该对训练数据做个比例分离，拿一部分做测试数据，算法库是 LibLinear ，在它基础上还有一层 python 封装库 tgrocery

我是 git 地址求 star =。＝

3858 次点击

所在节点

程序员

4 条回复

qqmishi

2016-07-06 11:45:51 +08:00

http://115.231.96.136:8810/v1/classify?msg=冃狌交伖，释鲂压劦、棑解漃瘼◆真人视频.网址： wWw.GitHub 。 Com

{"predict": {"ad": -0.066918752863160541, "spam": -0.10691206619180635, "porn": -0.13125600199396634, "nonsense": -0.17521140226677201, "politic": -0.15298335802307686, "ham": 0.6332815813380146}, "res": "ham"}

23333

bobuick

2016-07-06 11:57:37 +08:00

＝。＝牛，数据短缺， “冃狌交伖，释鲂压劦、棑解漃瘼”

bobuick

2016-07-06 12:07:22 +08:00

看来火星文和用偏僻词谐音的数据缺的比较厉害，这么一比较我那些训练数据原来那么和谐呢

vincentfung13

2016-08-02 11:13:34 +08:00

题主是在哪拿到的训练数据啊，能分享下么，哈哈哈

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/290598

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.