最近在做一个百度贴吧的自动管理机。
现在用的是关键词判别,但是这样误杀率太高了。。。
有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?
顺便丢个地址,求 star 什么的。。。
TiebaManager
|  |      1KIDJourney OP 这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。 | 
|  |      2aheadlead      2016-01-25 18:34:12 +08:00 | 
|  |      3KIDJourney OP @aheadlead 多谢。 | 
|  |      4SoHMarionette      2016-01-25 19:45:53 +08:00 实际来说都会有一定的误判吧 例如发广告的加空格,连句触发 毕竟中华文化博大精深 | 
|  |      5zhicheng      2016-01-25 19:48:59 +08:00 via Android 朴素贝叶斯 | 
|  |      6ethego      2016-01-25 19:50:00 +08:00 @SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了 | 
|  |      7SoHMarionette      2016-01-25 21:50:27 +08:00 @ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了 | 
|  |      8ethego      2016-01-25 21:54:45 +08:00 @SoHMarionette 一行正则就能剔除所有符号 | 
|  |      9KIDJourney OP @zhicheng 吧务后台现在有问题,不然我也用训练集了。 | 
|  |      10timepast      2016-01-25 22:00:28 +08:00 同求一份脏字库 | 
|      15aprikyblue      2016-01-25 22:50:24 +08:00 只有我想到鉴黄师吗?:doge: | 
|  |      16KIDJourney OP @nlzy 泥壕 | 
|  |      17gzlock      2016-01-26 06:51:23 +08:00 via Android | 
|  |      18ryd994      2016-01-26 07:41:35 +08:00 via Android 贝叶斯大法好 但首先你得有足够的样本库…… | 
|  |      20KIDJourney OP | 
|      21em70      2016-01-26 11:40:28 +08:00 via iPhone 阿里云的 OSS 有图片鉴黄功能了 | 
|  |      22KIDJourney OP @em70 看到啦,多谢。 | 
|      23wd0g      2016-01-26 11:50:55 +08:00 腾讯好像有个语义识别 | 
|  |      24KIDJourney OP @wd0g 看了,很棒,多谢~ 但是 API 太贵了。。。。 | 
|  |      27KIDJourney OP @ye10010 scikit-learn | 
|  |      28KIDJourney OP @ye10010 为啥不问我← ← | 
|      29wd0g      2016-01-26 18:50:54 +08:00 @KIDJourney 自己抓包腾讯语义分析 demo 站的 API ,我以前试过可以的! | 
|      31ye10010      2016-01-27 08:47:28 +08:00 @KIDJourney 多谢大神^-^,star 啦. 是 steam 吧 KIDJourney 吗?好活跃,可惜俺不玩游戏 | 
|  |      32KIDJourney OP @wd0g 我一开始也是这样想的 23333 我每分钟要判 20 次,我多开几个 IP 吧。 | 
|  |      33KIDJourney OP @ye10010 是哒,我也不怎么玩了。 |