使用卷积神经网络与代理服务器实现骂人弹幕的自动屏蔽

2017-02-06 15:09:31 +08:00
 Yinz

https://yinzo.github.io/14863637393852.html

使用的是 TensorFlow 后端的 keras , 3000 条弹幕的识别时间在 5s 左右(指的是 model.predict 的单句计时 5s 左右),可能是 model 隐层节点太多了?不知道前辈们有没有一些提高速度的方法呢,如果能帮我指一下方向那将会非常有帮助:D

接下来准备继续学 RNN 以及 LSTM 来继续优化这个玩具分类器:D

另外后排继续寻找广州的机器学习实习岗,希望有 dalao 收留简历在这里

11999 次点击
所在节点    程序员
80 条回复
wjm2038
2017-02-06 22:20:35 +08:00
@Yinz 其实你的想法很好,但是由于人脑和中文的神奇性,中文的骂人话(写出来的(包括垃圾弹幕))会比你想象的要多,同音字,拆字,谐音字,等等,人工都不一定屏蔽的完,机器的话一定会有很多误杀,就比如垃圾弹幕中最明显的一个刷颜色。
Yinz
2017-02-06 22:26:19 +08:00
@wjm2038 其实你所说的同音字,拆字,谐音字等问题,按我的理解,在 word2vec model 上就已经解决掉了, word2vec 一定程度上解决了自动识别语义相近的词语的问题 :O
nbndco
2017-02-06 22:28:45 +08:00
@Yinz 其实关键词不一定是以列表形式存在的,一个 bow+svm 其实也是关键词。
yexm0
2017-02-06 22:37:03 +08:00
@wjm2038 话说 B 站好像现在也在测试一种有可能会减少低素质弹幕的功能..不过默认情况下没有开启.要自己手动开.
Yinz
2017-02-06 22:42:55 +08:00
@yexm0 2333 这个功能我有注意,我原本还尝试通过求这两个模式下的差集来快速获得屏蔽弹幕呢,但是当我求完差集出来一看,这个过滤效果更像是大规模无差别灭杀 2333 ,不排除可能是通过筛选节操值小于特定阈值的用户弹幕产生的弹幕池 XD
yexm0
2017-02-06 22:46:37 +08:00
@Yinz 你不妨试试发邮件给 B 站推荐下 :-)
wenymedia
2017-02-06 22:49:45 +08:00
不过我之前看到猪场有类似基于机器学习类似的识别垃圾信息的产品 有兴趣可以去交流交流?
wjm2038
2017-02-06 22:53:54 +08:00
@yexm0 你想多了。。这个只是 UP 主屏蔽的别名。。 @Yinz
yexm0
2017-02-06 23:01:02 +08:00
@wjm2038 这功能开启后很多视频里的弹幕数直接少一大半.目测应该不是对应的 UP 主屏蔽.
wjm2038
2017-02-06 23:04:23 +08:00
@yexm0 是的。是整合了很多的 up 屏蔽的,我记得没错的话是关键字加 uid
yexm0
2017-02-06 23:07:44 +08:00
@wjm2038 同意.
Yinz
2017-02-06 23:10:27 +08:00
@wjm2038 并不是 up 主屏蔽 XD 你可以观察一下开关这个选项前后的弹幕池,开选项之前是 http://comment.bilibili.com/13769505.xml , 开启之后变成了 http://comment.bilibili.com/rc/13769505.xml

另外 up 主屏蔽的 api 是这样的 http://comment.bilibili.com/cloud/filter/8376267.json
XD
gladuo
2017-02-06 23:22:49 +08:00
1. 只用 Word2vec 加关键词即可, CNN 应该并不能明显提升 acc
2. 训练数据太少
Yinz
2017-02-06 23:30:23 +08:00
@gladuo 请问第一点能否展开一点说呢:D

因为我的目标是能够识别出包括无脏字的反讽弹幕,这一定程度上涉及了语义的问题,我思考了一段时间,还是没有想到关键词如何实现这样的目标,希望能够获得进一步的指点 :O
yujia
2017-02-07 02:39:05 +08:00
这种识别 spam 的 naive bayes 真的很好用
am241
2017-02-07 03:25:00 +08:00
加 L1 正则会不会好点?
zgqq
2017-02-07 09:54:33 +08:00
@Yinz 如果一个人在直播打游戏,打得很垃圾,然后弹幕有人说你好厉害哦,这情况应该属于反讽了吧,首先你要知道那个人打得拉不垃圾,垃圾的标准是什么,真不知道你们搞机器学习怎么办到的
madao
2017-02-07 11:01:30 +08:00
哈哈,你的文章的视频例子是泡泡爆炸后 carry 的那一个吧。 @Yinz
skyduy
2017-02-07 11:04:34 +08:00
支持一下,最近我也在搞类似的分类器~
plqws
2017-02-07 12:30:10 +08:00
有没有屏蔽空耳的。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/338455

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX