被 spam 评论给弄疯了,如何有效的建立机器学习模型呢?

2020-02-20 11:14:19 +08:00
 SlipStupig

公司产品评论区里面老是出现一些乱七八糟的评论,开始用正则表达式,但是太容易绕过了,而且还容易误杀。 后来用了 tfidf+native bayes 做个一个模型,开始还行,后来出现了一些内容嵌入发帖,例如:

深度考察. 2019 年 10 月 23 日 23:16.棋牌游戏一对一真钱_新布丁娱乐大厅拼三张可以作弊吗. 关于棋牌游戏一对一 883321.com 真钱的 创新是民族进步之魂,创新型青年人才是国家的未来。周女士也想提醒广大家长,在孩子入学的问题上,一定要 ... 障用户更加便捷地在快手记录分享生活、学习、娱乐和社交,甚至获得经济收入。

这种类似的文本,使用 tfidf 去提取文本特征,提取出来的特征基本上对这种文本没有什么用,大家有什么好的办法嘛

8236 次点击
所在节点    程序员
71 条回复
shm7
2020-02-21 09:19:37 +08:00
文本分类本身有很多模型和研究了,套不套得上靠你自己了。模型+规则匹配应该更靠谱
fiht
2020-02-21 09:29:37 +08:00
各位说买服务的兄弟,如果花钱能解决,我只需要劝一劝老板,花钱还是解决不了怎么办? 至于说加入审核,我们公司根本不是什么大公司,没有从事审核的人员,也养不起
-------------------------------
找售前要个试用,万一能解决呢?腾讯云天御了解一下 https://cloud.tencent.com/product/tms
SlipStupig
2020-02-21 09:55:31 +08:00
@encro 总算有个说到正题上的人了,十分感谢!
loryyang
2020-02-21 10:03:08 +08:00
这个真的很难,我不知道你评论有多少,不多的话,还不如雇一个人专门来删。先用程序简单定性一下,然后给人来过
这个 spam 评论别看好像很简单,但是要全部干掉也不容易,至少需要一个小团队来专门解决
yzc27
2020-02-21 10:20:45 +08:00
文本分类试一下 fasttext
zjuster
2020-02-21 10:52:31 +08:00
你的思路还停留在针对问题发生的事后分析。
一般成功防治的经验是
1、购买第三方服务;
2、评估评论的用途,非生存必备,关闭评论(大概某部门还没找过你们);
3、自己聘用专门的外包进行处理和服务(结合第 2 条,有 UPGC 内容的平台,有关部门是有要求进行有效防范措施,否则可以惩罚至关停网站)
4、要求实名认证等手段,加大垃圾评论发送的成本
等等

如果你还坚持自己处理的,花点时间看下垃圾内容的特征,然后收集这些内容输入用户的物理特征:账号字段、头像、ip 字段、电话号段、活跃时间等等,做用户风控模型。

你可以看看 微博公众号 半佛仙人
facert
2020-02-21 13:43:11 +08:00
建立一个完整的反作弊系统,从前期数据收集到后期屏蔽方式都需要一个过程。算法模型是可以检测出一些垃圾文本,但也需要一定数据量学习的过程。针对楼主的问题,其实最简单快速的还是关键词策略,对于单一团伙,他们为了达到辨识度再加上机器发布,整体关键词分布都有规律,几种关键词匹配策略一上,基本能干掉 90% 。 前提是做好文本的预处理(简繁转换,数字转换,html 文本提取)。
gladuo
2020-02-21 14:45:11 +08:00
如果考虑自己做,且有人力标注数据,模型部分可以考虑 fasttext,达到了成本和效率比较好的平衡; nlp 相关问题可以回复我,可以给你一些专业建议;
如其他网友所说,基于 ip id 时间屏蔽,可能是更立竿见影的手段;
解决猫和老鼠的问题,首先还是要想清楚老鼠的动机是什么,能让他就算绕过 spam detection 也没有很大的收益的策略是什么,类似增加账号系统,账号需要有一些非常 postive 的评论,通过审核,认为是 human 用户,才会展示别的评论,有 2 条被判为 spam,整个账号所有评论都被隐藏,类似这样的一些策略,让老鼠觉得非常辛苦,边际效应非常低,他就没有动力去做了;
62D0oo7AxBv8qn17
2020-02-21 17:00:11 +08:00
如果是 wordpress 的话,可装个 Akismet Anti-Spam 插件,效果出奇的好
SlipStupig
2020-02-22 00:49:40 +08:00
@gladuo 能加个微信详聊不😊
gladuo
2020-02-27 15:52:59 +08:00
@SlipStupig Z2xhZGR1bw==

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/646050

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX