看到知乎现在不断地被刷垃圾信息,想请问一下 antispam 的工作难做吗?

2015-08-18 14:35:26 +08:00
 EchoChan
2334 次点击
所在节点    问与答
11 条回复
leavic
2015-08-18 14:53:12 +08:00
不是太清楚你说的垃圾信息是什么,我好像没看到。
但如果要 antispam ,前提是搜集足够多的 spam 样本,有足够多的样本之后, antispam 只需要用贝叶斯就可以搞定大部分了。
可是如何设定一个定义为 spam 的阈值又是个很头痛的问题,如何保证完全的过滤能力同时又不误伤正常的信息发布,这从贝叶斯方法的原理上就决定了几乎是个悖论,即使 gmail 也会把正常邮件当作垃圾邮件处理,而垃圾邮件可能会漏网进入收件箱。

考虑到知乎这隔三差五挂掉的状态,还是跟新浪微博借 5000 审查专员比较快。
yylzcom
2015-08-18 14:58:55 +08:00
akismet 好, akismet 普渡众生……
EchoChan
2015-08-18 15:12:13 +08:00
@leavic http://www.zhihu.com/log/questions
原来贝叶斯可以这么用,哎,学习没学好。
leavic
2015-08-18 15:17:02 +08:00
@yylzcom akismet 在防机器人上是很好的,碰上人工发帖的就很弱了。
manhere
2015-08-18 15:22:55 +08:00
知乎反广告就是个笑话,参见:
http://www.zhihu.com/people/andychu66
yylzcom
2015-08-18 15:24:27 +08:00
@leavic 刚在另外一贴回复你 [:激动:]
akismet 就易用性,用户体验 /拦截成功率来说,我觉得是目前最好的。可能是我见识少和对易用性理解不同。人工发帖只要是大规模发类似内容, akismet 还是能做到不错的拦截率。

如果是软文那样的或者签名带个小尾巴的小规模 spam , akismet 可能的确会乏力……
leavic
2015-08-18 15:42:40 +08:00
@yylzcom 因为在 wordpress 上用 akismet 确实过滤了几乎所有的机器人 spam ,但几个明显人工发送的 spam 就没有挡住,所以我猜测 akismet 是利用了 wordpress 庞大的评论数据统计(包括对人工标志 spam 的内容进行学习),以此来建立他们精准的过滤规则。

spam 数据获得之后我想他们也是用了贝叶斯之类的方法的,说真的,贝叶斯很简单但真的太有用了。
问题就在于,知乎的 spam 内容和 wordpress blog 的 spam 内容可能是有很大差距的,转译过来说, spam 的特征向量在空间距离上差距很大,所以 akismet 能否直接应用在知乎上还未可知。

akismet 的工作原理不是很公开(当然可以理解,否则 spam 就猖狂了),我只是猜测它是个比较专门化的针对 blog 的过滤体系。
ehs2013
2015-08-18 15:43:57 +08:00
其实对于中文博客,现在很普遍的做法不是屏蔽所有纯英文评论吗 233
elviscai
2015-08-18 15:48:11 +08:00
知乎不是号称人工审核么,结果每次举报最后都觉得自己是个傻[哔~]……

越点越傻……所以后来就不点了……
EchoChan
2015-08-18 16:23:21 +08:00
@elviscai 关闭首页新特性,关注一些优秀的人,时间线就不会被污染了。
只是想去某些话题下看问题还是会遇到垃圾信息。
elviscai
2015-08-18 16:32:38 +08:00
@EchoChan 默认不进首页,不想关注人,只看话题……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/214054

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX