V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  leavic  ›  全部回复第 197 页 / 共 248 页
回复总数  4957
1 ... 193  194  195  196  197  198  199  200  201  202 ... 248  
@yylzcom 因为在 wordpress 上用 akismet 确实过滤了几乎所有的机器人 spam ,但几个明显人工发送的 spam 就没有挡住,所以我猜测 akismet 是利用了 wordpress 庞大的评论数据统计(包括对人工标志 spam 的内容进行学习),以此来建立他们精准的过滤规则。

spam 数据获得之后我想他们也是用了贝叶斯之类的方法的,说真的,贝叶斯很简单但真的太有用了。
问题就在于,知乎的 spam 内容和 wordpress blog 的 spam 内容可能是有很大差距的,转译过来说, spam 的特征向量在空间距离上差距很大,所以 akismet 能否直接应用在知乎上还未可知。

akismet 的工作原理不是很公开(当然可以理解,否则 spam 就猖狂了),我只是猜测它是个比较专门化的针对 blog 的过滤体系。
@yylzcom akismet 在防机器人上是很好的,碰上人工发帖的就很弱了。
2015-08-18 15:09:58 +08:00
回复了 tiange 创建的主题 程序员 大家觉得最能解决开发问题的网站是?
编程类问题 stackoverflow ,其他问题要看专门的论坛。
不是太清楚你说的垃圾信息是什么,我好像没看到。
但如果要 antispam ,前提是搜集足够多的 spam 样本,有足够多的样本之后, antispam 只需要用贝叶斯就可以搞定大部分了。
可是如何设定一个定义为 spam 的阈值又是个很头痛的问题,如何保证完全的过滤能力同时又不误伤正常的信息发布,这从贝叶斯方法的原理上就决定了几乎是个悖论,即使 gmail 也会把正常邮件当作垃圾邮件处理,而垃圾邮件可能会漏网进入收件箱。

考虑到知乎这隔三差五挂掉的状态,还是跟新浪微博借 5000 审查专员比较快。
@chizhong 我回复了又如何
2015-08-18 13:53:00 +08:00
回复了 369830973 创建的主题 问与答 七夕将至,办公室妹子问我,该给男票送个什么礼物呢?
@WD40 003 太厚了, 002 至少的。
@chizhong 需求是你提出来的,我证明个毛线
@chizhong
前面已经有人说了,如何防止滥用这个按钮?不做预防措施,全国的快递查询系统都可以崩溃;做查询措施,各种验证码和排队做下来,结果可能跟你自己去查单号一样麻烦。

另外,增加一个刷新按钮和淘宝自己定期查询相比,对服务器的压力增加有多大你也没有做过评估,凭主观想象就认为一个刷新按钮不会增加多大压力。

12306 每 5 秒才允许查询一次,改进了这么多年了,到现在高峰时都还是可能崩溃。你去看看淘宝平均每天的快递数目,难道要每个快递公司都去搭建一套 12306 这么强的系统就为了对付淘宝的查询?

这些快递公司的 IT 能力远远不如淘宝,你只提出了一个按钮,却没有考虑这个按钮的实现,这是典型的眼高手低。
凡事不是说你觉得怎么样最舒服就可以怎么实现的,最美好的世界是共产主义,怎么实现?
1 ... 193  194  195  196  197  198  199  200  201  202 ... 248  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1263 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 47ms · UTC 23:23 · PVG 07:23 · LAX 16:23 · JFK 19:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.