煎蛋被爬虫爬炸了

2017-10-16 12:37:38 +08:00
 WuwuGin
昨晚到现在煎蛋后台大部分时间是瘫痪着的,因为有人在疯狂采集,连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测,原因就是这个。



至于为什么被频繁采集,这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。







原本我们是可以从服务器端屏蔽掉恶意采集,但服务器扛不住 DDOS,不得不全站 cdn,但 cdn 又等于是把静态内容贡献给恶意采集者。



COLT 正努力从技术层面解决。请耐心等候。


以上来自煎蛋站长 sein。
8131 次点击
所在节点    互联网
30 条回复
mohoumk2
2017-10-16 21:11:35 +08:00


发现回复下面有个有趣的评论
ccc008
2017-10-16 21:19:45 +08:00
爬蚱好吃
congeec
2017-10-16 21:34:04 +08:00
缺德
jy02201949
2017-10-16 22:52:29 +08:00
访问到这个量级的站也不好好考虑自身条件是否符合发展需要,当年被告也是这样不知所措
Lentin
2017-10-16 23:03:48 +08:00
搞个 api 不就好了,还采集啥(雾
fuxkcsdn
2017-10-16 23:13:47 +08:00
@mohoumk2 正解!上次在 V 站上看到有人“又”(为什么说又呢?你们懂的)在发布所谓牛逼的煎蛋爬虫,at 了站长也没做处理
这边不让讨论盗版,却可以光明正大的分享偷(别说爬虫不算偷)别人数据的项目...
zander1024
2017-10-30 13:45:58 +08:00
wbt
2017-10-30 14:03:17 +08:00
。。。
tuding
2017-10-30 17:28:23 +08:00
@coderluan +1
我也是单线程爬, 而且挂服务器上, 避开高峰时间
Jayce245
2017-12-13 13:24:50 +08:00
你要是说练个手爬几张图片看看是不是正确也就算了,无限制爬取的确挺缺德的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/397984

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX