煎蛋被爬虫爬炸了

2017-10-16 12:37:38 +08:00
 WuwuGin
昨晚到现在煎蛋后台大部分时间是瘫痪着的,因为有人在疯狂采集,连接数过多让煎蛋数据库频繁挂掉。点不了 OOXX 发不出评论 /吐槽的同学不要猜测,原因就是这个。



至于为什么被频繁采集,这要归功于某些拿煎蛋练手还去 github 开源采集煎蛋程序的牛逼程序员们。







原本我们是可以从服务器端屏蔽掉恶意采集,但服务器扛不住 DDOS,不得不全站 cdn,但 cdn 又等于是把静态内容贡献给恶意采集者。



COLT 正努力从技术层面解决。请耐心等候。


以上来自煎蛋站长 sein。
8112 次点击
所在节点    互联网
30 条回复
iShawnWang
2017-10-16 12:54:46 +08:00
这.....
laogui
2017-10-16 13:01:58 +08:00
采集不是用同一个 IP 吗?这都防不了?难道换着 IP 采集?
Mikewu
2017-10-16 13:04:33 +08:00
@laogui 看正文,估计是成为开源爬虫项目中的 Demo 了。
lwbjing
2017-10-16 13:04:42 +08:00
@laogui 文中有提到“开源采集煎蛋程序”,想像一下场景...
jas0ndyq
2017-10-16 13:08:01 +08:00
快了?
takanasi
2017-10-16 13:09:15 +08:00
所以不爱写爬虫,感觉比较缺德
zts1993
2017-10-16 13:21:37 +08:00
写个爬虫练个手,你看知乎现在登陆都要验证码了。
oh
2017-10-16 13:24:39 +08:00
@laogui 多 IP 多线程 甚至分布式采集 不都是必备的么…
coderluan
2017-10-16 13:47:33 +08:00
写爬虫从来只用单线程龟速爬,否则感觉自己在干缺德的事。
yu099
2017-10-16 13:58:46 +08:00
果然,我说图怎么刷不出来
doublleft
2017-10-16 13:58:51 +08:00
猜测一下,因为我也采过,一般都是爬妹子图吧。。 既然妹子图链到的是微博图床,能不能直接开个 api
swulling
2017-10-16 14:02:05 +08:00
技术不行罢了
deeporist
2017-10-16 14:48:23 +08:00
加油
EricCartman
2017-10-16 14:51:06 +08:00
重定向爬虫到开源操作系统镜像文件
yu099
2017-10-16 15:02:32 +08:00
@EricCartman 这个不错
Sapp
2017-10-16 16:09:53 +08:00
最近知乎的爬虫教程都烂大街了,真搞不懂弄那么多爬虫是搞毛?就图个好玩?
gamexg
2017-10-16 16:23:16 +08:00
@oh #8

如果确认是开源爬虫问题,那么很好搞定啊。
直接照着爬虫规则改,让爬虫无法匹配即可。

另外虽然多 ip 分布式是爬虫常见功能,但是个人学习的话 ip 来源不会有那么多,高频率 ip 封禁或者加 js 验证、验证码验证都能够解决。
lingo
2017-10-16 18:03:09 +08:00
@swulling 个人感觉不能单纯用技术不行来说。本来以他们技术可以维持网站的的正常访问,结果这个开源项目带来大量的异常流量导致网站挂了,总不能要求每个公司都跟 BAT 一样吧。
iFlicker
2017-10-16 18:26:45 +08:00
老大加油, 可怜的 COLT。。。估计 colt 系列无聊图又要出了
WordTian
2017-10-16 19:28:08 +08:00
我说怎么最近评论的时候总出问题呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/397984

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX