听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017-10-30 20:59:06 +08:00
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

12177 次点击
所在节点    程序员
73 条回复
Nostalgiaaaa
2017-10-31 15:18:14 +08:00
爬虫教程尽量就别发出来的。。人一多就相当于 DDoS 了
xiejc
2017-10-31 15:26:43 +08:00
我能不能把上边的代码删了,感觉不太好😢
silencefent
2017-10-31 15:40:37 +08:00
我实在他妈不明白,爬虫这种含量的事儿还有人炫耀?写个爬虫屌的不行了?听人家说了这样不好还爬?这些年教育都到狗肚子里去了?
justtery
2017-10-31 16:37:22 +08:00
上满的去搜 知乎爬虫。。豆瓣电影。。豆瓣读书的爬虫。。一堆一堆的。。。
iFlicker
2017-10-31 16:43:36 +08:00
第一,煎蛋是个小站,真的是个小站,不是百度腾讯阿里巴巴谷歌亚马逊非死不可。
第二,你一个人流量小了,一千个人呢?一万个人呢?十万个人呢?,你知道控制频率,新手们可不知道。
第三,你们就饶了煎蛋吧,已经是少有的摸鱼净土了。。。。。
glacier2002
2017-10-31 17:23:37 +08:00
欢迎来扒 btstar.info 数据 😢
wangxiaohao
2017-10-31 18:31:55 +08:00
哈哈哈哈 心疼煎蛋 1s
Karblue
2017-11-01 00:59:14 +08:00
你家里这么多电器,我搬台电视机也没拿多少东西嘛…再说了,皇军吃你几个西瓜怎么了…… 来自 jandan。
自己作恶还觉得理所当然。
ajan
2017-11-01 10:48:51 +08:00
求楼主的 jandan.db
z1154505909
2017-11-01 14:51:21 +08:00
练手找招聘,租房的网站练啊,别找煎蛋,一个小站不容易,
还有就是新手写爬虫大多都不知道控制频率,
只知道爬爬爬.不知道手下留情

心疼煎蛋...
forcecharlie
2017-11-01 15:20:18 +08:00
爬的人多了如果服务器资源有限就成了 DDOS 攻击了。前几年 12306 抢票插件拖垮 Github 历历在目。
rswl
2017-11-01 15:41:37 +08:00
练功房
newworld
2017-11-01 20:02:05 +08:00
明明还有很多人去爬豆瓣 哈哈哈 没人说么!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX