爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。
下面是抓取过程中一组共 50 个请求的网络流量图
约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。
总共爬了三个版块,妹子图、无聊图和段子
共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。
下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)
我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.