听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017-10-30 20:59:06 +08:00
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

12176 次点击
所在节点    程序员
73 条回复
opengps
2017-10-31 08:22:57 +08:00
@Ryosan 特意看了一眼,确实是
mcds
2017-10-31 08:33:36 +08:00
19 楼好评~
toono
2017-10-31 08:37:57 +08:00
@cyn 原以为“煎蛋”是京东,谁知道,煎蛋就是煎蛋网
Acebiu
2017-10-31 08:40:56 +08:00
被随便带带节奏喊技术无罪的是不是也是你们?
knva
2017-10-31 08:41:12 +08:00
求你了,别爬煎蛋了.
Januser
2017-10-31 09:01:10 +08:00
“我就是踹了他一脚,他怎么就能死了?”

楼主和其他千千万万踹了煎蛋一脚的垃圾都这么说。
momocraft
2017-10-31 09:07:18 +08:00
爬虫门槛太低了。
讲真比脚本小子还低,又有妹子图形成正反馈。可怜这些做内容的网站。
malkavia
2017-10-31 09:15:03 +08:00
我没记错的话,好多新手教程都是爬煎蛋爬糗百的
lingo
2017-10-31 09:18:48 +08:00
赞 19L
7654
2017-10-31 09:23:14 +08:00
楼主该看看煎蛋的 PV 什么的
一个 WP 博客站能有这个数据已经很了不起了
Xrong
2017-10-31 09:24:03 +08:00
楼主这种爬虫算好的了,有些入门的新手连个延迟都不加一顿瞎搞。CDN 请求大量回源,源站也很蛋疼。。。再说一些小破资源站哪里有那么多资源去弄些反爬措施。
Felldeadbird
2017-10-31 09:26:07 +08:00
把代码分享出来吧。让全国都去爬就体验了威力。233333
bsidb
2017-10-31 09:26:59 +08:00
煎(jian)蛋(dan)
8023
2017-10-31 09:36:02 +08:00
No individual raindrop ever considers itself responsible for the flood.
smgui
2017-10-31 09:42:22 +08:00
设计爬虫尽量温和,杀鸡取卵不是一个文明人正常的做法
croz
2017-10-31 09:53:38 +08:00
@bsidb #33 是 jandan,(手动滑稽)
laqow
2017-10-31 09:53:50 +08:00
因为刚学编程 2 小时的傻子也能写出煎蛋的爬虫
lyhapple
2017-10-31 09:54:17 +08:00
我想爬汤, 奈何网络太渣渣, 没有威屁恩
logOo
2017-10-31 10:28:16 +08:00
@lyhapple 看了你的回复,好像打了新的世界。。
wfd0807
2017-10-31 10:43:49 +08:00
@zlfzy
@lyhapple
爬汤是什么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX