听说你们把煎蛋爬趴下了，于是我也爬了一下发现没多大数据量，就很不理解

2017-10-30 20:59:06 +08:00

mdzz

爬虫比较简单，比较快就写好了，爬的过程中遇到了反爬策略，大约 50 个请求之后就会 403，于是给请求分组，一组 50 个，组与组之间间隔 60 秒，就没有再 403 过了。

下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右，一组流量约 300KB。

总共爬了三个版块，妹子图、无聊图和段子

妹子图：有 241 页共 5 组
无聊图：有 294 页共 6 组
段子：有 132 页共 3 组

共计 14 组，若按一组 300KB 计算，不超过 5MB，抓取总时间需要约 20 分钟。

下面是抓取后的数据库，数据库不到 16MB （抓取过程启用了 gzip，故网络流量远小于最终数据库大小）

我就不明白了，怎么就把煎蛋爬趴下了？怎么就爬趴下了？爬趴下了？

12176 次点击

所在节点

程序员

73 条回复

opengps

2017-10-31 08:22:57 +08:00

@Ryosan 特意看了一眼，确实是

mcds

2017-10-31 08:33:36 +08:00

19 楼好评~

toono

2017-10-31 08:37:57 +08:00

@cyn 原以为“煎蛋”是京东，谁知道，煎蛋就是煎蛋网

Acebiu

2017-10-31 08:40:56 +08:00

被随便带带节奏喊技术无罪的是不是也是你们？

knva

2017-10-31 08:41:12 +08:00

求你了,别爬煎蛋了.

Januser

2017-10-31 09:01:10 +08:00

“我就是踹了他一脚，他怎么就能死了？”

楼主和其他千千万万踹了煎蛋一脚的垃圾都这么说。

momocraft

2017-10-31 09:07:18 +08:00

爬虫门槛太低了。
讲真比脚本小子还低，又有妹子图形成正反馈。可怜这些做内容的网站。

malkavia

2017-10-31 09:15:03 +08:00

我没记错的话，好多新手教程都是爬煎蛋爬糗百的

lingo

2017-10-31 09:18:48 +08:00

赞 19L

7654

2017-10-31 09:23:14 +08:00

楼主该看看煎蛋的 PV 什么的
一个 WP 博客站能有这个数据已经很了不起了

Xrong

2017-10-31 09:24:03 +08:00

楼主这种爬虫算好的了，有些入门的新手连个延迟都不加一顿瞎搞。CDN 请求大量回源，源站也很蛋疼。。。再说一些小破资源站哪里有那么多资源去弄些反爬措施。

Felldeadbird

2017-10-31 09:26:07 +08:00

把代码分享出来吧。让全国都去爬就体验了威力。233333

bsidb

2017-10-31 09:26:59 +08:00

煎(jian)蛋(dan)

8023

2017-10-31 09:36:02 +08:00

No individual raindrop ever considers itself responsible for the flood.

smgui

2017-10-31 09:42:22 +08:00

设计爬虫尽量温和，杀鸡取卵不是一个文明人正常的做法

croz

2017-10-31 09:53:38 +08:00

@bsidb #33 是 jandan，（手动滑稽）

laqow

2017-10-31 09:53:50 +08:00

因为刚学编程 2 小时的傻子也能写出煎蛋的爬虫

lyhapple

2017-10-31 09:54:17 +08:00

我想爬汤, 奈何网络太渣渣, 没有威屁恩

logOo

2017-10-31 10:28:16 +08:00

@lyhapple 看了你的回复，好像打了新的世界。。

wfd0807

2017-10-31 10:43:49 +08:00

@zlfzy
@lyhapple
爬汤是什么？

第 2 页／共 4 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402058

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.