听说你们把煎蛋爬趴下了,于是我也爬了一下发现没多大数据量,就很不理解

2017-10-30 20:59:06 +08:00
 mdzz

爬虫比较简单,比较快就写好了,爬的过程中遇到了反爬策略, 大约 50 个请求之后就会 403, 于是给请求分组,一组 50 个,组与组之间间隔 60 秒,就没有再 403 过了。


下面是抓取过程中一组共 50 个请求的网络流量图

约 10KB/s 的流量大约持续 30s 左右,一组流量约 300KB。


总共爬了三个版块,妹子图、无聊图和段子

共计 14 组,若按一组 300KB 计算,不超过 5MB,抓取总时间需要约 20 分钟。


下面是抓取后的数据库,数据库不到 16MB (抓取过程启用了 gzip,故网络流量远小于最终数据库大小)


我就不明白了,怎么就把煎蛋爬趴下了?怎么就爬趴下了?爬趴下了?

12176 次点击
所在节点    程序员
73 条回复
zlfzy
2017-10-31 10:47:25 +08:00
@wfd0807 tumblr

@lyhapple 用海外的 vps 爬,快如闪电
onlyhot
2017-10-31 10:55:39 +08:00
能耐这么大去爬淘宝,煎蛋这垃圾网站也不能显示你技术多牛,你说是不?
hxndg
2017-10-31 10:58:22 +08:00
@wfd0807 汤不热,上面有各种少儿不宜的东西,有的还有联系方式.....
huang5587783
2017-10-31 11:01:29 +08:00
煎蛋的作用就是训练爬虫?
slgz
2017-10-31 11:03:53 +08:00
@laqow 真的吗, 我是小学生别骗我
yu099
2017-10-31 11:15:45 +08:00


你看看这请求次数,流量大小
corcd
2017-10-31 11:25:14 +08:00
心疼煎蛋
sheng9632
2017-10-31 11:31:34 +08:00
心疼
SaltedFish12138
2017-10-31 11:43:36 +08:00
抵制所有爬煎蛋的行为
expy
2017-10-31 12:49:47 +08:00
数据库给你们自己下吧,都别折腾了。
yuxuan
2017-10-31 13:00:27 +08:00
就不能换个网站折腾。。。每次看见爬虫 几乎都是煎蛋 我一次都没上过煎蛋 光看你们写爬虫 都了解了煎蛋
timothyye
2017-10-31 13:38:02 +08:00




看来煎蛋与爬虫一直就有不解之缘……
xiejc
2017-10-31 13:41:43 +08:00
var cheerio = require('cheerio');
var request = require('request-promise');
var iconv = require('iconv-lite');
var EventProxy = require('eventproxy');
var fs = require("fs");
var PATH = '/Users/xie/Documents/images/';
var ep = EventProxy.create();
var total = 160;
var result = {
list: []
}
ep.on('finish', function(page) {
total = total - 1;
if (total > 0) {
matches(total);
} else {
fs.writeFile('images.json', JSON.stringify(result), function(error) {
if (error) {
console.log(error);
} else {
console.log('save');
}
process.exit(1);
});

}
})
matches(total);
function matches(page) {
//var url = `http://jandan.net/pic/page-${page}#comments`;
var url = `http://jandan.net/xxoo/page-${page}#comments`;
request({
method: 'GET',
url: url,
encoding: null
}).then(function(body) {
var content = iconv.decode(body, 'utf-8');
$ = cheerio.load(content);
var matchListRow = $('.view_img_link');
$(matchListRow).each(function(i, element) {
var item = $(element).attr('href');
var res_url = 'http:' + item;
// var name = PATH + item.slice(item.lastIndexOf('/') + 1);
result.list.push(res_url);
// request(res_url).on('response', function(response) {
// console.log(response.statusCode) // 200
// }).pipe(fs.createWriteStream(name));
});
ep.emit('finish');
}).catch(function(err) {
if (err)
return console.error(err);
});
}
gutu
2017-10-31 13:57:14 +08:00
反正大家就喜欢挑软柿子捏,

煎蛋这种小站,能存活到现在也算难得了。
z0z
2017-10-31 14:05:32 +08:00
说的我也想学学如何造一个爬虫了
Plsea
2017-10-31 14:26:16 +08:00
煎蛋太惨了 爬汤吧 2333
helica
2017-10-31 14:33:52 +08:00
我开始爬的 h 网和 p 站…
joker2015
2017-10-31 14:56:25 +08:00
恭喜楼主又吸引了一波仇恨(ಡωಡ)
skylancer
2017-10-31 15:04:17 +08:00
我的天 你流量小就代表资源小了?
我建议搜搜什么是 CC 和 DrDOS
Chappako
2017-10-31 15:16:35 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/402058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX