自己写的爬虫如何测速抓取速度呢?

2017-09-03 11:57:19 +08:00
 SlipStupig
我自己做了一个分布式爬虫,但是我想知道我到底能到什么速度,有没什么办法可以离线测试抓取速度呢,比如:一秒钟可以下载完成多少个网页,不需要太精确,有个大概就行?
4446 次点击
所在节点    程序员
10 条回复
t6attack
2017-09-03 12:04:02 +08:00
网络环境是影响速度的重要因素。离线了还咋测试速度
linuxchild
2017-09-03 12:07:50 +08:00
监控网络速度吧,然后取均值
huangfs
2017-09-03 12:14:24 +08:00
日志能估算吧。
bazingaterry
2017-09-03 12:18:10 +08:00
自己写的爬虫,里面写一下统计有难度吗……
SlipStupig
2017-09-03 12:20:23 +08:00
@bazingaterry 速度这块真不好算,我需要一个一些性能指标的基线数据,现在不知道怎么弄

@t6attack
ericls
2017-09-03 12:34:41 +08:00
既然是分布式 还是测试 scalability 吧
bazingaterry
2017-09-03 13:09:34 +08:00
@SlipStupig 看你需要的精度?大不了一个页面一行 log。
Devmingwang
2017-09-03 13:50:31 +08:00
爬吧,豆瓣网子域名,read01 等等等一大批网站都已经疯掉国外部分 IDC 访问了。。。。
nywwsba
2017-09-03 16:20:25 +08:00
楼主现在用什么来跑爬虫呢? vultr 怎么样
jalena
2017-09-03 20:56:20 +08:00
在执行前和执行结束写个时间,算一下不就好了么?多测试几次取个平均值就好了嘛

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/387802

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX