一个关于爬虫效率的问题,碰到瓶颈速度死活无法再提升.

2015-11-24 17:35:16 +08:00
 xiaocsl
分别在三个网络环境中测试
网络环境 带宽上行 带宽下行
联通无路由 8Mbps 0.8Mbps
长城有路由 15Mbps 15Mbps
阿里云 10Mbps 10Mpbs

全部 Windows 系统

三种环境下,不管是多线程,还是开多份软件.
速度都无法突破每秒钟 110 左右的 HTTP 请求.(带宽还很富余)

问一下,是什么瓶颈卡住了速度.
2170 次点击
所在节点    问与答
6 条回复
xiaocsl
2015-11-24 18:02:10 +08:00
突然感觉好可怜,完全没人看啊.
fishioon
2015-11-24 18:09:13 +08:00
你是如何确认带宽还有富余?单线程无法跑满带宽可以理解,但是如果多个进程肯定会跑满带宽的,当然进程之间是独立的
wy315700
2015-11-24 18:09:27 +08:00
秒钟 110 次请求,如果每次请求 10KB 的话,那就是 1.1MB ,已经到了带宽上限了
xiaocsl
2015-11-24 18:16:19 +08:00
@fishioon
联通的,是跑满了.
长城宽带不稳定另说.
但阿里云我确定没跑满.


@wy315700
流量上行每秒 150kb 左右,离 10Mbps 还很远.
wy315700
2015-11-24 18:19:50 +08:00
@xiaocsl
下行呢
xiaocsl
2015-11-24 18:21:34 +08:00
@wy315700
下行每秒 500kb 左右.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/238579

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX