要实现高效的爬虫,大家能给点建议不?

2014-12-22 19:15:39 +08:00
 andrewrong
最近公司要实现一个高性能的爬虫,用来爬取淘宝的商品信息,数量比较大,时间上也有要求;

我们公司现在有一个爬虫,是用PHP实现的,全部都是手写的,没有用什么框架,通过代理IP单进程来实现爬取页面;从上面的需求我们的想法是通过起多个进程来实现并发爬取淘宝页面;但是针对那么大的量我们必须充分利用我们的代理IP,但是又不能被淘宝封;

针对上面的这些描述,我想问我现在遇到的一些问题:

1. 如何高效的利用我们的代理IP(不是很多),又不被淘宝封(这个希望能比较详细点)?
2. 我们现在这套PHP架构是否合适做这个爬虫,如果不适合,能不能建议一下?
3. 我在网上看到有人提出应该有一个反监控系统用来检测对方的反爬的变化,并且做出相应的调整,有人做过这个东西吗?

最后,谢谢大家啦...
5097 次点击
所在节点    程序员
23 条回复
benjiam
2014-12-23 20:15:38 +08:00
难度在对方对你的屏蔽
andrewrong
2014-12-23 22:25:35 +08:00
@benjiam 现在考虑的最多的也就是这个问题....
fewspider
2014-12-25 11:09:35 +08:00
Python beautifulSoup + gevent并发路过

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/155818

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX