为爬虫构建代理池

2016-07-15 18:10:31 +08:00
 tikazyq

为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池。但是付费代理都好贵。。。不过好在网上已经有不少免费提供代理的网站了。因此,我打算写个爬虫去获取这些免费 IP ~

策略

难点

  1. 如何去验证维护这些代理地址
  2. 如何知道哪些代理地址适合哪些网站(可用性,响应时间)
  3. 效率问题(之前写过简单的验证脚本,但是效率非常低)

小伙伴们有不有什么好的办法能解决这些问题呢?

13806 次点击
所在节点    Python
49 条回复
facat
2016-07-15 18:13:44 +08:00
用代理池中的代理访问百度,记录获取页面的时间。
tikazyq
2016-07-15 18:22:53 +08:00
@facat 多谢 这个可行的 不过怎么解决效率问题呢?而且有些代理直接指向单一网站,这种如何检测啊
hansnow
2016-07-15 18:26:52 +08:00
@facat 如果这么做的话会不会因为代理那边的缓存而导致结果不准确呢
jnduan
2016-07-15 18:28:41 +08:00
付费代理包月也就 300 左右,跟抓来的数据相比,太便宜了
hansnow
2016-07-15 18:31:09 +08:00
@jnduan 请问有推荐咩?
ji4ozhu
2016-07-15 18:33:58 +08:00
binux
2016-07-15 18:35:29 +08:00
自己的验证地址,异步 IO ,短超时。
一般如果能访问地自己的验证地址,大部分网站都没有问题。除非你有量特别大的特殊网站,比如淘宝,可以单独测。
josephshen
2016-07-15 19:08:19 +08:00
我原来也和你一样这样想,后来发现花钱买代理提供商的更加方便,价格也很便宜。具体就不推荐了。
tikazyq
2016-07-15 19:08:24 +08:00
@binux 自己的验证地址是指提供代理的网站吗?
tikazyq
2016-07-15 19:10:01 +08:00
@josephshen 能推荐几个代理提供商嘛~
binux
2016-07-15 19:21:38 +08:00
@tikazyq 指验证代理时访问的网站
josephshen
2016-07-15 19:32:05 +08:00
你可以搜一下先,在这个过程中你会自己有比较,会学到其它东西的,公网上不应该随便告诉一个人应该怎样做
ELIOTT
2016-07-15 19:54:15 +08:00
記得 Hola 有個產品是專門賣代理池的.
miyuki
2016-07-15 20:44:35 +08:00
UnisandK
2016-07-15 20:51:45 +08:00
http://ningning.today/2016/03/07/python/python-requests-tor-crawler/
spikeLIN
2016-07-15 21:17:21 +08:00
我们代理池自己爬的⋯⋯
greatghoul
2016-07-15 21:21:39 +08:00
我用的快代理,挺不错的
Soar360
2016-07-15 21:46:14 +08:00
这东西,折腾起来很简单,我折腾过好几次了,能维持在 3000 左右的可用 IP 。
demonchang
2016-07-15 22:35:55 +08:00
。。。刚好要搞这个。爬的太麻烦。买的能好点吧。但是不知道买那个。求推荐
techmoe
2016-07-15 22:55:20 +08:00
tor

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/292752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX