大家都是怎么处理爬虫代理问题的?

2014-05-24 15:33:09 +08:00
 ccbikai
写好了爬虫,准备爬一些数据,但是IP只有一个,肯定会被封。

大家平时都是怎么处理代理问题的?

目前准备抓免费代理,30分钟检测一次有效性

然后随机选代理


大家有没有什么好办法?
22279 次点击
所在节点    程序员
19 条回复
sohoer
2014-05-24 18:27:21 +08:00
http://121.199.38.28/
目前使用这个,也不是很稳定,准备用ADSL拔号换IP
也想知道是否有更好的方式
hydrazt
2014-05-24 18:45:28 +08:00
直接使用tor吧,每1min换一次ip
ccbikai
2014-05-24 19:33:31 +08:00
@sohoer 我是在自己VPS,没有办法ADSL。
@hydrazt 我了解一下Tor
Livid
2014-05-24 19:36:09 +08:00
为什么互联网上会有这么多开放的代理服务器呢?
mengli
2014-05-24 19:42:53 +08:00
淘宝。很便宜。
vbs
2014-05-24 19:56:11 +08:00
@sohoer 有多么不稳定?不行的话我来做个给大伙用
maemual
2014-05-24 20:09:18 +08:00
binux
2014-05-24 20:24:46 +08:00
之前直接用 squid,它会屏蔽失效的代理,使用速度更快的代理,自动轮训,自动重试转发,还能设置规则。爬虫只要设置同一个出口就自动使用代理了。

建议使用这样的转发方式,更容易控制,可重用性高,也不需要检测死活,在进行代理请求的时候同时就进行了。
mengskysama
2014-05-24 20:36:12 +08:00
我记得有个分支版本的GAE是自动换账号的,是不是可以利用
hadoop
2014-05-24 21:05:04 +08:00
@binux squid里咋设置?
binux
2014-05-24 21:51:03 +08:00
@hadoop """cache_peer %s parent %s 0 no-query weighted-round-robin weight=%s connect-fail-limit=2 allow-miss max-conn=5""" % (host, port, weight)
Lucups
2014-05-24 22:42:16 +08:00
万能的淘宝
ThomasHuang
2014-11-19 17:12:34 +08:00
@binux 不好意思,我没怎么用过Squid,不怎么看懂您的意思。Squid怎么才能做到动态添加代理池地址,并且自动调整权重?

您的意思是动态生成配置文件,然后重启吗?

最近我自己用gevent和pycurl自己实现了一个简单的代理,主要是代理池里,除了http代理,还有https,socks4,socks5,请问你所说的方式支持https和socks协议吗?我查看Squid的文档,上面来看,似乎cache_peer只能设置http代理是吗?
binux
2014-11-19 17:32:09 +08:00
@ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
ibreaker
2015-06-05 14:42:09 +08:00
@mengli 淘宝怎么买?
dgivan
2016-09-18 15:40:35 +08:00
。。。。。。。。。。。。用高质量的代理 IP 吧。
阿布云代理,曲以代理。等等
http://www.abuyun.com
ibreaker
2016-09-29 10:02:15 +08:00
@dgivan 我还以为阿里云 。。。醉了
qsnow6
2017-02-07 15:17:12 +08:00
@binux 有没有配置文件参照,我写了一份,发现不能正常工作

https://www.v2ex.com/t/338729#reply0
rocketman13
2018-11-02 21:18:42 +08:00
@binux 你好,我的 squid 正向代理池 总是使用不了,不知道什么原因,有空帮忙看看配置文件吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/114055

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX