高速稳定的代理

2015-10-14 11:38:50 +08:00
 tongle
爬取网站信息时频率太高导致经常被封 IP 地址,找了一些代理但是效果都不太理想,大家有什么优质的代理推荐吗?
8035 次点击
所在节点    程序员
36 条回复
alect
2015-10-14 12:11:06 +08:00
开全局代理之后再开 goagent 去爬?
boter
2015-10-14 12:52:54 +08:00
@alect 这是要伪装成 g 蜘蛛吗
xfspace
2015-10-14 12:53:43 +08:00
马宝有卖
pango
2015-10-14 13:04:16 +08:00
tor ,你值得拥有。
我在 do 的 vps 上开 100 个 tor 实例,每小时重启 1/3 实例,于是就有了取之不尽用之不竭的 ip
tongle
2015-10-14 13:26:48 +08:00
@xfspace 某宝的稳定靠谱吗
xfspace
2015-10-14 13:28:19 +08:00
@tongle 马宝的也不稳定...你只能手动扫了
kmahyyg
2015-10-14 13:30:53 +08:00
@pango 怎么弄得?求教程?
boter
2015-10-14 13:36:41 +08:00
@pango tor 的血就是被你吸干的,[doge]
gzlock
2015-10-14 14:07:28 +08:00
@pango 求科普 tor
cdwyd
2015-10-14 16:31:30 +08:00
@pango 同求教程
liufuyi
2015-10-14 16:33:56 +08:00
@pango 求求求
fchypzero
2015-10-14 16:33:57 +08:00
ADSL VPS ,断开就换 IP ,一个地区少说一万多 IP ,足够了吧
zscblowgod
2015-10-14 16:47:25 +08:00
hrvpn 这货感觉不错~
yuzo555
2015-10-14 19:06:28 +08:00
@fchypzero 求推荐
blueeon
2015-10-14 20:23:10 +08:00
好像我知道有个团队正在做一个这样子的产品,针对的场景和你的需求还挺像,简单来说,是一个单入口,多出口的正向代理服务,出口可以自动更换 IP ,去访问你的目标 URL ;但是是收费的,好像是准备按次或者流量来收费,不知道现在开发到什么阶段了。。。
pango
2015-10-14 20:48:33 +08:00
@kmahyyg 开 n 个 tor ,比如: tor --RunAsDaemon 1 --CookieAuthentication 0 --HashedControlPassword "" --ControlPort $your_random_port --PidFile tor$your_random_id.pid --SocksPort $your_random_socks_port --DataDirectory data/tor$your_random_id ,然后你就有了 n 个不同端口的本地代理啊,然后抓取程序随机选择一个就行了。
pango
2015-10-14 20:50:33 +08:00
@boter 好吧,我去开少点,其实我也只是抓取的时候开一下啊,一般每次就一两个小时。[doge] 是什么意思?
pango
2015-10-14 21:14:08 +08:00
刚刚去看了下 tor 的原理,“ Tor 的转发节点都是网络上的志愿者们使用自己的服务器和网络带宽建立起来的,如果通过 Tor 网络来进行巨额数据的传输,实在是非常的不厚道”。
我决定放弃使用 tor 抓取大量数据了,多谢 boter 提醒,也请大家仅用这个方法来测试用,不要用作生产环境。
在这里推荐另外一个方法:
https://github.com/wenson/proxypool
这个可以抓取各大 proxy 站点公布的 proxy ,经过测试有效性后存入 redis ,可以同时提供多达几百个有效 proxy ,可以自己写个 cronjob 每隔一段时间更新 proxy 库,用作抓取应该够了。
Andy1999
2015-10-14 21:16:55 +08:00
伪造蜘蛛 UA 可行吗
kmahyyg
2015-10-14 23:21:24 +08:00
我只是想开一个程序临时用用,主要用 ss 。有详细的部署教程吗? for centos7/debian7 均可

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/227913

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX