数据采集问题,请教一下各位。

2015-08-23 10:57:07 +08:00
 geeglo
一共有七万条数据要采集,采集对象是一个数据接口,但是接口限制了频率,每小时 200 次左右,被限制之后换个 IP 就能继续采集的,我家里用 ADSL ,虽然可以做到被限制之后就自动重连换 IP ,可是这样效率并不高。

想问问,有没有好的办法,能快速采集完成。
2170 次点击
所在节点    问与答
13 条回复
publicID001
2015-08-23 11:03:40 +08:00
阿里云 开 35 台 最低配置 一小时解决 大概 15 块钱
kslr
2015-08-23 11:04:27 +08:00
代理
geeglo
2015-08-23 11:20:48 +08:00
@publicID001 大哥,少了个 0 。
kchum
2015-08-23 11:23:05 +08:00
代理 ip 日租 7 块钱
Strikeactor
2015-08-23 12:08:54 +08:00
http://spys.ru/free-proxy-list/CN/

Heroku 应用重启之后 IP 会换,控制得好也可以做到自动切 IP
abelyao
2015-08-23 12:31:40 +08:00
淘宝上之前有 1 块钱 8000 个代理 IP 的,运气好的话大概有五六千个是可以用的。去年底玩刷票的时候买了有十多万个。
现在的关键词比较难找,被屏蔽了很多,或许可以从百度去找。
aheadlead
2015-08-23 12:46:32 +08:00
@abelyao
powergx
2015-08-23 13:35:59 +08:00
自己去免费代理网站爬代理
xingzhi
2015-08-23 21:36:38 +08:00
注册 aws ,送 750 小时 EC2 t2.micro 实例的使用时间。
70000/200 = 350 , 开 350 台机子跑 1 小时就够了(只是有点浪费哈),免费份额还有剩余。
最简单的实现就是一台 master ,其余部署为代理服务器,使用这些机子做出口 ip 就好了。

若使用网上的代理服务器,我见过最靠谱的是 hide my ass 的代理服务器,源码做了混淆,比较难自动抓取,但也有现成的抓取程序 proxylist-hma, 亲测可用。

Ref:
ec2 : http://aws.amazon.com/cn/ec2
HMA proxy: http://proxylist.hidemyass.com/
proxylist-hma: https://github.com/bbertka/proxylist-hma
xingzhi
2015-08-23 21:37:56 +08:00
淘宝还有卖那种 ADSL 拨号主机,号称 ip 范围几万个,可以写代码实现 PPPoE 拨号和断线,也是亲测可用:)
geeglo
2015-08-24 16:50:22 +08:00
@xingzhi ppeo 拨号自动短线如何弄希望是 python 写的,虽然已经买代理 ip 搞定了,但还是想学一下,
xingzhi
2015-08-24 18:13:10 +08:00
@geeglo 淘宝上卖的那些机子都是 win xp 的,可以通过 python 调用执行系统命令来控制拨号。
如创建拨号连接后,调用 rasdial connection_name 和 rasdial connection_name /disconnect 控制连接和断线。


Ref :
Rasdial 通过使用简单的批处理文件和 rasdial 命令,可以使任何 Microsoft 客户端的连接过程自动化。 rasdial 命令使用指定项启动网络连接。

语法
rasdial connectionname [username [password | *]] [/domain:domain] [/phone:phonenumber] [/callback:callbacknumber] [/phonebook:phonebookpath] [/prefixsuffix]

rasdial 命令使用以下语法断开网络连接:

rasdial [connectionname] /disconnect
geeglo
2015-08-24 18:21:55 +08:00
@xingzhi 感谢🙏

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/215290

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX