如何才能写一个简单的代理抓取器?

2015-11-03 13:34:35 +08:00
 xiaoyu9527

想学习用 Python 写一个简单的代理抓取器

抓取几个页面的代理

测试延迟 高于 xxx 的抛弃

然后导出 TXT

1258 次点击
所在节点    问与答
2 条回复
wkdhf233
2015-11-03 13:52:14 +08:00
读 html ,正则匹配出代理信息,然后遍历 ping 一遍
ping 可以搞个线程池高并发

不过感觉网页上抓的代理,测延迟不如测连通性
ETiV
2015-11-03 14:07:08 +08:00
https://github.com/wenson/proxypool

早前 star 过的一个项目..不过我不会 python, 只是拿了他里面的页面地址而已..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/233223

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX