有的时候需要悄悄地爬取别人的网站上的东西,但是又不希望因为这个去购买爬虫 API (有的时候也不一定靠谱), 所以索性自己写爬虫,先去爬网上免费的代理 IP,然后筛选汇集成一个代理 IP 池。
然后我现在就简单的写了一个简单的获取代理 IP 的主体,希望能有更多人参与进来,大家一起有需要的就拿去用。
特性:
- 使用方便,直接 npm require,直接获取 IP List.
- 增加其他在线代理网站方便,增加爬取网站就只需要写一个 js.
- 简单,不需要其他的操作,最后的结果就一个想法,最快,最好,最稳定的 **免费** IP List(希望如此吧 =.=)
缺陷:
- 如何筛选出最快可用 IP 还没做,但是有一些想法,比如 ping 出最快的,或者是直接用爬取网站的排序
- 有的 IP 虽然速度很快但是无论访问哪个网址都会返回他的广告,这个要去掉。o(╯□╰)o
- 代理网站太少了,我现在就做了一个
如果有相同想法的可以一起来开发,nodejs 开发,依赖就一个 cheerio, 只需要写上 cheerio 的爬取方法就可以了。
欢迎 PR.
如果已经有成熟的开源库,请一定告诉我,特别是直接就能拿到大量的高速,稳定的 Proxy IP List 的库,这样我就不用再重复造轮子了。
1
golmic 2017-12-04 18:40:37 +08:00
|
2
cojing 2017-12-04 21:06:23 +08:00
http://mcbbs.online:3000/proxy/v1/all/json
|
4
selfAccomplish 2017-12-05 09:21:36 +08:00
@cojing 这是你自己搭建的吗老哥
|
5
kohos 2017-12-05 15:14:26 +08:00
https://proxy.coderbusy.com/
这网站不错,就是没找到接口 |
6
cojing 2017-12-05 21:44:06 +08:00 via Android
@selfAccomplish 是的 自用 稳定性不强
|
9
selfAccomplish 2017-12-07 20:47:54 +08:00
@cojing 嗯嗯,谢谢了,省下自己搭建了;)
|