V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
saximi
V2EX  ›  Python

关于用 Scrapy 开发爬虫时使用代理 IP 的问题

  •  
  •   saximi · 2017-10-24 21:56:44 +08:00 · 7487 次点击
    这是一个创建于 2616 天前的主题,其中的信息可能已经有所发展或是发生改变。
    用 Scrapy 开发爬虫时想使用多个代理服务器的 IP 来隐藏真实 IP,请教大家几个问题:
    1、哪里可以找多个可用的代理 IP,以及如何判断 IP 是否可用,多个可用的 IP 间如何择优排序?
    2、 有没有基于 SCRAPY 框架,使用代理 IP 来实现爬虫的范例可供学习呢?

    感谢!
    16 条回复    2017-10-26 10:20:18 +08:00
    seven2016
        1
    seven2016  
       2017-10-24 22:23:23 +08:00
    fiht
        2
    fiht  
       2017-10-24 22:45:37 +08:00
    1. 代理 IP 直接购买就好,五块钱的代理够你爬很多很多很多数据了。判断 IP 是否可用,择优排序,应该属于另外一个系统做的事情。另外一个系统负责对代理池中的 IP 进行存活检测和速度测试打分。你去 gayhub 搜一下代理 IP 有现成的轮子。
    2. 请 Google 之。
    mon3
        3
    mon3  
       2017-10-24 23:05:35 +08:00
    hcnhcn012
        4
    hcnhcn012  
       2017-10-24 23:16:53 +08:00 via iPhone
    Scrapoxy,这是官方推荐的框架
    saximi
        5
    saximi  
    OP
       2017-10-24 23:19:37 +08:00
    @mon3
    @seven2016
    @fiht 感谢指点,因为是初学,所以暂时不准备直接购买代理,准备先学习例子做一个练练手。
    saximi
        6
    saximi  
    OP
       2017-10-24 23:20:22 +08:00
    @hcnhcn012 谢谢,不知有没有关于这个框架的中文资料推荐?另外这个框架和 Scrapy 不可以同时使用吧?
    hcnhcn012
        7
    hcnhcn012  
       2017-10-25 00:28:37 +08:00 via iPhone
    @saximi 当然可以同时用啊,这个只是一个 js 写的代理,和 scrapy 没有关系的,但是和爬虫一起用就可以达到换 ip 或者是 user-agent 等等的目的了
    官方防 ban 建议里提到了
    https://docs.scrapy.org/en/latest/topics/practices.html#avoiding-getting-banned
    http://scrapoxy.io/
    sunwei0325
        8
    sunwei0325  
       2017-10-25 06:36:34 +08:00
    crawlera, 国内也有阿布云之类的每次请求都换一个 ip, 自己爬的免费代理有效性很差, 也可以自己搭几个拨号服务器充当代理, 自己控制拨号手动换 ip
    aaronzjw
        9
    aaronzjw  
       2017-10-25 09:36:38 +08:00
    ZiLong
        10
    ZiLong  
       2017-10-25 09:48:32 +08:00
    @sunwei0325 老哥,拨号服务器这个怎么搭,有推荐教材么
    sunwei0325
        11
    sunwei0325  
       2017-10-25 10:47:36 +08:00
    saximi
        12
    saximi  
    OP
       2017-10-25 19:26:48 +08:00
    @hcnhcn012 谢谢,我找了下,没看到有 scrapoxy 的中文教材呢?
    hcnhcn012
        13
    hcnhcn012  
       2017-10-25 19:41:51 +08:00 via iPhone
    @saximi 是的
    saximi
        14
    saximi  
    OP
       2017-10-25 21:48:15 +08:00
    @hcnhcn012 有已经实现的例子可以供参考么
    hcnhcn012
        15
    hcnhcn012  
       2017-10-25 22:18:10 +08:00 via iPhone
    @saximi 没。。网上找找应该有的吧
    ZiLong
        16
    ZiLong  
       2017-10-26 10:20:18 +08:00
    @sunwei0325 感谢,老哥稳!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5810 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 03:19 · PVG 11:19 · LAX 19:19 · JFK 22:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.