V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
letuslinux
V2EX  ›  程序员

求大神指教抓取各大 ota 的机票,酒店报价。比如携程,去哪,艺龙。

  •  
  •   letuslinux · 2014-11-13 12:26:54 +08:00 · 3958 次点击
    这是一个创建于 3667 天前的主题,其中的信息可能已经有所发展或是发生改变。
    感觉这些ota都有防抓取啊,太噁心了。
    11 条回复    2014-11-14 17:10:04 +08:00
    letuslinux
        1
    letuslinux  
    OP
       2014-11-13 12:34:28 +08:00
    自顶一发
    sivacohan
        2
    sivacohan  
       2014-11-13 13:07:55 +08:00 via Android
    看你想用多少钱,多少时间解决这个问题。
    takwai
        3
    takwai  
       2014-11-13 13:27:51 +08:00 via Android
    benjiam
        4
    benjiam  
       2014-11-13 17:12:49 +08:00
    要很多很多代理, 某些ota 我知道定期用机器学习来看你访问的内容,只有网页 没有css, jpg的这种访问,立刻就被关闭了。如果一个劲的抓,也是很容易就关闭了,毕竟防比抓简单。
    letuslinux
        5
    letuslinux  
    OP
       2014-11-13 17:42:14 +08:00
    @benjiam 嗯,只有靠某些公网的出口ip去抓,这样的话,他们就不敢防了
    GeekGao
        6
    GeekGao  
       2014-11-14 09:25:19 +08:00
    @letuslinux cookie + 验证码 + 频率限制。你公网ip再牛叉也要解决验定期被block的问题啊!
    zzcworld
        7
    zzcworld  
       2014-11-14 09:40:14 +08:00 via iPhone
    模拟正常用户点击的频率,时间间隔变化要大一些
    zaqer
        8
    zaqer  
       2014-11-14 10:39:12 +08:00
    有api的,貌似还可以拿佣金
    benjiam
        9
    benjiam  
       2014-11-14 11:45:27 +08:00
    @GeekGao 如果cookie 加验证码 那他们就不用开网站了。 他们的难度是 一开始要信任你,然后快速甄别出你。
    GeekGao
        10
    GeekGao  
       2014-11-14 15:15:17 +08:00
    @benjiam 连google都有验证码 ,你一段时间内访问频率高了,就看到了。你不知道?
    benjiam
        11
    benjiam  
       2014-11-14 17:10:04 +08:00
    @GeekGao 和我说的有冲突嘛? google 也是一开始就信任你,不给你验证码。但是很快就甄别出你是个爬虫 给你验证码。 ota 也一样。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2418 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:08 · PVG 00:08 · LAX 08:08 · JFK 11:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.