V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaoyazi
V2EX  ›  外包

6k/月 招个爬虫兼职

  •  
  •   xiaoyazi · 2019-03-23 07:05:09 +08:00 via Android · 3695 次点击
    这是一个创建于 2078 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我司要做一个动态比价工具,须爬取大众点评 APP 及携程 web 的酒店价格。 数量大约为 500 家,每家 2 个指定房型,频率 3 分钟。

    长期。

    请“实测”成功联系我,不要没试过就说我可以。

    51 条回复    2019-03-29 13:09:58 +08:00
    d5
        1
    d5  
       2019-03-23 07:24:33 +08:00 via iPhone
    不是有大数据杀熟
    d5
        2
    d5  
       2019-03-23 07:25:46 +08:00 via iPhone   ❤️ 1
    与其正面对刚,不如试试 airtest,用测试框架来抓取原生 app 元素内容
    components
        3
    components  
       2019-03-23 07:40:25 +08:00   ❤️ 1
    爬虫这种已经是法律边缘的东西了,慎入!
    xiaoyazi
        4
    xiaoyazi  
    OP
       2019-03-23 07:42:50 +08:00 via Android
    不知为不知
    lhx2008
        5
    lhx2008  
       2019-03-23 07:54:36 +08:00 via Android
    3 分钟一次,不好搞,而且 6k 一个月干啥也不清楚
    yepinf
        6
    yepinf  
       2019-03-23 08:02:19 +08:00   ❤️ 6
    哈哈, 怕是公司 1-2w 招进去的的爬虫工程师,转手外包了 :doge
    dangyuluo
        7
    dangyuluo  
       2019-03-23 08:12:58 +08:00
    @yepinf 哈哈哈,思路不错。
    binux
        8
    binux  
       2019-03-23 08:17:45 +08:00   ❤️ 4
    给数据,不给代码,这个价格可以啊。
    不然给了代码,下个月再招个 600 的维护一下就好了。
    luozic
        9
    luozic  
       2019-03-23 08:35:05 +08:00 via iPhone
    给数据不给代码,这种可以有
    hahalo
        10
    hahalo  
       2019-03-23 08:54:25 +08:00 via Android
    给 api 接口不给代码,这种可以有
    zuoakang
        11
    zuoakang  
       2019-03-23 09:13:05 +08:00 via Android
    。都评论不接的吗
    php01
        12
    php01  
       2019-03-23 09:25:28 +08:00
    别人公司这么大是有原因的,稍微一点手段,比价就得人肉了,比如说优惠券玩法
    wangjinhui
        13
    wangjinhui  
       2019-03-23 09:26:16 +08:00 via Android
    @d5 对,这个最简单
    tabris17
        14
    tabris17  
       2019-03-23 09:35:18 +08:00   ❤️ 2
    @binux 醒醒吧,贩卖数据才是法律风险最高的。到时候抓你去坐牢,买家还是清清白白的
    xiaoyazi
        15
    xiaoyazi  
    OP
       2019-03-23 09:49:31 +08:00 via Android
    @binux 肯定是给数据即可
    ctro15547
        16
    ctro15547  
       2019-03-23 09:53:32 +08:00
    之前玩过类似的,看了一下需求不清楚是指定酒店?,一次 1000 条,代理的钱报销吗(手动斜眼)
    xiaoyazi
        17
    xiaoyazi  
    OP
       2019-03-23 09:54:06 +08:00 via Android
    @tabris17 我们自用的。如果在上海来公司看看就知道情况了。如果爬个几百家点评酒店价格也有法律风险,v 站多少人够进去了
    xiaoyazi
        18
    xiaoyazi  
    OP
       2019-03-23 09:54:53 +08:00 via Android
    @ctro15547 我们给酒店名单的,动态,报销代理
    justin2018
        19
    justin2018  
       2019-03-23 10:01:32 +08:00
    歪个楼 有高效 可靠的 代理推荐不 😁
    q8164305
        20
    q8164305  
       2019-03-23 10:13:00 +08:00 via Android
    爬出来的东西不都是公司自己公布出来的数据,这也违法?
    metrxqin
        21
    metrxqin  
       2019-03-23 10:25:46 +08:00
    @q8164305 数据的所有权还是不属于你。
    binux
        22
    binux  
       2019-03-23 10:31:43 +08:00
    @tabris17 #14 很简单,你和 LZ 签合同的时候加一句,你只是代理 LZ 行使数据获取行为,LZ 需要对数据的所有权和使用权负责。
    NeilWang
        23
    NeilWang  
       2019-03-23 10:37:44 +08:00 via Android
    @binux 活捉 pyspider 作者,我咋说这个 id 这么熟悉😁
    airqj
        24
    airqj  
       2019-03-23 10:40:25 +08:00
    3 分钟爬一次
    到后面基本就得面对各种反爬措施了
    xiaoyazi
        25
    xiaoyazi  
    OP
       2019-03-23 10:45:48 +08:00 via Android
    @binux 没问题的
    xiaoyazi
        26
    xiaoyazi  
    OP
       2019-03-23 10:46:19 +08:00 via Android
    @airqj 否则为什么付这月费呢
    binux
        27
    binux  
       2019-03-23 10:54:54 +08:00   ❤️ 1
    @airqj #24 反爬要做,但是最后还是靠代理。因为每月 3 千万的流量,傻子都能筛得出来,所以你至少需要有 30 万个 IP。比如 https://luminati.io/ 能提供 36M 个 IP,一个月大概要 12 万。
    veike
        28
    veike  
       2019-03-23 12:39:48 +08:00
    爬虫真的法律边缘了吗?
    liyaojian
        29
    liyaojian  
       2019-03-23 13:45:04 +08:00 via iPhone
    慢慢买这类服务也是法律边缘吗?
    gabon
        30
    gabon  
       2019-03-23 14:03:05 +08:00 via Android
    哪家公司
    belin520
        31
    belin520  
       2019-03-23 14:10:08 +08:00 via iPhone
    给编译后的程序+使用说明,并且把程序做成看起来是有通用性的,这样这只是把菜刀,杀人砍肉就不关你事了
    xiaoyazi
        32
    xiaoyazi  
    OP
       2019-03-23 18:24:48 +08:00 via Android
    @binux 不是爬全站
    xiaoyazi
        33
    xiaoyazi  
    OP
       2019-03-23 18:25:44 +08:00 via Android
    @gabon 不知名公司
    xiaoyazi
        34
    xiaoyazi  
    OP
       2019-03-23 20:51:09 +08:00 via Android
    我们同时在招专职员工,boss 直聘上投应聘的有 60 多人了,无一能解。我突然在想程序爬 APP 数据靠的是破解,破解就是算法的对抗,反爬与爬虫对抗就是硬刚,如果要爬全站肯定要靠算法,但我们只是爬几百个酒店,与其正面对抗能不能模拟真人操作,买 100 台手机走 100 个进程取 100 个价格。 非技术人员,想法可能贻笑大方
    binux
        35
    binux  
       2019-03-23 22:34:16 +08:00 via Android
    @xiaoyazi 问题是你要 3 分钟的频率,500*2 个房型*2 个网站,你自己算算。
    爬全站反而简单点
    xiaoyazi
        36
    xiaoyazi  
    OP
       2019-03-23 23:06:44 +08:00 via Android
    @binux 前两个月 200 个酒店差不多。增加服务器可以解决吗? 500 家酒店*2 个房型呀,不也就是 1000 个价格嘛。我不是很懂,请跟我说说
    binux
        37
    binux  
       2019-03-23 23:18:16 +08:00 via Android
    @xiaoyazi 1000 个价格* 2 个网站/ 3 分钟* 24*60*30
    linhua
        38
    linhua  
       2019-03-23 23:26:06 +08:00
    linhua
        39
    linhua  
       2019-03-23 23:41:19 +08:00
    @binux 两个网站的流量要分开算,如果 ip 的安全频率是 5 分钟的话,那么 也只需要 500*2*( 5/3 (向上取整))=2000 个 ip
    airqj
        40
    airqj  
       2019-03-23 23:49:30 +08:00
    @binux 如果不是三分钟的频率,估计早就有人接了 哈哈
    binux
        41
    binux  
       2019-03-24 00:15:33 +08:00 via Android
    @linhua 一个 IP 昼夜不停以 5 分钟间隔爬一个月?根本不靠谱好吧,除非你做好每过几天就换 2000 个 IP 的准备。
    xiaoyazi
        42
    xiaoyazi  
    OP
       2019-03-24 00:42:08 +08:00 via Android
    @binux 补充下,不需要 24 小时,销售工作时间爬即可( 12 小时),也不是 500 个站点同时,200 个并发。
    xiaoyazi
        43
    xiaoyazi  
    OP
       2019-03-24 00:42:42 +08:00 via Android
    @airqj 超过三分钟真不行
    woshipanghu
        44
    woshipanghu  
       2019-03-24 10:11:41 +08:00
    前期做好 后期维护 6000 一个月 挺不错的
    xiaoyazi
        45
    xiaoyazi  
    OP
       2019-03-24 15:31:09 +08:00 via Android
    @woshipanghu 可以签合同,保底一年
    tangmi
        46
    tangmi  
       2019-03-24 15:37:43 +08:00
    楼主,我给你 telegram 发消息了
    strpbrk
        47
    strpbrk  
       2019-03-24 17:32:08 +08:00
    爬过点评,代码还在
    xiaoyazi
        48
    xiaoyazi  
    OP
       2019-03-24 22:34:43 +08:00 via Android
    @tangmi
    szpShang
        49
    szpShang  
       2019-03-25 09:27:40 +08:00
    我有爬虫成套平台产品, 配置一下就能爬。公司有大量宽带账号,拨号换 ip 很轻松。私聊。
    xiaoyazi
        50
    xiaoyazi  
    OP
       2019-03-25 14:21:33 +08:00
    @szpShang Q94864
    lusi1990
        51
    lusi1990  
       2019-03-29 13:09:58 +08:00 via Android
    找到合适人选了吗 我晚上回去试试
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5464 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 07:40 · PVG 15:40 · LAX 23:40 · JFK 02:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.