V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
grayfox
V2EX  ›  程序员

请问对招聘网站的在线简历数据爬虫会涉及法律风险吗

  •  
  •   grayfox · 2024-07-21 17:04:00 +08:00 · 3806 次点击
    这是一个创建于 418 天前的主题,其中的信息可能已经有所发展或是发生改变。
    36 条回复    2024-07-23 16:04:35 +08:00
    Joeith
        1
    Joeith  
       2024-07-21 17:17:22 +08:00
    「真~面向监狱编程」
    grayfox
        2
    grayfox  
    OP
       2024-07-21 17:17:54 +08:00
    像 51job 、boss 这些
    grayfox
        3
    grayfox  
    OP
       2024-07-21 17:21:18 +08:00
    @Joeith 哈哈
    liaohongxing
        4
    liaohongxing  
       2024-07-21 18:12:18 +08:00
    极大法律风险,爬虫可以定罪 非法获取计算机信息系统数据罪 , 网站还可以报警称我服务器被爬崩了(尽管没有爬崩),又来一个 破坏计算机信息系统罪
    nyxsonsleep
        5
    nyxsonsleep  
       2024-07-21 18:32:07 +08:00
    控制你的频率。个人使用问题不大,人家有风控的,你还没爬几条 IP 就挂了。
    akira
        6
    akira  
       2024-07-21 18:34:43 +08:00
    不要用任何 反反爬 技术,不要拿去卖钱,应该就问题不大了
    qoras
        7
    qoras  
       2024-07-21 18:38:26 +08:00
    @liaohongxing 很好奇, 为什么大公司做火车票抢票, 代买这些就是可以的呢
    lucasj
        8
    lucasj  
       2024-07-21 18:41:47 +08:00
    @qoras #7 可能是购买了 API 授权或公司合作之类的。
    iorilu
        9
    iorilu  
       2024-07-21 19:01:34 +08:00
    肯定有风险得

    非要搞就弄个国外主机爬, 至少保护下自己

    当然了, 有的必须要账户登录, 那就要看你怎么隐藏自己了
    kk2syc
        10
    kk2syc  
       2024-07-21 20:18:03 +08:00
    @qoras 火车票机票这些实际上是聚合调用很多大大小小票务公司的接口,人家本身是合法的,只要不超过官方给他们的接口 QPS/TPS 就没问题
    sead
        11
    sead  
       2024-07-21 20:29:50 +08:00
    只要是境内的站点,就要远离爬虫;走正规渠道的 api
    yufeng0681
        12
    yufeng0681  
       2024-07-21 21:19:14 +08:00
    没啥风险,你根本爬不了多少条。 人家反爬技术是一个团队在做。
    xe2vdw
        13
    xe2vdw  
       2024-07-21 21:35:02 +08:00
    非法获取计算机信息系统数据罪、破坏计算机信息系统罪了解一下。另外简历也太敏感,侵犯公民个人信息罪了解一下。
    Rache1
        14
    Rache1  
       2024-07-21 21:36:10 +08:00
    同前面所说的,除了非法侵入计算机系统,还有可能涉及侵犯公民个人信息
    R4rvZ6agNVWr56V0
        15
    R4rvZ6agNVWr56V0  
       2024-07-21 21:49:41 +08:00
    4BVL25L90W260T9U
        16
    4BVL25L90W260T9U  
       2024-07-21 21:50:14 +08:00
    收集个人隐私,不管按哪个国家都是严重的犯罪,这块还真不用黑天朝
    abcbuzhiming
        17
    abcbuzhiming  
       2024-07-21 22:04:10 +08:00
    你自己爬着玩玩,只要不把别人的服务器拖垮了,一般不会找到你头上。

    但凡你是在公司干这事情,那你就得有一个极其靠谱的靠山——在出事的时候把你捞出来。这里面的关键点不在于“爬”,而是你把“爬”来的数据拿来干什么。绝大部分公司都是死在这上面。把没授权的数据拿来商用但凡抓到就是死

    @qoras 因为人家大公司有强力的法务团队和政府关系团队,你有吗?
    forgottencoast
        18
    forgottencoast  
       2024-07-21 22:39:46 +08:00
    以前环境很宽松的时候,我们公司都爬过,全扒拉下来了,其中有个网站还给爬崩过。。。
    现在想想都发抖。。。
    zhw2590582
        19
    zhw2590582  
       2024-07-21 23:01:37 +08:00
    现在的反爬虫技术应该很成熟了吧,所看到的文本根本就不是 html 文本
    akinoowari
        20
    akinoowari  
       2024-07-22 00:50:30 +08:00 via iPhone
    以智联为例,爬简历需要账号上传营业执照,而且 qps 稍微一高,或者短时间爬的量稍微大一点,就直接封账号。
    lanyi96
        21
    lanyi96  
       2024-07-22 09:51:23 +08:00
    非法存储公民信息罪
    ISOtropy
        22
    ISOtropy  
       2024-07-22 10:20:45 +08:00 via Android
    个人用没人管你 商业上别侵害到对方的利益就行 当然 不按照 robot.txt 爬虫违法
    dyllen
        23
    dyllen  
       2024-07-22 10:31:44 +08:00
    你这又爬虫,又别人简历的。你自己玩没事,你要公开被抓到了,别人要搞你,你看看你犯了不止一条。
    me1onsoda
        24
    me1onsoda  
       2024-07-22 11:07:12 +08:00
    正常爬的话没问题,但没啥用肯定是满足不了你的预期,基本是做了反爬,跟它对抗那就是另一回事了
    Hozoy
        25
    Hozoy  
       2024-07-22 13:18:07 +08:00   ❤️ 1
    @kk2syc #10 说错了,大公司提供火车票购票都是走的 12306 客户端或者 web 端协议,都是逆向出来搞的,不然为什么要你的 12306 的账号密码? 现在没出事是因为 12306 默许这些公司去爬。你可以去裁判网看一下,爬火车票没有一例被起诉的 不管是公司还是个人。
    chapiom
        26
    chapiom  
       2024-07-22 13:50:19 +08:00 via iPhone
    @Hozoy 严格的说买票不算爬虫吧,只是去单次搜索购票,又不是把车次信息全部抓下来。
    zcybupt2016
        27
    zcybupt2016  
       2024-07-22 14:15:45 +08:00
    讲个案例,我们是几个常用的招聘网站之一,有个猎头公司内部开发了个浏览器插件,可以批量获取简历,但是量也其实不是很大,跟公司内部的猎头的日常浏览行为混在一起,被我们发现送去踩缝纫机了
    cherryas
        28
    cherryas  
       2024-07-22 14:45:36 +08:00
    12306 都澄清 100 次没有和任何第三方平台有合作了。
    kk2syc
        29
    kk2syc  
       2024-07-22 17:11:46 +08:00
    @Hozoy 你自己买一张车票然后电子发票看看,12306 买一张然后电子发票看看

    @cherryas 票务公司不是三方平台,是合规代理商。属于历史遗留问题,绿皮火车时代大街小巷代售火车票大巴车票的那些人
    cherryas
        30
    cherryas  
       2024-07-22 17:28:05 +08:00
    @kk2syc 首先 12306 就不会给绿皮时代的公司开发订票 api ,有也是和 12306 窗口同级的查票软件。 最终取数据还是走破解协议。
    Hozoy
        31
    Hozoy  
       2024-07-22 20:54:12 +08:00
    @kk2syc #29 来,你要是较真我还真给你查一下,飞猪:纸质火车票就是报销凭证(暂不提供电子发票),您可在开车前或乘车日期之日起 180 日内(含当日),凭乘车人购票证件原件(如多乘车人,需分别提供),到全国任意火车站自助取票机或售票窗口换取报销凭证。携程:如需车票报销凭证,可在开车前或乘车后 180 日内凭乘车人购票证件原件前往车站的自助售/取票机打印。去哪儿:您好,火车票无法提供电子发票,如您需要火车票发票,请在开车前或乘车之日起 180 日内,凭乘车人购票证件原件自行去火车站打印报销凭证。 自己如果不了解行业内消息就别显得知道的很多。现在大厂买票都是走的逆向的协议,哪里来的订票 api 。
    kk2syc
        32
    kk2syc  
       2024-07-23 10:47:35 +08:00
    @cherryas 也没错,和车站售票窗口一样的票务站务端,直连数据库,比 app 前台数据快 1 分钟
    @Hozoy 之前的东家是票务代理公司,我不涉及开发铁路部分,但是,一些东西还是知道的。 现在大厂买票都是走的逆向的协议,请问您是大厂负责这部分开发的员工吗?
    zzzlight
        33
    zzzlight  
       2024-07-23 13:55:56 +08:00
    @qoras 因为顺带为了解决这些风险招了不少皇亲国戚吉祥物
    zzzlight
        34
    zzzlight  
       2024-07-23 13:56:40 +08:00
    @qoras 顺带一提,它同时也是某区交税大户,这点保护还是要给的
    cherryas
        35
    cherryas  
       2024-07-23 15:22:06 +08:00
    @kk2syc 错误,重点是走的逆向
    8355
        36
    8355  
       2024-07-23 16:04:35 +08:00   ❤️ 1
    前面的说到 12306 这性质还一样,12306 是面向所有人公开信息
    你这个在线简历是非公开信息,而且还是个人隐私数据,涉及姓名/手机号码/生日/工作经历等敏感信息。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:16 · PVG 05:16 · LAX 14:16 · JFK 17:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.