• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Sparetire
V2EX  ›  程序员

帮公司写了个简单爬虫有没有什么风险

  •  
  •   Sparetire · Nov 19, 2019 · 10454 views
    This topic created in 2376 days ago, the information mentioned may be changed or developed.

    RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

    PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

    如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

    52 replies    2019-11-21 10:43:56 +08:00
    NicholasK
        1
    NicholasK  
       Nov 19, 2019   ❤️ 6
    还是写免责吧,爬虫现在不注意,爬着爬着就爬进去了
    fank99
        2
    fank99  
       Nov 19, 2019
    不涉及个人信息、版权信息大概率没事
    电商价格这种,极小概率有事
    zarte
        3
    zarte  
       Nov 19, 2019
    降低速率,要不然有问题都算你头上,写了免责也没用。
    shehuizhuyi
        4
    shehuizhuyi  
       Nov 19, 2019
    只要别人肉到你就没事吧 GitHub 一堆翻墙软件
    zhoulifu
        5
    zhoulifu  
       Nov 19, 2019   ❤️ 3
    爬虫写的好,牢饭吃到饱
    InkStone
        6
    InkStone  
       Nov 19, 2019
    有没有风险看两点:1. 爬电商数据会不会让对方不开心; 2. 你是不是知道爬虫是用来抓电商数据的。

    第二点我们已经确认了,第一点出问题的概率不大,但不是 0.
    Tink
        7
    Tink  
    PRO
       Nov 19, 2019 via iPhone
    没事
    xuanbg
        8
    xuanbg  
       Nov 19, 2019
    别爬个人隐私信息,这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。
    houzhimeng
        9
    houzhimeng  
       Nov 19, 2019
    爬虫所有信息都是伪造的,怎么被抓的?
    andylsr
        10
    andylsr  
       Nov 19, 2019 via Android
    你的电商价格只要用于产品,告你不正当竞争,妥妥的
    holajamc
        11
    holajamc  
       Nov 19, 2019
    @NicholasK 好奇问问这种免责是不是有用
    FaceBug
        12
    FaceBug  
       Nov 19, 2019
    出问题的都是爬个人隐私的,比如你爬了用户的订单、银行卡信息,无论用户是否同意,都尽量不要碰。

    其次就是爬的速度了,比如淘宝京东这种大站,你一秒爬个几百几千次,问题不大,但是你要把人家爬成了双十一的流量,你也跑不掉的。
    NicholasK
        13
    NicholasK  
       Nov 19, 2019
    @holajamc 真出事了还太大作用,毕竟写的是你,
    westoy
        14
    westoy  
       Nov 19, 2019
    @andylsr

    没那么夸张, 定价是公开数据,监控友商定价然后根据策略动态调价的所有大电商都有的, 美亚新蛋、卓越当当、一号店易讯京东, 你降一毛我降一毛, 都打过
    BlackZhu
        15
    BlackZhu  
       Nov 19, 2019
    请教一下,公司有个爬虫,爬的是一些农作物网站的信息,然后集中显示到一个网站上,偶尔会爬些农作物专家的姓名,电话这种信息,请问是违法的吗?
    flighter
        16
    flighter  
       Nov 19, 2019
    @BlackZhu 涉及爬取个人隐私身份信息是违法的
    holajamc
        17
    holajamc  
       Nov 19, 2019
    @NicholasK 还是持怀疑态度,感觉应该不行…
    yangzzzzzzzt1
        18
    yangzzzzzzzt1  
       Nov 19, 2019
    @cepczkd 能跑成双十一流量也是一种本事
    NerverLibis
        19
    NerverLibis  
       Nov 19, 2019
    python 学得好 牢饭吃到老
    bobuick
        20
    bobuick  
       Nov 19, 2019
    爬虫写的好, 老婆来不了
    RyuZheng
        21
    RyuZheng  
       Nov 19, 2019
    我要是爬淘宝上一些商品的评论呢,也不是公司用,就是拿来自己做一下词云、机器学习分析玩玩;违法吗?
    dr1q65MfKFKHnJr6
        22
    dr1q65MfKFKHnJr6  
       Nov 19, 2019
    爬虫 别暴露开发者个人信息, 有必要的话, 代码混淆工具用起来。
    tomczhen
        23
    tomczhen  
       Nov 19, 2019
    从案例看明确的违法行为只有爬隐私信息这条,涉及逆向和破解的,如果被第三方非法利用,也会被连带。另外即便是公开信息,如果造成不良影响也是有风险的。

    不过说实话,从目前越来越封闭的趋势看,Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外,获取信息的难度会越来越大,必然会涉及到破解突破限制,或者通过逆向 APP 爬取。走到这一步,可以说已经是在门口站着了,剩下的已经不是自己可以控制的了(虽然目前看几率不高)。
    Lockeysama
        24
    Lockeysama  
       Nov 19, 2019   ❤️ 5
    面向监狱编程
    zaul
        25
    zaul  
       Nov 19, 2019
    做好心理准备,在乎于你的竞争对手想不想搞你
    anteros
        26
    anteros  
       Nov 19, 2019
    只要别人告你,你的程序影响了它的项目正常运营,比如说你把他程序爬跨了,你就吃牢饭。
    emisora
        27
    emisora  
       Nov 19, 2019
    还在学爬虫就感觉慌的一批
    darknoll
        28
    darknoll  
       Nov 19, 2019
    先别担心风险啥的,你以为人网站就那么随便让你爬的,你先试试你的程序能稳定跑起来再说。
    Sparetire
        29
    Sparetire  
    OP
       Nov 19, 2019
    @zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好
    @NerverLibis nodejs 选手...
    @cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧...

    @darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧
    mytsing520
        30
    mytsing520  
    PRO
       Nov 19, 2019
    写免责只是自欺欺人
    dosmlp
        31
    dosmlp  
       Nov 19, 2019
    降低频率就行了,还有就是不要公开源码
    18k
        32
    18k  
       Nov 19, 2019
    这种理论上应该可以吧
    不然那些比价网站不是都得进去
    来个律师解读下
    muzuiget
        33
    muzuiget  
       Nov 19, 2019
    @cepczkd 这种数据怎么爬呢?能爬的只有公开数据。
    TheFLY
        34
    TheFLY  
       Nov 19, 2019
    @shehuizhuyi 数据来源方给公司发律师函,然后公司把你推出去,常规操作
    IanPeverell
        35
    IanPeverell  
       Nov 19, 2019
    大公司的网站应该都有 robots.txt ,里面已经写好了限制,遵守应该就可以了。比如 https://www.jd.com/robots.txt
    guanhui07
        36
    guanhui07  
       Nov 19, 2019
    降低频率 代码混淆
    rubycedar
        37
    rubycedar  
       Nov 19, 2019 via iPhone
    要是犯法的话 慢慢买的开发者早进去了吧
    crackhopper
        38
    crackhopper  
       Nov 19, 2019
    这种事情应该拒绝做。之前有个 case 貌似程序员被抓了。真要做,你要想好:
    1. 速率,一般爬的速率大很成问题
    2. 行为,如果对方不允许爬取,你要掩盖自己的行为。IP,访问路径,访问模式等等。
    反正无论如何都有风险。
    FaceBug
        39
    FaceBug  
       Nov 19, 2019
    @muzuiget 我举个例子,我做了一个话费查询软件,你本人在我的系统里输入了你的账号密码,本意是查询余额。但是我不仅爬了你的余额,还爬了你的通讯记录和你的个人资料。
    zhaofy
        40
    zhaofy  
       Nov 19, 2019
    woc 我帮公司写了几个爬各地工信部新闻的 会不会有事啊。。
    pence2019
        41
    pence2019  
       Nov 19, 2019
    @zhaofy 这么叼 你很危险呀
    realpg
        42
    realpg  
    PRO
       Nov 19, 2019
    天天一帮叫嚣看 tos 的大佬
    在爬虫问题上就无视 tos 了
    nvhanzhi
        43
    nvhanzhi  
       Nov 19, 2019
    爬公开信息,别把人家服务器爬挂了就行
    snoopygao
        44
    snoopygao  
       Nov 19, 2019
    巧了,还有像你一样的 10000 个人,也以“说得过去”的速度爬同一家网站,把人家搞挂了
    Raymon111111
        45
    Raymon111111  
       Nov 19, 2019
    搜索一下 爬虫 犯罪
    dr1q65MfKFKHnJr6
        46
    dr1q65MfKFKHnJr6  
       Nov 19, 2019
    @Sparetire 如果起诉公司,这都是对公司追责,你个人只要是在公司授意下做的开发,感觉责任较小。
    dearmymy
        47
    dearmymy  
       Nov 19, 2019
    互联网这些公司翻旧账没一个干净的。基本有些线别碰其他就好,爬虫线就是个人隐私。其他的你爬速度别太过分就好了
    em70
        48
    em70  
       Nov 19, 2019
    搜索引擎的爬虫天天到处爬,也没见犯罪,最近被抓的都是涉及个人隐私信息的金融数据爬虫,爬公开电商信息被抓不存在的,可以研究下对方的 robot.txt
    justin2018
        49
    justin2018  
       Nov 19, 2019
    写好了 放到 Github 的小号上

    你说是从 github 上找到的 这样可以吗 o(╥﹏╥)o
    MrJie
        50
    MrJie  
       Nov 20, 2019
    爬虫,从入门到入狱
    ty89
        51
    ty89  
       Nov 20, 2019
    爬虫写的好,老婆改嫁早
    nnnToTnnn
        52
    nnnToTnnn  
       Nov 21, 2019
    @Sparetire

    第一,你不应该去问这个程序是干嘛的,只是说这是公司给你工作。
    第二,在写完后,程序启动之前写上一下内容

    此程序仅作为学习交流使用,禁止作为商业用途。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2801 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 222ms · UTC 12:15 · PVG 20:15 · LAX 05:15 · JFK 08:15
    ♥ Do have faith in what you're doing.