V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sparetire
V2EX  ›  程序员

帮公司写了个简单爬虫有没有什么风险

  •  
  •   Sparetire · 2019-11-19 09:49:35 +08:00 · 9435 次点击
    这是一个创建于 1808 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

    PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

    如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

    52 条回复    2019-11-21 10:43:56 +08:00
    NicholasK
        1
    NicholasK  
       2019-11-19 09:54:12 +08:00   ❤️ 6
    还是写免责吧,爬虫现在不注意,爬着爬着就爬进去了
    fank99
        2
    fank99  
       2019-11-19 09:56:05 +08:00
    不涉及个人信息、版权信息大概率没事
    电商价格这种,极小概率有事
    zarte
        3
    zarte  
       2019-11-19 09:57:22 +08:00
    降低速率,要不然有问题都算你头上,写了免责也没用。
    shehuizhuyi
        4
    shehuizhuyi  
       2019-11-19 10:03:53 +08:00
    只要别人肉到你就没事吧 GitHub 一堆翻墙软件
    zhoulifu
        5
    zhoulifu  
       2019-11-19 10:06:02 +08:00   ❤️ 3
    爬虫写的好,牢饭吃到饱
    InkStone
        6
    InkStone  
       2019-11-19 10:09:37 +08:00
    有没有风险看两点:1. 爬电商数据会不会让对方不开心; 2. 你是不是知道爬虫是用来抓电商数据的。

    第二点我们已经确认了,第一点出问题的概率不大,但不是 0.
    Tink
        7
    Tink  
       2019-11-19 10:19:23 +08:00 via iPhone
    没事
    xuanbg
        8
    xuanbg  
       2019-11-19 10:20:37 +08:00
    别爬个人隐私信息,这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。
    houzhimeng
        9
    houzhimeng  
       2019-11-19 10:22:29 +08:00
    爬虫所有信息都是伪造的,怎么被抓的?
    andylsr
        10
    andylsr  
       2019-11-19 10:23:47 +08:00 via Android
    你的电商价格只要用于产品,告你不正当竞争,妥妥的
    holajamc
        11
    holajamc  
       2019-11-19 10:23:50 +08:00
    @NicholasK 好奇问问这种免责是不是有用
    FaceBug
        12
    FaceBug  
       2019-11-19 10:24:04 +08:00
    出问题的都是爬个人隐私的,比如你爬了用户的订单、银行卡信息,无论用户是否同意,都尽量不要碰。

    其次就是爬的速度了,比如淘宝京东这种大站,你一秒爬个几百几千次,问题不大,但是你要把人家爬成了双十一的流量,你也跑不掉的。
    NicholasK
        13
    NicholasK  
       2019-11-19 10:27:22 +08:00
    @holajamc 真出事了还太大作用,毕竟写的是你,
    westoy
        14
    westoy  
       2019-11-19 10:31:47 +08:00
    @andylsr

    没那么夸张, 定价是公开数据,监控友商定价然后根据策略动态调价的所有大电商都有的, 美亚新蛋、卓越当当、一号店易讯京东, 你降一毛我降一毛, 都打过
    BlackZhu
        15
    BlackZhu  
       2019-11-19 10:37:14 +08:00
    请教一下,公司有个爬虫,爬的是一些农作物网站的信息,然后集中显示到一个网站上,偶尔会爬些农作物专家的姓名,电话这种信息,请问是违法的吗?
    flighter
        16
    flighter  
       2019-11-19 10:43:03 +08:00
    @BlackZhu 涉及爬取个人隐私身份信息是违法的
    holajamc
        17
    holajamc  
       2019-11-19 10:47:10 +08:00
    @NicholasK 还是持怀疑态度,感觉应该不行…
    yangzzzzzzzt1
        18
    yangzzzzzzzt1  
       2019-11-19 10:47:53 +08:00
    @cepczkd 能跑成双十一流量也是一种本事
    NerverLibis
        19
    NerverLibis  
       2019-11-19 10:47:55 +08:00
    python 学得好 牢饭吃到老
    bobuick
        20
    bobuick  
       2019-11-19 10:49:40 +08:00
    爬虫写的好, 老婆来不了
    RyuZheng
        21
    RyuZheng  
       2019-11-19 10:51:32 +08:00
    我要是爬淘宝上一些商品的评论呢,也不是公司用,就是拿来自己做一下词云、机器学习分析玩玩;违法吗?
    cedoo22
        22
    cedoo22  
       2019-11-19 10:51:43 +08:00
    爬虫 别暴露开发者个人信息, 有必要的话, 代码混淆工具用起来。
    tomczhen
        23
    tomczhen  
       2019-11-19 10:53:34 +08:00
    从案例看明确的违法行为只有爬隐私信息这条,涉及逆向和破解的,如果被第三方非法利用,也会被连带。另外即便是公开信息,如果造成不良影响也是有风险的。

    不过说实话,从目前越来越封闭的趋势看,Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外,获取信息的难度会越来越大,必然会涉及到破解突破限制,或者通过逆向 APP 爬取。走到这一步,可以说已经是在门口站着了,剩下的已经不是自己可以控制的了(虽然目前看几率不高)。
    Lockeysama
        24
    Lockeysama  
       2019-11-19 11:06:31 +08:00   ❤️ 5
    面向监狱编程
    zaul
        25
    zaul  
       2019-11-19 11:55:24 +08:00
    做好心理准备,在乎于你的竞争对手想不想搞你
    php01
        26
    php01  
       2019-11-19 12:10:27 +08:00
    只要别人告你,你的程序影响了它的项目正常运营,比如说你把他程序爬跨了,你就吃牢饭。
    emisora
        27
    emisora  
       2019-11-19 12:16:01 +08:00
    还在学爬虫就感觉慌的一批
    darknoll
        28
    darknoll  
       2019-11-19 12:19:29 +08:00
    先别担心风险啥的,你以为人网站就那么随便让你爬的,你先试试你的程序能稳定跑起来再说。
    Sparetire
        29
    Sparetire  
    OP
       2019-11-19 12:33:55 +08:00
    @zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好
    @NerverLibis nodejs 选手...
    @cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧...

    @darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧
    mytsing520
        30
    mytsing520  
       2019-11-19 12:43:25 +08:00
    写免责只是自欺欺人
    dosmlp
        31
    dosmlp  
       2019-11-19 12:54:50 +08:00
    降低频率就行了,还有就是不要公开源码
    18k
        32
    18k  
       2019-11-19 12:57:38 +08:00
    这种理论上应该可以吧
    不然那些比价网站不是都得进去
    来个律师解读下
    muzuiget
        33
    muzuiget  
       2019-11-19 13:05:51 +08:00
    @cepczkd 这种数据怎么爬呢?能爬的只有公开数据。
    TheFLY
        34
    TheFLY  
       2019-11-19 13:07:26 +08:00
    @shehuizhuyi 数据来源方给公司发律师函,然后公司把你推出去,常规操作
    IanPeverell
        35
    IanPeverell  
       2019-11-19 13:08:53 +08:00
    大公司的网站应该都有 robots.txt ,里面已经写好了限制,遵守应该就可以了。比如 https://www.jd.com/robots.txt
    guanhui07
        36
    guanhui07  
       2019-11-19 13:20:46 +08:00
    降低频率 代码混淆
    rubycedar
        37
    rubycedar  
       2019-11-19 13:29:35 +08:00 via iPhone
    要是犯法的话 慢慢买的开发者早进去了吧
    crackhopper
        38
    crackhopper  
       2019-11-19 14:04:03 +08:00
    这种事情应该拒绝做。之前有个 case 貌似程序员被抓了。真要做,你要想好:
    1. 速率,一般爬的速率大很成问题
    2. 行为,如果对方不允许爬取,你要掩盖自己的行为。IP,访问路径,访问模式等等。
    反正无论如何都有风险。
    FaceBug
        39
    FaceBug  
       2019-11-19 14:20:30 +08:00
    @muzuiget 我举个例子,我做了一个话费查询软件,你本人在我的系统里输入了你的账号密码,本意是查询余额。但是我不仅爬了你的余额,还爬了你的通讯记录和你的个人资料。
    zhaofy
        40
    zhaofy  
       2019-11-19 15:23:27 +08:00
    woc 我帮公司写了几个爬各地工信部新闻的 会不会有事啊。。
    pence2019
        41
    pence2019  
       2019-11-19 15:57:55 +08:00
    @zhaofy 这么叼 你很危险呀
    realpg
        42
    realpg  
       2019-11-19 15:58:59 +08:00
    天天一帮叫嚣看 tos 的大佬
    在爬虫问题上就无视 tos 了
    nvhanzhi
        43
    nvhanzhi  
       2019-11-19 19:59:05 +08:00
    爬公开信息,别把人家服务器爬挂了就行
    snoopygao
        44
    snoopygao  
       2019-11-19 20:56:17 +08:00
    巧了,还有像你一样的 10000 个人,也以“说得过去”的速度爬同一家网站,把人家搞挂了
    Raymon111111
        45
    Raymon111111  
       2019-11-19 21:00:24 +08:00
    搜索一下 爬虫 犯罪
    cedoo22
        46
    cedoo22  
       2019-11-19 21:12:52 +08:00
    @Sparetire 如果起诉公司,这都是对公司追责,你个人只要是在公司授意下做的开发,感觉责任较小。
    dearmymy
        47
    dearmymy  
       2019-11-19 22:11:24 +08:00
    互联网这些公司翻旧账没一个干净的。基本有些线别碰其他就好,爬虫线就是个人隐私。其他的你爬速度别太过分就好了
    em70
        48
    em70  
       2019-11-19 23:03:43 +08:00
    搜索引擎的爬虫天天到处爬,也没见犯罪,最近被抓的都是涉及个人隐私信息的金融数据爬虫,爬公开电商信息被抓不存在的,可以研究下对方的 robot.txt
    justin2018
        49
    justin2018  
       2019-11-19 23:07:10 +08:00
    写好了 放到 Github 的小号上

    你说是从 github 上找到的 这样可以吗 o(╥﹏╥)o
    MrJie
        50
    MrJie  
       2019-11-20 08:29:52 +08:00
    爬虫,从入门到入狱
    ty89
        51
    ty89  
       2019-11-20 09:19:00 +08:00
    爬虫写的好,老婆改嫁早
    nnnToTnnn
        52
    nnnToTnnn  
       2019-11-21 10:43:56 +08:00
    @Sparetire

    第一,你不应该去问这个程序是干嘛的,只是说这是公司给你工作。
    第二,在写完后,程序启动之前写上一下内容

    此程序仅作为学习交流使用,禁止作为商业用途。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3439 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 00:07 · PVG 08:07 · LAX 17:07 · JFK 20:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.