首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
oma1989
V2EX  ›  问与答

高频爬取公开数据违法不?

  •  
  •   oma1989 · 154 天前 · 4058 次点击
    这是一个创建于 154 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT 高频爬取公开数据违法不?比如商品价格,股票价格等等

    第 1 条附言  ·  154 天前
    其实我就想获取下这个数据:
    ![1.png]( https://i.loli.net/2019/09/25/LAKXymOaGPl3Zex.png)

    robots.txt
    ![2.png]( https://i.loli.net/2019/09/25/2OpF9QWVZAnEzq6.png)


    这个怎么讲?可不可以爬取
    40 回复  |  直到 2019-09-26 15:13:43 +08:00
    GeruzoniAnsasu
        1
    GeruzoniAnsasu   154 天前   ❤️ 2
    真正“公开” 的数据 一般会有发布或推送渠道。否则很可能不能算“公开”
    silencefent
        2
    silencefent   154 天前   ❤️ 1
    看用户协议和 robots
    oma1989
        3
    oma1989   154 天前
    @silencefent 好的,谢谢
    murmur
        4
    murmur   154 天前
    不想让你爬会有反扒和下毒的
    swulling
        5
    swulling   154 天前
    没有在 robots.txt 允许的,一律为非法爬取,只是算不算你账的问题
    oma1989
        6
    oma1989   154 天前
    @GeruzoniAnsasu 无需注册登录,即可访问的页面中的价格信息,应该算是公开的吧?(没发现有推送渠道)
    swulling
        7
    swulling   154 天前
    @oma1989 算公开,但是不能用技术手段爬取
    oma1989
        8
    oma1989   154 天前
    @murmur 的确做了反爬,但是他们的功能没起到作用。
    oma1989
        9
    oma1989   154 天前
    @swulling 好的,了解了,感谢
    xiaoyazi
        10
    xiaoyazi   154 天前 via iPhone   ❤️ 1
    给你标准答案:

    看目标网站用户协议以及有无反扒机制。

    如果对方的协议明示不可爬取本站信息并有相应反扒机制,你的行为等同破门而入。

    就像公园写着 18 点闭园但大门没关,你进去玩虽不合法但一般都会被原谅,门若关着你爬墙进去就难以辨驳了。
    xiaoyazi
        11
    xiaoyazi   154 天前 via iPhone
    所以合不合法不是看高频与否哦
    oma1989
        12
    oma1989   154 天前
    @xiaoyazi 学到了,感谢
    ccoming
        13
    ccoming   154 天前   ❤️ 1
    补充问个:高频下载后台提供的报表有风险不?
    qsnow6
        14
    qsnow6   154 天前   ❤️ 1
    “高频”到影响网站正常访问的行为等同于”攻击“
    wangxiaoaer
        15
    wangxiaoaer   154 天前 via Android
    听一堆法盲在这指点江山真是有意思。

    这种事情去找个律师问下就完了,一些社区服务会有免费资询。
    wangxiaoaer
        16
    wangxiaoaer   154 天前 via Android
    还什么 robots,反扒等,法律认可这些东西吗?
    hhxx6
        17
    hhxx6   154 天前 via iPhone
    robots 只是一种行业的约定吧
    根本没有法律效力
    貌似
    murmur
        18
    murmur   154 天前
    @wangxiaoaer 反扒这些是不想对簿公堂的时候用的手段
    扒东西被起诉能用的罪名多了
    JunoNin
        19
    JunoNin   154 天前 via Android
    数据公开怎么定义
    xomix
        20
    xomix   154 天前
    爬取是不违法的,但是爬取后二次发布是否合法这个就……你自己掂量吧。
    Showfom
        21
    Showfom   154 天前 via iPhone
    就算不违法也违反了网站的使用条款
    Sapp
        22
    Sapp   154 天前
    @swulling robots 协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私, 真的 ,你不懂就不要说好吗?
    dobelee
        23
    dobelee   154 天前 via Android
    @swulling 没有 robots 允许违了那条法?
    Junn
        24
    Junn   154 天前
    主要看你获取数据的行为方式是否合法,

    比如原本是需要注册用户通过账号密码登录获得授权才能获取的数据,你没有账号密码绕过去拿到了,就违法了。
    再比如通过接口拿数据的,接口仅供自身 APP 使用,你通过伪造模拟等方式拿到数据,也是违法的。

    而比如网站上公开的价格,通过合法方式请求到的数据,只是通过工具爬去节省工作量的行为,应该是不违法的。

    当然你的“高频”行为可能涉及到“破坏计算机信息系统罪”
    GeruzoniAnsasu
        25
    GeruzoniAnsasu   154 天前 via Android
    @wangxiaoaer 这种事没法完全依照法律。法律也没有定义爬数据算不算非法盗取计算机数据。公司法务之前还声称只要用户授权,爬个人信息是合法的呢,最近新闻抓进去的搞爬虫的哪个没让用户授权?

    数据方 license 的作用是告诉你他不会追责。这才是最管用的。不然照国内的现状,想告你盗数据,怎么的都能把你搞进去
    xiaogui
        26
    xiaogui   154 天前
    最近好像很多“做数据”的公司都翻车了,哪怕是公司行为也还是要注意下。
    swulling
        27
    swulling   154 天前 via iPhone
    @Sapp
    @dobelee
    百度诉 360 爬取判例如下,法院一般会把 robots 认定为行业公认的规则,违反后虽然不一定就违法,但是出于相当不利的地位。


    基于以上认定,法院在判决中做出如下认定:“在被告推出搜索引擎伊始,其网站亦刊载了 Robots 协议的内容和设置方法,说明包括被告在内的整个互联网行业对于 Robots 协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。被告网站在推出搜索引擎服务之初,为了对原告网站进行抓取以便向网络用户提供最全面的搜索结果,没有遵守行业内公认的、应当被遵守的商业道德,即在被告推出搜索引擎的伊始阶段没有遵守原告网站的 Robots 协议,其行为明显不当,应当承担相应的不利后果。”
    wangxiaoaer
        28
    wangxiaoaer   154 天前 via Android
    @GeruzoniAnsasu 所以我的意思是在这里听一堆法盲拿 robots 等来自己觉得是否违法是一件很可笑的事情。
    mrobot
        29
    mrobot   154 天前 via iPhone   ❤️ 1
    这其实是一个风险和收益之间的博弈 你爬对方的数据 对方利益受损较小 大概率没事 对方利益受损较大并且发现是你造成的 找你还可以追回部分损失 这时候你是否违法已经不重要了 因为你摊上事了 爬了会所嫩模 不爬下海干活
    oma1989
        30
    oma1989   154 天前
    @mrobot 哈哈,谢谢指点,我还是自己用手机 APP 多盯这点吧。。。。 。。。 不过确实可以爬下会所嫩模
    dongcxcx
        31
    dongcxcx   154 天前
    很多网站的开放平台都有接口,通过这种方式获取并使用数据违法吗?
    最近好多数据公司都翻车了,感觉谈爬虫色变。。。
    reus
        32
    reus   154 天前
    @wangxiaoaer 当然认可,法盲。
    reus
        33
    reus   154 天前
    justforlook44444
        34
    justforlook44444   154 天前
    @dobelee 虽然是约定俗称,没有法律效力,但是起码表明了一个事实和态度:我不希望你来爬取我的数据。
    maplelin
        35
    maplelin   154 天前
    @wangxiaoaer #28 按你这么来,开源协议也没写到法律里咯,所以只要代码放到网上就能随便拿来用?
    kisshere
        36
    kisshere   153 天前 via Android
    php 的 file_get_contents 就是史上最不要脸的一个函数
    Greendays
        37
    Greendays   153 天前
    感觉楼上有种观点很有意义。“爬取数据”这种行为法律可能不好判,但是如果爬数据的行为干扰了网站的正常工作,那肯定有办法从别的地方判你违法
    TimePPT
        38
    TimePPT   153 天前
    别的不知道,美股行情数据是有版权的,纳斯达克曾经给国内某搜索引擎公司发过律师函,要求每年 400w 美刀使用费。
    xiaoyazi
        39
    xiaoyazi   153 天前 via iPhone
    @wangxiaoaer 你又怎么知道别人没咨询过。
    SSW
        40
    SSW   153 天前
    我记得之前在 v 站看到帖子说今日头条把爬他数据的起诉了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3979 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 09:10 · PVG 17:10 · LAX 01:10 · JFK 04:10
    ♥ Do have faith in what you're doing.