关于爬虫爬取数据的法律风险规避问题

爬虫很好用，但爬取的数据存在法律风险，特别是商业公司的数据，你一爬可能把你告上法厅。

但如果是非商业公司的数据，比如 ZF 机构、事业单位等一些面向公众 /大众公开的数据，使劲爬这些数据是不是没有什么问题呢？（为自己的机智点个赞，嘿～）

AoEiuV020

2021-06-30 10:37:07 +08:00

爬虫除了数据应该还涉及影响服务器正常运作，破坏信息系统罪风险？

fank99

2021-06-30 10:40:23 +08:00

我就一直很纳闷，天眼查不也是爬 zf 数据吗，怎么一点事都没有

xingshu1990

2021-06-30 10:43:01 +08:00

@fank99 #2 有一些是线下沟通交谈了以后，现场拷数据的。一直爬的话，爬虫成本也很大（破掉验证码什么的）

DarkFire

2021-06-30 10:45:05 +08:00

@fank99 有果汁背景的，难道要自己办自己啊？

James369

2021-06-30 10:45:41 +08:00

@fank99 我认为这种应该是商业合作，比如给你开个接口调用数据之类

coderluan

2021-06-30 13:12:54 +08:00

这要没事, 爬虫不就是合法的服务器攻击手段了吗, 使劲爬肯定不行的, 只能单线程高延迟慢慢爬, 甚至可以用浏览器前端爬, 这样对方发现不了, 你甚至完全可以说, 咱就是一个个打开页面, 手动复制粘贴的, 笑死, 根本没有爬.

James369

2021-06-30 13:39:32 +08:00

@coderluan 并不是说爬取的技术手段上的问题，而是数据的合法性，获取的合法性，使用的合法性

alexmmog

2021-06-30 13:49:23 +08:00

看用户协议

imn1

2021-06-30 13:59:47 +08:00

我爬豆瓣是 10 秒开一页，比我浏览还慢，只是自动化了，不用逐个输入查找再 copy/paste

如果一秒开一万页，你看看哪个网站没意见？包括 ZF 事业单位
我没有让你去试哦，别说我教唆，先免责一下，🐶

coderluan

2021-06-30 14:03:14 +08:00

@James369 获取是肯定合法的, 你拿到手什么都不干, 这个状态可能是没任何问题的, 但是使用的话, 得具体情况具体分析了.

zictos

2021-06-30 14:09:29 +08:00

@James369 #7 法律从没规定过数据合法性。
相关侵入计算机的法律都指的是技术手段，比如破解别人服务器密码获取数据。不会因为数据没有版权问题就是合法的，数据是否有版权问题不会改变违法的性质。真要处理版权侵权问题，是有侵犯著作权的相关法律的，那是另一回事了。

zictos

2021-06-30 14:12:22 +08:00

@imn1 #9 10 秒一页问题不大，但是如果有验证码并且用自动化的方式去识别验证码就难说了

antalwang

2021-07-01 08:32:06 +08:00

这么一说我突然有点害怕，之前帮老师（文本研究用）爬取了一些视频网站的视频弹幕和评论数据，想问下这会涉及法律问题嘛...

James369

2021-07-01 08:50:39 +08:00

@antalwang 没有用于商业目地，没有侵犯他人隐私，一般没什么问题的

sean233

2021-07-08 17:40:51 +08:00

爬国外网站，应该可以避免这个问题

Nostalgia

2022-04-24 11:02:22 +08:00

@imn1 老哥，求问下你是用自己的账号爬，还是用一批账号去爬…
某也在爬豆瓣，方便加微信聊下么？
c2lsZW50X3doYWxl （ base64 ）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/786616

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.