关于爬虫爬取数据的法律风险规避问题

2021-06-30 10:31:48 +08:00
 James369
爬虫很好用,但爬取的数据存在法律风险,特别是商业公司的数据,你一爬可能把你告上法厅。

但如果是非商业公司的数据,比如 ZF 机构、事业单位等一些面向公众 /大众公开的数据,使劲爬这些数据是不是没有什么问题呢?(为自己的机智点个赞,嘿~)
2438 次点击
所在节点    问与答
16 条回复
AoEiuV020
2021-06-30 10:37:07 +08:00
爬虫除了数据应该还涉及影响服务器正常运作,破坏信息系统罪风险?
fank99
2021-06-30 10:40:23 +08:00
我就一直很纳闷,天眼查不也是爬 zf 数据吗,怎么一点事都没有
xingshu1990
2021-06-30 10:43:01 +08:00
@fank99 #2 有一些是线下沟通交谈了以后,现场拷数据的。一直爬的话,爬虫成本也很大(破掉验证码什么的)
DarkFire
2021-06-30 10:45:05 +08:00
@fank99 有果汁背景的,难道要自己办自己啊?
James369
2021-06-30 10:45:41 +08:00
@fank99 我认为这种应该是商业合作,比如给你开个接口调用数据之类
coderluan
2021-06-30 13:12:54 +08:00
这要没事, 爬虫不就是合法的服务器攻击手段了吗, 使劲爬肯定不行的, 只能单线程高延迟慢慢爬, 甚至可以用浏览器前端爬, 这样对方发现不了, 你甚至完全可以说, 咱就是一个个打开页面, 手动复制粘贴的, 笑死, 根本没有爬.
James369
2021-06-30 13:39:32 +08:00
@coderluan 并不是说爬取的技术手段上的问题,而是数据的合法性,获取的合法性,使用的合法性
alexmmog
2021-06-30 13:49:23 +08:00
看用户协议
imn1
2021-06-30 13:59:47 +08:00
我爬豆瓣是 10 秒开一页,比我浏览还慢,只是自动化了,不用逐个输入查找再 copy/paste

如果一秒开一万页,你看看哪个网站没意见?包括 ZF 事业单位
我没有让你去试哦,别说我教唆,先免责一下,🐶
coderluan
2021-06-30 14:03:14 +08:00
@James369 获取是肯定合法的, 你拿到手什么都不干, 这个状态可能是没任何问题的, 但是使用的话, 得具体情况具体分析了.
zictos
2021-06-30 14:09:29 +08:00
@James369 #7 法律从没规定过数据合法性。
相关侵入计算机的法律都指的是技术手段,比如破解别人服务器密码获取数据。不会因为数据没有版权问题就是合法的,数据是否有版权问题不会改变违法的性质。真要处理版权侵权问题,是有侵犯著作权的相关法律的,那是另一回事了。
zictos
2021-06-30 14:12:22 +08:00
@imn1 #9 10 秒一页问题不大,但是如果有验证码并且用自动化的方式去识别验证码就难说了
antalwang
2021-07-01 08:32:06 +08:00
这么一说我突然有点害怕,之前帮老师(文本研究用)爬取了一些视频网站的视频弹幕和评论数据,想问下这会涉及法律问题嘛...
James369
2021-07-01 08:50:39 +08:00
@antalwang 没有用于商业目地,没有侵犯他人隐私,一般没什么问题的
sean233
2021-07-08 17:40:51 +08:00
爬国外网站,应该可以避免这个问题
Nostalgia
2022-04-24 11:02:22 +08:00
@imn1 老哥,求问下你是用自己的账号爬,还是用一批账号去爬…
某也在爬豆瓣,方便加微信聊下么?
c2lsZW50X3doYWxl ( base64 )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/786616

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX