开源爬虫代码有法律风险吗?有无懂哥解惑?

2021-07-20 11:03:03 +08:00
 Richard14

个人想制作一个简单的爬虫项目(在未登录的情况下,以低频率爬取微博),是一个非常简单的代码,是教学向的,为了方便传播,为了方便传播,想要开源在 github 上,并且制作一期代码流程说明发布到 B 站。

请问这种情况会被微博告吗?如果犯法的话会判多长时间?还是想要谨慎一点,请问有无懂哥介绍一下国内法律爬虫抓人的规矩,谢谢

2148 次点击
所在节点    问与答
11 条回复
mekingname
2021-07-20 11:23:19 +08:00
我自己做了一个新闻通用网站提取的开源项目,就把主动请求网页的功能取消了,只保留正文提取的功能,用户要用必须自行请求网页再把源代码传进来。这样就没有风险了。
AoEiuV020
2021-07-20 11:26:42 +08:00
有听说是,爬虫不能针对具体某个目标,
不过具体还是应该律师才清楚了,
InDom
2021-07-20 11:34:48 +08:00
把被爬取网站的地址搞成配置文件,代码里如果没有被爬的网站地址,还有问题没?
suotm
2021-07-20 11:55:50 +08:00
你做一个 demo 网页就可以了嘛,
或者用通用的框架搭一个,比如 wordpress 。
mmdsun
2021-07-20 12:32:47 +08:00
不会的。不放心可以放免责声明。

我爬虫代码都会先搜索,要是 github 有现成就拿下来用了。那么多人上传。。法不责众
westoy
2021-07-20 12:51:45 +08:00
定向爬虫当然有问题了, 而且属于你发布出来危险更大

免责声明就是骗骗自己的, 你只能赌自己不是被抽中儆猴的那只鸡

大公司有的是办法, 非商用可以核损啊, 你玩得过对方法务团队么

现在活着的像火车头那种做了十五六年的都是通用的, 出问题你去告卖用户规则的
01802
2021-07-20 14:12:28 +08:00
腾讯告红包那个,不是有一条,增加了服务器非正常操作频率,也算侵权
iyaozhen
2021-07-20 14:25:57 +08:00
应该是会 因为你太特定了,风险是肯定的
HankLu
2021-07-20 14:53:59 +08:00
没有任何风险,放一百个心
zhuxiaoxi
2021-07-20 21:48:43 +08:00
https://weibo.com/robots.txt 按 robot.txt 协议爬,不会出问题
galenzhao
2021-07-21 16:22:28 +08:00
可以照着 pgp 来啊,
代码出书, 属于言论自由

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/790562

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX