请教个爬虫问题,请问这样有风险吗?会被请喝茶吗

185 天前
 guoziq09
目标:
1.爬取目标是国内的小说站点,起点、晋江等。
2.爬取的数据主要是榜单、收藏、订阅等数据。不包含小说本身的文章。
3.爬取时间每小时一次。

用途:
1.主要用来做数据分析。
2.次要目的想自己做个导览网站/应用。

robots.txt
以起点举例:
User-agent: ClaudeBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: GPTbot
Disallow: /

User-Agent: *
Allow: /
Disallow: /*.css
Disallow: /*.js
Disallow: /so/*

Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap2.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap3.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap4.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap5.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap6.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap7.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap8.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap9.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap10.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap11.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap12.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap13.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap14.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap15.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap16.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-sitemap17.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/page-sitemap.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/sr_playlist-sitemap.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/post-archive-sitemap.xml
Sitemap: https://www.qidian.com/zhuanti/qyn/category-sitemap.xml


以上,会有法律风险吗?
----------------------------------------------------

进一步:
如果以上数据我作为收费项目,会有法律风险吗?
2376 次点击
所在节点    问与答
18 条回复
taipei
185 天前
别碰, [非法获取计算机信息系统数据、非法控制计算机信息系统罪] ,以及非法经营罪,可以了解一下
忙活一场,一旦有事,都是非法所得,全部收缴
guoziq09
185 天前
@taipei 所以我只是根据他的 robots.txt 的规范爬取数据自用也会有法律风险么
hereIsChen
185 天前
爬虫写得好,牢饭吃到饱

如果是免费的,问题应该不大,优书这些差不多
收费的话,就有风险
darkengine
185 天前
收费必吃牢饭。免费的,解释权也不在你手上,就看他们搞不搞你了。
Jinnrry
185 天前
@guoziq09 法律不认 robots.txt ,我记得有前例的,按照 robots 爬,照样是非法入侵计算机罪
Ericcccccccc
185 天前
搜索 爬虫 坐牢
q727729853
185 天前
有风险。但是基本和你翻 qiang 一样,一般都没啥太大问题。
这么低的频率,并且又不是爬取付费内容。
moluyouwo
185 天前
3 个要点。公开数据,没阻塞服务器,非盈利。触碰任何一个别人都有依据起诉。
gaobh
185 天前
放国外,找个抗投诉的 vps
Y25tIGxpdmlk
185 天前
@Jinnrry #5 那为啥搜索引擎可以爬?因为有执照吗
Jinnrry
185 天前
@Y25tIGxpdmlk 我不知道,我只知道法官不懂 robots 也不认 robots 。对方真有证据证明你爬了,也用了他的数据,起诉你的话照样进入
guoziq09
185 天前
@taipei
@guoziq09
@hereIsChen
@darkengine
@Jinnrry
@Ericcccccccc
@q727729853
@moluyouwo
@gaobh
@Y25tIGxpdmlk
多谢各位,主要是最近看了看 flutter ,想自己写个跨平台的 app 用来练练手。小说是我平时比较喜欢打发时间的方式,后边发散的可能很多人跟我有同样的感觉。做好了能否收费。
看了几位的,感觉还是自己坐着玩比较好。
----------------
话说我这样跟搜索引擎有啥区别吗?
Y25tIGxpdmlk
185 天前
@guoziq09 #12 自己练手写着玩没啥问题,你也就一小时一次,别把人家服务器爬挂了,没人管你。
收费那就性质变了,有些东西随便搞搞没人管你,但是按法律来说要上纲上线,怎么样都能给你套上去用
dedad558
185 天前
前怕狼,后怕虎,事情就做不了。人言可畏。
热榜网站爬虫授权了吗?
AI 侵犯知识产权授权了吗?
虽然这话大逆不道,违反正常思维,但...
mythjava
184 天前
你要怕你就多跳几层
我之前的公司 搞多好多好多手机卡 专门来处理爬虫流量的 什么都爬什么都不看 就是干
leesa
184 天前
已经有类似的网站了,叫起点图
https://www.qidiantu.com/booklists/
hujun528
184 天前
建议打工
mumbler
184 天前
爬虫本身不违法,看你怎么用爬下来的数据,如果你盗版,那肯定要坐牢的,但如果你用于训练大模型,就没事

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1042537

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX