爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

5 天前
 jerrry

个人感觉有两个风险

所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

2458 次点击
所在节点    问与答
29 条回复
povsister
4 天前
你这个想法很刑,还主动传出境外,那还能更刑
wbrobot
4 天前
直接说结果:无期
ospider
4 天前
刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
1145148964
4 天前
其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
yyzh
4 天前
深圳的话这里有不用爬
https://opendata.sz.gov.cn/
另外爬虫是犯法的
wonderfulcxm
4 天前
不被发现就没有问题
jerrry
4 天前
@ospider 是一个兼职项目,所以我在想有没有必要承担风险
duanxianze
4 天前
这东西抓不住你就没事,抓住了你必进去
AnonymousUser
4 天前
第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
第二点,太敏感了,建议好好考量风险和收益
signin
4 天前
公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
Features
4 天前
就怕是披着羊皮的狼
表面包装成大模型,实则是间谍项目。。。
ivvei
4 天前
有的是汇总了公开数据被当间谍处理的。
YDCHYD
4 天前
只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
jerrry
4 天前
谢谢大家,看来感觉还是有风险的
kong0bbs
4 天前
ZF 网站一般会脆弱,访问量稍大就会挂。
如果爬的过程中挂了,可能会导致蹲苦窑。

国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
引起了很多市民的投诉,最终,技术总监和程序员都进去了。
27
4 天前
xie8fei
4 天前
事小罪大
且不说盈利多少,行为犯没收益都会可能判。
当然也可以赌,赌输了就刑事
amon
4 天前
咨询律师,不管是全职还是兼职,有些底线不要碰。

我真的见过写程序(灰产)进去的,关到过年才放出来。
aminobody
4 天前
@yyzh #5 403 403 Forbidden
Request forbidden by administrative rules.
yyzh
4 天前
@aminobody 你在外国?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1052719

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX