爬 gov cn 网站上的公开数据然后交给大模型向量化处理,是否有风险

208 天前
 jerrry

个人感觉有两个风险

所以有点犹豫。如果只是参与这个项目的其他部分,不涉及爬虫这块,是否有风险呢?

3105 次点击
所在节点    问与答
29 条回复
povsister
208 天前
你这个想法很刑,还主动传出境外,那还能更刑
wbrobot
208 天前
直接说结果:无期
ospider
208 天前
刑与不刑,即和法律没有关系,也和爬虫没有关系。人在境内,最安全的就是搞国外的数据;想搞国内的数据,最安全的方法就是肉身润。

理论上来说,公开的数据当然随便爬了,但是至于实际执行,懂的都懂吧。就技术角度而言,你用国外的服务器爬,其实也很难追溯,但是技术总是有漏洞,代码总是有 bug 的,也说不准。

实际情况来说,如果是你自己爬了少量数据用,放心搞就好了,没人 care 。真正会被盯上,一定是经济或者政治上产生了一定的影响,比如承德的程序员。
1145148964
208 天前
其实很多网站在境外打不开的。或者网速奇慢无比。墙是双向的。
yyzh
208 天前
深圳的话这里有不用爬
https://opendata.sz.gov.cn/
另外爬虫是犯法的
wonderfulcxm
208 天前
不被发现就没有问题
jerrry
208 天前
@ospider 是一个兼职项目,所以我在想有没有必要承担风险
duanxianze
208 天前
这东西抓不住你就没事,抓住了你必进去
AnonymousUser
208 天前
第一点,数据类型和量级吧。你要是爬一些统计数据,比如财政、产业数据应该还好。如果是法院判例、税务之类可能敏感点?因为涉及到具体个人/公司。
第二点,太敏感了,建议好好考量风险和收益
signin
208 天前
公开数据,随便拿,不要听楼上胡说,但要把握一个度,就是尽量不要把网站爬挂了
Features
208 天前
就怕是披着羊皮的狼
表面包装成大模型,实则是间谍项目。。。
ivvei
208 天前
有的是汇总了公开数据被当间谍处理的。
YDCHYD
208 天前
只要你肉身在国内,哪天被地方网警翻到这个帖子,你就是业绩。
国内即便是公开的数据也不允许合订本出现,更遑论你爬数据给境外。
jerrry
208 天前
谢谢大家,看来感觉还是有风险的
nx6Ta67v2A43frV2
208 天前
ZF 网站一般会脆弱,访问量稍大就会挂。
如果爬的过程中挂了,可能会导致蹲苦窑。

国内有先例,有公司爬深圳的 ZW 网站上的公开数据。
但是程序写有 bug ,出现死循环,导致以近 100qps 的频率访问这网站。
最终把网站打挂了,事情发生在周末,无人恢复,网站挂了一整个周末。
引起了很多市民的投诉,最终,技术总监和程序员都进去了。
27
208 天前
xie8fei
208 天前
事小罪大
且不说盈利多少,行为犯没收益都会可能判。
当然也可以赌,赌输了就刑事
amon
208 天前
咨询律师,不管是全职还是兼职,有些底线不要碰。

我真的见过写程序(灰产)进去的,关到过年才放出来。
aminobody
208 天前
@yyzh #5 403 403 Forbidden
Request forbidden by administrative rules.
yyzh
208 天前
@aminobody 你在外国?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1052719

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX