帮公司写了个简单爬虫有没有什么风险

2019-11-19 09:49:35 +08:00
 Sparetire

RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

9461 次点击
所在节点    程序员
52 条回复
NicholasK
2019-11-19 09:54:12 +08:00
还是写免责吧,爬虫现在不注意,爬着爬着就爬进去了
fank99
2019-11-19 09:56:05 +08:00
不涉及个人信息、版权信息大概率没事
电商价格这种,极小概率有事
zarte
2019-11-19 09:57:22 +08:00
降低速率,要不然有问题都算你头上,写了免责也没用。
shehuizhuyi
2019-11-19 10:03:53 +08:00
只要别人肉到你就没事吧 GitHub 一堆翻墙软件
zhoulifu
2019-11-19 10:06:02 +08:00
爬虫写的好,牢饭吃到饱
InkStone
2019-11-19 10:09:37 +08:00
有没有风险看两点:1. 爬电商数据会不会让对方不开心; 2. 你是不是知道爬虫是用来抓电商数据的。

第二点我们已经确认了,第一点出问题的概率不大,但不是 0.
Tink
2019-11-19 10:19:23 +08:00
没事
xuanbg
2019-11-19 10:20:37 +08:00
别爬个人隐私信息,这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。
houzhimeng
2019-11-19 10:22:29 +08:00
爬虫所有信息都是伪造的,怎么被抓的?
andylsr
2019-11-19 10:23:47 +08:00
你的电商价格只要用于产品,告你不正当竞争,妥妥的
holajamc
2019-11-19 10:23:50 +08:00
@NicholasK 好奇问问这种免责是不是有用
FaceBug
2019-11-19 10:24:04 +08:00
出问题的都是爬个人隐私的,比如你爬了用户的订单、银行卡信息,无论用户是否同意,都尽量不要碰。

其次就是爬的速度了,比如淘宝京东这种大站,你一秒爬个几百几千次,问题不大,但是你要把人家爬成了双十一的流量,你也跑不掉的。
NicholasK
2019-11-19 10:27:22 +08:00
@holajamc 真出事了还太大作用,毕竟写的是你,
westoy
2019-11-19 10:31:47 +08:00
@andylsr

没那么夸张, 定价是公开数据,监控友商定价然后根据策略动态调价的所有大电商都有的, 美亚新蛋、卓越当当、一号店易讯京东, 你降一毛我降一毛, 都打过
BlackZhu
2019-11-19 10:37:14 +08:00
请教一下,公司有个爬虫,爬的是一些农作物网站的信息,然后集中显示到一个网站上,偶尔会爬些农作物专家的姓名,电话这种信息,请问是违法的吗?
flighter
2019-11-19 10:43:03 +08:00
@BlackZhu 涉及爬取个人隐私身份信息是违法的
holajamc
2019-11-19 10:47:10 +08:00
@NicholasK 还是持怀疑态度,感觉应该不行…
yangzzzzzzzt1
2019-11-19 10:47:53 +08:00
@cepczkd 能跑成双十一流量也是一种本事
NerverLibis
2019-11-19 10:47:55 +08:00
python 学得好 牢饭吃到老
bobuick
2019-11-19 10:49:40 +08:00
爬虫写的好, 老婆来不了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/620898

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX