帮公司写了个简单爬虫有没有什么风险

2019-11-19 09:49:35 +08:00
 Sparetire

RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

9466 次点击
所在节点    程序员
52 条回复
RyuZheng
2019-11-19 10:51:32 +08:00
我要是爬淘宝上一些商品的评论呢,也不是公司用,就是拿来自己做一下词云、机器学习分析玩玩;违法吗?
cedoo22
2019-11-19 10:51:43 +08:00
爬虫 别暴露开发者个人信息, 有必要的话, 代码混淆工具用起来。
tomczhen
2019-11-19 10:53:34 +08:00
从案例看明确的违法行为只有爬隐私信息这条,涉及逆向和破解的,如果被第三方非法利用,也会被连带。另外即便是公开信息,如果造成不良影响也是有风险的。

不过说实话,从目前越来越封闭的趋势看,Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外,获取信息的难度会越来越大,必然会涉及到破解突破限制,或者通过逆向 APP 爬取。走到这一步,可以说已经是在门口站着了,剩下的已经不是自己可以控制的了(虽然目前看几率不高)。
Lockeysama
2019-11-19 11:06:31 +08:00
面向监狱编程
zaul
2019-11-19 11:55:24 +08:00
做好心理准备,在乎于你的竞争对手想不想搞你
php01
2019-11-19 12:10:27 +08:00
只要别人告你,你的程序影响了它的项目正常运营,比如说你把他程序爬跨了,你就吃牢饭。
emisora
2019-11-19 12:16:01 +08:00
还在学爬虫就感觉慌的一批
darknoll
2019-11-19 12:19:29 +08:00
先别担心风险啥的,你以为人网站就那么随便让你爬的,你先试试你的程序能稳定跑起来再说。
Sparetire
2019-11-19 12:33:55 +08:00
@zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好
@NerverLibis nodejs 选手...
@cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧...

@darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧
mytsing520
2019-11-19 12:43:25 +08:00
写免责只是自欺欺人
dosmlp
2019-11-19 12:54:50 +08:00
降低频率就行了,还有就是不要公开源码
18k
2019-11-19 12:57:38 +08:00
这种理论上应该可以吧
不然那些比价网站不是都得进去
来个律师解读下
muzuiget
2019-11-19 13:05:51 +08:00
@cepczkd 这种数据怎么爬呢?能爬的只有公开数据。
TheFLY
2019-11-19 13:07:26 +08:00
@shehuizhuyi 数据来源方给公司发律师函,然后公司把你推出去,常规操作
IanPeverell
2019-11-19 13:08:53 +08:00
大公司的网站应该都有 robots.txt ,里面已经写好了限制,遵守应该就可以了。比如 https://www.jd.com/robots.txt
guanhui07
2019-11-19 13:20:46 +08:00
降低频率 代码混淆
rubycedar
2019-11-19 13:29:35 +08:00
要是犯法的话 慢慢买的开发者早进去了吧
crackhopper
2019-11-19 14:04:03 +08:00
这种事情应该拒绝做。之前有个 case 貌似程序员被抓了。真要做,你要想好:
1. 速率,一般爬的速率大很成问题
2. 行为,如果对方不允许爬取,你要掩盖自己的行为。IP,访问路径,访问模式等等。
反正无论如何都有风险。
FaceBug
2019-11-19 14:20:30 +08:00
@muzuiget 我举个例子,我做了一个话费查询软件,你本人在我的系统里输入了你的账号密码,本意是查询余额。但是我不仅爬了你的余额,还爬了你的通讯记录和你的个人资料。
zhaofy
2019-11-19 15:23:27 +08:00
woc 我帮公司写了几个爬各地工信部新闻的 会不会有事啊。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/620898

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX