帮公司写了个简单爬虫有没有什么风险

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2376 days ago, the information mentioned may be changed or developed.

RT, 帮公司做了个简单的爬虫, 大概是爬取某电商的价格信息, 也不需要登录啥的, 都是公开的, 看了下 https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China 还是有点慌的

PS. 我的项目只负责抓取, 抓到以后直接丢给其他人的接口入库, 照理我也不负责存储和使用这些数据

如果有风险, 如何规避? 需要在项目文档里写免责声明吗?

爬虫

照理

入库

负责

52 replies • 2019-11-21 10:43:56 +08:00

NicholasK

Nov 19, 2019

还是写免责吧，爬虫现在不注意，爬着爬着就爬进去了

fank99

Nov 19, 2019

不涉及个人信息、版权信息大概率没事
电商价格这种，极小概率有事

zarte

Nov 19, 2019

降低速率，要不然有问题都算你头上，写了免责也没用。

shehuizhuyi

Nov 19, 2019

只要别人肉到你就没事吧 GitHub 一堆翻墙软件

zhoulifu

Nov 19, 2019

爬虫写的好，牢饭吃到饱

InkStone

Nov 19, 2019

有没有风险看两点：1. 爬电商数据会不会让对方不开心； 2. 你是不是知道爬虫是用来抓电商数据的。

第二点我们已经确认了，第一点出问题的概率不大，但不是 0.

Tink

PRO

Nov 19, 2019 via iPhone

没事

xuanbg

Nov 19, 2019

别爬个人隐私信息，这个最近抓得很严。很多 APP 涉嫌不当采集隐私信息或采集隐私信息未提示被处罚了。

houzhimeng

Nov 19, 2019

爬虫所有信息都是伪造的，怎么被抓的？

andylsr

Nov 19, 2019 via Android

你的电商价格只要用于产品，告你不正当竞争，妥妥的

holajamc

Nov 19, 2019

@NicholasK 好奇问问这种免责是不是有用

FaceBug

Nov 19, 2019

出问题的都是爬个人隐私的，比如你爬了用户的订单、银行卡信息，无论用户是否同意，都尽量不要碰。

其次就是爬的速度了，比如淘宝京东这种大站，你一秒爬个几百几千次，问题不大，但是你要把人家爬成了双十一的流量，你也跑不掉的。

NicholasK

Nov 19, 2019

@holajamc 真出事了还太大作用，毕竟写的是你，

westoy

Nov 19, 2019

@andylsr

没那么夸张，定价是公开数据，监控友商定价然后根据策略动态调价的所有大电商都有的，美亚新蛋、卓越当当、一号店易讯京东，你降一毛我降一毛，都打过

BlackZhu

Nov 19, 2019

请教一下，公司有个爬虫，爬的是一些农作物网站的信息，然后集中显示到一个网站上，偶尔会爬些农作物专家的姓名，电话这种信息，请问是违法的吗？

flighter

Nov 19, 2019

@BlackZhu 涉及爬取个人隐私身份信息是违法的

holajamc

Nov 19, 2019

@NicholasK 还是持怀疑态度，感觉应该不行…

yangzzzzzzzt1

Nov 19, 2019

@cepczkd 能跑成双十一流量也是一种本事

NerverLibis

Nov 19, 2019

python 学得好牢饭吃到老

bobuick

Nov 19, 2019

爬虫写的好, 老婆来不了

RyuZheng

Nov 19, 2019

我要是爬淘宝上一些商品的评论呢，也不是公司用，就是拿来自己做一下词云、机器学习分析玩玩；违法吗？

dr1q65MfKFKHnJr6

Nov 19, 2019

爬虫别暴露开发者个人信息，有必要的话，代码混淆工具用起来。

tomczhen

Nov 19, 2019

从案例看明确的违法行为只有爬隐私信息这条，涉及逆向和破解的，如果被第三方非法利用，也会被连带。另外即便是公开信息，如果造成不良影响也是有风险的。

不过说实话，从目前越来越封闭的趋势看，Web 上连正常用户体验都没法保证。爬虫除了常规的反爬之外，获取信息的难度会越来越大，必然会涉及到破解突破限制，或者通过逆向 APP 爬取。走到这一步，可以说已经是在门口站着了，剩下的已经不是自己可以控制的了（虽然目前看几率不高）。

Lockeysama

Nov 19, 2019

面向监狱编程

zaul

Nov 19, 2019

做好心理准备，在乎于你的竞争对手想不想搞你

anteros

Nov 19, 2019

只要别人告你，你的程序影响了它的项目正常运营，比如说你把他程序爬跨了，你就吃牢饭。

emisora

Nov 19, 2019

还在学爬虫就感觉慌的一批

darknoll

Nov 19, 2019

先别担心风险啥的，你以为人网站就那么随便让你爬的，你先试试你的程序能稳定跑起来再说。

Sparetire

Nov 19, 2019

@zarte 目前随机几秒抓一条, 平均快十秒了, 应该还好
@NerverLibis nodejs 选手...
@cedoo22 公司项目, 如果公司给告了, 肯定可以找公司拿到我提交记录吧...

@darknoll 问题是已经上线了啊...我寻思着标题里说 "写了个" 应该已经是完成时的时态了吧