关于爬虫的风险,请大家给我点意见

116 天前
 pol

事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行

那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户

由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)

上面是故事背景

我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。

其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法

如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)

1913 次点击
所在节点    问与答
27 条回复
yzding
116 天前
被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
datehoer
116 天前
1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。
3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。
luzihang
116 天前
看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
luzihang
116 天前
RPA 是封装给市场的概念。本质还是那些技术。
pol
116 天前
@datehoer 资质这个东西具体指的是什么,我不太了解,确实我也认为我们要的数据是敏感数据不太好。

我给公司写爬虫,被发现了,是开发者背锅吗?
pol
116 天前
@luzihang #4 公司是想为了减少人力一行行看数据,肯定不会疯狂,不会导致对方服务不可用
spacebound
116 天前
@pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
Sayuri
116 天前
尽量使用非国内服务商提供的境外 IP 来进行操作。
Sayuri
116 天前
如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
可以用 puppeteer-extra 。
teddy2725
116 天前
电话姓名地址属于公民个人信息,很容易遭
elonlee
116 天前
首先说结论: RPA 只是工具,违法主体是工具使用方.

如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬
luzihang
116 天前
@pol 内部效率优化,一般没什么问题。对代码质量提出了要求,写的优雅点,别那么粗暴。还有招投标,是有难度的。
luzihang
116 天前
RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。
sagaxu
116 天前
内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。

换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。
datehoer
116 天前
@pol
1. 资质:例如 某科研院所,某 xxx 单位。一般是跟国家沾边的
2. 显而易见,大家都有锅。
luzihang
116 天前
电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。

先不论销售的推荐,打电话的推销方式是否合理。

比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。
pol
116 天前
@luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞
luzihang
116 天前
@pol 手动一个个复制粘贴慢,需求的疼点是慢,还是手动。如果是慢,那可能无解,去买 API 吧。如果是手动,那还可以开发介入下。
pol
116 天前
@luzihang #18 更倾向于需要手动,慢点无所谓。刚刚刷 v 站看到我们要爬的网站竟然是 v 友的站点,在推广节点还有贴子呢😂
Jisxu
116 天前
楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。
然后这个扩展也不要公开,就用的几个人内部传播就好了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1057717

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX