事情是这样的 公司想推销自己的产品,但这些东西基本上都需要投标才行
那么我们一个小公司,是不知道有那些老板需要采购,那么就想到去 xx 投标招标网,这种数据聚合平台(平台提供了付费 api ,老板感觉贵)找客户
由于他们手动一个个复制粘贴慢,就想让我们这里的 java 开发写爬虫来拿数据(电话,名字,地址)
上面是故事背景
我想的是,这种公司性质的爬虫,算不算商用,会不会有法律风险。
其他公司的爬虫工程师是怎么操作的,他们不会有风险吗,或者是有没有什么规避的方法
如果不开发爬虫,使用 rpa 那种自动化工具来爬数据,会不会有风险呢。(用 rpa 的话,风险是公司还是开发者还是 rpa 工具)
1
yzding 122 天前 via iPhone
被发现了就违法, 没被发现就不违法. 是你公司的,你还是别趟了
|
2
datehoer 122 天前
1. 被发现了就要进去,电话姓名算敏感数据了。gov 别碰,伸手必被抓。
2. 看公司性质,有些公司没事,但大多数没资质的都会完蛋,一告一个准。基本上就是挂代理。 3. 看来你不理解爬虫啊,使用别人的工具不也是爬取数据么。风险主要是个人其实,反正被抓的程序员基本上都要判几缓几。 |
3
luzihang 122 天前
看影响。是否影响 C 端的日常生活,是否对 B 端造成大量经济损失或者不正常竞争。
|
4
luzihang 122 天前
RPA 是封装给市场的概念。本质还是那些技术。
|
7
spacebound 122 天前
@pol #6 还是 1 楼那句话,被发现了就违法,没被发现就不违法,其他的自己衡量吧
|
8
Sayuri 122 天前 via Android
尽量使用非国内服务商提供的境外 IP 来进行操作。
|
9
Sayuri 122 天前 via Android
如果再避免风险,则尽量控制一下请求的频率,不要让对方网站收到大量请求而崩溃。
可以用 puppeteer-extra 。 |
10
teddy2725 122 天前
电话姓名地址属于公民个人信息,很容易遭
|
11
elonlee 122 天前
首先说结论: RPA 只是工具,违法主体是工具使用方.
如果要安全爬取建议使用代理爬取不要用公司或者家庭网络去爬 |
13
luzihang 122 天前
RPA 有点像低代码平台,用户间可以分享脚本。但是 RPA 平台又规避了场景用途的风险。
|
14
sagaxu 122 天前
内部悄悄用,对方没法发现,那就不违法。但如果老板酒后在他的朋友面前吹牛,做了个系统很牛逼,不用付费也能用,那就呵呵了。
换个思路,做个浏览器插件,自动提取打开页面的联系信息,那就不是爬虫了。 |
16
luzihang 122 天前
电话,名字,地址,这几个字段,在招投标领域,都是非常敏感,值钱的。
先不论销售的推荐,打电话的推销方式是否合理。 比如你的 xx 投标招标网,也要购买 vip 才能访问吧,才能拿到数据。比如难度在数据是加密的,也有可能在程序化拿数据的时候,就被封了。 |
17
pol OP @luzihang #16 对对对,我就是认为,不管是不是敏感信息,对于招标信息网这种来说 ,电话和名字地址这几个对于他们来说是核心, 并且人家也提供了 api 付费接口的情况下,我通过爬虫获取,一定是动了人家的利益了,那我认为被发现一点点就会被搞
|
20
Jisxu 122 天前
楼上也提到了,做个浏览器扩展/插件,对页面信息做自动化或者半自动化提取,控制好频次,这样可以规避。
然后这个扩展也不要公开,就用的几个人内部传播就好了 |
22
ansemz 121 天前
有付费 api ,为啥还要冒险?
|
25
AdminZ 121 天前
我猜测你要爬的是 120.bid ,但是我发给我经理看,他说这个上面放出来的招投标大部分都被控了,意思就是没价值?我不懂了
|
26
zcybupt2016 121 天前
几万块都不想掏那就还是让他们自己复制粘贴吧,这么抠你写了也落不到什么好处
|
27
clifftts 121 天前
别人付费才提供的数据,你不付费就从人家那拿到了数据,绝对违法了,被发现肯定吃官司
|