使用 selenium,将人工浏览企查查进行半自动化,这个行为合法吗?

2024-01-16 16:49:16 +08:00
piaochen0  piaochen0

公司有一个业务,需要根据企业名,去企查查这样的网站上查询统一社会信用代码还有国标行业这样的信息制作合同文书。
量也不多,每个月大概一次性一百条左右。
之前他们的方式都是登陆几个账号,手动去查,然后记录在表格中。

现在业务人员希望能出个半自动化的工具,尽量减少人力时间。
目前看了企查查的接口,要想查国标行业,还得是个高级接口,还要企业认证才行,价格还是面议。感觉挺麻烦的。 而且公司层面,走这样购买接口或者资质认证,流程也比较麻烦。

目前考虑通过 selenium 的方式来采集,企查查网站查询到一定数量后,再让使用者手动切换账号。 在网站限制的范围内进行查询,登陆过程都是手动,只不过把人工搜索和复制信息的过程,进行代码化。

不知道这样是否存在法律风险。或者有没有其他法律风险更小的方案?

2123 次点击
所在节点   问与答  问与答
16 条回复
yyzh
yyzh
2024-01-16 16:58:14 +08:00
在合规上来说爬虫就是爬虫,没有什么多与少的区别.
但是私底下嘛.企查查自己都是爬的别家的数据 https://www.qcc.com/web/cms/cm_14
qwertty01
qwertty01
2024-01-16 17:23:56 +08:00
selenium 大概率被封禁

一家做爬虫起家的,你还想去爬他家数据,关公门钱耍大刀

我几年之前,做过这个爬虫,当时是滑动验证码,大概几百条就被封

现在大概率 selenium 会被监测出来

我推荐你搞个自动化鼠标的工具,然后固定区域截屏,进行识别
huijiewei
huijiewei
2024-01-16 17:28:40 +08:00
直接做个 chrome 插件自己部署咋样
locoz
locoz
2024-01-16 17:55:06 +08:00
合理需求、内部使用、量不大,没有问题,又不是大量爬了拿去卖钱或者做竞品之类的,那就叫不正当竞争了。
kumago
kumago
2024-01-16 17:57:01 +08:00
RPA 慢慢跑就可以了
defunct9
defunct9
2024-01-16 17:59:27 +08:00
puppeteer
INW017bzMfgkkYGn
INW017bzMfgkkYGn
2024-01-16 18:05:03 +08:00
这点量不用问,问就是人工查的
yxb9511
yxb9511
2024-01-16 18:08:07 +08:00
上淘宝搜企 chacha
mcV473b9u4GfJG81
mcV473b9u4GfJG81
2024-01-16 18:26:44 +08:00
凡事会检查你是不是机器人的地方 用屏幕回放功能 其他用自动化或是 post 请求。
ruoxie
ruoxie
2024-01-16 18:35:16 +08:00
RPA
QHKZ
QHKZ
2024-01-16 19:23:28 +08:00
puppeteer
mxT52CRuqR6o5
mxT52CRuqR6o5
2024-01-16 19:29:36 +08:00
给公司省钱省事儿,给自己增加风险,别整这种操作
wolfan
wolfan
2024-01-16 19:30:34 +08:00
为什么不直接爬官方呐,企查查也不过是二手信息,从工商司法各部门爬回内容后综合加工。
summerwar
summerwar
2024-01-16 19:30:51 +08:00
那你还不如写个油猴脚本,直接打开页面的时候自动提取页面信息,提交到一个后台,这样业务员也轻松,任何反爬的措施都可以规避掉
mysunshinedreams
mysunshinedreams
2024-01-17 01:20:46 +08:00
建议使用 Puppeteer ,不过也挺麻烦,搞别的网站经常换验证码的样式。
leyoumake1997
leyoumake1997
2024-01-17 09:40:55 +08:00
云 API 了解下,按次付费。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1009114

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX