简单的爬虫外包

2017-09-06 16:24:04 +08:00
 a234712524

嗯,其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。

是这样的,我的工作中每天需要查询一些公司的信息,主要来源是大约十个政府网站的相应数据(大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站)。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作,重复又简单。我也一样。所以我想找人帮我用程序处理这件事。

流程就是帮忙编写一个程序,当公司系统向它提交一个 get 请求的时候,请求里包含了公司全称或者执业许可证号,然后程序自动向那十个政府网站查询公司信息,然后将特定的字段返回给公司系统,并且保存一份到数据库。 我知道难题在于

1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法:)

2.维护。网站肯定时不时就会更新的,因此我会将维护一并外包,当然,价格分开算。

3.单 IP 频率限制。这个不用担心,查询频率一般不够 1 分钟一次。

交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的(纯粹出于个人喜好,没有别的意思) 各位觉得多少钱愿意做呢?

5466 次点击
所在节点    Python
20 条回复
raphael008
2017-09-06 16:30:54 +08:00
良心&吉利价,8888😂
guanren222
2017-09-06 16:31:54 +08:00
没问题,找我吧
ahahah
laoyur
2017-09-06 16:38:08 +08:00
有这样一份工作真好
想到前一阵国外的那个新闻了,自己写个自动化程序代替每天的手工劳作,然后大把时间陪老婆孩子,哈哈哈
skyleft
2017-09-06 16:39:09 +08:00
10000 不算维护 找我
a234712524
2017-09-06 16:39:53 +08:00
@raphael008 呃……不是开玩笑的啦
@guanren222 可以联系我么,q 号看用户名
a234712524
2017-09-06 16:46:40 +08:00
@skyleft 请问你联系方式多少
qq583708076
2017-09-06 17:58:27 +08:00
qq 加了
mahone3297
2017-09-06 18:12:10 +08:00
滑块 大家是如何解决的?
wolffn
2017-09-06 18:17:59 +08:00
如果 lz 能接受 nodejs 的话,可以联系我。微信同 id

PS:前百度前端,现在在 Amazon
regicide
2017-09-06 18:30:00 +08:00
已发
carlonelong
2017-09-06 18:43:39 +08:00
难点在第一条吧
regicide
2017-09-06 19:13:15 +08:00
@carlonelong 程序员有一种疾病 老是喜欢肛正面 其实还是有规避方案的 我至少能说出 2 种不用验证码的
zuolan
2017-09-06 19:16:17 +08:00
@regicide 怎么解决,说一下大概,萌新表示不懂。主要是滑块这种验证码。
regicide
2017-09-06 19:25:43 +08:00
@zuolan geetest 的破解满天飞,但是一更新你得跟着改,所以说这样一个需求如果在包了维护费的情况下突然有个版本他验证码的轨迹不好搞了 就会巨亏,入不敷出。例如全国企业公示系统里不同的地区验证码的版本也不同,例如江苏的你手划的快一点都可能被吃掉,成功率低。但向 lz 这种 1 分钟 1 次的需求,可以理解为对抓取速度没有要求,你把轨迹设置成巨慢的好了。但这些还是肛正面的,绕的话就和滑块无关了。
a234712524
2017-09-06 19:41:03 +08:00
非常感谢大家的回复,已经有几位联系我啦。太多人我顾不过来,各位请收下我的感谢~
ctsed
2017-09-06 19:59:01 +08:00
天眼查那种网站?
shiny
2017-09-06 20:03:22 +08:00
记得商标查询网站就是滑块验证的
winglight2016
2017-09-06 21:29:23 +08:00
我给 LZ 提供另外一种思路:chrome 插件,选中关键字,右键菜单批量打开查询网站的页面( URL 带关键字),滑块手动,其他自动:复制、黏贴、保存成一个文件等等
hu0097
2017-09-07 08:49:08 +08:00
9999 可以来找我,有一套差不多的系统
7DLNU56W
2017-09-07 09:12:50 +08:00
验证码就是为了防爬虫的嘛,这要是这种爬虫多了的话会不会升级验证码呢,比 12306 那种更复杂的。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/388666

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX