嗯,其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。
是这样的,我的工作中每天需要查询一些公司的信息,主要来源是大约十个政府网站的相应数据(大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站)。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作,重复又简单。我也一样。所以我想找人帮我用程序处理这件事。
流程就是帮忙编写一个程序,当公司系统向它提交一个 get 请求的时候,请求里包含了公司全称或者执业许可证号,然后程序自动向那十个政府网站查询公司信息,然后将特定的字段返回给公司系统,并且保存一份到数据库。 我知道难题在于
1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法:)
2.维护。网站肯定时不时就会更新的,因此我会将维护一并外包,当然,价格分开算。
3.单 IP 频率限制。这个不用担心,查询频率一般不够 1 分钟一次。
交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的(纯粹出于个人喜好,没有别的意思) 各位觉得多少钱愿意做呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.