爬虫还得招专门的工程师?

2017-11-18 11:47:50 +08:00
 wuyuchenshishabi

这不是一个数据从业者的基本素养?

5989 次点击
所在节点    职场话题
24 条回复
bazingaterry
2017-11-18 11:54:34 +08:00
术业有专攻,看需求
p2pCoder
2017-11-18 12:07:21 +08:00
要看你要收集的数据的多少和爬取的网站的难度了

就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫

核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上

然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑

这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门
ljcarsenal
2017-11-18 12:17:11 +08:00
@p2pCoder 阿里系这种大公司也能破?
p2pCoder
2017-11-18 12:23:25 +08:00
@ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行
京东和淘宝我们都这样做了,不过相当麻烦

反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候


当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie
takanasi
2017-11-18 12:27:21 +08:00
@p2pCoder 真阴险啊
p2pCoder
2017-11-18 12:31:25 +08:00
@takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
说到底,这些老板 还是想做自己的风控,做自己的数据
golmic
2017-11-18 13:13:23 +08:00
@p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。
codermagefox
2017-11-18 14:07:19 +08:00
@p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜
hugee
2017-11-18 14:49:30 +08:00
采简单的东西当然没问题,一看 lz 就是没遇到过有难度的
sunchen
2017-11-18 15:26:00 +08:00
日常 30%时间写爬虫的路过。
想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码?
其实我想说 sql 写的溜一般是爬虫工程师的基本素养。
sensui7
2017-11-18 15:51:04 +08:00
有没有专门的岗位取决于工作量, 而不是技术.
Lin3w
2017-11-18 16:57:19 +08:00
大型分布式爬虫。。。
而且工作量是岗位分配的一个影响因素吧
gouchaoer
2017-11-18 17:37:33 +08:00
@sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了?
gouchaoer
2017-11-18 17:45:30 +08:00
@sunchen 能求个微博关注一下么? V2EX 没私信不好说啊,我这边有些心得我们可以交流一下
defunct9
2017-11-18 19:19:21 +08:00
感觉楼上都是作恶的人啊
gouchaoer
2017-11-18 19:24:22 +08:00
@defunct9 don't judge,尤其用谷歌的信条来 judge 人
sunchen
2017-11-18 19:29:11 +08:00
@gouchaoer 不用微博,马化腾 MjQ0MTkzMjkw
artandlol
2017-11-18 19:42:28 +08:00
防爬虫都可以再招个人
shyling
2017-11-18 20:53:46 +08:00
表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取?
whatisnew
2017-11-18 22:28:47 +08:00
开发还得招专门的开发工程师?产品运营客服两下就搞定了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/407439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX