爬虫工程师这个岗位是否对新手很不友好

2018-10-17 17:24:10 +08:00
 CharlieBrown

一开始以为爬虫很容易到天花板,干了几个月后,发现一入爬虫深似海。 要懂网络协议、懂 JS、懂 APP 反编译, 本来以为网站 Selenium 能对付了,但现在能识别的网站也渐渐增多, 反编译都衍生出另一个岗位了:逆向工程师。

由于是小公司,也没人讨论、请教,一切都得靠自己搜索、看书、买教程。 一年工作经验不到的人,爬的可能是三五年以上的网站、APP,有种一个人单挑一群人的感觉。

一个网站,能否爬下取决于网站难度, 不像自己从 0 写系统,一步步自己走上去 写完爬虫还担心网站会不会突然升级、爬虫会不会突然不走

现在对前路有点儿迷茫了,有没有人能指点迷津

12661 次点击
所在节点    Python
44 条回复
nbboy
2018-10-17 17:31:55 +08:00
我目前也是做爬虫,之前是 web.可以交流下。
realkenshinji
2018-10-17 18:39:15 +08:00
一起一起,建个爬虫群吧?
Lwf1995
2018-10-18 07:32:40 +08:00
加我一个,虽然我业余玩
PulpFunction
2018-10-18 09:10:04 +08:00
你是从石器时代的工具上吗,现在很多前后分离,传输数据就是 json

找接口 requests 不就完事了,带上必要的参数

‘必要’ 需要尝试

懂啥协议啊,get,post 网站用啥 咱们用啥 请求就完事了

还有巧技
kuroismith
2018-10-18 09:24:44 +08:00
@PulpFunction

对于 web 页面来说, 一个比较简单的策略就是接口数据加密, 再由前端前端解密. 单纯去请求接口完全不可行...
PulpFunction
2018-10-18 09:38:54 +08:00
@kuroismith 我看淘宝接口几乎都是明文的

前后端都加密这种站没爬过。。
CharlieBrown
2018-10-18 10:00:39 +08:00
能看到明文和能批量获取明文是两码事啊,如何稳定批量爬取又是一回事,而且我觉得以后的产品也会慢慢往 APP 上转,现在有些网站都只是一个 APP 二维码了,不提供内容
@PulpFunction
foxyier
2018-10-18 10:40:42 +08:00
最可怕的是, 一天需要写 4,5 个网站的爬虫,everyday
CharlieBrown
2018-10-18 10:45:15 +08:00
@foxyier 那你们这业务量蛮大的啊,都爬的啥网站呀
foxyier
2018-10-18 10:53:49 +08:00
@CharlieBrown 视频。
yuanfnadi
2018-10-18 11:00:16 +08:00
@PulpFunction 还有接口返回 123.页面显示 132 的反爬。前端把字体改了 1 显示的字体是 2.
SpiderXiantang
2018-10-18 11:08:22 +08:00
我就挺害怕以后找到份每天写 xpath 正则的活的
tzhhahaha
2018-10-18 12:49:23 +08:00
有人知道爬虫实习要干些啥吗。。。我想找份 python 爬虫的实习过渡一下
Leigg
2018-10-18 13:11:39 +08:00
考虑往后端走。http,tcp 有空多补补基础,django 学学,时机成熟可转。
kidlfy
2018-10-18 13:58:17 +08:00
求带飞。。。总感觉前路渺茫。。。
kidlfy
2018-10-18 14:00:30 +08:00
@SpiderXiantang 感觉我现在就是天天写解析呢。。。偶尔才写写逻辑。。。不知道该学点啥了😭
Shyden2018
2018-10-18 14:25:02 +08:00
妹纸找工作中,爬虫好难找。。。楼主还缺人吗?
zidian9
2018-10-18 15:16:33 +08:00
爬虫入门简单,后面不容易。如果是科班出生的,编译原理,计算机网络,HTML,CSS,JS,汇编,JAVA,安卓开发都学过的话,TMD 很多时候还是不容易。
如果网站有反爬虫,做爬虫是个玄学,类似于“网络攻防”之类的玄学。
现在我在阿里做后端,防止人家爬虫加 滑动验证(利用机器学习做鼠标轨迹的人机验证),加规则:A 秒内单 IP 访问 B 次弹人机验证等等,现成的方案随手就加了。搞爬虫的就辛苦了。
本科学的信息安全,所以那个时候研究了很多爬虫的技术,现在工作中有时候也需要做爬虫,不过一般都是找一些歪门邪道(如目标分享出去的 H5 页面,APP 端页面)的接口去抓数据。直接正面抓数据只要人家网站不想让你抓的都挺困难的。
欢迎交流~
Loooom
2018-10-18 15:41:18 +08:00
APP 逆向反编译书或视频教程求推荐
CharlieBrown
2018-10-18 16:51:40 +08:00
@zidian9 是的,有时候正面获取数据太难利用一些网站逻辑上的漏洞也能获取数据,但这并不是一劳永逸的办法。
一旦网站发现修复了,就束手无策了。根本的解决方法还是扎实的 js 基础从头到尾过一遍操作或分析出参数进而获得数据。
APP 也是一个道理,不反编译,不看到底层代码,能抓的也就只有那种不加密的 APP。
光是这两个方面,就得 js 扎实、会反编译、java 扎实,而且现在安卓有的好像开始用 kotlin 开发了吧。
再加上点你们这种机器学习的,
吾生有涯而知无涯呀!
所以我才觉得爬虫对新手不友好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/498538

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX