爬虫工程师这个岗位是否对新手很不友好

2018-10-17 17:24:10 +08:00

CharlieBrown

一开始以为爬虫很容易到天花板，干了几个月后，发现一入爬虫深似海。要懂网络协议、懂 JS、懂 APP 反编译，本来以为网站 Selenium 能对付了，但现在能识别的网站也渐渐增多，反编译都衍生出另一个岗位了：逆向工程师。

由于是小公司，也没人讨论、请教，一切都得靠自己搜索、看书、买教程。一年工作经验不到的人，爬的可能是三五年以上的网站、APP，有种一个人单挑一群人的感觉。

一个网站，能否爬下取决于网站难度，不像自己从 0 写系统，一步步自己走上去写完爬虫还担心网站会不会突然升级、爬虫会不会突然不走

现在对前路有点儿迷茫了，有没有人能指点迷津

12706 次点击

所在节点

Python

44 条回复

nbboy

2018-10-17 17:31:55 +08:00

我目前也是做爬虫,之前是 web.可以交流下。

realkenshinji

2018-10-17 18:39:15 +08:00

一起一起，建个爬虫群吧？

Lwf1995

2018-10-18 07:32:40 +08:00

加我一个，虽然我业余玩

PulpFunction

2018-10-18 09:10:04 +08:00

你是从石器时代的工具上吗，现在很多前后分离，传输数据就是 json

找接口 requests 不就完事了，带上必要的参数

‘必要’ 需要尝试

懂啥协议啊，get，post 网站用啥咱们用啥请求就完事了

还有巧技

kuroismith

2018-10-18 09:24:44 +08:00

@PulpFunction

对于 web 页面来说, 一个比较简单的策略就是接口数据加密, 再由前端前端解密. 单纯去请求接口完全不可行...

PulpFunction

2018-10-18 09:38:54 +08:00

@kuroismith 我看淘宝接口几乎都是明文的

前后端都加密这种站没爬过。。

CharlieBrown

2018-10-18 10:00:39 +08:00

能看到明文和能批量获取明文是两码事啊，如何稳定批量爬取又是一回事，而且我觉得以后的产品也会慢慢往 APP 上转，现在有些网站都只是一个 APP 二维码了，不提供内容
@PulpFunction

foxyier

2018-10-18 10:40:42 +08:00

最可怕的是，一天需要写 4，5 个网站的爬虫，everyday

CharlieBrown

2018-10-18 10:45:15 +08:00

@foxyier 那你们这业务量蛮大的啊，都爬的啥网站呀

foxyier

2018-10-18 10:53:49 +08:00

@CharlieBrown 视频。

yuanfnadi

2018-10-18 11:00:16 +08:00

@PulpFunction 还有接口返回 123.页面显示 132 的反爬。前端把字体改了 1 显示的字体是 2.

SpiderXiantang

2018-10-18 11:08:22 +08:00

我就挺害怕以后找到份每天写 xpath 正则的活的

tzhhahaha

2018-10-18 12:49:23 +08:00

有人知道爬虫实习要干些啥吗。。。我想找份 python 爬虫的实习过渡一下

Leigg

2018-10-18 13:11:39 +08:00

考虑往后端走。http，tcp 有空多补补基础，django 学学，时机成熟可转。

kidlfy

2018-10-18 13:58:17 +08:00

求带飞。。。总感觉前路渺茫。。。

kidlfy

2018-10-18 14:00:30 +08:00

@SpiderXiantang 感觉我现在就是天天写解析呢。。。偶尔才写写逻辑。。。不知道该学点啥了😭

Shyden2018

2018-10-18 14:25:02 +08:00

妹纸找工作中，爬虫好难找。。。楼主还缺人吗？

zidian9

2018-10-18 15:16:33 +08:00

爬虫入门简单，后面不容易。如果是科班出生的，编译原理，计算机网络，HTML，CSS，JS，汇编，JAVA，安卓开发都学过的话，TMD 很多时候还是不容易。
如果网站有反爬虫，做爬虫是个玄学，类似于“网络攻防”之类的玄学。
现在我在阿里做后端，防止人家爬虫加滑动验证（利用机器学习做鼠标轨迹的人机验证），加规则：A 秒内单 IP 访问 B 次弹人机验证等等，现成的方案随手就加了。搞爬虫的就辛苦了。
本科学的信息安全，所以那个时候研究了很多爬虫的技术，现在工作中有时候也需要做爬虫，不过一般都是找一些歪门邪道（如目标分享出去的 H5 页面，APP 端页面）的接口去抓数据。直接正面抓数据只要人家网站不想让你抓的都挺困难的。
欢迎交流~

Loooom

2018-10-18 15:41:18 +08:00

APP 逆向反编译书或视频教程求推荐

CharlieBrown

2018-10-18 16:51:40 +08:00

@zidian9 是的，有时候正面获取数据太难利用一些网站逻辑上的漏洞也能获取数据，但这并不是一劳永逸的办法。
一旦网站发现修复了，就束手无策了。根本的解决方法还是扎实的 js 基础从头到尾过一遍操作或分析出参数进而获得数据。
APP 也是一个道理，不反编译，不看到底层代码，能抓的也就只有那种不加密的 APP。
光是这两个方面，就得 js 扎实、会反编译、java 扎实，而且现在安卓有的好像开始用 kotlin 开发了吧。
再加上点你们这种机器学习的，
吾生有涯而知无涯呀！
所以我才觉得爬虫对新手不友好

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/498538

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.