求大佬指点,毕业一年的爬虫的职业发展

2018-12-28 13:11:10 +08:00
 boom7
17 年毕业,来了现在的公司做爬虫,涨薪几次后现在到手 14k,社保公积金什么的交的少…这一年也写了不少爬虫,因为在学校学的安卓开发,所以工作里涉及到 App 逆向脱壳什么的也偶尔做一做,图片验证码和滑动验证码也用机器学习解决过(都是 google,然后参考大佬的代码撸一个出来),框架是公司 CIO 临时撸出来的,flask+celery+redis 做分布式,因为我是第一个 python 爬虫,所以框架就归我维护了,也一直在修修补补改框架的 bug。

一直都有点迷茫,爬虫这职位好像没什么发展,过两年技术提升做爬虫架构师吧,市场好像也没什么需求。所以一直想转到隔壁数据科学组去,但是个人的数学能力 emmmm 一言难尽,机器学习的各种算法也是看得懵逼。

因为这份工作着实不忙,每周 10,7,5 上班,周末双休,所以一直想学点别的东西,机器学习部分有在看吴恩达的课程和 tensorflow 官方教程,另外又觉得需要学门新的语言,于是又在学 golang。

前些天和数据科学组的妹纸聊天,他们似乎很缺人,也在招人,转岗的念头又冒出来了,但又下不定决心。昨天发现 BI 组一位同事已经转岗到数据了,再次动心😐而我的数学确实差,大学的线性代数已经还给老师了,矩阵的加减乘除都搞不明白

所以求大佬指点职业方向:
1,继续做爬虫,工作很安逸,但是技术确实没什么上升空间。爬虫组刚任命了爬虫技术经理,当然不是我…所以职位上也不会有什么变动。但是工作确实很闲,大家上班都在划水。

2,学 go,转后端。本来在学校我是学安卓开发的…所以 java 还算熟悉,但是确实不是很喜欢 java。最近在学 golang,它的发展似乎也还不错,转 golang 后端也是一条路。

3,直接试试转去数据组,他们是用机器学习做评分卡,里边个个都是硕士😂不过之前和领导聊过,本科生也可以,并没有实际的学历要求,而且内部转岗可以先进组再学习。但是我的数学确实是硬伤,所以希望有熟悉机器学习的大佬指点一下。
5206 次点击
所在节点    程序员
44 条回复
boom7
2018-12-28 14:38:30 +08:00
@yang2yang #19 找个大方的公司? hhh
dengtongcai
2018-12-28 14:41:35 +08:00
情况和你差不多。。不过我们这好像没什么好转的,哎。。很烦就
yang2yang
2018-12-28 14:43:17 +08:00
想跟大佬学习爬虫技术
boom7
2018-12-28 14:45:29 +08:00
@luckybo #20 baidu or google or github 搜一下,教程还是蛮多的。图像验证码简单的就二值化去噪切割然后
tesseract 识别,麻烦点的直接上 tensorflow 训练模型就好。滑动的比较麻烦一点,贴个以前看过很有帮助的链接:
https://www.zhihu.com/question/32209043/answer/228776686
boom7
2018-12-28 14:47:15 +08:00
@dengtongcai #22 我们做爬虫就是很烦 hhh,入门简单,但是后来就要很纠结后续发展
boom7
2018-12-28 14:47:37 +08:00
@yang2yang #23 大佬们都不做爬虫 orz。。。
holajamc
2018-12-28 15:29:55 +08:00
羡慕大佬~也在做爬虫,不过还要兼职数据处理+部分 NLP 工作,在西安工资是大佬的 1/2,想溜)
xiao38245
2018-12-28 15:33:13 +08:00
我也有这个困扰, 同 17 年毕业,我倒是想直接转机器学习,但是最近看 tf 和傅里叶,实在 捉急,楼主什么打算,一起交流一下?
glacer
2018-12-28 16:40:45 +08:00
楼主你和我两年前几乎一模一样。
我也是毕业后进入某厂做爬虫,做了一年多后跳槽做了后端。做爬虫期间也做了不少破解工作,像验证码,js 加密破解,APP 的逆向等。
当时做久了觉得这份工作很无聊,平时的工作基本都是在做爬虫的修修补补,应对对方的反爬虫策略。业绩上我们基本都是背锅侠,一旦数据出了问题我们要第一时间顶上,数据没问题的时候就是理所应当。不过现在回想起来其实并不是那么无聊。很多人觉得写爬虫没有一点技术含量,没错,写一个爬虫确实很简单,但写一个「优雅」的爬虫却并不简单。一个靠浏览器模拟爬取的爬虫怎么能喝一个通过破解加密直接请求 API 的爬虫比呢?我在那一年的爬虫工作中最大的收获并不是写爬虫这个技能,而是在爬数据的过程中额外接触到的多个层面的知识。像 HTTP 协议,JavaScript,图像处理,机器学习,逆向等等,以及一些爬虫架构和服务,像去重、调度分发、断点续爬、分布式、缓存、数据库等,还有与其他数据上下游的合作中熟悉的整个数据处理流程和一些大数据的知识。这些基本都是在那一年的爬虫工作中获取到的知识,也是我现在能转型后端的一个原因。这份工作给我带来的不是某个专精的技能,而是拓宽的知识面。
在目前的大环境下,我还是不建议主业做爬虫,前景不是很明朗(合法性)。楼主可以多利用业余时间学一些感兴趣的方向转型,多去试试总会成功的。
qianc1990
2018-12-28 17:24:33 +08:00
评分卡 并不需要太深的算法。。。,理解逻辑回归就行了
boom7
2018-12-28 17:31:58 +08:00
@holajamc #27 溜来上海 hhh
boom7
2018-12-28 17:32:44 +08:00
@xiao38245 #28 这不正在想该怎么打算嘛
boom7
2018-12-28 17:35:29 +08:00
@glacer #29 感谢前辈回复,爬虫确实接触的技术很广,但是深度确实一般,也有转后端的想法 hhh,趁现在还清闲好好学习
boom7
2018-12-28 17:41:56 +08:00
@qianc1990 #30 聊天的时候数据组的同事也说不需要太多数学知识,反正都是调包侠。但是总要考虑以后的发展嘛。。肯定不能一直做评分卡,之后再深入学习的话,不确定自己的数学知识够不够用。准备先像 3 楼说的那样啃一啃西瓜书。
fyxtc
2018-12-28 17:53:34 +08:00
哈哈,我最近也在学习 tf,google 出的官方教程就挺不错的了
FakeLeung
2018-12-28 18:02:34 +08:00
一年,到手 14k (羡慕脸)
boom7
2018-12-28 19:42:23 +08:00
@fyxtc hh 确实不错,正在跟着教程学
Leigg
2018-12-28 20:03:43 +08:00
go- blockC
tingyunsay
2018-12-29 00:44:58 +08:00
和你情况差不多,写了一年的爬虫,基本啥都搞过( but 逆向没人带搞不太定,涉及到 native 那层的代码就不知道怎么调了),然后其他业务需要人,转去做 c++了
现在看看感觉立法要是更严格点,爬虫以后都没法做,还是早点转行,后端比较稳定,go 也是趋势,建议选 2,要是特别想去做 3,还是花点时间打好基础,光用框架,前途不太明朗
楼主加油
boom7
2018-12-29 09:07:23 +08:00
@tingyunsay 感谢。native 层用 ida 调试确实费事。准备趁现在清闲,go 和 机器学习一起学吧,三个月后如果机器学习没有进度,就直接全心全意转后端。争取 2019 能跳个新岗位

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/521855

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX