请问爬虫可以转什么方向?转岗所需要的工作经验如何获得?

343 天前
 aozhou
做了几年爬虫,感觉这个终究不是长久之计。
不仅现在反爬方式越来越多种多样,难度直线上升,更主要的是,终究不算比较正当的方向,付出太多努力感觉不值得。
不知道 v 友有什么建议。
2854 次点击
所在节点    职场话题
42 条回复
ospider
343 天前
LLM 风口来了,你倒要跑了
aozhou
343 天前
@ospider 主要是总觉得不算什么正当技术,搞得太狠风险挺高
evil0harry
343 天前
->反爬虫
->web 安全
->全栈开发
NoOneNoBody
343 天前
爬虫确实风险很大,但爬虫技术则是一个长久技能
爬虫包含获取和分析,后者可以用到各种大数据方面(数据分析前置就是数据获取),举例子 X 也要分析自家的所有推文
前者则可以走向网络方面,当然需要分布式方面技能,如果仅仅是单机爬虫爬取,就算做得很好也会被淹没,因为懂的人太多
aozhou
343 天前
@evil0harry 日常不做这些工作的话,影响转岗的时候面试么?还是说自己业余做一些也行
aozhou
343 天前
@NoOneNoBody 感觉数据分析和爬虫还是不太相关的,最多算一般缺数据的公司的前置工作
yifangtongxing28
343 天前
爬虫不是都在往模拟人点击行为在走吗,这种还挺有意思的,纯接口的反扒机制已经限制死了
NoOneNoBody
343 天前
@aozhou #6
如果看到“数据分析”,你只想到“分析”、计算这些,那确实没什么关系
但数据分析首先要有数据,不能凭空创造,这个获取过程称为采样,采样是有专门《采样学》的,就是一大堆数据,哪些是包含有效信息的,哪些是只有无效信息的,要做筛选,说俗一点就是数据海选,试想一下,扔一堆 html 给分析人员会不会被骂死?当然是前置工作,没数据也无法分析
采样有多种途径,目前来说,网络采样是成本较低的一种

你要扩大思维,数据海选不一定就是“爬”外网,例如有个目录里面上亿个富文本,如何通过海选提取“有效数据”,如去掉广告,去掉无关的一些内容,保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作,总不会爬虫爬取结束后,一个字节都不动照搬显示吧?
再用上述例子,一亿个 html ,但分析部门要求只用五千万,至于为什么就不用纠结了,可能因为硬件所限,可能因为时间所限等等,一亿筛走一半,要说出个所以然,为什么那去掉的五千万是“没用的”,根据什么理论筛掉,随机么?这就是采样学要做的工作。分析部门中需要有人做这种粗活,分析师是不管这些的,如果分析过程发现样本“不合格”,是需要打回头重新采样的
freshgoose
343 天前
爬虫接外包都挺贵的,而且活比较轻松
auh
343 天前
爬虫最贵了。学好了,将来灰产的干活。
aozhou
343 天前
@NoOneNoBody 受教了,非常感谢~
aozhou
343 天前
@auh 呃~就是因为不想这么灰
levelworm
343 天前
@auh 感觉破解这块还是太难了
bequt
343 天前
爬虫总是在刀尖上舔血。
dearmymy
343 天前
爬虫技术栈挺尴尬的。逆向安全里也是鄙视链底端,那点 js 水平前端也看不上。
Dart
343 天前
遵守 robots.txt 就行了啊
levelworm
342 天前
@dearmymy 软件逆向里最高端的是啥?估计是工业上的玩意?还是病毒木马这些。
fox0001
342 天前
深度学习,考虑下
dayeye2006199
342 天前
大模型的数据团队
dearmymy
342 天前
@levelworm 二进制逆向里,觉得 vmp ,驱动保护之类,现在移动端反调试,llvm 混淆之类。主要网页爬虫,天花板太低了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX