先回答一下你的问题:
爬虫领域的社区是有的,比如我们团队( NightTeam )搞的夜幕爬虫安全论坛
https://bbs.nightteam.com还有我们公众号的读者群、课程的学员群、团队成员自己搞的技术交流群的交流环境也都挺好,就是读者群平时会比较冷清一些,毕竟没什么人闲聊,进群管控也比较严格,不会有打广告的混进来发些有的没的。
教程、书籍以及隐含的学习方向这方面问题的话,我已经重复回答太多次了,直接甩知乎链接你自己看吧:
请问爬虫学哪些可以就业啊?- loco 的回答 - 知乎
https://www.zhihu.com/question/460129002/answer/1894395065python 爬虫基础学完了,我真的能找到一份工作吗? - loco 的回答 - 知乎
https://www.zhihu.com/question/407856161/answer/1351562789有没有关于图论的推荐书,爬虫和深度学习也可以? - loco 的回答 - 知乎
https://www.zhihu.com/question/317802681/answer/1352294701至于使用数据库存媒体文件这种事情...除了 MongoDB 这种有特殊优化过的还行以外,其他的都不合适,而且数据库里要存也只能存一些小文件,存大的很影响速度。最佳选择实际上是结合对象存储操作,使用对象存储来存文件,数据库中只存一个文件 ID 用来关联对象存储中的文件,这样既能方便管理,又得到了高性能。
简单使用时可以是直接 Docker 跑个 Minio 来提供对象存储,生产环境要高可靠的话就得多节点跑甚至是搞一套 ceph 或者直接用公有云的对象存储服务,具体可选方案很多,但它们基本都可以通过 S3 协议来操作,所以同时建议你了解一下 S3 相关知识( S3 是亚马逊云的对象存储服务,它的通信协议已经成了事实上的行业规范,现在的对象存储服务基本都会兼容 S3 的协议,只不过具体实现的功能有所差异而已)。
---
然后说一下你碰到的这种情况:
其实吧…你的情况是绝大多数做爬虫的人也同样碰到过的情况,因为根据我看过的几百份投向爬虫岗位的简历来看,绝大多数人的水平其实就处于你这个阶段上下,而且其中很多人即使三五年经验了也依然因为公司项目原因而没啥长进…
这绝大多数人里,水平高一点的能会点 JS 逆向、手机端抓个包或者反编译看看代码,水平差一点的连 JS 逆向都不会,就只会 selenium 、pyppeteer 一把梭(大多数连写 JS 调原版的 puppeteer 都不会,只会用个问题一堆的 python 版本),面对现在的环境和企业招聘需求真的不太行。尤其是后者这种,企业没特殊需求的话招个这水平的人还真不如直接用傻瓜式爬虫工具,毕竟人家好歹自动处理完了反爬、能快速配好解析规则,而这水平的人基本也就只能做到这样了,可能做得还没工具快...
这种情况,究其原因其实就是有太多 Python 相关自媒体、非真正做爬虫方向的人对爬虫领域的内容灌水过多,以及无良培训机构过多,导致爬虫领域的文章、书籍、付费课程等都充斥着大量仅限于这个阶段水平的内容,罕有更进一步的。再加上很多人学习方式真的很奇葩,只想得到解决具体网站或 APP 问题的“鱼”,而非解决问题所用到原理、技巧的“渔”,这就进一步加剧了拿简单网站或 APP 水内容的现象。
我们团队( NightTeam )当初之所以组建,就是因为我们都看不下去这种情况,想聚集声量输出一些更具有实际价值的内容,以尽可能地改变这种情况。可惜的就是现在大家都比较忙,也没那么多时间运营,跟那些灌水的没法比,以至于这个主题发布到现在都这么长时间了,居然还没有一个人提到我们团队或团队成员发布和运营的东西...
---
最后还是建议一下楼主和其他抱着同样问题点进这个主题的人,千万别想着只要有“鱼”就行而不学“渔”。我看到过很多水平不咋地的人,他们一看个偏思路、技巧、原理性质的内容就会觉得内容水,觉得只要不是教他怎么搞定某个具体的网站或 APP 就是没意义的内容,这种学习方式真的学不到啥...别人只要改动一点细节或者换个做法,原来学到的东西就废了,知其然而不知其所以然,有啥用?
说白了,爬虫与反爬虫的本质和软件安全、网络安全是一样的,都是攻防对抗、思维碰撞,这种与人对抗较多的领域跟前后端、客户端开发这种实现功能就行的领域完全是两码事,思维、操作技巧和感觉才是根本,搞不清重点只会白交智商税还没啥长进。