1、在日常的工作中,大佬们的每日爬取数据量是多少,与数量对应的,都是如何处理爬取数据的(存放,清洗及分析)
2、在项目中,如果有数据爬取的团队,人数的配置和分工是多少呢?
3、在读崔庆才所著《 python3 网络爬虫实战开发》一书中,读到了 cookies 池维护及代理池维护部分,对于 cookies 池的动态管理,书中使用了 flask 框架+redis 数据库部署在云端服务器,通过调用 API 接口来随时获取随机 cookies,想问下在实际工作中,有经验的大佬会在云端部署方便开发,还是直接在爬虫项目中本地提取?
4、除打码平台之外,各位在项目过程中有尝试过机器学习破解验证码的经验么?
5、让各位比较有成就感的网站有哪些呢?
6、爬虫工程师的下一级技术层面的发展呢?
7、最想了解的就是项目工作中出现过最大的问题,以及解决办法。
8、没错,我就是培训出来缺工作经验的秃头年轻人。( web 前端+django+flask+spider+数据分析+AI )
9、反爬措施大多数已经有所了解。目前认为最困难的就是 JS+ajax 加密的请求。这种时候只知道用 selenium 这种解决方法。想知道各位遇到的神级反爬都是什么样的,如果遇到有过解决的思路或者方法么?
10、在过滤数据时,布隆过滤器的使用是不是为优选?在分布式爬虫中,去重应该已经实现,那么布隆过滤器的是在什么情况下会使用?
11、爬虫的编写会考虑算法和数据结构么?
12、爬虫框架的开发,在五大模块的基础上,实现了分布式,数据增量,请求增量,断点续爬,去重等基础条件下,接下来的开发方向有没有经验分享?
各位大佬抽几个回答就好,感激不尽。如果我还能想到什么问题,我会发部上来,希望能得到各位的建议和指教。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.