有从事爬虫或数据分析的大佬,小弟有些问题想请教一下。

2018-08-20 22:07:18 +08:00
 Mnzz0785

1、在日常的工作中,大佬们的每日爬取数据量是多少,与数量对应的,都是如何处理爬取数据的(存放,清洗及分析)

2、在项目中,如果有数据爬取的团队,人数的配置和分工是多少呢?

3、在读崔庆才所著《 python3 网络爬虫实战开发》一书中,读到了 cookies 池维护及代理池维护部分,对于 cookies 池的动态管理,书中使用了 flask 框架+redis 数据库部署在云端服务器,通过调用 API 接口来随时获取随机 cookies,想问下在实际工作中,有经验的大佬会在云端部署方便开发,还是直接在爬虫项目中本地提取?

4、除打码平台之外,各位在项目过程中有尝试过机器学习破解验证码的经验么?

5、让各位比较有成就感的网站有哪些呢?

6、爬虫工程师的下一级技术层面的发展呢?

7、最想了解的就是项目工作中出现过最大的问题,以及解决办法。

8、没错,我就是培训出来缺工作经验的秃头年轻人。( web 前端+django+flask+spider+数据分析+AI )

9、反爬措施大多数已经有所了解。目前认为最困难的就是 JS+ajax 加密的请求。这种时候只知道用 selenium 这种解决方法。想知道各位遇到的神级反爬都是什么样的,如果遇到有过解决的思路或者方法么?

10、在过滤数据时,布隆过滤器的使用是不是为优选?在分布式爬虫中,去重应该已经实现,那么布隆过滤器的是在什么情况下会使用?

11、爬虫的编写会考虑算法和数据结构么?

12、爬虫框架的开发,在五大模块的基础上,实现了分布式,数据增量,请求增量,断点续爬,去重等基础条件下,接下来的开发方向有没有经验分享?

各位大佬抽几个回答就好,感激不尽。如果我还能想到什么问题,我会发部上来,希望能得到各位的建议和指教。

1131 次点击
所在节点    问与答
1 条回复
Linxing
2018-08-22 09:10:38 +08:00
简单回答下
1.不多 15W 条记录左右
2.目前爬虫只有我一个人在做
3.没用 cookie 池 有维护一个代理池 但是部署在本地服务器
4.打码平台方便 成本相对低一点 毕竟遇到变态的验证吗 还是少
5.不便透露
6.我比较菜 今年想做一下分布式
9.AJAX 目前我只能用模拟的方式
11.算法我用的不多 数据结构倒是要好好设计下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/481611

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX