Python 爬虫改成 go,性能提高 5 倍?

2018-12-03 09:28:17 +08:00
 sagaxu
https://zhuanlan.zhihu.com/p/48254385
17878 次点击
所在节点    Python
107 条回复
locoz
2018-12-03 18:42:53 +08:00
@est #98
yangyaofei
2018-12-03 18:45:33 +08:00
scrapy 用 scrapy-redis 做多进程,可以跑满 cpu,把数据库跑成瓶颈
mingyun
2018-12-03 22:15:54 +08:00
来晚了 都 404 了
largecat
2018-12-03 22:36:38 +08:00
404 看不到了,
不过看楼上很多人评论,spider 里采集数据同时入库,
我猜这个人肯定不会 scrapy 框架。瞎 jb 写的。

scrapy 用 spider 爬取,
数据处理在 pipeline 里,
全部一溜的 IO 异步,

怎么可能等入库好了再采下一个,,
zkeeper
2018-12-04 02:59:25 +08:00
@congeec 同意你说的, Python 社区好像整体不怎么在意性能, 所有与之相关的改进优先级都放到很低. 一个 GIL 都多少年了, 我看都成了面试必问问题了, 这有多尴尬.
hasbug
2018-12-04 09:25:51 +08:00
我想学 go 有人说没啥用,看本地就业情况,一搜没有,想转 python,自己折腾点东西,有人说就是一自行车,项目要想维护下去 最好不要选···

我还能学什么?
locoz
2018-12-04 11:02:50 +08:00
@hasbug #106 编程语言很多东西都是共通的,所以语言并不是关键,看哪个好找工作就学哪个

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/513689

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX