如何优化一个爬虫,提升两个档次?

2016-03-07 22:47:12 +08:00
 wenyu1001

入职笔试时基于 python 撸了个爬虫,闲来无事准备去改改。

那么问题来了,如何优化去提升两个档次?

https://github.com/wenyu1001/spider.git

5243 次点击
所在节点    Python
12 条回复
sunchen
2016-03-07 23:48:10 +08:00
入职笔试写爬虫,一猜就是创宇。
wenyu1001
2016-03-08 09:57:26 +08:00
@sunchen 不用猜 :)

是否先从稳定性,准确性入手优化?
helloworldwt
2016-03-08 10:55:37 +08:00
爬虫需要使用代理,这样你 ip 被封时,减少对程序的影响
flamhaze5946
2016-03-08 12:26:37 +08:00
好吧。。是爬美女网站吗。。。当初被拒了(ฅ>ω<*ฅ)
wenyu1001
2016-03-08 13:01:50 +08:00
@helloworldwt
是,可以加入 httpproxy, socks 代理

@flamhaze5946
想法真丰富
CrazySpiderMan
2016-03-08 13:16:08 +08:00
是我的话, 我直接换 Node.js 了. Python 搞爬虫, 麻烦的很.
CrazySpiderMan
2016-03-08 13:16:37 +08:00
@CrazySpiderMan 这里有个我用 Node.js 写个 P2P 网络的爬虫. https://github.com/Fuck-You-GFW/p2pspider
l6751902
2016-03-08 13:43:45 +08:00
黑 V2EX 后台,上传爬虫远程管理工具,然后把爬虫实际执行的逻辑嵌入前端.........
sampeng
2016-03-08 14:00:02 +08:00
加 2 倍机器。。绝对提升两个档次
wenyu1001
2016-03-08 17:44:11 +08:00
@sampeng nice!
penjianfeng
2016-03-08 21:01:00 +08:00
这还不简单,先把性能降 2 倍,然后在切换回来,绝对提升两个档次,哈哈哈
wenyu1001
2016-03-09 13:26:30 +08:00
@penjianfeng
这要是被领导知道,还不等着去财务处领工资?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/261794

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX