Scrapy 爬虫简单工程设计

2017-07-21 19:31:27 +08:00
 samding123

在 V2EX 读了几篇前辈的文章,受益匪浅,最近在工作中做了一些爬虫的工作,总结了一下使用新的,供参考:Scrapy 爬虫工程设计

3964 次点击
所在节点    Python
13 条回复
gulangyu
2017-07-21 19:38:52 +08:00
前排支持!
misaka19000
2017-07-21 19:47:33 +08:00
后排支持!
zenxds
2017-07-21 19:50:29 +08:00
中排支持!
aaronzjw
2017-07-21 19:50:59 +08:00
三排 支持
tE1lmEY
2017-07-21 21:20:32 +08:00
最近有需求做这个,想爬 discuz !监控评论!
CryMeatel
2017-07-22 14:48:37 +08:00
scrpay 限制太多。。。一个 twisted 陈旧的 API 有的时候要改下麻烦死了
xarrow
2017-07-22 23:54:05 +08:00
用来爬代理 ip 再保存数据库太鸡肋了,因为代理 ip 生命周期都很短,等你保存到数据库再拿来用估计都死的差不多了
samding123
2017-07-23 12:18:01 +08:00
@xarrow 你可以做一个代理池,每天有任务去爬取和校验有效性。只不过我这个工程是每天 7 点开始,提前两小时开始爬有效 ip,7 点到了就开始用只是今天爬到的。今天以前的就不再用了,省去了维护代理池的步骤
RangerWolf
2017-07-23 17:51:26 +08:00
图画的不错, 请问是用什么画出来的?
lzjun
2017-07-23 19:05:41 +08:00
图画的不错, 请问是用什么画出来的?
mxi1
2017-07-23 22:52:30 +08:00
看着像 visio
sunwei0325
2017-07-24 00:21:37 +08:00
感谢楼主分享!
samding123
2017-07-24 10:57:56 +08:00
@RangerWolf Balsamiq Mockups

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/377081

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX