Python 爬虫项目如何管理?

2016-10-08 17:51:38 +08:00
 practicer

换工作后终于名正言顺写爬虫了,团队中只有我一个人写爬虫项目, 最近有个爬虫项目持续到年底,一天爬一个网站的速度,那么, 百来个爬虫项目如何管理呢? 我不用 scrapy, 有什么 tricky 或者建议请不吝赐教.

我期望的比较好的管理方式是部署到 web, 通过 web 管理. 实在不行就只能用 excel 管理啦.

6007 次点击
所在节点    Python
20 条回复
50vip
2016-10-08 17:57:43 +08:00
不知道是什么意思~
wico77
2016-10-08 18:39:50 +08:00
pyspider, 不过这个适合定时爬。
Patrick95
2016-10-08 18:46:32 +08:00
用 Python 再写一个爬虫项目的 Web 管理系统嘛,应该不难呀。
wayslog
2016-10-08 18:59:06 +08:00
crontab+版本控制自动跑,考虑到迁移 ip 的事儿再用 ansible 写了个半自动化部署脚本。。。用的也挺好的
practicer
2016-10-08 19:11:18 +08:00
@wico77 看起来很有用,真的很感谢分享
practicer
2016-10-08 19:12:03 +08:00
@Patrick95 重新写不是挺慢的吗
Kilerd
2016-10-08 20:11:43 +08:00
造轮子,造轮子!!!
crayonyi
2016-10-08 20:53:43 +08:00
我是自己写了一个通用爬虫系统,后面用 django admin ,管理 10 几个爬虫的爬取规则及定时任务
cphilo
2016-10-08 21:22:58 +08:00
所有爬虫采用配置,然后弄个消息队列用来调度爬虫任务,基本上维护起来非常方便了,生产环境中几百个站点实践过
practicer
2016-10-09 09:08:03 +08:00
@cphilo 能不能详细说明一下啊?
practicer
2016-10-09 09:08:45 +08:00
@wayslog 有相关的教程吗?谢谢
anyforever
2016-10-09 09:19:47 +08:00
wayslog
2016-10-09 10:26:24 +08:00
@practicer 没啥教程……基本上修修补补就出来了……又不是啥难得事儿……几个脚本的事儿
zluyuer
2016-10-09 12:29:13 +08:00
推荐采用 Rundeck 调度
brucedone
2016-10-09 16:41:57 +08:00
执行载体暴露 api ,以 xml 或者 json 做为标准格式,执行载体要有当前执行,待跑列表,历史记录,爬虫管理,执行或者删除等核心功能,然后以此的基础上,你就欢快的脱离语言自己造轮子吧。
brucedone
2016-10-09 17:26:22 +08:00
关于调度的,欢迎你使用这个。[调度]可视化的调度架构-Dagobah] http://brucedone.com/archives/754
practicer
2016-10-09 18:47:57 +08:00
@brucedone 这个工具很灵活啊,谢谢了
ytmsdy
2016-10-09 20:48:53 +08:00
pyspider
cszhiyue
2016-10-10 16:15:17 +08:00
@brucedone 更加完善的

incubator-airflow
tikazyq
2020-04-08 08:33:17 +08:00
crawlab

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/311203

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX