一般商业爬虫程序(Java 非 web)是怎么部署到生产环境并运行和监控的?

2015-12-23 17:55:57 +08:00
 solomaster

持续性的爬虫。我没有这方面实际应用的经验,这种非 web 的如何部署运行呢?我 google 到的是用 maven 打成可运行 jar ,直接在 linux 下用 java 命令运行,而监控是用 JMX 之类的。
想问下
1 :正式的公司里面是怎么做的?
2 :定时计划任务一般是在程序里面配置好还是用 linux 的 cron 工具呢?
3 :一般如何监控爬虫运行的呢?

谢谢。

2826 次点击
所在节点    问与答
5 条回复
28ms
2015-12-23 17:58:47 +08:00
我们公司里用 python 的,都是做成定时任务放 crontab ,感觉有点 low
监控爬虫运行靠收 root mail 看日志,呵呵呵
magnetoeric
2015-12-23 18:17:52 +08:00
我以前在公司用的 nutch 可以自己设定时间抓的
canesten
2015-12-23 18:18:12 +08:00
个人提议方案
用 Quartz ,运行监控可以写日志嘛
sweelia
2015-12-23 19:10:13 +08:00
最方便的,套上 web 框架模板,扔进 tomcat 里跟普通 web 应用一样监控。
wy315700
2015-12-23 19:45:37 +08:00
@28ms crontab 可以改 Mailto ,可以把运行结果发邮件出来的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/245663

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX