多源异构日志采集系统 如何实现?

2016-03-07 10:44:50 +08:00
 Selena
最近用 c++做一个日志采集系统,采集到的日志用什么方式传到服务器合理?目前有两种方案,一是生成 XML 发送到 ftp 服务器,然后在服务端解析 XML 放到数据库。第二种是用 Socket 实时传输,直接放到数据库。第一种怎么判断有新的 XML 文件传过来啊?必须要解析成字段放进数据库,方便分析日志 请各位大牛指点迷津
2317 次点击
所在节点    问与答
10 条回复
jatesun
2016-03-07 11:09:09 +08:00
考虑用开源的不?开源的话 elk 不错的,收集,分析,存储,查看,报表啥的功能都有
mhycy
2016-03-07 11:27:26 +08:00
采到是啥就发啥,注意 TCP 的拥塞问题, UDP 的丢包问题。在某些状态下二者都不靠谱,每次新建连接的开销务必考虑,缓存队列务必考虑超时问题。

原则是:不给应用服务器增加负担.

至于处理系统,原始数据先记录,分析处理开另一个任务处理。
用处理时间换日志完整性.
lecher
2016-03-07 11:48:02 +08:00
如果日志分析的实时性要求不高,同步文件异步处理。这样可以避免日志的峰值。新增文件提醒上, Linux 有 inotify 这个事件可以监听,文件的增删改都可以监听到。但最好把分析入库的处理另外开定时任务处理,没必要实时监控。

如果一定要实时处理日志,用 socket 通信要在客户端和服务端都做好异常处理重发重连的检测,这个部署调试的成本会比文件同步的大。
mhycy
2016-03-07 13:17:11 +08:00
@lecher
文件同步开销并不小
slixurd
2016-03-07 13:20:03 +08:00
TCP 的拥塞问题是个大问题,我们就试过用 Log4J 的 AsyncSocketAppender 发 socket 到其他机器的 logstash 结果把本机搞挂了没法接受 HTTP 请求。
SparkMan
2016-03-07 18:31:54 +08:00
为什么用 XML ,浪费带宽不说还麻烦,直接序列化啊,采集的数据可以先存到磁盘上,然后再从磁盘上分析后入库。
Selena
2016-03-07 18:52:53 +08:00
@jatesun 这是学校搞的实训项目 要自己做
Selena
2016-03-07 18:54:03 +08:00
@mhycy @lecher 非常感谢
Selena
2016-03-07 18:56:04 +08:00
@slixurd 拥塞确实是问题
Selena
2016-03-07 18:58:36 +08:00
@SparkMan 回去好好研究研究,还不是很懂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/261617

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX