多源异构日志采集系统如何实现？

最近用 c++做一个日志采集系统，采集到的日志用什么方式传到服务器合理？目前有两种方案，一是生成 XML 发送到 ftp 服务器，然后在服务端解析 XML 放到数据库。第二种是用 Socket 实时传输，直接放到数据库。第一种怎么判断有新的 XML 文件传过来啊？必须要解析成字段放进数据库，方便分析日志请各位大牛指点迷津

jatesun

2016-03-07 11:09:09 +08:00

考虑用开源的不？开源的话 elk 不错的，收集，分析，存储，查看，报表啥的功能都有

mhycy

2016-03-07 11:27:26 +08:00

采到是啥就发啥，注意 TCP 的拥塞问题， UDP 的丢包问题。在某些状态下二者都不靠谱，每次新建连接的开销务必考虑，缓存队列务必考虑超时问题。

原则是：不给应用服务器增加负担.

至于处理系统，原始数据先记录，分析处理开另一个任务处理。
用处理时间换日志完整性.

lecher

2016-03-07 11:48:02 +08:00

如果日志分析的实时性要求不高，同步文件异步处理。这样可以避免日志的峰值。新增文件提醒上， Linux 有 inotify 这个事件可以监听，文件的增删改都可以监听到。但最好把分析入库的处理另外开定时任务处理，没必要实时监控。

如果一定要实时处理日志，用 socket 通信要在客户端和服务端都做好异常处理重发重连的检测，这个部署调试的成本会比文件同步的大。

mhycy

2016-03-07 13:17:11 +08:00

@lecher
文件同步开销并不小

slixurd

2016-03-07 13:20:03 +08:00

TCP 的拥塞问题是个大问题，我们就试过用 Log4J 的 AsyncSocketAppender 发 socket 到其他机器的 logstash 结果把本机搞挂了没法接受 HTTP 请求。

SparkMan

2016-03-07 18:31:54 +08:00

为什么用 XML ，浪费带宽不说还麻烦，直接序列化啊，采集的数据可以先存到磁盘上，然后再从磁盘上分析后入库。

Selena

2016-03-07 18:52:53 +08:00

@jatesun 这是学校搞的实训项目要自己做

Selena

2016-03-07 18:54:03 +08:00

@mhycy @lecher 非常感谢

Selena

2016-03-07 18:56:04 +08:00

@slixurd 拥塞确实是问题

Selena

2016-03-07 18:58:36 +08:00

@SparkMan 回去好好研究研究，还不是很懂

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/261617

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

多源异构日志采集系统 如何实现？

多源异构日志采集系统如何实现？