领导让搞出来阿里公众号发的一个叫 Socket Tracer 的网段监控组件

2021-08-03 09:28:56 +08:00
 zhoudaiyu

发发牢骚。公众号 URL: https://mp.weixin.qq.com/s/0w5t_KkHRLXkEY1_qbdTtw,其实就是用 eBPF 实时记录每个虚机 /容器上的一些网络监控指标,但是有几个问题。第一:这个东西压根就不开源,难道我们自己从头做一个吗?第二:我们内核是 3.10 的,如果想用 BPF 怎么也得是 4.4 的内核(公众号说的)。第三:感觉组内实力达不到能做出这种东西。第四:感觉现在根本没有人关注网络层面的问题,排查问题就会 ping 和 telnet,根本不会考虑别的指标。

5962 次点击
所在节点    程序员
26 条回复
CallMeReznov
2021-08-03 09:38:44 +08:00
领导:我没钱,但我要这个,我不听,我必须要这个!

虚拟机监控上 zabbix 不就完了嘛..
ChevalierLxc
2021-08-03 09:42:16 +08:00
从你们公司感觉,ping 和 telnet 就够用了。。
firemiles
2021-08-03 09:42:17 +08:00
推荐一个开源工具可以试试,虽然也要求 4.14 https://github.com/cloudflare/ebpf_exporter
nuk
2021-08-03 09:48:29 +08:00
3.10 支持 kprobe 的,原理类似,你用 systemtap 或者 ktap 也是一样的
salmon5
2021-08-03 10:11:46 +08:00
这玩意公有云厂商有用(协助客户分析问题,扯皮的时候用),一般的公司没什么用
zhs227
2021-08-03 10:19:16 +08:00
一般没太大用处,另外这个 kernel 是真的要升级。
cubecube
2021-08-03 10:25:51 +08:00
@zhs227 一看就是 centos7,不是 cto,一般没办法让公司升级
liuxu
2021-08-03 10:26:53 +08:00
3.10 ,一看就是 centos,赶紧切 debian10 保平安
ivyliner
2021-08-03 10:31:09 +08:00
一直挺关注 eBPF 的.
看了你发的公众号, 阿里选择 BCC 并不是特别 hardcore, 监控 daemon 调用一堆 python, 并不是特别优雅. 其实难度不是很大. 你说的不开源的话, 其实不是很能成立.
1. BCC 是开源的, 里面的网络相关的指标其实已经有很多工具, 大部分是 Python + C 改改就好了.
具体代码可以看看 https://github.com/iovisor/bcc/tree/master/tools 下面的 tcplife, tcpstate, tcprtt 等大概明白怎么做的. 另外文章说的 ss 也是开源的, 用心肯定能找到.
2. 内核版本确实是个问题, 这个可以和领导沟通一下, 看看他的想法, 如果业务没有动力升级内核的话, 那么可能要改变技术方案, 采用 kernel module 等.
3. 不要妄自菲薄, 大公司做的东西难度并不是高不可攀, 很多时候是因为业务迫使大公司要去解决 XXX 问题. 如果在小公司的心态是我们的业务很小, XXX 不重要, 那么自己其实挺难提高的.
4. 网络层面的问题, 只能说你遇到的问题少, 排查问题就只会 ping 和 telnent 那是你自己会, 不代表别人不会 wireshark, bcc 等工具.
swulling
2021-08-03 10:31:26 +08:00
1. Kernel 不升是绝对做不到的。
2. 这个东西的难度不算太高,但是也不低,对网络以及 eBPF 有深入的了解才行。
agassi_yzh
2021-08-03 10:31:30 +08:00
领导其实是找个借口把你干走?
Jface
2021-08-03 11:41:16 +08:00
这个需求得加钱,加入, 加时间
不加 ? 那做不了(摊手)
zhoudaiyu
2021-08-03 12:05:54 +08:00
@CallMeReznov 其实我们有 Falcon,但是上了容器以后不好使了,只能依赖 node-exporter
@ChevalierLxc 我还会用 ss tcpdump nc dropwatch 啥的…不过也就这样了
zhoudaiyu
2021-08-03 12:13:18 +08:00
@firemiles 内核硬伤,可能得用 systap 之类的
@nuk 是的,但是开发起来有些困难
@salmon5 阿里的公众号也是这么说的
@zhs227 可能以后不想背锅了(从来没有想过
@cubecube 准确来讲 rhel7
@liuxu 估计我们部门老大说都不行,动作太大了,收益却没那么大,反正业务能跑
@ivyliner 首先,谢谢大佬提供的项目!第二,确实不能用 bpf 方案。第三,我觉得小厂程序员都有这种想法吧?第四,我在用 wireshark nc dropwatch 等等工具,但是其他人好像比较爱用那俩
@swulling 内核是不可能升级的。我身为运维,但是对网络不熟悉,说起来都惭愧
@agassi_yzh 那倒没有,还是想先看看能不能找现成的东西
@Jface 啥都没有,用爱发电
janxin
2021-08-03 14:14:18 +08:00
老板是要个样子,底层技术老板懂吗?
zhoudaiyu
2021-08-03 14:21:44 +08:00
@janxin 懂啥啊,他早就不搞技术了,纯管理
janxin
2021-08-03 14:34:09 +08:00
@zhoudaiyu 额,我这是个陈述的意思
zhoudaiyu
2021-08-03 15:04:59 +08:00
@janxin 我也是吐槽的意思 😹
offswitch
2021-08-03 16:08:12 +08:00
刚刚看了一下公众号上这篇文章,说是过段时间就要开源
tankren
2021-08-03 16:18:04 +08:00
口头立项可还行 商业论证都不需要

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/793293

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX