某五百强信创数据库运维幽默记录

207 天前
 HOMO114514
某五百强信创数据库,为了搭配他们的 arm 硬件,把物理安装的配置需求设计得十分严格,核数内存比 1:8 ,至少 8C 起步,否则安装检查不通过。

(但是容器化模式下允许 4C16G 安装)

一个集群 3 节点,也就是每个 cluster 至少要吃掉 24C192GB 内存,我们这边 base 的机器资源不够,调动用外地的机器,两地之间网络全隔离,需要开单申请端口放行

开始之前,我问某五百强技术支持,我们网络隔离,完成任务 1 需要开通什么端口

技术支持丢给我一个《端口矩阵》,林林总总列出了所有组件的端口接近 100 个,但是没告诉我是干什么用的,说可以参考这个文档

然后选了几个看起来要用的端口,提交了审批,等了 2 天,端口批下来了开始干任务 1

卡住了,几百个组件查 log 查了俩小时,发现它在任务过程中冷不丁地要请求一个端口 A 才能完成,具体来说,它下发 agent 包用的不是 scp ,而是要求 node 反过来请求 controller 的自建非标端口 sftp

OK ,反馈,继续开审批,然后追问五百强技术支持,你们任务 1 还涉及什么端口能说说吗?任务流程全是黑盒子,使用手册没有、矩阵文档也没有

技术支持说,你看看端口矩阵,自己整理下

OK ,等了 2 天,端口 A 批完了,继续任务 1 ,结果卡在另一个地方,再查俩小时 log ,发现这个子任务靠 ping 判断 node 的网络连接,但我们没开 ICMP

OK ,继续开审批,把 ICMP 开了,我再追问技术支持,你们还有什么端口要访问的,能不能说清楚

他回答我,那个端口矩阵你可以看下

等了 2 天,ICMP 批下来了,继续任务 1 ,结果卡在最后一个子任务,这个任务在矩阵文档里写的是要用端口 B ,之前已经批过这个端口,测试也顺利放行。

继续查 log 和测试,俩小时之后发现这个子任务实际上在用端口 C ,而非 B ,端口 C 没开通

OK ,继续开审批,等了 2 天,把端口 C 开了,最后终于跑完了

半个月时间消失了

接下来做任务 2 ,毫无意外地卡住了

查 log 两小时,发现这个子任务试图让 node 终端请求 controller 的 Kafka 来获取一些任务参数,这个端口当然是没开通的,哥们,你是个数据库啊

反馈技术支持,追问,你们任务 2 要什么端口

技术支持进入了已读不回状态
12053 次点击
所在节点    程序员
99 条回复
janwarlen
207 天前
@chowdpa02k413 #23 我建议你每日或者定期一个时间段给你的领导反馈(或者在结束后写复盘总结,锅应甩尽甩)
你是对你的公司/领导负责,不是对外部负责

不然你的领导认为你办事能力不行,对接个东西对接半天
Kinnice
207 天前
不谈这个产品本身咋样,如果你后续发现的端口在所谓的 《端口矩阵》上都有,那说明是你的锅,反之是对面的锅。
如果你的上游审批需要这些端口的作用,那你应该提供《端口矩阵》,或者要求对面提供端口使用说明。
Kinnice
207 天前
@Kinnice #41 "然后选了几个看起来要用的端口",这纯在给自己找事,自信过头了。
clearbug
207 天前
@wkong #1 应该是数据库上层组件通信用的
winterx
207 天前
根据我(司)对接过几家厂来看,负责项目实施的都是只懂按文档帮你装上去就完事了,如果中间遇到什么问题,一问三不知,他还要转工单或者问别人
Mithril
207 天前
“技术支持说,你看看端口矩阵,自己整理下”,现在的乙方都这么牛逼了吗?直接找他们上级投诉去吧。
dog82
207 天前
盲猜是某央企,三大运营商?
forsuperper
207 天前
@mark2025 这个号太有意思了。。。瓜吃的嗡嗡的。。
aru
207 天前
某五百强的风格就是将机器和标准件打包一起卖,搭售有技术支持
技术支持一般来说都是外包,主要靠现场查手册给技术支持
解决不了的才会提交给原厂人员,如果确定是原厂的 bug ,那要看有没有绕开的办法
如果没有,那就等着排期几个月修复吧

反正这家关系硬,甲方的选择余地不多
其他供应商就比较惨了,对接起来比孙子还不如
aru
207 天前
这家的东西质量在国产里面算很好的,就是技术支持方面是一坨
它将肉吃光了,其它供应商只能啃点骨头,赔本赚吆喝的不少
zmh69695328
207 天前
看来还不如 oceanbsse
8355
207 天前
到底是什么理由必须买这垃圾东西啊。。。
forsuperper
207 天前
@8355 因为爱国 buffer 啊
qinrui
207 天前
中农工建交邮,是哪家吧
mightybruce
207 天前
赞同 az467 #40
信创数据库为了方便一体化还自带运维平台,不是通常意义上的单纯数据库。
所以不但有 kafka ,甚至还可能有 redis ,zookeeper ,es 等等一堆东西。
kafka 作为收集事件流和日志的。
查了 gaussdb 的文档,果然要求 ssh, ping 一堆端口
https://support.huawei.com/enterprise/en/doc/EDOC1100345160?currentPartNo=k001&togo=content
mightybruce
207 天前
华为的确是关系硬,背后是军工背景,看过油管二爷故事介绍的。
wabway
207 天前
为了省钱,现在技术支持全外包,外包么懂得都懂
YekongTAT
207 天前
@8355 上面要求
yanhuamiluan
207 天前
端口矩阵, 这么高端的词汇
sampeng
207 天前
你咋找的?微信?电话?
邮件走起啊,抄送自己领导。沟通的艺术啊。。。
他混反正你留痕了锅不在你头上。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1035840

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX