V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
HOMO114514
V2EX  ›  程序员

某五百强信创数据库运维幽默记录

  •  1
     
  •   HOMO114514 · 207 天前 · 12051 次点击
    这是一个创建于 207 天前的主题,其中的信息可能已经有所发展或是发生改变。
    某五百强信创数据库,为了搭配他们的 arm 硬件,把物理安装的配置需求设计得十分严格,核数内存比 1:8 ,至少 8C 起步,否则安装检查不通过。

    (但是容器化模式下允许 4C16G 安装)

    一个集群 3 节点,也就是每个 cluster 至少要吃掉 24C192GB 内存,我们这边 base 的机器资源不够,调动用外地的机器,两地之间网络全隔离,需要开单申请端口放行

    开始之前,我问某五百强技术支持,我们网络隔离,完成任务 1 需要开通什么端口

    技术支持丢给我一个《端口矩阵》,林林总总列出了所有组件的端口接近 100 个,但是没告诉我是干什么用的,说可以参考这个文档

    然后选了几个看起来要用的端口,提交了审批,等了 2 天,端口批下来了开始干任务 1

    卡住了,几百个组件查 log 查了俩小时,发现它在任务过程中冷不丁地要请求一个端口 A 才能完成,具体来说,它下发 agent 包用的不是 scp ,而是要求 node 反过来请求 controller 的自建非标端口 sftp

    OK ,反馈,继续开审批,然后追问五百强技术支持,你们任务 1 还涉及什么端口能说说吗?任务流程全是黑盒子,使用手册没有、矩阵文档也没有

    技术支持说,你看看端口矩阵,自己整理下

    OK ,等了 2 天,端口 A 批完了,继续任务 1 ,结果卡在另一个地方,再查俩小时 log ,发现这个子任务靠 ping 判断 node 的网络连接,但我们没开 ICMP

    OK ,继续开审批,把 ICMP 开了,我再追问技术支持,你们还有什么端口要访问的,能不能说清楚

    他回答我,那个端口矩阵你可以看下

    等了 2 天,ICMP 批下来了,继续任务 1 ,结果卡在最后一个子任务,这个任务在矩阵文档里写的是要用端口 B ,之前已经批过这个端口,测试也顺利放行。

    继续查 log 和测试,俩小时之后发现这个子任务实际上在用端口 C ,而非 B ,端口 C 没开通

    OK ,继续开审批,等了 2 天,把端口 C 开了,最后终于跑完了

    半个月时间消失了

    接下来做任务 2 ,毫无意外地卡住了

    查 log 两小时,发现这个子任务试图让 node 终端请求 controller 的 Kafka 来获取一些任务参数,这个端口当然是没开通的,哥们,你是个数据库啊

    反馈技术支持,追问,你们任务 2 要什么端口

    技术支持进入了已读不回状态
    第 1 条附言  ·  207 天前
    补充一下关于“这个子任务靠 ping 判断 node 的网络连接”细节

    这个子任务是任务的末期,判断 agent 下发后是否能够正常通信的,任务流名称大概叫 VerifyAgentConnection 之类的东西。

    它用了一些混合方法来验证,包括 SSH 连接、请求一个 Agent 的服务端口 D 获取信息、以及 ping 。

    后面我通过 log 查到,SSH 已经通过了,而且任务已经明确地接收到了 D 端口返回来的很长的集群 info json ,但是因为 ping 没通过,反复重试 600 秒后超时,最后判定任务失败
    第 2 条附言  ·  207 天前

    也许是某一种缘分,我发完这个帖子之后,五百强的技术支持终于打电话跟进了。

    说明了这半个月以来摸端口走一步算一步的过程,然后反馈端口矩阵对我们面向功能的运维用处不大。

    最后对方让我们把矩阵里的端口全开了,走最后一次审批流程,下周再接再厉。

    有些V友说得挺对的,我认可其实后面的麻烦都是我这边流程不当导致的问题,还是太年轻,应该一开始就直接让甲方把矩阵全开了。

    过阵子给大家更新一些信创数据库周边工具更幽默的案例好了

    99 条回复    2024-04-28 09:37:07 +08:00
    wkong
        1
    wkong  
       207 天前
    数据库还用到了 kafka ?
    gtese
        2
    gtese  
       207 天前
    你为什么不把矩阵的端口全开了得了。
    问就回答说技术给的文档。
    gongquanlin
        3
    gongquanlin  
       207 天前
    国产软件都这尿性,都快习惯了
    HOMO114514
        4
    HOMO114514  
    OP
       207 天前   ❤️ 1
    @gtese 另一边是银行,审核非常严格,每次开端口要三级两地领导审批,每个端口需要对应原因,否则一般大概率是会被打回的
    lazyfighter
        5
    lazyfighter  
       207 天前
    为啥不敢说公司名称 我不能理解
    HOMO114514
        6
    HOMO114514  
    OP
       207 天前   ❤️ 4
    @lazyfighter
    五百强,信创数据库,同时卖 arm 机器,内存要求高
    接触过的已经能够知道是哪家了
    F7TsdQL45E0jmoiG
        7
    F7TsdQL45E0jmoiG  
       207 天前
    按天收费的话就赚了
    07ly
        8
    07ly  
       207 天前
    对这种国内的黑盒信创软件,基于政治任务,就不要考虑什么最小授权原则了,应开尽开,保留甩锅证据就好了
    vacuitym
        9
    vacuitym  
       207 天前
    不会是 hua 吧,我接触的不多,就接触过一次那个 arm 服务器
    JackyTsang
        10
    JackyTsang  
       207 天前 via Android   ❤️ 1
    魔改 PG ,越改越垃圾。
    povsister
        11
    povsister  
       207 天前
    toB 文档写成这样也能卖钱啊。。
    从这实际任务流程上感觉就是:世界果然是草台班子搭起来的
    someonedeng
        12
    someonedeng  
       207 天前
    kafka???
    NessajCN
        13
    NessajCN  
       207 天前   ❤️ 1
    这你居然还有心情问第二第三遍....
    在第一遍问他需要什么端口的时候不就该立刻意识到他的回答是「我就是个混子,我啥也不知道」吗
    没在第一时间意识到对方根本啥也不懂那就是你的不对了,需要进一步加强对技术力判断的经验。
    基于对方技术啥也不懂的前提,如果对面钱给得够,那就要在项目规划期就策划好排查所需端口的工期,
    说白了,只要钱给到位,甲方是不可能有错的,还是你们自己太菜。
    pkoukk
        14
    pkoukk  
       207 天前   ❤️ 1
    @lazyfighter 类似于伏地魔的 you konw who
    iamppz
        15
    iamppz  
       207 天前 via iPhone
    得看什么五百强,国企央企的话属于正常发挥
    aofall
        16
    aofall  
       207 天前   ❤️ 13
    五百强+信创数据库+arm ,应该是华为的高斯数据库吧
    mythabc
        17
    mythabc  
       207 天前
    更惨的情况是,你的客户因为信创买了 YKW 的数据库。然后客户又要求你适配 YKW 的数据库。你并不是 YKW 的直接客户,所以你连他们家的产品文档都下载不到。反正 PG 能用,YKW 的数据库用着察觉不出问题,能过验收,这国产兼容适配的任务就完成了。
    seers
        18
    seers  
       207 天前 via Android   ❤️ 1
    你还是太年轻,我们给甲方部署系统,第一条要求就是网络全开,后面上线后再收紧访问面,因为就是你这种坑踩得太多了。。。尤其是阿里系的东西,一言难尽
    Suomea
        19
    Suomea  
       207 天前
    @iamppz 刻板印象,具体还是要看对接人的。
    loveshuyuan
        20
    loveshuyuan  
       207 天前
    信创是一笔大生意
    levelworm
        21
    levelworm  
       207 天前
    @seers 这些数据库怎么这个样子?国内的那些也是如此吗?
    kangyue9999
        22
    kangyue9999  
       207 天前 via Android
    arm 的 aarch64 64k pagesize 可能 是一个原因
    LieEar
        23
    LieEar  
       207 天前
    他这个数据库是自己从 0 开始写的吗?还是开源套皮的
    HOMO114514
        24
    HOMO114514  
    OP
       207 天前 via iPhone
    @NessajCN
    这家五百强的风格是为每个项目指派一个专门负责人对接支持,无论是 poc 还是正式交付的项目,从程序上来说是挺好的
    但架不住已读不回的就是这位负责人
    HOMO114514
        25
    HOMO114514  
    OP
       207 天前 via iPhone
    @seers
    吃一堑长一智,以后会这么干了
    jinsongzhao
        26
    jinsongzhao  
       207 天前
    其实不用关心是否套皮,关心一下哪些能超越的,超不过就赶紧加入,努力成为那个没了我,你也要完蛋的加入者。
    vagusss
        27
    vagusss  
       207 天前
    已读不回, 直接向上反馈说不配合, 花了钱还遭罪这家也太牛了.
    totoro52
        28
    totoro52  
       207 天前
    @LieEar 信创基本是套皮,没几个是自己的
    totoro52
        29
    totoro52  
       207 天前
    “发现这个子任务试图让 node 终端请求 controller 的 Kafka 来获取一些任务参数”
    一个数据库为什么还需要 Kafka 。。。 好奇
    1018ji
        30
    1018ji  
       207 天前
    话说你是咋想的敢问第二次呢
    dacapoday
        31
    dacapoday  
       207 天前
    特有的客户当孙子,信创,腐败的温床。
    lltlo
        32
    lltlo  
       207 天前
    @vagusss 下回可能就是不读了
    huzhizhao
        33
    huzhizhao  
       207 天前
    信创项目嘛 设计是这样的
    HusaYn
        34
    HusaYn  
       207 天前   ❤️ 3
    好日子还在后头呢
    yeyang5211
        35
    yeyang5211  
       207 天前
    @dacapoday 我只能说确实挣钱,这孙子不白当.. 有专门的信创拨款
    fengye0509
        36
    fengye0509  
       207 天前
    @chowdpa02k413 #4 我觉得第一次卡住 你再去提审批就该考虑一下,这个技术提供的端口矩阵不准确,需要你来沟通和测试后完善一下再去申请新的,永远不要相信别人提供的
    dif
        37
    dif  
       207 天前
    @povsister 那卖的是产品吗?卖的是人情世故。 虽然觉得这些软件恶心。
    leaflxh
        38
    leaflxh  
       207 天前
    烂先不谈,以后别炸就行。炸了那可真是搬起石头砸自己的脚
    mark2025
        39
    mark2025  
       207 天前
    还有更幽默的的 vx 公众号 人在信创
    az467
        40
    az467  
       207 天前 via Android   ❤️ 1
    某几家的产品,
    说是信创数据库,其实是基于 pgxl 架构改出来的缝合产物,还自带运维平台,不是通常意义上的单纯数据库。

    所以不但有 kafka ,甚至还可能有 redis ,zookeeper ,es 等等一堆东西。
    janwarlen
        41
    janwarlen  
       207 天前
    @chowdpa02k413 #23 我建议你每日或者定期一个时间段给你的领导反馈(或者在结束后写复盘总结,锅应甩尽甩)
    你是对你的公司/领导负责,不是对外部负责

    不然你的领导认为你办事能力不行,对接个东西对接半天
    Kinnice
        42
    Kinnice  
       207 天前
    不谈这个产品本身咋样,如果你后续发现的端口在所谓的 《端口矩阵》上都有,那说明是你的锅,反之是对面的锅。
    如果你的上游审批需要这些端口的作用,那你应该提供《端口矩阵》,或者要求对面提供端口使用说明。
    Kinnice
        43
    Kinnice  
       207 天前   ❤️ 4
    @Kinnice #41 "然后选了几个看起来要用的端口",这纯在给自己找事,自信过头了。
    clearbug
        44
    clearbug  
       207 天前
    @wkong #1 应该是数据库上层组件通信用的
    winterx
        45
    winterx  
       207 天前
    根据我(司)对接过几家厂来看,负责项目实施的都是只懂按文档帮你装上去就完事了,如果中间遇到什么问题,一问三不知,他还要转工单或者问别人
    Mithril
        46
    Mithril  
       207 天前
    “技术支持说,你看看端口矩阵,自己整理下”,现在的乙方都这么牛逼了吗?直接找他们上级投诉去吧。
    dog82
        47
    dog82  
       207 天前
    盲猜是某央企,三大运营商?
    forsuperper
        48
    forsuperper  
       207 天前
    @mark2025 这个号太有意思了。。。瓜吃的嗡嗡的。。
    aru
        49
    aru  
       207 天前
    某五百强的风格就是将机器和标准件打包一起卖,搭售有技术支持
    技术支持一般来说都是外包,主要靠现场查手册给技术支持
    解决不了的才会提交给原厂人员,如果确定是原厂的 bug ,那要看有没有绕开的办法
    如果没有,那就等着排期几个月修复吧

    反正这家关系硬,甲方的选择余地不多
    其他供应商就比较惨了,对接起来比孙子还不如
    aru
        50
    aru  
       207 天前
    这家的东西质量在国产里面算很好的,就是技术支持方面是一坨
    它将肉吃光了,其它供应商只能啃点骨头,赔本赚吆喝的不少
    zmh69695328
        51
    zmh69695328  
       207 天前 via Android
    看来还不如 oceanbsse
    8355
        52
    8355  
       207 天前
    到底是什么理由必须买这垃圾东西啊。。。
    forsuperper
        53
    forsuperper  
       207 天前
    @8355 因为爱国 buffer 啊
    qinrui
        54
    qinrui  
       207 天前
    中农工建交邮,是哪家吧
    mightybruce
        55
    mightybruce  
       207 天前
    赞同 az467 #40
    信创数据库为了方便一体化还自带运维平台,不是通常意义上的单纯数据库。
    所以不但有 kafka ,甚至还可能有 redis ,zookeeper ,es 等等一堆东西。
    kafka 作为收集事件流和日志的。
    查了 gaussdb 的文档,果然要求 ssh, ping 一堆端口
    https://support.huawei.com/enterprise/en/doc/EDOC1100345160?currentPartNo=k001&togo=content
    mightybruce
        56
    mightybruce  
       207 天前
    华为的确是关系硬,背后是军工背景,看过油管二爷故事介绍的。
    wabway
        57
    wabway  
       207 天前
    为了省钱,现在技术支持全外包,外包么懂得都懂
    YekongTAT
        58
    YekongTAT  
       207 天前
    @8355 上面要求
    yanhuamiluan
        59
    yanhuamiluan  
       207 天前
    端口矩阵, 这么高端的词汇
    sampeng
        60
    sampeng  
       207 天前
    你咋找的?微信?电话?
    邮件走起啊,抄送自己领导。沟通的艺术啊。。。
    他混反正你留痕了锅不在你头上。
    IDAEngine
        61
    IDAEngine  
       207 天前
    oceanbase 吧?各种开源组件集成在里面
    Leovim
        62
    Leovim  
       207 天前
    很大概率这个技术支持也不太了解,所以只能甩给你文档,而如果他再去问可能也要很久、被踢皮球,有一些自私的人就不愿意浪费时间去找别的人问了。
    Greendays
        63
    Greendays  
       207 天前
    国产数据库也不至于这么不堪吧,我记得不是有几个正常的产品的么?
    HOMO114514
        64
    HOMO114514  
    OP
       207 天前 via iPhone
    @zmh69695328 OB 是国产最强的,目前没有之一
    yifangtongxing28
        65
    yifangtongxing28  
       207 天前
    没办法,这就是干技术人的现状,费了九牛二虎,求了各路神仙,好不容易搞定了,领导还觉得你这干的太慢了啊哈
    HOMO114514
        66
    HOMO114514  
    OP
       207 天前 via iPhone
    @mightybruce 是的,管理套件是 Java 全家桶,zookeeper 、dubbo 、influxdb 、kafka ,连 machine learning 相关的东西全都有,甚至给自己塞了一个信创数据库做内部 metadata
    kkk1234567
        67
    kkk1234567  
       207 天前
    @povsister 信创啊 。 独一份的生意
    ShuWei
        68
    ShuWei  
       207 天前
    世界就是一群草台班子搭建的,这样多好,又快乐摸鱼了一周多
    huijiewei
        69
    huijiewei  
       207 天前
    @LieEar 那必须自主研发
    iosyyy
        70
    iosyyy  
       207 天前   ❤️ 1
    @Kinnice #42 楼主不已经解释了“另一边是银行,审核非常严格,每次开端口要三级两地领导审批,每个端口需要对应原因,否则一般大概率是会被打回的”
    你以为的开端口: 点下安全组就行
    实际上楼主的遇到的开端口: 提交审批说明理由
    A555
        71
    A555  
       207 天前
    不错了至少是大公司
    还有一些明显是当地领导关系的小公司做的什么破自研操作系统,数据库,听都没听过
    你说换皮就老实换皮吧,你瞎搞什么创新
    28Sv0ngQfIE7Yloe
        72
    28Sv0ngQfIE7Yloe  
       207 天前
    一看就是华为吧?
    Kinnice
        73
    Kinnice  
       207 天前
    @iosyyy #69 对啊,不就是嫌审批麻烦,然后 op 不想去做吗,然后开始自己凭经验挑端口 。至于每个端口的详细理由回复也已经说了,如果《端口矩阵》是不能满足审批要求,就应该让对面提供,如果对面不提供,反手应该问题升级到领导那去。
    yulgang
        74
    yulgang  
       207 天前
    root 上去一把梭,什么安全服务、防火墙通通关闭,一键安装
    shyrock
        75
    shyrock  
       207 天前
    @LieEar #23 当然是自主知识产权。只要西方敢开源,我们就可以突破。
    Kinnice
        76
    Kinnice  
       207 天前
    @iosyyy #69 和机关内 ssh 权限审批严格,每次获取 root 权限都需要多个领导审批,我直接凭借经验从安装文档的命令放弃了使用 root 权限(我凭经验这些命令都不需要 root )执行了,但是最后服务起不来 有啥区别?
    我的观点是为啥要去猜测乙方服务所需要的端口,乙方说要什么,就去提条子申请什么,少资料就找乙方提供,是自己不想按流程办事 想省事然后坑了自己。
    感觉一点不像甲方,倒像是乙方 pk 乙方,没一点话语权的样子,我们遇见乙方要是这样,问题早上升了。
    yyysuo
        77
    yyysuo  
       207 天前
    这事儿太正常了,第一次就应该把锅甩出去了,要求对方提供,要不就升级到领导。
    isnullstring
        78
    isnullstring  
       207 天前
    什么狗屎数据库,还没开始用就吃 192G 内存
    jinsongzhao
        79
    jinsongzhao  
       207 天前
    没找到幽默?:-D
    aru
        80
    aru  
       207 天前   ❤️ 2
    @Kinnice
    HW 是乙方,他也是乙方,甲方是银行
    HW 是强势的乙方,甲方推动 HW 也是不容易的
    他是弱小无力的乙方,苦活累活都是他的
    和 HW 一起合作过项目的,都知道 HW 是多么操蛋的
    StephenHe
        81
    StephenHe  
       207 天前
    今天远程开会,主讲人讲着讲着没音了,等一会说是国产机卡死了,只能说路还长着呢
    richcat
        82
    richcat  
       207 天前
    @aru 怎么感觉和 oracle 一个风格,之前用 oracle ,找原厂必须给钱,几千刀一次,或者包年(好像是百万级的费用),用不起,最后找了三方的技术支持顶着,实在没办法才找原厂
    mengzhuo
        83
    mengzhuo  
       207 天前
    菊花的路过,技术支持都是一线,基本上也就是培训出来的,当然可能有些研发倒霉蛋可能是发配来一线……
    既然你付钱了,那教你一招

    直接写一封邮件抄送你领导和他部门的大领导,不行就所在地区的领导,说已经严重影响进度,限时什么时候解决,不然验收不通过。
    nosilence
        84
    nosilence  
       207 天前   ❤️ 1
    华子的端口矩阵,都会说明端口的作用,只是不是对该产品非常熟悉的人,看了也不知道某个端口是做什么用的。
    既然给了 100 多个端口,那就全申请了,申请不下来就上升呗。
    本来就是非标场景了,再按照自己经验来,无论是安装,还是后面的运行,只会有踩不完的坑。
    gransh
        85
    gransh  
       207 天前
    @az467 哈哈,这么说就能理解了
    Aloento
        86
    Aloento  
       207 天前
    @aofall #16 看了一半就知道是高斯了,这玩意我们 SRE 用起来简直难受到炸
    Aloento
        87
    Aloento  
       207 天前
    @nosilence #84 扯吧,我们这边拿到的端口矩阵很多都是大段范围,完全不说明具体细节,问它们研发它们自己都搞不明白,一个数据库为什么要开那么多端口
    vinckdu997
        88
    vinckdu997  
       207 天前
    中信?
    mutoulbj
        89
    mutoulbj  
       207 天前
    信创,一个非常可笑的玩意儿。
    guanzhangzhang
        90
    guanzhangzhang  
       207 天前
    世界就是一个草台班子,我同事大部分第一们实际语言是 python ,啥都喜欢调用系统命令实现,例如
    cat /etc/os-release | grep xx
    端口探测用 nc ,不用库 socket
    防止脚本多次运行用 ps 库查自己名字
    调用 ping 命令查其他机器在不在线
    调用 curl 命令下载一个 web 接口
    编译命令写 xx.sh 不写 makefile
    搞东西不写 README.md
    😅
    Hopetree
        91
    Hopetree  
       206 天前
    信创改造对甲乙丙丁方都有好处,唯独对运维是坏处,懂得人都懂
    xuanbg
        92
    xuanbg  
       206 天前
    数据库依赖 kafka ?先不说数据库依赖另一个中间件合不合理,这国产化替代个毛线啊。
    alsas
        93
    alsas  
       206 天前
    一眼华子 魔改的 PG 数据库
    sloknyyz
        94
    sloknyyz  
       206 天前
    这有什么好幽默的,网络安全也是安全。
    mark2025
        95
    mark2025  
       206 天前
    @forsuperper KP 吃得有点狠……
    ztcaoll222
        96
    ztcaoll222  
       206 天前
    看看接口人的工号开头是多少?盲猜是 30 (笑
    hgert
        97
    hgert  
       205 天前
    @ztcaoll222 某为 od /doge
    forsuperper
        98
    forsuperper  
       205 天前
    @mark2025 是啊,有点那啥了
    fuckallmm
        99
    fuckallmm  
       205 天前
    信创就是上面相关的几方互相 get money ,共同巩固壹号皇位安全的玩意,
    信息/数据真的安全了吗?核心的东西有几个是自己的?

    求 V2 里面的小红粉别喷!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1330 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:48 · PVG 01:48 · LAX 09:48 · JFK 12:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.