V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
dante6733
V2EX  ›  Linux

一个运维可以管理 5 万台服务器吗?怎么管?

  •  
  •   dante6733 · 2021-09-24 14:18:41 +08:00 · 13714 次点击
    这是一个创建于 1160 天前的主题,其中的信息可能已经有所发展或是发生改变。

    理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?

    有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。

    112 条回复    2021-10-21 16:13:16 +08:00
    1  2  
    salmon5
        1
    salmon5  
       2021-09-24 14:21:07 +08:00   ❤️ 3
    什么?阿里云只有 1 个员工?集团一下子节约几百亿
    salmon5
        2
    salmon5  
       2021-09-24 14:21:40 +08:00   ❤️ 41
    别整天看公众号瞎鸡巴吹牛逼
    zhengxiaowai
        3
    zhengxiaowai  
       2021-09-24 14:23:16 +08:00
    虚拟机有平台还行,物理机肯定不行
    x86
        4
    x86  
       2021-09-24 14:25:08 +08:00
    1 个人 5 万台?我要知道怎么管我会告诉你?
    salmon5
        5
    salmon5  
       2021-09-24 14:25:34 +08:00   ❤️ 1
    保安大爷 1 个人可以管,开门关门就行了
    lostberryzz
        6
    lostberryzz  
       2021-09-24 14:25:45 +08:00   ❤️ 69
    你的头像,出卖了你
    echo1937
        7
    echo1937  
       2021-09-24 14:26:43 +08:00
    你一个人能管 5 万台,我来帮你接 IDC 运维的外包,我们都发财。

    每天能管好硬盘失效一项,都有方方面面的事情要考虑。
    dante6733
        8
    dante6733  
    OP
       2021-09-24 14:27:42 +08:00
    理性讨论,不一个人也行,主要是想看大佬团队管理几万台服务器的经验
    dante6733
        9
    dante6733  
    OP
       2021-09-24 14:28:06 +08:00
    @salmon5 为什么不是插拔电插座
    dante6733
        10
    dante6733  
    OP
       2021-09-24 14:29:01 +08:00
    大家不要纠结一个人了,只是想知道数万台服务器怎么管,大佬分享一下经验!
    duqich
        11
    duqich  
       2021-09-24 14:29:40 +08:00
    5w 台太少了 格局小了
    salmon5
        12
    salmon5  
       2021-09-24 14:31:12 +08:00
    @dante6733
    “5 万台服务器”,公司怎么着也上万员工了,这么大体量,运维团队 50-100 人至少;
    1 个人管?开玩笑呢,现实一点;
    salmon5
        13
    salmon5  
       2021-09-24 14:32:12 +08:00
    您说的应该是物理机,国内可以找一些例子
    henvm
        14
    henvm  
       2021-09-24 14:33:22 +08:00
    一个人难
    dante6733
        15
    dante6733  
    OP
       2021-09-24 14:34:20 +08:00
    @salmon5 问题写了,不是一个人也行,主要是想了解数万台服务器的案例~
    dante6733
        16
    dante6733  
    OP
       2021-09-24 14:35:29 +08:00
    蹲大佬,分享数万台服务器管理的经验,不用一个人~
    salmon5
        17
    salmon5  
       2021-09-24 14:35:54 +08:00
    @dante6733 这种案例没人给你瞎扯,透露泄露数据是要负法律责任的
    masterclock
        18
    masterclock  
       2021-09-24 14:36:09 +08:00   ❤️ 5
    我帮你贴了??

    睿象云隶属于四川睿象科技有限公司,是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。

    睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的 IT 运维能力,降低运营成本和风险,创造更加优质的用户体验。
    salmon5
        19
    salmon5  
       2021-09-24 14:36:17 +08:00
    @dante6733 大傻才会分享
    cominghome
        20
    cominghome  
       2021-09-24 14:37:12 +08:00
    应用容器的话应该还行, 物理机当我没说
    salmon5
        21
    salmon5  
       2021-09-24 14:38:39 +08:00
    另外:“5 万台服务器”的公司,那 IT 服务器存储带宽支出,真不会买运维平台(零头),早自己团体开发了。
    dolphintwo
        22
    dolphintwo  
       2021-09-24 14:41:28 +08:00   ❤️ 2
    只有资本家才会问这个问题
    dante6733
        23
    dante6733  
    OP
       2021-09-24 14:41:42 +08:00
    @salmon5 理论上分析一下,怎么实行
    lasuar
        24
    lasuar  
       2021-09-24 14:41:46 +08:00
    这类大佬没时间来这分享
    dante6733
        25
    dante6733  
    OP
       2021-09-24 14:42:04 +08:00
    @dolphintwo 格局大了
    bing0
        26
    bing0  
       2021-09-24 14:44:58 +08:00
    一个人管理过 50 台物理机路过,从 1850 到 R740XD,就问你,一个人扛 40*3.5 寸硬盘的盘阵下架你怎么做??
    myd
        27
    myd  
       2021-09-24 14:45:14 +08:00
    开玩笑。

    5 万台服务器,意味着上面有各种系统。光是部署环境、配置环境账号啥的就够忙活了。除非像云服务器一样,装好系统交给开发,其余撒手不管!

    一个运维,出了问题,处理的来?
    Mac
        28
    Mac  
       2021-09-24 14:46:55 +08:00   ❤️ 2
    不舍得在 V2 上花钱做广告的我是不会相信的
    salmon5
        29
    salmon5  
       2021-09-24 14:48:42 +08:00
    傻狍子领导才会干这事,
    明明可以团队带 100 多人,这下好,只有 1 个光杆司令了,任人蹂躏。

    这事儿要从管理上来分析,技术上分析没啥意思,自动化运维容器技术资料到处都是
    dante6733
        30
    dante6733  
    OP
       2021-09-24 14:48:58 +08:00
    @Mac 打广告,有意义吗
    @myd 抛弃一个人的设定,团队管理,怎么管
    salmon5
        31
    salmon5  
       2021-09-24 14:52:03 +08:00
    “5 万台服务器”的 leader 级别比总监高了,部门总经理了;
    这下好,被你们真么一折腾,就 1 个人了,你说你这项目可能中标吗?睿象云
    xiaofeifei8
        32
    xiaofeifei8  
       2021-09-24 14:59:40 +08:00
    @dante6733 想用你们的平台一个人管理 5 万台,你给个方案吧
    Remode
        33
    Remode  
       2021-09-24 15:02:06 +08:00
    5w 物理机?什么神仙。。。
    harde
        34
    harde  
       2021-09-24 15:04:10 +08:00   ❤️ 1
    本来就是过来打广告的,大家还认真了,散了吧
    ScotGu
        35
    ScotGu  
       2021-09-24 15:07:15 +08:00
    一个人员 1 台服务器都运维不了!
    运维可是要 7*24*365 oncall 的,生产队的驴也不敢这么造啊!
    huangmingyou
        36
    huangmingyou  
       2021-09-24 15:07:57 +08:00
    一看就是广告
    Mac
        37
    Mac  
       2021-09-24 15:08:31 +08:00
    @dante6733 #30 没意义你来发什么帖钓什么鱼呢?
    yamedie
        38
    yamedie  
       2021-09-24 15:11:01 +08:00
    广告钓鱼
    SingeeKing
        39
    SingeeKing  
       2021-09-24 15:13:44 +08:00   ❤️ 1
    怎么管理?当然是选择睿象云 AIOps [V2EX Plus 的狗头什么时候能回来]
    salmon5
        40
    salmon5  
       2021-09-24 15:14:12 +08:00
    确实是广告,如果不是广告,这种言论非蠢即坏,坑人不浅。
    dante6733
        41
    dante6733  
    OP
       2021-09-24 15:16:01 +08:00
    @salmon5 很多网站都有这个问题,你搜一下就知道了,可别说是我想出来的
    salmon5
        42
    salmon5  
       2021-09-24 15:16:34 +08:00
    老板这么推理:你看别人 1 人 5 万台服务器,你 500 台,工资÷100 吧;所以我说这个言论非蠢既坏,坑人不浅。
    hkz670
        43
    hkz670  
       2021-09-24 15:17:25 +08:00   ❤️ 1
    管理万台服务器,我推荐睿象云。(一条 5 毛)
    lakehylia
        44
    lakehylia  
       2021-09-24 15:19:47 +08:00
    花点钱打广告啊
    xsm1890
        45
    xsm1890  
       2021-09-24 15:29:14 +08:00   ❤️ 1
    老板对 HR 说:看别人一个人管理 5 万台服务器,运维部门的留一个工资最低的,其他人开了吧。
    dante6733
        46
    dante6733  
    OP
       2021-09-24 15:35:04 +08:00
    @xsm1890 hr:啊,这!
    masterclock
        47
    masterclock  
       2021-09-24 15:38:14 +08:00   ❤️ 1
    目前 google “一个人 运维 服务器 数量”, 第一还是 某乎 的 4 万:行云管家。
    大家加油,争取超越 某乎,让 V2EX 5 万:睿象云 到第一。
    905928762
        48
    905928762  
       2021-09-24 15:39:02 +08:00 via iPhone
    一个运维,99 个临时工
    yunyuyuan
        49
    yunyuyuan  
       2021-09-24 15:42:21 +08:00
    一个人可以月赚 5W 吗?怎么赚?:doge:
    sdushn
        50
    sdushn  
       2021-09-24 15:43:10 +08:00
    别的不说,7*24 值班,一个人扛得住?
    sadfQED2
        51
    sadfQED2  
       2021-09-24 15:43:39 +08:00 via Android
    你给我 500 万月薪,别说 5 万台了,10 万台我都有办法。大不了多找点外包呗
    eason1874
        52
    eason1874  
       2021-09-24 15:48:28 +08:00
    一个人,五万台,光是日常巡检都不够时间,能不能少做点梦?
    yin1999
        53
    yin1999  
       2021-09-24 15:50:21 +08:00
    tutustream
        54
    tutustream  
       2021-09-24 15:56:01 +08:00
    合理怀疑这个睿象云拖欠了 LZ 工资 狗头
    littlewing
        55
    littlewing  
       2021-09-24 16:00:34 +08:00
    一个人管,20 个人开发自动化运维系统
    Pipecraft
        56
    Pipecraft  
       2021-09-24 16:03:10 +08:00
    你找一个搞 AI 的大佬,请他开发一个能管理 5 万台服务器智能系统。系统有了,管理 5 万台都不是事儿。
    这样你俩的 KPI 都打成了,平时你俩闲聊,旁边他的系统管理你的机器,多么悠哉。
    CodeCodeStudy
        57
    CodeCodeStudy  
       2021-09-24 16:06:50 +08:00
    一个人管 5 万台,那肯定是自动化管理啊,既然能管 5 万台,50 万、500 万、5000 万、5 亿自然不在话下,到时候所有的运维人员都不用上班了,既然都这么智能了,想必 AI 也能编写代码了吧,程序员也可以不用要了。
    JamChiu
        58
    JamChiu  
       2021-09-24 16:08:10 +08:00
    我要是知道,我还会上来 V 站摸鱼么?
    0ZXYDDu796nVCFxq
        59
    0ZXYDDu796nVCFxq  
       2021-09-24 16:18:24 +08:00
    5 万台,假如均价 5 万一台,总价 25 亿

    楼主你愿意把 25 亿生产资料给一个人管理并让这些生产资料顺畅运作吗?
    0ZXYDDu796nVCFxq
        60
    0ZXYDDu796nVCFxq  
       2021-09-24 16:21:49 +08:00   ❤️ 1
    你们这些人啊,搞事情也不看下实际情况,想装逼但其实显得你很 low,没见过世面

    记得在知乎看过一个问题:如何实现千万并发登录
    瞎 JB 扯蛋,地球上有千万并发的登录系统吗
    ch2
        61
    ch2  
       2021-09-24 16:24:27 +08:00
    外包给阿里云管
    ltruntu
        62
    ltruntu  
       2021-09-24 16:30:06 +08:00
    打广告 都有这么多人在那边杠 服了
    Microseft
        63
    Microseft  
       2021-09-24 16:51:16 +08:00
    1 个运维能管理好物理 500 台设备我就觉得已经很了不起了
    而且这 500 台基本都是同类型,不然光想想各类硬件巡检故障处理就够头大
    500 台也基本意味着,平均每天都会有一个硬件故障(警告或严重级别)
    fxxkgw
        64
    fxxkgw  
       2021-09-24 16:55:02 +08:00
    我们这物理机+虚机+容器大概 20W+ 运维部大概 200 人+ 工作内容包括机器管理、运维平台开发、数据库、R2M/日志、服务治理、CICD 等。。
    dante6733
        65
    dante6733  
    OP
       2021-09-24 16:57:56 +08:00
    @fxxkgw 真正的大佬来了,可否大致讲讲,分享一下经验~
    atpking
        66
    atpking  
       2021-09-24 16:58:56 +08:00
    快请坐到主席台来
    halk
        67
    halk  
       2021-09-24 17:09:22 +08:00
    看你怎么定义 管理 这两个字
    twl007
        68
    twl007  
       2021-09-24 17:13:56 +08:00
    看你怎么定义管理了 是一个人管机器的环境部署配置还是连机器上架下架 网络配置 硬件故障排查都要管……
    JensenQian
        69
    JensenQian  
       2021-09-24 17:14:10 +08:00   ❤️ 2
    你去问下做 steam 的 V 社,他们只有 3 个员工,一个 G 胖负责数钱,一个冰蛙负责更新 dota2,一个散播半条命有 3 的,怎么服务几千万的 steam 用户的
    EchoUtopia
        70
    EchoUtopia  
       2021-09-24 17:18:31 +08:00   ❤️ 1
    如果不开机应该很好管
    kangkang
        71
    kangkang  
       2021-09-24 17:41:17 +08:00   ❤️ 3
    一个运维可以管理 5 万台服务器,你们是不是都一筹莫展?现在 let me present 睿象智能运维管理平台,不宕机者,运维的救世主,带五奥破死先驱,七云统治者暨全境守护者,运维行业毁灭者,AIOps 之母。
    AllenHua
        72
    AllenHua  
       2021-09-24 17:42:24 +08:00
    如果不出问题应该很好管,可以嗑瓜子看屏幕监控服务器运行状况。有一两台机器出了问题,怎么管得过来?有时候一个问题需要好几天才能找到解决办法,累积的任务不做了?
    tqyq88
        73
    tqyq88  
       2021-09-24 17:48:36 +08:00
    ssh root@host rm -fr / 解君愁
    WispZhan
        74
    WispZhan  
       2021-09-24 17:52:28 +08:00
    @JensenQian 不是一个 G 胖数钱,一个客服,一个更新 Steam 客户端吗?
    JensenQian
        75
    JensenQian  
       2021-09-24 17:54:57 +08:00
    @WispZhan #74 不管怎么样,都是 G 胖数钱就对了
    muzuiget
        76
    muzuiget  
       2021-09-24 17:55:24 +08:00
    建议钓鱼时先换个头像。
    JensenQian
        77
    JensenQian  
       2021-09-24 17:55:25 +08:00
    @JensenQian #75 剩下两个得干活
    Junzhou
        78
    Junzhou  
       2021-09-24 17:59:43 +08:00
    有五万台物理服务器需要管理的技术公司,会选你们作为技术解决方案,搞笑呢。
    snownarrow
        79
    snownarrow  
       2021-09-24 18:02:58 +08:00
    一般都是硬件和软件系统分开的,硬件人力不可计,软件和系统一般也不会一个人管理,也是的有个小团队,服务器除了磁盘,其他的应该都是很稳定的,也就是业务问题多需要多一些人处理
    keepeye
        80
    keepeye  
       2021-09-24 18:04:05 +08:00
    5 万台 光每天处理告警就不用睡觉了吧
    Junzhou
        81
    Junzhou  
       2021-09-24 18:07:56 +08:00   ❤️ 6
    所以你们 5w 个客户,平均两个客户才拥有一台主机吗?话说你们客户人均 0.5 台机器还用得着自动化运维平台吗? https://i.loli.net/2021/09/24/eKuD2nwpEcsxmtQ.png
    neilyoone
        82
    neilyoone  
       2021-09-24 18:14:16 +08:00
    问这个问题的 绝不是 干运维的
    TAFMT
        83
    TAFMT  
       2021-09-24 20:14:23 +08:00
    阿里:月薪 100w,明天来报道
    ajaxfunction
        84
    ajaxfunction  
       2021-09-24 21:12:48 +08:00
    你要见过 5 万台物理机长啥样 就不会说这话了
    恐怕你 1 台物理机都没见过,1 个人能把一台 2u 服务器 上到机架吗?
    aru
        85
    aru  
       2021-09-24 21:43:56 +08:00
    什么?阿里云只有 1 个员工?集团一下子节约几百亿
    sickoo
        86
    sickoo  
       2021-09-24 21:44:10 +08:00
    华为:天才少年计划,明天报道
    2i2Re2PLMaDnghL
        87
    2i2Re2PLMaDnghL  
       2021-09-24 21:45:07 +08:00
    @JensenQian G 胖:你说我公司有几个人?
    fs418082760
        88
    fs418082760  
       2021-09-24 21:57:47 +08:00
    如果一个人管不好,那怎么管?


    招人啊,愚蠢的问题
    JensenQian
        89
    JensenQian  
       2021-09-24 23:16:12 +08:00 via Android
    @2i2Re2PLMaDnghL 比 2 多,比 4 小个人
    sutra
        90
    sutra  
       2021-09-24 23:18:44 +08:00
    好像可以估算一下每天需要更换的硬盘数量。
    Microseft
        91
    Microseft  
       2021-09-24 23:29:33 +08:00
    @ajaxfunction 一个人上 2U 还真可以...标准操作是先去掉所有硬盘,到机柜固定好了再上硬盘

    硬盘很少的情况,也可以冒险直接上

    我们运维都是肌肉男[doge]
    pjntt
        92
    pjntt  
       2021-09-24 23:48:00 +08:00
    扯个蛋:一个公司运维+200 个外包。远程控制下工单给外包,然后等着完成。
    steptodream
        93
    steptodream  
       2021-09-25 07:05:33 +08:00
    @ajaxfunction 这个的分人了 我也是运维 表示 2U 的很轻松的 撤服务器的时候不怕弄坏 1U 的我经常一手一个 锻炼的时候单手 25KG 哑铃弯举大概一组 12 个
    Liang
        94
    Liang  
       2021-09-25 09:33:00 +08:00
    「 1 个运维管理 5w 台服务器」和「 1 个运维管理 5 亿台服务器」没什么很大的区别了,全球服务器都外包给我管理吧!!!
    k1z
        95
    k1z  
       2021-09-25 09:35:40 +08:00
    来套方案的吧?
    dextercai
        96
    dextercai  
       2021-09-25 09:43:55 +08:00
    打广告也不能这么打啊
    lucybenz
        97
    lucybenz  
       2021-09-25 10:10:49 +08:00
    把硬件做成带理财功能的路由器,卖给消费者,提供运维教程即可 50 万台都没问题
    danhahaha
        98
    danhahaha  
       2021-09-25 11:29:16 +08:00
    可以的,机房总电闸安装一个自动远程控制,运维 24 小时手机随时待命,出问题直接断电重启机房
    piloots
        99
    piloots  
       2021-09-25 11:48:23 +08:00
    这还不好管?只需要一个超级大的“闸”设置好来电自启,你说什么时候关机就什么时候关机,秒关,启动不归我管。
    ragnaroks
        100
    ragnaroks  
       2021-09-25 12:40:23 +08:00
    理性分析,一天 86400 秒,50000 个机器,每台机只看一眼( 1 秒),这起步得 966,说不定还得加班
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5389 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 41ms · UTC 01:19 · PVG 09:19 · LAX 17:19 · JFK 20:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.