V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
inevitablex2
V2EX  ›  Apple

原来两个 M1 Max 可以拼在一起……

  •  1
     
  •   inevitablex2 · 2022-03-09 05:28:49 +08:00 · 5112 次点击
    这是一个创建于 989 天前的主题,其中的信息可能已经有所发展或是发生改变。

    变成 M1 Ultra ,感觉像是合体技😂

    25 条回复    2022-03-09 19:25:48 +08:00
    billgong
        1
    billgong  
       2022-03-09 07:28:47 +08:00   ❤️ 1
    看图的话,这个和 infinity fabric 以及 NVLink 类似的 inter chip connectivity 差不多。我感觉可以权当快一点的双路 SMP 。

    似乎内存控制器也是分片的,不知道实际使用下 NUMA Node 会不会造成瓶颈。没太搞明白 800G 的内存带宽怎么算出来的,毕竟这么设计,片间损耗不会小。
    Aviciii
        2
    Aviciii  
       2022-03-09 08:19:56 +08:00
    M1 刚出来的时候就有新闻说可以无缝拼接,貌似还可以接更多
    b1t
        3
    b1t  
       2022-03-09 08:20:51 +08:00 via iPhone
    胶水 cpu ,又不是第一次这么玩了
    shutongxinq
        4
    shutongxinq  
       2022-03-09 08:29:19 +08:00   ❤️ 1
    @billgong 老哥别瞎讲。这种类似于 CoWoS 的技术和 infinity fabric / NVLink 有本质的不同,这是直接把芯片 fuse 在一起,是台积电的类似于 Intel 的先进封装的技术

    从带宽上也可以看出来。Infinity fabric 200GB 不到的带宽,和 2.5T 的 M1 Ultra 怎么比?

    内存控制器分片太常见了,你看哪个服务器 u 没有分片? 800GB = 2*400GB ,两款 M1 Max ,很直观的。
    aptupdate
        5
    aptupdate  
       2022-03-09 08:35:02 +08:00 via iPhone   ❤️ 6
    ultra 应该叫 m2 ,三块拼一起的叫 m3……
    billgong
        6
    billgong  
       2022-03-09 08:41:04 +08:00   ❤️ 1
    @shutongxinq 是同一种进化路线,毕竟 IF/NVLink 已经是多年前的技术了,进化到现在自然就是 2.5D 封装了。接下来就是标准化,片内用各家的自己的片间通信,片外用比如前段时间公布的 UCIe 。

    片间通信速度再快也得抵得上不同内存控制器间的延迟以及其他设备(比如显卡、三缓)争抢的带宽。苹果的设计理念就是所有东西都是 interconnected ,所以才需要那么宽的 UltraFusion ,上面会跑的东西有很多,不只是三四五级缓存。

    Intel 的多路 CPU 的 NUMA 一直是个瓶颈,EPYC 上则同一个 package 上都有 NUMA 瓶颈。既然两个 M1 Max 拼在一起,又没有共享内存控制器,那就会有瓶颈。这个瓶颈肯定比 Intel 、AMD 那边好看的多(架构决定的)但能不能做到翻倍的性能提升,就得看 workload 了。
    billgong
        7
    billgong  
       2022-03-09 08:47:03 +08:00
    @aptupdate 多处理器拼在一起不是简简单单的黏在一起就可以了,Pentium D 就是个例子。芯片越多对片间总线的压力就越大。两颗芯片只需要照顾相互通信即可,三芯片就得两两连接在一起,四芯片的话,每个芯片都需要能和其他三片直接连接,等等等等,复杂度会越来越高。如果是单一的统一总线,那速度一定快不起来,可以拿交换机的背板容量作不太恰当的比喻。因此,这种多芯片连接的架构可扩展性是有一个上限的,超过平衡点后,一些 workload 的性能就会出现断层式下降。
    cuixiao603
        8
    cuixiao603  
       2022-03-09 08:47:39 +08:00
    英特尔时代给苹果留的散热空间太大了,感觉苹果光这么拼 cpu 也够撑几年
    wobuhuicode
        9
    wobuhuicode  
       2022-03-09 08:50:35 +08:00   ❤️ 2
    懂了。年底等 两个 M1 Ultra 拼起来的 Super M1 Ultra
    Leonard
        10
    Leonard  
       2022-03-09 09:01:18 +08:00
    Mac Pro 还更新,还有更高规格的
    Leonard
        11
    Leonard  
       2022-03-09 09:01:58 +08:00
    @Leonard #10 还没更新
    yoyoyoyolol
        12
    yoyoyoyolol  
       2022-03-09 09:04:20 +08:00
    @Leonard 发布会那个主持人说 ultra 是 M1 系列的最后一款芯片,mac pro 可能是多块 m1 ultra 了
    aptupdate
        13
    aptupdate  
       2022-03-09 09:05:16 +08:00 via iPhone
    @billgong 我知……拼在一起并不能简单的 1+1=2
    2NUT
        14
    2NUT  
       2022-03-09 09:18:24 +08:00
    @billgong #1 nvlink 都是外部连接, 能和 m1 ultra die 间 fuse 封装比么? 你这是误导人
    superchijinpeng
        15
    superchijinpeng  
       2022-03-09 09:21:54 +08:00
    @billgong 老哥,快别不懂装懂了
    zxxufo008
        16
    zxxufo008  
       2022-03-09 09:28:36 +08:00
    m1 ultra 是 m1 的最终体了,m2 大概率是要改架构加降低成本了
    czfy
        17
    czfy  
       2022-03-09 09:33:55 +08:00
    @billgong 按照 apple 的 PPT ,Ultra 性能并没有 Max 的两倍,所以实际使用上肯定到不了翻倍,还是会有损耗
    fisherwei
        18
    fisherwei  
       2022-03-09 10:37:35 +08:00
    @billgong
    带宽上:
    双路 xeon 的互联总线 UPI 是 10.6GT/s ,大约等于 84.8GB/s ,一个 CPU 有 3 个 UPI ,等于 254.4 GB/s 。和 UltraFusion 的 2.5TB/s 相差一个数量级。

    延迟上:
    具体还要等测试出来了。按照 epyc 的经验,socket 内 numa 之间的延迟大约和跨 socket 相差一个数量级。
    billgong
        19
    billgong  
       2022-03-09 10:45:47 +08:00
    @czfy 就是这个意思
    BenX
        20
    BenX  
       2022-03-09 10:47:52 +08:00
    秋季的 Mac Pro 就是四个胶水 M1 Max
    billgong
        21
    billgong  
       2022-03-09 10:48:39 +08:00
    @fisherwei 你说的没错,带宽上肯定不能和以前的总线作比较,发布会上也提到了这个。当然这个技术不是苹果独有的,各家都在开发这种片上的互联总线。主要还是延迟,真的得看这两颗 max 是否能做到同一个 numa node 了。
    littlewing
        22
    littlewing  
       2022-03-09 11:05:46 +08:00
    服务器双路 CPU 不是标配吗,又不是啥新鲜技术了
    shijingshijing
        23
    shijingshijing  
       2022-03-09 14:17:55 +08:00
    @billgong

    Infinity Fabric / NVLink 是在 substrate 上进行的互联,说直白一点就是高密度高性能的 PCB;
    M1 Ultra 还有 NVIDIA 的 A100 ,走的是 Silicon ,电气性能要好的多,不管是传输功率还是信号完整性,都远好与前者,两者可以说不在一个数量级上。

    如果不明白,请看下图:
    shijingshijing
        24
    shijingshijing  
       2022-03-09 14:20:23 +08:00
    @shijingshijing 23# 有的叫 Silicon Bridge ,只用到芯片与芯片之间一小部分;有的是一整片硅,叫 Interposer ,实质都是走硅介质。
    yhrzpm
        25
    yhrzpm  
       2022-03-09 19:25:48 +08:00
    这不就是法环里的接肢
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5231 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 05:57 · PVG 13:57 · LAX 21:57 · JFK 00:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.