看个这个视频，感觉苹果是不是真的偷了变形金刚的技术了？

0m9ionbP8wuvs8S3

2023-07-02 10:05:47 +08:00

这种哗众取宠的标题我都懒得看

yzbythesea

2023-07-02 10:22:43 +08:00

我 steam deck ，16G unifi memory ，完爆什么 3080 这些垃圾。只要 350 刀。

vv2023

2023-07-02 10:30:00 +08:00

@stoneabc b 站现在有向民科聚集地，发展趋势

vv2023

2023-07-02 10:32:17 +08:00

@AOK123 这哥们看回答内容典型的 b 小将啊

liantian

2023-07-02 10:37:08 +08:00

V2 不应该是"No BB ，Show me code~"嘛。

统一内存那么强大。别说 M2 Ultra 干翻 8 张 4090 了。 M2 Pro 32G 干翻 4090 24G 都没见过..

echo1937

2023-07-02 11:13:38 +08:00

什么赛博坦科技，别闹了好吗，相关技术、概念和产品一直都在发展，benchmark 成绩的话谨慎看待。

1 、最早的时候, 没有核显这个概念，最多算是集显，俗称 IGP ，是主板 PCB 上独立的一个芯片；

2 、随后厂商将显示部分和芯片组中的北桥芯片合二为一，风靡了数年。以 intel 为例，之前 intel 销售的带集成显卡的北桥芯片型号均有一个 G 作为后缀，代表此款北桥芯片中有显示部分。

3 、不久以后，内存控制器被集成到了 CPU 中，那为啥 GPU 就不能这么做呢？ Intel 于 2011 年发布了基于 QPI 总线互联的胶水核显 CPU ，代号 Clarkdale 。参考资料 https://www.expreview.com/79385.html

4 、AMD 收购了 ATI 以后，对于 CPU 和 GPU 协同工作的前景非常看好，推出了 HSA 联盟，HSA 特性包括很多分项，比如说共享电源管理、HSA-aware MMU （内存管理单元）、GPU Compute C++，而不仅仅是把 CPU 和 GPU 集成到一起。在这个背景下，AMD 在 2011 年发布第一代 APU ，GPU 和 CPU 不再是胶水，真正意义上的核显。

5 、2014 年 PS4 发布，使用了 AMD 的 APU Kaveri APU ，实现了名为 Heterogeneous Memory Management 的特性，CPU 的 MMU 和 GPU 的 IOMMU 共享相同的地址空间，从硬件层面实现“共同地址空间”。PS5 沿用了这个技术路线，AMD 有个叫 4700s 的型号，用的就是 PS5 阉割掉 gpu 的 soc ，使用 gddr6 做内存。

6 、看过 4700S 极客湾测评就知道，由于 gddr 频率和带宽大，但是延迟高（ gddr6 vs ddr4 ，测评成绩来看，延迟 144.1ns vs 67.8 ns ），所以日常使用体验并不好。

7 、果子出场了，体验不好是吧，俺有钞能力啊。延迟高是吧，那我换 ddr ；功耗大是吧，那我上 lpddr ；带宽不够是吧，普通 ddr4 内存和控制器的位宽是 64 位，m1 用了 128bit 的内存控制器，m1 pro 使用了 256bit 的内存控制器，m1 max 是 512bit 内存控制器，带宽和延迟都齐活了。

8 、大模型时代来了，显存大小和带宽的重要性反而超过算力。苏妈一看，我生态不行，ROCm 是真打不过 CUDA ，堆料谁不会啊，APU 和 Chiplet 还是我历史强项。

MI300A - 6 XCDs (Up To 228 CUs), 3 CCDs (Up To 24 Zen 4 Cores), 8 HBM3 Stacks (128 GB)
MI300X - 8 XCDs (Up To 304 CUs), 0 CCDs (Up To 0 Zen 4 Cores), 8 HBM3 Stacks (192 GB)

其中 MI300A 就是一个最高 24 核，228CU ，128GB HBM3 内存的的 APU ，引用一下 AMD 的官方内容：

“AMD 的 Instinct MI300 APU 系列将与名为 SH5 的全新插槽兼容，允许使用最新的 Infinity Fabric 互连和新的互连交换机将最多四个此类芯片配置在一起，以实现更快的带宽和互连速度。该服务器解决方案将以 AMD Instinct 平台的形式出现，该平台由 8 个 MI300 芯片组成，具有高达 1.5 TB 的 HBM3 内存，全部采用行业标准设计。”

Intel 和 NV 也有类似的，其中 INTEL 的产品计划叫 Falcon Shores ，定于 2025 年发布。

AyaseEri

2023-07-02 11:19:45 +08:00

在一个满是学生、matlab 和 cad 需要在自己电脑跑的社区，讨论生产力，无疑是一种浪费时间的行为。

murmur

2023-07-02 11:21:53 +08:00

@AyaseEri 对啊，难道你们公司和实验室买不到 A100 显卡么，这东西虽然对 H 禁售，但是想买总是有渠道的，而且不是有定制版本卖么

至于国外，人家买 A100 又没什么难度，最多是等发货慢点

所以个人要这么好的机器干嘛，个人就是用 2080ti o22g 就够了

locoz

2023-07-02 12:19:52 +08:00

@wclebb #12 问题在于，对于只想尝鲜的人来说，跑大模型完全可以使用租机的方式解决，几万块够用很久了，使用体验完全碾压苹果，而且三分钟热度也不用担心浪费钱，配置过时了也不用担心没法升级。而对于需要实际长期使用大模型，或者是对大模型做微调，甚至是自己训练大模型的人来说，苹果那点算力又根本不够看。更别提对于绝大多数人来说根本都没有必须私有化部署的必要，几万块拿来调 GPT4 的 API 或者买别人的会员，实际使用时长都不用说，使用体验更是没法比。

至于内存闲置利用，如果只是尝鲜这种轻度使用情况，为了跑大模型而买的大内存，那对于大内存大概率也没有需求，实际买来的内存还是在浪费；如果是重度一点的使用情况，那这内存也闲置不下来，全被大模型吃完了，跑不了什么别的东西。

另外苹果的 XDR 显示器很大程度上是因为显示器厂商认为那个领域太过小众，面板平均水平还没提升到那种程度，没有必要特意为了小众用户而做那种产品。但对于苹果来说，自己的核心受众群体就是那部分在显示器厂商眼中小众的用户，它当然愿意去特意做个产品卖，成本也摊得开，价格在这种情况下看起来当然会有优势。

只能说不要尬吹苹果什么高端领域价格低，那只是因为小众群体没人在乎，可选项少而已。可选项一多起来，苹果毫无价格优势。

WuSiYu

2023-07-02 16:15:16 +08:00

假设你能搞定一切环境的问题（没 kernel ？自己写！），m2 ultra 的唯一优势也只是显存，然而算力仅有 30TFLOPs 不到（无论是 GPU 还是 ANE ），比起主流炼丹卡 A100 的 156 FLOPS （ TF32 ）就是图一乐，甚至远不如 3090 ，并且一个 10Gb 口也可以告别分布式训练了。

唯一场景是个人玩家跑大模型和推理，或者跑龟速的 finetune ，但有这钱其实不如搞个 8 卡 3090/4090 更实用、且生态和泛用性更好

shijingshijing

2023-07-02 17:18:00 +08:00

苹果这个内存只是单纯的 SiP 封装了几个 LPDDR5 内存颗粒，NVIDIA 的是 CoWoS 技术封装的 HBM2e/HBM3 内存，两者根本不再一个 level 上，更不谈 NVIDIA 可怕的算力和 CUDA 生态护城河，这种吃流量的视频也就骗骗伪科技小白还可以。

ospider

2023-07-02 17:59:03 +08:00

Transformer 翻译成变形金刚？非要翻译的话，也应该是变形器或者变换器。

sickoo

2023-07-02 22:02:46 +08:00

@ospider 有个电影院翻译：变性者 7 超能...

julyclyde

2023-07-02 22:27:24 +08:00

好像，性能除以功耗之后勉强说得过去？
但现在做这行的老板们根本不在乎功耗啊
只看原始的性能测量值

byicer

2023-07-03 09:31:21 +08:00

@sickoo #33 这翻译让人笑疯了😆

fengtianze

2023-07-03 10:44:59 +08:00

@AOK123 八张游戏卡咋连一起，不是双卡都给阉割了？

fengtianze

2023-07-03 10:47:32 +08:00

@aptx4689 真是不辞辛苦啊，其他帖子下刷到过一次不差的回复，见到 mac 就 ctrl v ？🤣

aptx4689

2023-07-03 21:26:37 +08:00

@fengtianze 😅？

phub2020

2023-07-04 10:18:40 +08:00

厂家有竞争了，就是好事

AyaseEri

2023-07-04 10:40:03 +08:00

@echo1937 MI300A 看起来可以当 M2 Ultra 的平替？