AI 开发时代， APPLE MAC 落后了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Other World Computing 性能升级

› Apple 软件 Beta 测试

这是一个创建于 520 天前的主题，其中的信息可能已经有所发展或是发生改变。

由于 Apple 抛弃了 N 卡，黑苹果驱动不支持，白苹果没独立 N 卡。

几乎所有的 AI 项目都以 python 为主，然后因为要 N 卡参与训练和推理，导致现在绝大部分 AI 项目都在 linux/windows 平台上，众多个人开发者或者学习者都是以 win 平台为主。

对于刚接触的，想要跑一下试试的，mac 平台也没有太方便的一键运行测试的东西，后面真正要用了，发现还是要云 GPU 运算或者 windows 平台搭配 N 卡才是王道。

apple 跟 nvdia 没有紧密合作，在 AI 开发时代感觉已经落后了，介于 mac 平台困难重重，最后还是买了一台 pc ，搭配 14 代 i728 核，4070tis ，性能上超过 mac ，尤其是 AI 方面的性能 mac 根本没法比。

新出来的 M4 ，比起独立 N 卡，算力方面差的不是一星半点，并且 N 卡 Tesla 还能并联算力翻倍，大部分的 GPU 服务器也是 linux 或 windows ，导致开发环境包括工具都偏向 win 。

apple 想要靠自己干翻 intel+nvdia ，基本不可能了，M 系列芯片出来之后，大家都很兴奋，平时开发都够用且好用。没想到时代巨变，AI 越来越普及，导致 M 的算力和优势荡然无存，期待什么时候 mac 再次跟 nvdia 合伙，AMD 实在是扶不上墙。

N卡

Mac

60 条回复 • 2024-10-31 01:28:23 +08:00

yidinghe

2024-05-23 11:42:51 +08:00

苹果的产品设计过于强调通过用户体验来驱动，最终导致技术全部为体验服务，为了独特的体验而造成硬件技术的封闭。

Morriaty

2024-05-23 11:46:50 +08:00

1. 只用 mac 开发，使用 remote interpreter 运行
2. 本地开发、本地运行，调用各大平台 LLM API
3. 再有，model.to("mps") 小模型也能玩

F281M6Dh8DXpD1g2

2024-05-23 11:50:47 +08:00

说的好像 nvidia 的游戏卡有多大显存似的

mumbler

2024-05-23 11:54:32 +08:00

本地跑大模型，96G 内存的 mac 是唯一能跑 llama3 70B 的

mengdu

2024-05-23 11:58:39 +08:00

苹果只想做高利润产品。

wequart

2024-05-23 12:03:03 +08:00

@mumbler 64G 也可以跑

LuckyLauncher

2024-05-23 12:04:29 +08:00

我不觉得可用的 AI 产品是家用级别的显卡可以搞定的
你要是玩玩当我没说

shinsekai

2024-05-23 12:10:27 +08:00

为何 AI 开发没有出现像 vulkan 这种跨平台的

oisc

2024-05-23 12:18:04 +08:00

MLX 和统一内存了解一下

ShadowPower

2024-05-23 12:21:38 +08:00

@mumbler 能跑其实很容易，只是跑得快不快……
用 cpu 就能跑，而且也有 1.2~1.4token/s

chendy

2024-05-23 12:22:50 +08:00

一来真正干 AI 开发的人没多少
二来正经干 AI 开发的人都用服务器不用 PC
三来 APPLE MAC 除了干 APPLE 是刚需其他方面谈不上领先

Code00911

2024-05-23 12:31:34 +08:00

MAC 也就在自己小圈子玩玩

YooboH

2024-05-23 12:40:05 +08:00

你是从业者吗？搞深度学习的我就没见过本地跑的，本地跑只能是初学者玩票性质的，哪怕你 4090 也没用啊，不是速度的问题，是显存完全不够。更别说这还只是推理，你要是训练的话怎么可能用本地机器，全部都是服务器，实验室里我就没见过本地部署的，要么实验室里给的服务器，我么云服务器厂商像 autodl ，企业的话就更不可用自己的小破电脑了了

ShadowPower

2024-05-23 12:47:51 +08:00

@LuckyLauncher 除了参数量很大的 LLM 以外，大多数东西用消费级显卡还真能搞定。
很多生产力任务都已经用上了，比如：
高质量视频插帧、视频降噪、视频超分辨率、SDR 转 HDR 、光追渲染加速（少量采样+AI 预测最终结果）
Stable Diffusion XL 也达到了生产可用的程度，当然，没达到“能直接取代人”的程度……

娱乐方面也有：
同上，视频插帧、超分辨率等，但也可以运用于实时游戏中，例如 SDR 游戏画面转 HDR （ Windows AutoHDR ）、游戏超分辨率（ DLSS 2 ）、游戏插帧（ DLSS 3 ）、优化光追效果（ DLSS 3.5 ）

这些技术虽然有传统算法实现的替代方案，但是质量不如基于神经网络的……

还有很多不用显卡就能搞定的，例如歌声合成（像 Synthesizer V 这样的软件），语义分割，光学字符识别，语音识别等等。

最大的开源端到端的语音识别有 Whisper ，只要消费级显卡就可以跑了。

用不那么大的 LLM （~13B ，量化以后可以用消费级显卡跑）跑文本翻译之类的任务，也能满足不少需求。

如果是指训练模型，公司就有用 3090 、4090 来训练的模型，做下游任务的微调还真能用。

yzbythesea

2024-05-23 12:52:25 +08:00

op 平时是做 ML 的吗？

YooboH

2024-05-23 12:53:16 +08:00 via iPhone

"大部分的 GPU 服务器也是 linux 或 windows" 也是很奇怪，没见过 windows 当服务器的，windows 比 linux 有任何优势吗

lithiumii

2024-05-23 13:12:50 +08:00 via Android

你要是说云端的 AI 训练和推理，那苹果妥妥落后了。但首先苹果就不做云服务的硬件，其次除了英伟达所有人都落后。

你说 AI 开发，你要不要看看 OpenAI 纪录片里大家都用的啥电脑？正经训练谁跑本地啊。

再说个人玩票性质的本地 AI 开发，如果你的需求是把大模型在本地跑起来，苹果那金贵的统一内存不仅很有性价比，而且很现实。24G 以上的 N 卡没有便宜的，24G 及以下的卡做多卡平台的体积、功耗、噪音也不是人人都能接受的。软件上

lithiumii

2024-05-23 13:13:39 +08:00 via Android

@lithiumii 软件上 mlx 当然不比 CUDA ，但是比一比莫名其妙的 rocm 不知方便到哪里去了

lithiumii

2024-05-23 13:16:26 +08:00 via Android

@YooboH 有句讲句 Windows 服务器挺多的，市场占有率可能有 20%，不过带 gpu 的 ai 服务器就不知道了

gouflv

2024-05-23 13:22:41 +08:00 via iPhone

你自己也说了，场景就是新手 “跑一下试试”
正经做事的，谁还在本机呢

ShadowPower

2024-05-23 13:31:23 +08:00

@lithiumii 还真不行，个人用其实 2x3090 最划算，Mac 的问题在于速度实在是太慢了。
别看 NVIDIA 的显存不大，但个人项目如果模型不大，全参数训练完全没问题。如果模型大的话，NVIDIA 有 bitsandbytes 和 flash attention 这些生态，又能省显存又能提速。

用 Lora 、Dora 这类方法来微调模型的时候，基础模型的权重其实可以保持在量化状态，只要能推理就行。但 Mac 用不了 bitsandbytes ，反而需要巨大显存（内存）+缓慢的速度。

哪怕能用 MPS 后端来跑（无论上层框架是什么）且没有兼容问题，对于训练任务，提速效果都不好。一般也就比 CPU 跑快 1~2 倍，苹果的 ANE 是完全用不上的（好像是因为不支持反向传播，我不太确定）。

大内存的 Mac 几乎就是 llama.cpp 推理专用机……如果只用过这个，确实会觉得在家里训练不了什么模型。

至于大公司的例子，他们都有一大堆 A100 （ A800 ）、H100 （ H800 ），当然不会用消费级显卡来跑，而且 NVIDIA 的许可协议在几年前就专门规定禁止将消费级显卡运用于数据中心等用途了。这不代表普通消费者不能这么干。

freeloop1

2024-05-23 13:32:13 +08:00

日常使用 a100 主机开发跑吗？

fredweili

2024-05-23 13:40:07 +08:00

试过 ollama 了么？闭源的用 api key 能有什么区别？有东西拿出来看看么？

BenX

2024-05-23 13:41:22 +08:00

Mac Studio 升级到 192GB 统一内容，了解一下。几乎是最便宜的 AI 开发用机
两张 A6000 多少钱？

fovecifer

2024-05-23 13:42:33 +08:00

你是从业者吗？
什么时候跑 AI 需要苹果设备了？

mogutouer

2024-05-23 13:54:14 +08:00

生产环境和训练当然是在服务器上，这里指的是开发阶段的逻辑开发和简单推理，因为你不可能直接在服务器上远程慢慢开发调试嘛。

可能是这么多年习惯了随时随地在 mac 上开发测试再部署服务器运行，AI 的开发流程普通的开发者 mac 越来越不合适了，所以才由此感叹。

lDqe4OE6iOEUQNM7

2024-05-23 14:12:24 +08:00

苹果·确实落后·了这几天微软 Ai PC 本地大模型嵌入操作系统，加上本地自研的 npu ，实现了很多系统层面的回忆，翻译，绘图，再结合云端大模型，陪你玩游戏，工作，实时交互

lDqe4OE6iOEUQNM7

2024-05-23 14:14:48 +08:00

苹果有没有那么多云服务器，算力，看苹果的开源模型加论文本地大模型还是智障，3.5 都没有，就看下个月和 open ai 合作手机上有没有改变了

lDqe4OE6iOEUQNM7

2024-05-23 14:15:32 +08:00

希望苹果能玩出一点东西来

maolon

2024-05-23 14:16:23 +08:00 via Android

@James2099 mac 上的一个叫 rewind 的 app 了解下？ recall 不就是个 win 版的 rewind 嘛，人还出的早多了

jcdv2

2024-05-23 14:21:12 +08:00

我印象中 mac 最大显存版本应该是同显存容量最低成本的

yvescheung

2024-05-23 14:35:27 +08:00

组个 4070tis 的机器来搞 AI 开发，对不起我想笑

chhtdd

2024-05-23 14:35:53 +08:00

大部分使用 mac 的 ai 从业者是将 mac 作为瘦主机使用

aero99

2024-05-23 15:16:40 +08:00

没有高利润和前景的行业苹果不做，或者说傲慢也好，总有跌跟头的时候

hellojsonlv

2024-05-23 15:22:48 +08:00

你说的 AI 开发不会是本地跑个模型自娱自乐吧，真正做 AI 开发的哪个不用服务器，当然苹果在 AI 方面确实落后

felixcode

2024-05-23 15:36:34 +08:00 via Android

mac 只是瘦客户机啊，为什么要用 ai 呢

txydhr

2024-05-23 16:01:28 +08:00 via iPhone

@ShadowPower sdr 转 hdr 还是算了，白色的东西强行当成光源提亮，十分诡异

ZedRover

2024-05-23 16:06:57 +08:00

"大部分的 GPU 服务器也是 linux 或 windows ，导致开发环境包括工具都偏向 win"
认真的么，公司之前有台 windows 服务器，很多 python 的包都装不上比如 SharedArray ，pytorch 跟 tf 的一些特性必须要用 WSL ，旧版的 windows server 上装 wsl 非常麻烦，同时 windows 没有 ubuntu 上 /dev/shm 直接访问内存的功能，只能用 ramdisk ，麻烦不少。后来直接被我改成 ubuntu 舒服多了。windows + gpu 最适合的场景是挖矿，因为很多挖矿软件只有 windows 平台上有，教程也多。苹果对 pytorch tensorflow 的支持也一直在进步，从无到有的过程也能看出进步来，跑点 demo 模型没什么问题。本地跑模型 mac 确实不如 windows ，不过要说 windows 多么好用我看也不见得。

ShadowPower

2024-05-23 16:22:18 +08:00

@ZedRover 可以用 WSL2 来开发和调试，依赖 N 卡的东西也能调得通（不必临时改掉）。
调通了再放服务器上。

zhangdp

2024-05-23 17:38:18 +08:00

干 ai 开发的都是本地开发，然后 linux 服务器跑

ysc3839

2024-05-23 18:05:20 +08:00 via Android

@shinsekai ONNX 也许算，但是似乎只能推理，不能训练，而且限制很多，基本是要配合厂商专用工具使用的，不像 Vulkan 是 API 层兼容，重新编译一般就能用。
另外 CUDA 事实上也跨平台了，AMD 的 ROCm 是 API 层面兼容 CUDA 的，不过这一套只有 NV 和 AMD 在用，别的厂商不用。