M3 Max 的神经引擎是否已经不够看了？

从 M1 Max 开始，M 家族的 Neural Engine 就一直都是 16 核，Max 系列算力也从 11 TOPS 涨到目前的 18 TOPS （ https://www.anandtech.com/show/21116/apple-announces-m3-soc-family-m3-m3-pro-and-m3-max-make-their-marks ），不过讲真在现在这个时间节点，这点能力还是不够看啊。

毕竟隔壁高通的骁龙 X Elite 中集成的 Hexagon NPU 算力都怼到 45 TOPS 了，主打就是一个 LLM 的能力作为宣传的噱头。

这么看的话，用新的 M3 Max 来跑本地大模型似乎不怎么靠谱啊，也难怪发布会上都不咋提 ML 或 AI 能力的。所以，到底要不要换机啊，感觉下一代芯片的 AI 算力应该会得到强化，要不要再等一等...

orangie

2023-11-01 17:47:20 +08:00

终端机器，移动设备，跑大模型，短期内我是不信的，蹭热点罢了。短期内就算浮点性能和内存够用，移动设备的电池不适合。之前吹 npu 的时候，也没见有什么终端上的智能应用能改善体验，唯一明显的就是各家都开始用模型来给相机 P 图了。

lqcc

2023-11-01 17:56:27 +08:00

@xixun 这个两倍不知道苹果按什么计算的。

感兴趣可以看看这个文章： https://www.photoroom.com/inside-photoroom/core-ml-performance-benchmark-2023-edition

神经引擎跑分，A17 pro 大概比 A16 提升 16%。看看以后有没有新的消息出来。

neopenx

2023-11-01 18:20:19 +08:00

ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话，满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ，也就是维持 ANE 以低功耗优势，继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。

xinyu198736

2023-11-01 19:00:37 +08:00

苹果跑大模型最大的问题是他的内存管理机制不是很可控，当大模型内存快占满的时候，内存容易被分走，导致模型迅速变慢。。

LuvLetter

364 天前

@lqcc 有的应用是 memory bound, 瓶颈不在算力; ANE 这种 ASIC 不能单看核数, 还得看架构;
@nicoljiang ANE 一直都支持 int8, 没有 A17Pro 才支持 int8 的说法, 4bit 也很早就有了
https://developer.apple.com/wwdc23/10047

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/987499

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.