ANE 可以跑大模型了!

41 天前
beginor  beginor

发现了这个 ANEMLL 项目, 可以用 ANE 来跑大模型, 项目刚刚上线 github 没多久, 目前只支持 llama 系列模型, 也包括 deepseek 蒸馏过的 llama 3 。

作者也上传了一些模型到 huggingface

经过简单测试和对比, 生成速度大概是 mlx/llama.cpp 的 1/3 ,但是只使用 30% 左右的 npu 性能, 功耗只有 2 ~ 3 瓦, 是显卡功耗的 1/10 。

如果以后能够让 npu 火力全开, 说不定速度能追上 mlx 。

https://x.com/anemll/status/1890282119685116051

ANE 终于可以告别电阻器的外号了!

1918 次点击
所在节点   Apple  Apple
7 条回复
EchoWhale
EchoWhale
41 天前
求科普,是不是只能跑蒸馏过?像 70b 之类的是不行吗
kemchenj
kemchenj
41 天前
“只使用 30% 的 npu 性能”这里面的 30% 是怎么得出来的?
beginor
beginor
41 天前
beginor
beginor
41 天前
@EchoWhale 目前的 npu 一般都是移动设备或者 PC ,所以都是跑小模型, 功耗很低。

不过也不排除以后会有企业级 npu 出现
WuSiYu
WuSiYu
41 天前
有点意思,ANE 的 fp16 理论性能似乎跟 m4 pro 丐板的 GPU 差不多,但可预计会省电许多


@beginor 另外“企业级 NPU”其实早有了,比如华为和寒武纪的卡都属于 NPU (而不是 GPGPU )
kemchenj
kemchenj
39 天前
@beginor 视频里 NPU 的占用率一直在 35% 或者是 0%,甚至没什么波动,感觉像是只用了特定数据格式的计算单元,例如说 int4 和 int8 ,然后其它数据格式的计算单元就一直闲置,这种情况下可能不太好优化到“火力全开”...
beginor
beginor
39 天前
作者回复说是因为 npu 的带宽不够,在等数据,所以 npu 使不出全力。 确实一直没有听苹果提过 npu 的带宽是多少,目前应该还不支持量化吧,直接 f16 运算

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111788

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX