发现了这个 ANEMLL 项目, 可以用 ANE 来跑大模型, 项目刚刚上线 github 没多久, 目前只支持 llama 系列模型, 也包括 deepseek 蒸馏过的 llama 3 。
作者也上传了一些模型到 huggingface 。
经过简单测试和对比, 生成速度大概是 mlx/llama.cpp 的 1/3 ,但是只使用 30% 左右的 npu 性能, 功耗只有 2 ~ 3 瓦, 是显卡功耗的 1/10 。
如果以后能够让 npu 火力全开, 说不定速度能追上 mlx 。
https://x.com/anemll/status/1890282119685116051
ANE 终于可以告别电阻器的外号了!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.