
1
abellis 3 月 31 日
暂时 qwen3.5-35B-A3B-4BIT
|
2
Puteulanus 3 月 31 日
https://x.com/Brooooook_lyn/status/2038296844561002922
可以试试动态量化的 35B ,就这人这两天才弄出来的,35B 是混合专家模型,比 27B 的稠密模型快不少,但是对量化的敏感性也更高,MLX 之前量化得太糙了,看着比 GGUF 快,其实模型能力断崖式下跌的 前文 https://x.com/LotusDecoder/status/2031526735213453633 |
3
wuhunyu 3 月 31 日
本地部署的成本也不小, 27B 的规模也不会很聪明, 适用于一些比较简单的场景?
|
4
peakchao 3 月 31 日
既然用了 omxl ,可以直接下载 qwen3.5-35B-A3B-4BIT mlx 优化模型,我用着速度挺快。
|
5
pc10300 3 月 31 日
刚刷到这个,可以看看 https://ollama.com/blog/mlx
|
7
Hermitist OP @pc10300 其实前天测试过 ollama,但是太占电脑资源了, 我看了下你给的这个链接, 发现是昨天的, 看来要找时间测试下, 不过 ollama 只是 llm,不支持 vlm,只能通过 openclaw+skills 曲线实现了.
|
8
Samwulol 3 月 31 日 via Android
我看是 2.6k star 啊
|
9
workbest 3 月 31 日
lz 什么机器?我的 m1 用 qwen 3.5 9b 也不太行
|
10
workbest 3 月 31 日
|
11
diudiuu 3 月 31 日
m4 跑过 16b 已经略微有点慢了
mac 上可以使用 LM Studio 搭建更简单, 个人感觉跟 llama.cpp 差距不是很大,反正别用 ollama 买 dgx spark 推荐用 llama.cpp 我试过本地 minmax2.5 200b gpt-oss-120b 的,也不是很聪明,没有想象那么好 |
12
Hermitist OP @pc10300 https://x.com/berryxia/status/2038837864340000802 看到 x 上这个演示, 不知道有没有加速, 如果是真的话, 那真的是太快了.
|
13
pc10300 3 月 31 日
@Hermitist 试试呗,可惜我没有 m5 。文章说:This results in a large speedup of Ollama on all Apple Silicon devices. On Apple’s M5, M5 Pro and M5 Max chips, Ollama leverages the new GPU Neural Accelerators to accelerate both time to first token (TTFT) and generation speed (tokens per second).
|
15
symbolwho 3 月 31 日
|
16
workbest 3 月 31 日
我的 m1 用 ollama 最新版好像没有加速效果
|
17
kuhung 3 月 31 日
主要还是本地模型太蠢了,工具调用能力和智力水平都一般
|
18
unusualcat 3 月 31 日
你的机器是 AIR 还是 PRO 哦?
|
19
Hermitist OP @unusualcat air
|
20
bao3 1 天前
ollama 今天更新了,支持 MLX ,你 M5 可以跑到 100token@35B ,这已经可用了
|
21
Jtyczc 19 小时 8 分钟前
用 Claude Code 做任务编排,具体执行可以用本地大模型执行。
本地大模型永远比不上最一线 T0 的云端大模型。 |
23
ysn2233 16 小时 42 分钟前
没有,即使是 m5max 128G 也没必要,纯浪费时间,老老实实用 API ,除非要搞 NSFW 的东西。
|
24
SayHelloHi 16 小时 7 分钟前 |