Gemma4 E4B IT 4bit MLX 能跑出几十 tokens/s ,但是有什么用呢?试着在同一局域网里面的 Mac Mini ,把 OpenCode 的 Quick 类指定成它,但是 12K 上下文都能报错,tensors cannot be broadcast 。这玩意儿到底有什么用?
也试了一下 Jackrong 的 Qwopus 3.5 9B 6bit MLX ,还是只能当单次聊天回复机器人用,接入 OpenCode 就报错。
实在是想不出来本地 LLM 有什么用。
加钱换 64G 的新机器?那钱买 Coding Plan 都够用多长时间了,不比本地模型强多了。
也试了一下 Jackrong 的 Qwopus 3.5 9B 6bit MLX ,还是只能当单次聊天回复机器人用,接入 OpenCode 就报错。
实在是想不出来本地 LLM 有什么用。
加钱换 64G 的新机器?那钱买 Coding Plan 都够用多长时间了,不比本地模型强多了。