Qwen3.5-35B-A3B

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

vLLM 部署的话，需要用 uv 安装一个 nightly 版本（正常 pip install vllm 的 0.15 版本用不了）：

pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

6 条回复 • 2026-03-19 09:43:13 +08:00

tthem

2 月 25 日

m2max 64GB 内存，能跑的起来吗

Livid

MOD

PRO

2 月 25 日

@tthem 能。

16G 的 4080 用 LM Studio 都可以跑起来。

046569

2 月 25 日

@tthem
M1 Max 32G q4 能跑到 60t/s.
@Livid
已经用上了,除了偶尔逻辑混乱分不清自己知识库的时间(一会说自己 2024 年的知识库,一会说 2026 年),其它都挺好,准备换掉 2507.

gigishy

2 月 26 日 via iPhone

@tthem 35b 你哪怕 48g 内存都能舒畅跑起来。我 32g 内存 m2 跑 32b 没有感觉不便。

Jackyxiaoc

19 天前

这个模型跑龙虾咋样，够用么

stefwoo

2 天前 via Android

@Jackyxiaoc https://pinchbench.com/
这个测评网站里面，这个模型跑龙虾还行，不过比 27B 要差五个百分点左右。

我的显卡是 3090 ，我现在就在犹豫是跑 27B 还是 35B ，27B 还是太慢了。