Deepseek R1 671B 本地部署计算机硬件配置？

nicholasxuu

50 天前

便宜的话，有个压缩版的 671B ，192G 的 mac studio 能跑（ input token 要限制在 2000 以内，不然内存会炸）。
正常的话需要大概价值 200w 元的 h10 。

blackmolycat

50 天前

有看过配置表，8 个 A100

x1aoYao

50 天前

用 CPU 推理速度怎么样呢？成本应该比 GPU 低，毕竟内存比显存便宜。例如用 128 核的 EPYC 9755 CPU 加 1T 内存，不到 15 万

kiseopt

50 天前

@x1aoYao CPU 性能没什么太大要求，生成卡内存带宽了，三五个 token 每秒

mingtdlb

49 天前

@blackmolycat 配置表出处？

blackmolycat

47 天前

@mingtdlb 忘记出处了，但是你完全可以问 deepseek 自身啊，这种问题丢给 AI 全网搜索一下就得到答案了。

shuimugan

43 天前

什么并发要求？
https://x.com/carrigmat/status/1884244369907278106 6000 美元，用双路 epyc + 24 通道 ddr5 跑 q8 规格，6~8 token/s ，实际功耗不到 400w ，当然随着上下文越大每秒 token 数会下降，而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存，和 23 年年底上海交大那个 PowerInfer 思路很像，充分利用 CPU 和 GPU 的资源，按照上面的 cpu 方案加几块卡就够了。

需求不急的话可以等一波，先用着各种供应商提供的 api （ together.ai 、fireworks.ai 等）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.