https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html(以下介绍就是 DeepSeek R1 写的,我觉得还挺厉害的,我是写不出来……)
🚀 测试模型:
1.73-bit 量化版( 158GB ,每秒 7-8 个词)
4-bit 量化版( 404GB ,每秒 2-4 个词)
💻 硬件需求:
1.73-bit:内存+显存 ≥ 200GB
4-bit:内存+显存 ≥ 500GB
实测配置:4 块 RTX4090 显卡( 96G 显存) + 384G DDR5 内存
⚡ 性能对比:
短文本生成:1.73-bit 速度碾压,长文本会卡到 1-2 词/秒
瓶颈竟是 CPU 和内存,GPU 全程摸鱼(利用率 1-3% 😂)
🤖 模型性格差异:
1.73-bit:毒舌傲娇,敢怼 ChatGPT:
“哼!还在用老古董 ChatGPT ?(◔‸◔) 我的训练费可没烧穿钱包!”
4-bit:安全标兵,拒绝一切危险发言,全程官方脸 😇
🔧 部署步骤:
下载+合并 GGUF 文件
装 Ollama + 调参数( GPU 分层加载)
跑模型,内存炸了?减层数!
可选:搭配 OpenWebUI 变身高配版 ChatGPT !
✨ 总结:
1.73-bit 版性价比超高,适合短平快任务!长对话会变树懒…🦥
完整教程在博客,硬核玩家速来试试!👉
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/1108393
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.