gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

在 2c2g 的服务器上部署了个 gemma:2b ，响应太慢了，如果用家用台式机带 GPU 跑这个模型，什么样的配置才能流畅的进行问题交流？

gongquanlin

270 天前

@abcfreedom #18 跑了一下 miniCPM-2b ，翻译、总结效果还不错，就是部分回答有点让人捉急哈哈~

smalltong02

270 天前

那是因为 ollama 加载的是 gguf 的量化模型。

unclemcz

270 天前

@gongquanlin miniCPM 这个模型我在 ollama 官网搜索不到，有具体链接提供吗？我最近给自己的一个翻译软件增加 ollama 支持，测试用 qwen-4b ，效果很一般，想再找一个翻译效果好一点的。

abcfreedom

270 天前

@gongquanlin 强回头我也试试

gongquanlin

269 天前

@unclemcz 是清华的那个面壁模型
https://github.com/OpenBMB/MiniCPM/tree/main

shinyzhu

266 天前

哦哦。原来用 verbose 就可以看到速度了啊。我的 MacBook Pro （ M2 ，8Core+10GPU ，24G 内存）：

```
~ % ollama run gemma:2b --verbose

total duration: 6.300357083s
load duration: 896.708µs
prompt eval count: 13 token(s)
prompt eval duration: 201.698ms
prompt eval rate: 64.45 tokens/s
eval count: 284 token(s)
eval duration: 6.096544s
eval rate: 46.58 tokens/s
```

crackidz

265 天前

@unclemcz https://ollama.com/roger/minicpm
@abcfreedom 要看你的具体的配置，比如内存，CPU 。AMD 的支持很快会发 pre-release 了，速度据说比 NV 慢一点但是比 CPU 还是快多了

unclemcz

265 天前

@crackidz 我现在是 8g 的内存，3550h ，跑 qwen:7b ，短句的翻译需要 30s 左右。
@abcfreedom qwen:4b 的速度快很多，但质量差 7b 太多。如果只是翻译，可以接各大翻译接口，百度腾讯华为都有，也都有免费额度。

unclemcz

265 天前

@abcfreedom 上楼再补充一下，翻译接口最大的问题是会吃单词，百度腾讯网易都有这个问题，所以如果有合适翻译的大模型，确实是优选。

abcfreedom

265 天前

@unclemcz 我找了个 openai 中转的 api ，拿来对接了翻译，感觉还可以

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019891

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.