gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 608 天前的主题，其中的信息可能已经有所发展或是发生改变。

在 2c2g 的服务器上部署了个 gemma:2b ，响应太慢了，如果用家用台式机带 GPU 跑这个模型，什么样的配置才能流畅的进行问题交流？

gemma

模型

c2g

台式机

30 条回复 • 2024-03-07 10:19:29 +08:00

13240284671

2024-03-01 18:33:14 +08:00

2b 要求很低的，有个 6g 显卡就可以了

crackidz

2024-03-01 18:48:18 +08:00

2B 模型 CPU 跑就行...

shinyzhu

2024-03-01 18:50:17 +08:00

我的 M2 ，24G 非常流畅。

coinbase

2024-03-01 18:50:59 +08:00

m1 pro 16g ，gemma:7b 也可以跑

noahlias

2024-03-01 19:07:48 +08:00

我看了一下在我的 8G 3060TI 上推理速度

在我的 m1. pro 16g

看来还是 cuda🐮

vvhy

2024-03-01 20:05:19 +08:00

1660s ，75 tokens/s

yankebupt

2024-03-01 20:05:46 +08:00

@noahlias instruct 模型和 base 模型使用感觉上有什么差距么？ 7b 能进行简单中文任务么？

noahlias

2024-03-01 20:28:42 +08:00

@yankebupt 中文你用 qwen 模型吧那个效果好，instruct 在一些问题回答上会更好啊当然也是答辩

想看比较,自己去 llm leaderboard 看吧 ,
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

gongquanlin

2024-03-01 20:43:17 +08:00

2b 的模型能干什么工作呀？感觉有点太笨了用起来

hutng

2024-03-01 21:34:44 +08:00

ollama 普通 cpu 也能跑 7b ，但是感觉好垃圾呀，和 chatgpt 差十万八千里，类似于小爱同学这样的，也不知道是不是我用的姿势不对。

Fish1024

2024-03-01 21:47:22 +08:00

内存大点就行，13b 也能跑，就是慢点，能用。

abcfreedom

2024-03-02 00:27:49 +08:00 via Android

@crackidz 有点慢呀感觉

abcfreedom

2024-03-02 00:28:08 +08:00 via Android

@shinyzhu 太强了

abcfreedom

2024-03-02 00:28:34 +08:00 via Android

@coinbase 正好我也有太 m1pro ，回头试试

abcfreedom

2024-03-02 00:29:47 +08:00 via Android

@noahlias 话说 amd 的卡能跑吗，手上有张 amd6900xt

abcfreedom

2024-03-02 00:30:35 +08:00 via Android

@vvhy 收到

abcfreedom

2024-03-02 00:30:56 +08:00 via Android

@noahlias 如果用作中英文翻译，哪个模型比较合适呢

abcfreedom

2024-03-02 00:31:41 +08:00 via Android

@gongquanlin 其实我也不太清楚，只知道这个模型对资源要求比较低，所以想着部署着玩一下

abcfreedom

2024-03-02 00:32:18 +08:00 via Android

@Fish1024 好嘞收到

noahlias

2024-03-02 09:53:06 +08:00

@abcfreedom 应该是可以的

ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案
或者你用 llama.cpp https://github.com/ggerganov/llama.cpp
readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas

gongquanlin

2024-03-02 11:12:07 +08:00

@abcfreedom #18 跑了一下 miniCPM-2b ，翻译、总结效果还不错，就是部分回答有点让人捉急哈哈~

smalltong02

2024-03-02 11:14:30 +08:00

那是因为 ollama 加载的是 gguf 的量化模型。

unclemcz

2024-03-02 11:23:34 +08:00 via Android

@gongquanlin miniCPM 这个模型我在 ollama 官网搜索不到，有具体链接提供吗？我最近给自己的一个翻译软件增加 ollama 支持，测试用 qwen-4b ，效果很一般，想再找一个翻译效果好一点的。

abcfreedom

2024-03-02 22:47:14 +08:00

@gongquanlin 强回头我也试试

gongquanlin

2024-03-03 13:33:02 +08:00

@unclemcz 是清华的那个面壁模型
https://github.com/OpenBMB/MiniCPM/tree/main

shinyzhu

2024-03-06 08:29:35 +08:00

哦哦。原来用 verbose 就可以看到速度了啊。我的 MacBook Pro （ M2 ，8Core+10GPU ，24G 内存）：

```
~ % ollama run gemma:2b --verbose

total duration: 6.300357083s
load duration: 896.708µs
prompt eval count: 13 token(s)
prompt eval duration: 201.698ms
prompt eval rate: 64.45 tokens/s
eval count: 284 token(s)
eval duration: 6.096544s
eval rate: 46.58 tokens/s
```

crackidz

2024-03-07 09:15:30 +08:00

@unclemcz https://ollama.com/roger/minicpm
@abcfreedom 要看你的具体的配置，比如内存，CPU 。AMD 的支持很快会发 pre-release 了，速度据说比 NV 慢一点但是比 CPU 还是快多了

unclemcz

2024-03-07 09:42:10 +08:00 via Android

@crackidz 我现在是 8g 的内存，3550h ，跑 qwen:7b ，短句的翻译需要 30s 左右。
@abcfreedom qwen:4b 的速度快很多，但质量差 7b 太多。如果只是翻译，可以接各大翻译接口，百度腾讯华为都有，也都有免费额度。

unclemcz

2024-03-07 09:50:32 +08:00 via Android

@abcfreedom 上楼再补充一下，翻译接口最大的问题是会吃单词，百度腾讯网易都有这个问题，所以如果有合适翻译的大模型，确实是优选。

abcfreedom

2024-03-07 10:19:29 +08:00

@unclemcz 我找了个 openai 中转的 api ，拿来对接了翻译，感觉还可以