gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

359 天前

abcfreedom

在 2c2g 的服务器上部署了个 gemma:2b ，响应太慢了，如果用家用台式机带 GPU 跑这个模型，什么样的配置才能流畅的进行问题交流？

3172 次点击

所在节点

Local LLM

30 条回复

13240284671

359 天前

2b 要求很低的，有个 6g 显卡就可以了

crackidz

359 天前

2B 模型 CPU 跑就行...

shinyzhu

359 天前

我的 M2 ，24G 非常流畅。

coinbase

359 天前

m1 pro 16g ，gemma:7b 也可以跑

noahlias

359 天前

我看了一下在我的 8G 3060TI 上推理速度

在我的 m1. pro 16g

看来还是 cuda🐮

vvhy

359 天前

1660s ，75 tokens/s

yankebupt

359 天前

@noahlias instruct 模型和 base 模型使用感觉上有什么差距么？ 7b 能进行简单中文任务么？

noahlias

359 天前

@yankebupt 中文你用 qwen 模型吧那个效果好，instruct 在一些问题回答上会更好啊当然也是答辩

想看比较,自己去 llm leaderboard 看吧 ,
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

gongquanlin

359 天前

2b 的模型能干什么工作呀？感觉有点太笨了用起来

hutng

359 天前

ollama 普通 cpu 也能跑 7b ，但是感觉好垃圾呀，和 chatgpt 差十万八千里，类似于小爱同学这样的，也不知道是不是我用的姿势不对。

Fish1024

359 天前

内存大点就行，13b 也能跑，就是慢点，能用。

abcfreedom

359 天前

@crackidz 有点慢呀感觉

abcfreedom

359 天前

@shinyzhu 太强了

abcfreedom

359 天前

@coinbase 正好我也有太 m1pro ，回头试试

abcfreedom

359 天前

@noahlias 话说 amd 的卡能跑吗，手上有张 amd6900xt

abcfreedom

359 天前

@vvhy 收到

abcfreedom

359 天前

@noahlias 如果用作中英文翻译，哪个模型比较合适呢

abcfreedom

359 天前

@gongquanlin 其实我也不太清楚，只知道这个模型对资源要求比较低，所以想着部署着玩一下

abcfreedom

359 天前

@Fish1024 好嘞收到

noahlias

358 天前

@abcfreedom 应该是可以的

ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案
或者你用 llama.cpp https://github.com/ggerganov/llama.cpp
readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019891

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.