gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

267 天前
 abcfreedom

在 2c2g 的服务器上部署了个 gemma:2b ,响应太慢了,如果用家用台式机带 GPU 跑这个模型,什么样的配置才能流畅的进行问题交流?

2914 次点击
所在节点    程序员
30 条回复
13240284671
267 天前
2b 要求很低的,有个 6g 显卡就可以了
crackidz
267 天前
2B 模型 CPU 跑就行...
shinyzhu
267 天前
我的 M2 ,24G 非常流畅。
coinbase
267 天前
m1 pro 16g ,gemma:7b 也可以跑
noahlias
267 天前
我看了一下在我的 8G 3060TI 上 推理速度


在我的 m1. pro 16g


看来还是 cuda🐮
vvhy
267 天前
1660s ,75 tokens/s
yankebupt
267 天前
@noahlias instruct 模型和 base 模型使用感觉上有什么差距么? 7b 能进行简单中文任务么?
noahlias
267 天前
@yankebupt 中文你用 qwen 模型吧 那个效果好,instruct 在一些问题回答上会更好啊 当然也是答辩

想看比较,自己去 llm leaderboard 看吧 ,
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
gongquanlin
267 天前
2b 的模型能干什么工作呀?感觉有点太笨了用起来
hutng
267 天前
ollama 普通 cpu 也能跑 7b ,但是感觉好垃圾呀,和 chatgpt 差十万八千里,类似于小爱同学这样的,也不知道是不是我用的姿势不对。
Fish1024
267 天前
内存大点就行,13b 也能跑,就是慢点,能用。
abcfreedom
267 天前
@crackidz 有点慢呀感觉
abcfreedom
267 天前
@shinyzhu 太强了
abcfreedom
267 天前
@coinbase 正好我也有太 m1pro ,回头试试
abcfreedom
267 天前
@noahlias 话说 amd 的卡能跑吗,手上有张 amd6900xt
abcfreedom
267 天前
@vvhy 收到
abcfreedom
267 天前
@noahlias 如果用作中英文翻译,哪个模型比较合适呢
abcfreedom
267 天前
@gongquanlin 其实我也不太清楚,只知道这个模型对资源要求比较低,所以想着部署着玩一下
abcfreedom
267 天前
@Fish1024 好嘞收到
noahlias
266 天前
@abcfreedom 应该是可以的

ollama 不过你得自己编译下 issue( https://github.com/ollama/ollama/issues/738)里面找解决方案
或者你用 llama.cpp https://github.com/ggerganov/llama.cpp
readme 里面是提到有支持 hipBlAS 的 https://github.com/ggerganov/llama.cpp#hipblas

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1019891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX