本地跑 sd 和 local llm 推理, 什么显卡性价比最高?

6 天前
 cinlen

如题。

纯推理,主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。

2501 次点击
所在节点    程序员
38 条回复
FlintyLemming
6 天前
@cinlen ollama 默认下的都是 int8 int4 的量化模型,根本就不会给你下 fp16 的,你显存小也没有必要跑没量化的模型
afeiche
6 天前
个人感觉显存大的,新一点的,毕竟现在有些大模型必须用 cuda12 以上了,我印象中 2 系列的,不支持 12
cinlen
6 天前
@FlintyLemming 请教一下,如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算? 和推理一样用参数量乘以数据类型占用 bit 数吗?
keakon
6 天前
FlintyLemming
6 天前
@cinlen 量化跟推理不一样,显存没上限的,越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档,然后根据设置的参数计算。
Greendays
6 天前
不能接受改装的话, 应该就是 4060ti 16G 了吧,或者 3060 12G
Champa9ne
6 天前
居然没人推 P40 ?最廉价的 24G 显存,现在 LLM 能上大参数效果才可堪一用啊。自己一个人用,推理一次多等两分钟无所谓了吧?
woorz
6 天前
轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 !搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea
shuimugan
5 天前
@Champa9ne P40 太老了,带宽小,算力差,朋友拿 10 张去跑 Command R Plus 104B 8bit 推理,速度不到 2 token/s ,拿 M2 Ultra 192GB 跑起码还有 5.x token/s ,各种意义上的电子垃圾。
shuimugan
5 天前
@cinlen 2080ti 22g 我手头有 2 张,分别 24 小时开机 1 年和 1 年半,没啥问题。不建议买水冷版,单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大,把功耗限制在 70%左右,风扇拉一下可以得到很好的噪音/性能表现,跑 AI 性能下降在 10%左右。买了一张就会买第二张,迟早走上 4 卡/8 卡的道路。
yianing
5 天前
4090, you buy more, you save more
flymeto
5 天前
2080ti 魔改,自己用一年了,没啥问题
cowcomic
5 天前
建议上安培架构的显卡,也就是 30 系和 40 系
印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡
crackidz
5 天前
@ccloving @cinlen 千万别用 A 卡,一堆坑,最好的还是换 N 卡,别问我怎么知道的
crackidz
5 天前
跑 SD 最好还是显存足够大,跑 LLM 的话量化 int4 损失也不大,但 SD 是不一样的,基本上都需要 fp16 ,这样子的话 24G 显存是最好的选择,比如 3090 。当然你要是知道魔改卡的话那就...
luchenwei9266
5 天前
@cinlen #20 没什么雷,用了一年多了。建议上三风扇版本。
ccloving
3 天前
@crackidz 只是 ollama 推理和 SD 作图也不行吗?
crackidz
3 天前
@ccloving 主要是 SD 啊,ollama 是没什么问题的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1053310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX