本地跑 sd 和 local llm 推理, 什么显卡性价比最高？

如题。

纯推理，主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。

FlintyLemming

237 天前

@cinlen ollama 默认下的都是 int8 int4 的量化模型，根本就不会给你下 fp16 的，你显存小也没有必要跑没量化的模型

afeiche

237 天前

个人感觉显存大的，新一点的，毕竟现在有些大模型必须用 cuda12 以上了，我印象中 2 系列的，不支持 12

cinlen

237 天前

@FlintyLemming 请教一下，如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算？和推理一样用参数量乘以数据类型占用 bit 数吗？

keakon

237 天前

@cinlen https://huggingface.co/spaces/hf-accelerate/model-memory-usage

FlintyLemming

237 天前

@cinlen 量化跟推理不一样，显存没上限的，越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档，然后根据设置的参数计算。

Greendays

237 天前

不能接受改装的话，应该就是 4060ti 16G 了吧，或者 3060 12G

Champa9ne

236 天前

居然没人推 P40 ？最廉价的 24G 显存，现在 LLM 能上大参数效果才可堪一用啊。自己一个人用，推理一次多等两分钟无所谓了吧？

woorz

236 天前

轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 ！搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea

shuimugan

236 天前

@Champa9ne P40 太老了，带宽小，算力差，朋友拿 10 张去跑 Command R Plus 104B 8bit 推理，速度不到 2 token/s ，拿 M2 Ultra 192GB 跑起码还有 5.x token/s ，各种意义上的电子垃圾。

shuimugan

236 天前

@cinlen 2080ti 22g 我手头有 2 张，分别 24 小时开机 1 年和 1 年半，没啥问题。不建议买水冷版，单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大，把功耗限制在 70%左右，风扇拉一下可以得到很好的噪音/性能表现，跑 AI 性能下降在 10%左右。买了一张就会买第二张，迟早走上 4 卡/8 卡的道路。