配置小主机跑大模型

wxd21020 · 2024-02-18T00:46:44Z

在下目前有个蜗牛黑群辉，j1900 ，搞一些小东西还是够用的；新年伊始，想着整个小主机玩玩，配置稍微高一点，主要是想 ALL IN ONE ，大佬们有啥配置建议没；预算 1000 到 2000 左右。还有一点是想在小主机上跑个低配的那种大模型，只要输入一段文字能检索出关键信息、关键字等等这些功能就行，不需要复杂功能。求兄弟们支招哇。

主机

黑群辉

模型

j1900

83 replies • 2024-05-30 01:17:13 +08:00

1

jonty

Feb 18, 2024

AIO 的话，没啥拓展需求，12 代 i3 将将够组一套吧

2

paopjian

Feb 18, 2024

现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧

3

winson030

Feb 18, 2024 via iPhone

好奇，一两千的预算，不上独显怎么跑模型？

4

hahiru

Feb 18, 2024

从你的描述中看得出来，你似乎并没有明确的大模型需求。
因为大部分小模型预设的并不好用，得针对性微调。
微调比加载需要更多显存。如果不想微调也得有显卡，不然 CPU 那速度真不如不用。
建议先主力机跑通流程，然后选符合门槛的小型机配置。

5

opengps

Feb 18, 2024

建议先用你自己电脑跑一套，满足需要后再去考虑配置硬件

6

nealot

Feb 18, 2024 via Android

据说有些 APU 能把显存魔改到 16G 然后跑大模型

J1900 还是算了吧

7

ychost

Feb 18, 2024

小主跑 LLM 几乎不可能，也不要想着 ALL IN ONE 了 BOOM 就不好了，我的小主机只装了个 Ubuntu ，其余的靠 docker 来安装

8

wxd21020

OP

Feb 18, 2024

@hahiru 目前倒是有一个主力台式机，上的 3060TI 显卡，是否可以结合使用呢
@ychost 那你也是小主机装个 Linux 然后把所有东西都怼到 docker 是吧，这种方式也是可以的。
@winson030 可以把台式机的 3060TI 显卡拆下来用，不知道能不能支持。

9

wxd21020

OP

Feb 18, 2024

@nealot 现在就是想整个机器，1900 肯定是啥也跑不了的

10

JensenQian

Feb 18, 2024

主机卖掉
冲个 chatgpt plus
完毕

11

hahiru

Feb 18, 2024

主力机跑模型，小主机跑 API 可以，其他不要想了。人工智能本地化就是资源堆砌，和小主机的初衷相悖。

12

makerbi

Feb 18, 2024

如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了，llama.cpp 量化部署，纯 CPU 跑就行，内存不要太小都没问题。

13

ShadowPower

Feb 18, 2024

@nealot APU 的方案不如直接用 CPU 快，我试过……

14

nealot

Feb 18, 2024 via Android

@wxd21020 搜 Reddit 帖子
I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion

15

wxd21020

OP

Feb 18, 2024

@JensenQian 我现在就用 3.5 ，plus 感觉没那么大需求

@hahiru 可以先拿主力机试试
@makerbi 感谢老哥，现在需求也就搞点文字，提取文本啥的这些需求，我研究一下整个模型。
@nealot 安排

16

ShadowPower

Feb 18, 2024

我之前用 Intel N100 跑过。实际上速度还能接受，这玩意的内存还只是单通道（或者算 32bit 位宽双通道）的。
再过一段时间也许会有更好的方案，苹果提出的那个还是手机内存+手机闪存的组合。

找个 DDR5 双通道（在 CPU-Z 里应该显示 32bit 四通道）的主机就好了。不建议选 AMD 平台，因为有内存带宽上限 50GB/s 的限制，只有 APU 能用得上更高的带宽。然而我用 6800H 试了，真实表现不如 CPU 推理。

17

ShadowPower

Feb 18, 2024

@nealot Stable Diffusion 和 LLM 的性能表现不一样，我都试过……
Stable Diffusion 的话，我的 7840HS 比 M2 Pro 都快（用 Olive ONNX ），但是 LLM 则反过来了。

18

reeco

Feb 18, 2024

纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存，跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了，单独配其实也可以考虑 amd rocm ，便宜大碗。但目前这块需求其实没那么强，跑起来新鲜劲一过，容易吃灰。

19

network127001

Feb 18, 2024

跑大模型的都是电老虎啊，魔搭社区好像可以白嫖资源

20

ShadowPower

Feb 18, 2024

@reeco AVX512 对这个场景没有提升。
目前的情况，CPU 的运算速度不是瓶颈，瓶颈都在从内存到 CPU 的带宽上。

21

wxd21020

OP

Feb 18, 2024

@ShadowPower 那是不是可以等等，感觉也就是热乎劲儿，主要还是没有持续的需求

22

ShadowPower

Feb 18, 2024

@wxd21020 可以先玩玩线上的服务，或者用目前的主力机来跑。如果确实没有需求，其实很快就玩腻了，还能省一笔钱。

其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候，就算是非常低端的处理器，也有这方面的硬件加速，或者根据这种场景做专门的优化了。

23

Puteulanus

Feb 18, 2024

24

reeco

Feb 18, 2024

@ShadowPower 在我的 7950x 上面，llama.cpp avx512 有大约 10%到 20%的提升

25

wclebb

Feb 18, 2024

虽然很奇怪，但如果真想专门跑模型，Mac 8G 说不定也能跑。
因为 10 核心 16G 能跑。

26

reeco

Feb 18, 2024

@wclebb 能跑，7b 量化到 2bit ，iPhone 15 Pro 上就能跑了，但没什么用，模型上限太低了

27

Greendays

Feb 18, 2024

这预算只能捡垃圾吧，看看二手的 P106 和 P40 一类的显卡，这些显卡必须要配合核显是用，坑不少，可靠性也不保障。

28

chaos93

Feb 18, 2024

https://gptcs.chaos.mba/
试试

29

skye

Feb 18, 2024

小主机的话，应该只有 mac mini 符合你要求了

30

elegantwolf

Feb 18, 2024

确实，16g 甚至 24g 的 Mac mini 大概可以满足你的需求，但是需要额外配置非 cuda 的环境，以及没法用 docker ，我买了一台 16g 的 Mac mini 想试着跑跑，但是因为很难环境隔离，一直没下定决心去污染整个环境，。。。

31

thedog

Feb 18, 2024

mac studio 应该是能跑大模型的最佳小设备

32

stimw

Feb 18, 2024 via Android

@thedog 目前有几个大模型能支持 apple silicon

33

thedog

Feb 18, 2024

@stimw 大多数都可以

34

Jiajin

Feb 18, 2024

新鲜劲会很快过去了，因为现在开源本地大模型肯定是比不过 chatgpt 的，除非有明确需求

35

Revenant

Feb 18, 2024

树莓派 4B 跑量化 llm ，1 tokens/s ，这速度谁受得了啊😂😂

36

winson030

Feb 18, 2024 via iPhone

@wxd21020 有独显，那就上支持 oculink 的小主机，可进可退，完美😍

37

ShadowPower

Feb 18, 2024

@elegantwolf 也许可以试试 LM Studio ，玩腻了能删得比较干净

38

zagfai

Feb 18, 2024

AMD 5600G

39

Ayahuasec

Feb 18, 2024 via Android

我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ，机器装了根 32G 的内存，效果还可以，就是速度大概只有 2-3 tokens/s ，而且跑的时候风扇狂转

40

laminux29

Feb 18, 2024

1

1.有信息保护的场景，才需要自己买服务器跑大模型，其他场景完全没必要。

2.现在 OpenAI 的 GPT4 （离线版）、MS Copilot （联网版）和 Google Gemini （联网版）之外，其他的各种 AI ，质量真的是差，完全没私有化部署意义。

41

kneo

Feb 18, 2024 via Android

除非你有自觉倾向，否则不建议你尝试小主机大模型的吐豆速度。

42

lrigi

Feb 19, 2024 via iPhone

@elegantwolf ollama 和那些 webui 都是当前目录下配置环境，何来污染一说😧

43

wxd21020

OP

Feb 19, 2024

@winson030 列入方案计划
@Ayahuasec 能跑就行了，速度忍一忍

44

blackmirror

Feb 19, 2024

2000 的机器能跑模型吗

45

findex

Feb 19, 2024 via iPhone

建议放弃。我有个 n100 配上 32G ddr5 内存，无独显无法跑大模型或者小一点的模型。建议换高功率 cpu 加独显。主要看现存和流处理器。

46

dayeye2006199

Feb 19, 2024

感觉还不如 colab 。
一个月 10 块美元

47

shm7

Feb 19, 2024

wo tmd laugh de desk dou yao xuan diao le

48

lchynn

Feb 19, 2024

@laminux29 自己部署，多数都是找基线大模型微调或者做 RAG 场景的。并不太依赖模型本身逻辑推理能力，所以一般 30B 的模型微调后能做一个凑合用的企业知识库就满足很多场景了。

49

obfuscator

Feb 20, 2024

你这个预算，显卡那块就压的死死的
只能选择 P106 或者是它的难兄难弟 P104 、P102 那些了
至于 P4 ，想必你预算是不够的

50

mkdirmushroom

Feb 22, 2024

@ShadowPower 还好大佬说了 AMD 平台的内存带宽限制，我也准备入手小主机跑大模型，本来想买 8845hs 的，看到内存带宽限制劝退了。

51

mkdirmushroom

Feb 22, 2024

@ShadowPower 大佬还是有点疑问，我看了下 AMD 新的移动端处理器 8845hs 的介绍，双通道 DDR5 5600 理论上是有大约 90GB/s 的带宽的，是芯片内部做了限制吗？

52

ShadowPower

Feb 22, 2024

@mkdirmushroom AMD 的 IF 总线带宽有限……
台式机处理器还好，限制没有那么大，基本上什么内存都可以正常发挥。

移动端就不一样了。我刚刚测出来的数据：

这是 6400MHz 的内存，可以看到核显的读写带宽基本上都砍了对半，但是同时读+写（ Copy ）接近两者的总和。
而 CPU 的读取带宽只有约 50GB/s ，写入则可以达到 86GB/s ，但是同时读写倒不是两者的总和。

对于跑 LLM 推理的场景，对内存读取带宽要求挺高，瓶颈几乎都在这里，而写比读少很多。

虽然内存带宽真的有将近 90GB/s ，但跑 LLM 时，实际上可以视为只有 50GB/s……
GPU 会更慢，也是因为读取带宽更低。

53

mkdirmushroom

Feb 22, 2024

@ShadowPower 感谢大佬的解惑，感觉 8845hs 这个马甲 U 应该也差不多。那如果是小主机的话大佬推荐哪个 U 呢，目前在观望的小主机的 U 有 i9 13900h 、i9 12900h 、i5 12450h 还有 AMD 家的 8845hs ，价格应该是依次递减的，不过巨硬家的内存频率最多到 5200 。

54

mkdirmushroom

Feb 22, 2024

@ShadowPower 还有 Intel Core Ultra 5 125H ，它的定位和 8845hs 差不多，但是稍微贵一点。
刚刚看了些评测，在双通道 DDR5 5600 32GB ，PCIE4.0 SSD 2TB 环境下:
Ultra5 的内存带宽的 CPU 读写及延迟分别是 71058 MB/s 、70765 MB/s 、150.4ns
8845hs 则为 61887 MB/S 、86688 MB/s 、90.5 ns
AMD 的写入和延迟好一点，Intel 的读取高了大概 10GB/s

55

ShadowPower

Feb 22, 2024

@mkdirmushroom 如果内存频率一样的话，它们应该没什么明显的差别。内存延迟的影响不大，GPU 和显存之间的延迟要更高。

56

renyi1986

Feb 22, 2024

现在 8700 不就可以跑大模型，对应的小主机也有了

57

wxd21020

OP

Feb 23, 2024

@mkdirmushroom 老哥，你要是配好了，甩配置给我一下，我学习学习；其实里面有些东西我还是盲区，现在还在摸索。

58

mkdirmushroom

Feb 23, 2024

@wxd21020 准备等的天钡的 Gem12 了（ 8845hs ），还没出，大概 3 月初上架，准系统价格估计在 2600 左右。

59

lchynn

Feb 23, 2024

@mkdirmushroom 8845HS 就是多了 NPU 的 7840 吧，这个多出来的 NPU 对 AI 推理真的有帮助么？它支持 CUDA ？

60

mkdirmushroom

Feb 26, 2024

@lchynn 有点用，参考 https://github.com/amd/RyzenAI-SW

61

mkdirmushroom

Mar 4, 2024

@wxd21020 买了 gem12 了，8845 主机，准系统 2699 ，两个 m.2 ，一个 oculink ，两个 usb4 ，2 个 2.5G 网口，带副屏幕和指纹。感觉性价比蛮高，就是到手会有点晚，要 4 月初

62

uniqueman

Mar 24, 2024

@mkdirmushroom 这个能跑多大规模的模型？

63

mkdirmushroom

Mar 25, 2024

@uniqueman 看你内存大小了，内存大一点带宽高一点，理论上 72B 都能跑，不过速度比较慢。

64

lchynn

May 6, 2024

@mkdirmushroom 买了 GEM12 了么？ OLLAMA 或者 LM-STUDIO 推理 7B 的 gguf 模型咋样？有测试结果么？

65

wxd21020

OP

May 7, 2024

@lchynn 坐等+1 ，我还在等 618 ，还没下手呢

66

lchynn

May 7, 2024

@wxd21020 8848HS 的 NPU 好像说 FP16 是 TFLOPS ；估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS

67

lchynn

May 7, 2024

8845HS 的 NPU 好像说 FP16 (half) 的算力是 16 TFLOPS ；估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS

68

mkdirmushroom

May 7, 2024

@lchynn 买了啊，目前是我的主力家庭服务器，ollama 7b 推理肯定没问题啊，大部分电脑都随便跑的，主要还是看内存带宽的。我还试了 qwen 的 72B 4bit ，大概 2 ，3Token/s 吧。

我目前是 PVE 分了一个 32GB 内存的 ubuntu 跑 ollama ，基本上都用的 14B ，大概能有 10 几 token/s 吧。

69

mkdirmushroom

May 7, 2024

@mkdirmushroom
@lchynn 8845hs 的 npu 算力不是浮点数，是整数 16TOPS

70

lchynn

May 7, 2024

@mkdirmushroom 有没有试一下 Code-Qwen 或者 Deepseek Code ？谢谢，如果速度可以，感觉可以代替 Copilot 了

71

tclm

May 11, 2024

@mkdirmushroom

老哥，配的多少内存，我准备搞一台 8845HS （或 Utral5 125H ）+ 96G （ 48G 5800Hz * 2 ）来跑 70B 的模型，只做本地推理，按你的经验，有搞头吗？

72

tclm

May 11, 2024

@tclm
@mkdirmushroom

内存是 96G （ 48G 5600Hz * 2 ）

我主要担心的是 8845HS 在内存足够的情况下，处理器性能是否满足 70B 的推理要求。

73

tclm

May 11, 2024

@tclm
@mkdirmushroom

主要是推理效率，也不能太慢对吧，如果 CPU 跑不了 70B 的话，那内存的预算其实可以削减下来.

74

mkdirmushroom

May 15, 2024

@tclm 有点慢的，我试过，大概就 2.3token/s 吧

75

tclm

May 15, 2024

@mkdirmushroom

嗯，感谢，那纯 CPU + 内存进行 70B 模型推理还是很勉强的事情.

76

AndyWang666

May 17, 2024

@mkdirmushroom GEM12 散热怎么样，我最近也在看。另外 oculink 能直接外接显卡跑模型吧？就是不知道 pve 里能不能直通 oculink

77

mkdirmushroom

May 21, 2024

@AndyWang666 散热非常好，但是我的机器低负载有电流或者电报的声音，换了一台还是更严重了，只好忍了。pve 直通 oculink 没试过，手里没有显卡坞。

78

AndyWang666

May 22, 2024

@mkdirmushroom 你是带副屏指纹的？听说带这玩意的有这毛病，这两天准备也入了，618 便宜了 100

79

wxd21020

OP

May 22, 2024

@AndyWang666 我想入个极摩客 M6 ，GEM12 有点略贵，预算跟不上了

80

hootigger

May 24, 2024 via iPhone

@mkdirmushroom gem12 也有电流声吗？滋滋的，我买的火影 a8 8845hs 也是，然后今天刚换货。不会也换个更严重的吧。。

81

AndyWang666

May 26, 2024 via Android

@wxd21020 我已经入了 gem12 了，ssd 只能上单面颗粒，买的 850x 4t 都退了，上了 96g 内存，今天刚装完系统。win server 2025 打驱动太麻烦了，被我直接换 win11 了

82

mkdirmushroom

May 27, 2024

@hootigger 应该是电感啸叫声，我刚开始有点介意，现在无所谓了，反正正常也听不到。

83

hootigger

May 30, 2024 via iPhone

@mkdirmushroom 经历差不多，我换货后。这个刚开始我听着声音很小。今天发现又出来了，我也只能接受了。就是低负载有。也就晚上能听到点。凑上去，也还好。玩游戏起来就没有了。整体还行主要火影价格还是香