1
qfdk PRO 看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
|
2
qfdk PRO 看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
|
3
yusf 9h 17m ago
老老实实买用 api 吧
|
5
yusf 9h 11m ago
@davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验
|
7
davidyin OP 现在有个初步的配置清单:
RTX 4070 SUPER 12GB Intel i5 14600K Asus TUF B760 DDR5 32GB(2*16gb) SSD 1TBx2 看看合适吗? |
8
AastroLula 8h 40m ago 还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法
|
9
devzhangyu 8h 34m ago
可以看看这个项目 https://github.com/AlexsJones/llmfit
1. 找出你的硬件能运行哪些模型 2. 估算某个模型配置需要什么硬件 3. 硬件模拟,可查看哪些模型适合目标硬件 |
10
ntedshen 8h 27m ago 降价期间屯硬件,那 bro 你很勇哦(
4070s 有没有 4060ti 好使我不知道。。。 但是 14600k 和 d5 的意义在哪? |
12
davidyin OP @Livid
这个超出预算了。就我的使用情况,估计太大才小用了。 @AastroLula 订阅过 kiro 的那些模型。挺好用,只是不想把自己丑陋的代码上传上去,才想着全部在本地。 是啊,配件涨价太多。的确有些下不去手。 @ntedshen Intel CPU 和 DDR5 是也不是一定,你有好的建议欢迎提出来。 @devzhangyu 谢谢推荐,我去看看。 |
13
iango 6h 26m ago
|
14
viskem 6h 15m ago
64G M4 MacMini 循环跑 DeepSeek V4 Pro 中,MLX 31B 27B 啥的放那一堆 都停用了。
是的,不如买个 AIR ,走到哪 Vibe 到哪…… |
15
luodan 4h 53m ago
就看显存大小,其它可以全部忽略。要么独立显卡,要么统一内存。
|
17
gtchan13579 3h 5m ago
Intel Arch B50 16G
铭瑄 H610I Ultra 230F DDR5 5600 16G*2 差不多就可以了 |
19
zzutmebwd 2h 15m ago via Android
5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产,20 万以内无法代替 glm 这种比较比较聪明的国产,无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
如果你的厌蠢症胜过受迫害妄想症,用订阅。 |
20
bzw875 1h 41m ago
除了为了学习本地训练 AI ,买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋
|
21
restkhz 1h 40m ago @davidyin 我不专业,但是有些经验你可以参考:
12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。 另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。 还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快... 精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。 说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。 如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。 我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。 我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的... |
22
csunny 1h 28m ago
5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。
|
24
2000wcw 1h 4m ago
为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。
|
25
bytesfold 56 mins ago via iPhone
我的建议直接 rtx pro 6000 ,不好用直接出掉
|
27
cin 43 mins ago
你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b |
28
tcper 35 mins ago
如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏
|
29
whusnoopy 25 mins ago
1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了 3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型 |