V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
davidyin
40.35D
13.65D
V2EX  ›  Local LLM

想折腾一个 AI 主机,请行家出手

  •  
  •   davidyin · 9h 27m ago via Android · 1069 views
    打算自组一 AI 主机,用于本地 llm 。 可用于 kiro IDE 的,gitlab duo 。


    可行性有多大,能否代替订阅的那些 ai 服务?

    配置有没有推荐的,各 AI 行家请出手相助。
    28 replies    2026-05-10 10:05:33 +08:00
    qfdk
        1
    qfdk  
    PRO
       9h 21m ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    qfdk
        2
    qfdk  
    PRO
       9h 21m ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    yusf
        3
    yusf  
       9h 17m ago
    老老实实买用 api 吧
    davidyin
        4
    davidyin  
    OP
       9h 16m ago via Android
    @yusf
    订阅很方便,只是有洁癖,不想自己的东西暴露到外面。

    希望都在局域网内。
    yusf
        5
    yusf  
       9h 11m ago
    @davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验
    davidyin
        6
    davidyin  
    OP
       9h 6m ago via Android
    @yusf

    Mac 不考虑。基本没有用苹果的产品。
    对于性价比敏感。
    davidyin
        7
    davidyin  
    OP
       8h 55m ago via Android
    现在有个初步的配置清单:
    RTX 4070 SUPER 12GB
    Intel i5 14600K
    Asus TUF B760
    DDR5 32GB(2*16gb)
    SSD 1TBx2
    看看合适吗?
    AastroLula
        8
    AastroLula  
       8h 40m ago   ❤️ 1
    还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法
    devzhangyu
        9
    devzhangyu  
       8h 34m ago
    可以看看这个项目 https://github.com/AlexsJones/llmfit

    1. 找出你的硬件能运行哪些模型
    2. 估算某个模型配置需要什么硬件
    3. 硬件模拟,可查看哪些模型适合目标硬件
    ntedshen
        10
    ntedshen  
       8h 27m ago   ❤️ 1
    降价期间屯硬件,那 bro 你很勇哦(

    4070s 有没有 4060ti 好使我不知道。。。
    但是 14600k 和 d5 的意义在哪?
    Livid
        11
    Livid  
    MOD
    PRO
       8h 26m ago   ❤️ 1
    @davidyin 瓶颈是显存。

    可以看一下 DGX Spark 系列的产品。
    davidyin
        12
    davidyin  
    OP
       7h 3m ago via Android
    @Livid
    这个超出预算了。就我的使用情况,估计太大才小用了。


    @AastroLula
    订阅过 kiro 的那些模型。挺好用,只是不想把自己丑陋的代码上传上去,才想着全部在本地。
    是啊,配件涨价太多。的确有些下不去手。


    @ntedshen
    Intel CPU 和 DDR5 是也不是一定,你有好的建议欢迎提出来。

    @devzhangyu
    谢谢推荐,我去看看。
    iango
        13
    iango  
       6h 26m ago
    @davidyin 再等等,技术升级太快了。
    看看这个:
    https://github.com/antirez/ds4

    128M Apple MBP 跑 DeepSeek V4 Flash
    viskem
        14
    viskem  
       6h 15m ago
    64G M4 MacMini 循环跑 DeepSeek V4 Pro 中,MLX 31B 27B 啥的放那一堆 都停用了。
    是的,不如买个 AIR ,走到哪 Vibe 到哪……
    luodan
        15
    luodan  
       4h 53m ago
    就看显存大小,其它可以全部忽略。要么独立显卡,要么统一内存。
    davidyin
        16
    davidyin  
    OP
       3h 36m ago via Android
    @luodan
    大显存重要,GPU 级别低一点,问题不大?
    gtchan13579
        17
    gtchan13579  
       3h 5m ago
    Intel Arch B50 16G
    铭瑄 H610I
    Ultra 230F
    DDR5 5600 16G*2
    差不多就可以了
    MrLonely
        18
    MrLonely  
       2h 21m ago
    @davidyin 显存大小决定能不能跑,GPU 高低决定跑得快慢。
    zzutmebwd
        19
    zzutmebwd  
       2h 15m ago via Android
    5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产,20 万以内无法代替 glm 这种比较比较聪明的国产,无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
    如果你的厌蠢症胜过受迫害妄想症,用订阅。
    bzw875
        20
    bzw875  
       1h 41m ago
    除了为了学习本地训练 AI ,买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋
    restkhz
        21
    restkhz  
       1h 40m ago   ❤️ 1
    @davidyin 我不专业,但是有些经验你可以参考:

    12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。

    另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。

    还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...

    精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。

    说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
    如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。

    我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
    我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...
    csunny
        22
    csunny  
       1h 28m ago
    5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。
    csunny
        23
    csunny  
       1h 27m ago
    @csunny 纠正一下,是 64G ddr5
    2000wcw
        24
    2000wcw  
       1h 4m ago
    为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。
    bytesfold
        25
    bytesfold  
       56 mins ago via iPhone
    我的建议直接 rtx pro 6000 ,不好用直接出掉
    frankies
        26
    frankies  
       52 mins ago
    @davidyin #7 4070 部署不了大模型,部署量化后的阉割模型也费劲,推理慢不说还智障。提升不了预算就用 api ,钱包会告诉你并不洁癖
    cin
        27
    cin  
       43 mins ago
    你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
    另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b
    tcper
        28
    tcper  
       35 mins ago
    如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏
    whusnoopy
        29
    whusnoopy  
       25 mins ago
    1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
    2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了
    3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2876 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 824ms · UTC 02:30 · PVG 10:30 · LAX 19:30 · JFK 22:30
    ♥ Do have faith in what you're doing.