V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
hmbb
V2EX  ›  程序员

想自己本地跑大模型,学习大模型,做一些微调等操作,目前看到一款小主机在预算内, CPU AMD Ryzen Al Max+ 395,不知道这套配置是否适合用来学习大模型跑大模型,有没有懂的兄弟可以给点建议。

  •  
  •   hmbb · 1 天前 · 3029 次点击
    CPU:AMD Ryzen Al Max+ 395 处理器(16 核心 32 线程,最大睿频 5.1GHz ,三级缓存 64MB)
    显卡:AMD Radeon 8060S Graphics 40CUs
    系统盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    存储盘:M.2 2280 PCle4.0 x4(最大 4TB)*1
    内存:128GB(16GB*8) LPDDR5x 8000MT/s (最大可分配 96GB 给显存)
    接口:AC*1 + USB3.2(10Gbps)*2 + SD4.0 卡槽*1 + LAN 10Gbps(Intel E610)*2 + USB-C(10Gbps 数据)*1 + 3.5mm 音频插孔*2 + DP2.1 8k 60Hz*1 + HDMI2.1 8K 60Hz*1 + USB4(40Gbps/DP1.4)*2
    无线网络:WIFI7 MT7925; 蓝牙 5.4
    66 条回复    2025-09-05 22:12:35 +08:00
    murmur
        1
    murmur  
       1 天前   ❤️ 2
    这玩意一万块,拿来充 api 够你用到退坑还有剩
    tool2dx
        2
    tool2dx  
       1 天前 via Android
    @murmur 自己运行大模型的感觉不一样, 一是学技术, 二是硬件快到头了, 贬值慢, 用个几年把显卡之类榨干再出手, 也不亏. 三是开源模型越来越强了, 未来可期.

    大模型本质就是老虎机, 你花钱调用 API(花钱买代币), 和本地 24 小时不间断调用摇骰子(免费无限代币), 长期来看还是有差距的.
    hmbb
        3
    hmbb  
    OP
       1 天前
    @murmur 这倒是,但是 api 的话好像只能使用吧,可以满足学习大模型吗自己实操那种,不是很懂
    chinanala
        4
    chinanala  
       1 天前
    这不是玲珑星小主机的配置吗。

    小主机散热和扩展性是个问题,不如自组台式机这个配置玩大模型了。
    yusha
        5
    yusha  
       1 天前   ❤️ 1
    这款的内存带宽和推理性能大致跟 M4pro 差不多. 推理场景跑不了太大的稠密模型(虽然可以加载, 但是推理速度太慢). b 站有评测可以看下推理速度能否满足你的使用预期.
    比较合适的场景是跑 moe 模型, 需要大内存, 但是计算量不高. 比如 qwen3-coder-30b-a3b 这种.
    hmbb
        6
    hmbb  
    OP
       1 天前
    @chinanala 自组台式显卡成本比较高, 有点超预算
    TimePPT
        7
    TimePPT  
    PRO
       1 天前   ❤️ 1
    要不……先花点钱在云平台租点 GPU 算力资源自己玩玩?
    skye
        8
    skye  
       1 天前
    不如买 mac mini ,m4 pro 性能不错
    bytesfold
        9
    bytesfold  
       1 天前 via iPhone
    还不如直接 api
    perfectlife
        10
    perfectlife  
       1 天前   ❤️ 1
    学习大模型还是上英伟达吧
    hefish
        11
    hefish  
       1 天前   ❤️ 1
    本地还是得 nvidia 吧。。。。不然兼容性折腾死你。
    不说别的 vllm 没有非 nvidia 的二进制版本,你得自己编译。。
    clemente
        12
    clemente  
       1 天前
    省点功夫吧 连买什么卡都搞不清楚
    objectgiga
        13
    objectgiga  
       1 天前
    该用 api 用 api,想要本地跑不要买这种电子垃圾,带宽太低了,一万块去看看 7532+8*64+3080 20G,能保证本地运行现行大部分 MOE 模型的 int4,微调个人基本上别想这茬
    hmbb
        14
    hmbb  
    OP
       1 天前
    @TimePPT 可以尝试一下
    hmbb
        15
    hmbb  
    OP
       1 天前
    @skye 我再看看
    hmbb
        16
    hmbb  
    OP
       1 天前
    @clemente 最近才开始了解大模型这些知识
    hmbb
        17
    hmbb  
    OP
       1 天前
    @objectgiga 我看看
    shuimugan
        18
    shuimugan  
       1 天前
    这配置比调用 api 体验更差,没有学习的价值,除非你要跑 Huihui-GLM-4.5-Air-abliterated 写黄文
    402124773
        19
    402124773  
       1 天前
    @hmbb
    按理说,你自组小主机应该比你买成品小主机要便宜一点的
    hmbb
        20
    hmbb  
    OP
       1 天前
    @shuimugan 好像自己组 NVIDIA 显卡主机比较适合学习用
    hmbb
        21
    hmbb  
    OP
       1 天前
    @402124773 主要买成品比较省事
    lithiumii
        22
    lithiumii  
       1 天前 via Android
    amd 这一代虽然能跑了,但还是太慢,最后你还是得走上魔改老黄的邪路。或者再等等看下一代
    hmbb
        23
    hmbb  
    OP
       1 天前
    @lithiumii 貌似是的,下一代可能会好些
    nightwitch
        24
    nightwitch  
       1 天前   ❤️ 1
    现在国内租用 gpu 的平台多的是...4090 这种也就两三块钱一小时,3080 这种更便宜。 入门绰绰有余了,500 块钱能够你从入门到放弃好几回了
    shuimugan
        25
    shuimugan  
       1 天前   ❤️ 6
    你先明确学习的内容是什么。

    首先排除训练,Llama 3.1 8B 训练使用 1024 张 H100 80G 训练了一个月也就那样;

    然后就微调,显存小就跑个 gpt-oss-20b 和 Qwen3-30B-A3B 的规模,https://docs.unsloth.ai/basics/gpt-oss-how-to-run-and-fine-tune https://docs.unsloth.ai/basics/qwen3-how-to-run-and-fine-tune 大点的模型还不如去 https://www.together.ai/ 导入你的数据集点几下按钮就开始微调了。

    然后是推理,推理吃的是带宽和显存,这个价格你直接在 https://apxml.com/zh/tools/vram-calculator 选你要跑的模型和设备来看模拟推理的速度心里就有数了,这个配置性价比最高的也就是跑 gpt-oss-120b 的 mxfp4 量化,其次是 GLM 4.5 Air 的 4bit 量化,速度也就那样,选择 M4 Max 看速度然后除以二就懂了。

    再然后是 RAG ,说白了就是找出相关内容然后字符串拼接,你本地跑和调用 API 也没区别,看 llamaindex 代码就懂了,知识库都是围绕那三五十行代码做各种业务和 UI 的封装。
    https://github.com/run-llama/llama_index/blob/81d4b871143ddd4a7cb90333a3d103fbb1f269c5/llama-index-core/llama_index/core/prompts/chat_prompts.py#L21

    剩下的就是画色图、写黄文、声音转文本、文本转声音、声线克隆
    @hmbb
    402124773
        26
    402124773  
       1 天前   ❤️ 1
    @hmbb
    自己组也很简单。并且现在电商很发达的,你什么配置的,找抖音本地大主播配一下,也很简单的。
    我建议你别太相信小主机的散热了,另外现在主流大模型学习还是 nvidia 的显卡吧,amd 那玩意不太靠谱。
    charlenehe43
        27
    charlenehe43  
       23 小时 37 分钟前
    小主机怎么可能跑大模型啊,我 m1 跑个 1.5b 的模型都卡的批爆,而且你这是 amd 的显卡?cuda 用不了吧,当然我是外行哈说错别怪
    ryc111
        28
    ryc111  
       23 小时 21 分钟前   ❤️ 1
    这个小主机很顶,跑小几十 B 的模型都没问题,速度也还过得去( xB 大小的模型还挺快)
    大点的模型比如 70B 量化的那种,就比较慢了。

    自己本地折腾大模型以及建立个人知识库学习学习挺不错的。

    最好玩的就是折腾一些文生图,图生图,还蛮有意思的,lora 微调啥的,内存都够用。
    SGL
        29
    SGL  
       17 小时 17 分钟前   ❤️ 1
    最优的选择是现在 GPU 算力平台花个小几百玩玩儿,然后就做大的决策。
    dododada
        30
    dododada  
       16 小时 55 分钟前   ❤️ 1
    大模型?你这个配置一般的推理没问题,但是大模型微调不行,再微调也是大模型,deepseek 满血配置 200W 起步,你这个只能跑量化
    wnpllrzodiac
        31
    wnpllrzodiac  
       16 小时 44 分钟前 via Android
    没钱就别自己训练了。4090 最起码的,一张还不够
    totoro52
        32
    totoro52  
       16 小时 34 分钟前
    amd 跑模型? 很难评价
    aqqwiyth
        33
    aqqwiyth  
       16 小时 26 分钟前
    不考虑一下每秒 token 吞吐量这个指标?
    misaki321
        34
    misaki321  
       16 小时 5 分钟前
    来张 4090 ,至少能跑非量化的 7b
    squarefong17
        35
    squarefong17  
       16 小时 0 分钟前
    @charlenehe43 他说的那 CPU 跟 M4 pro 在一个性能水平,CPU 、GPU 和带宽都是。哪怕是功耗受限的笔记本跑 qwen-30b-a3b ,最高能有近 50 tokens/s 。跑这个规模的语言模型的场景,cuda 根本不是问题,vulkan 加速就够快了,瓶颈在带宽。
    goodryb
        36
    goodryb  
       15 小时 44 分钟前   ❤️ 1
    推理、微调、训练 所需要的资源你可以简单想象成 1:10:100 ,所以你要先清楚你准备做什么,如果只是刚开始想玩玩,建议可以先找 GPU 算力平台租卡来用,或者云厂商都有对应的服务先玩玩,玩的差不多了也就知道你要什么了

    显卡首推 NVIDIA ,业界公认 NO.1
    Yii234
        37
    Yii234  
       15 小时 0 分钟前   ❤️ 1
    不建议一上来就投入这么大,可以先租赁 gpu ,把部署大模型、微调大模型基础掌握了,再自己攒设备
    312ybj
        38
    312ybj  
       14 小时 48 分钟前   ❤️ 1
    手里有一台这个东西,板载内存是能拿 96GB 当显存, 能跑一些稍微大点的模型, 但是推理速度太慢了,当当玩具还行
    xusx1024
        39
    xusx1024  
       14 小时 37 分钟前   ❤️ 1
    dy 有个‘瓜皮群主’的,经常发一些配置,可以参考。
    Haku
        40
    Haku  
       14 小时 10 分钟前   ❤️ 1
    不建议任何 A 卡跑 AI ,个人跑就用 N 卡完事,省时省力。
    woojanelook
        41
    woojanelook  
       13 小时 55 分钟前   ❤️ 1
    a 卡没 cuda,你到多模态,图片这些就跑不了了
    bigtear
        42
    bigtear  
       12 小时 43 分钟前 via Android   ❤️ 1
    说实话这个配置跑跑推理当玩具还行,训练是别想了。起码上个自组 PC ,买点洋垃圾 nvidia 推理卡插上。

    想要一万多整机的话可以看看王勇的懒猫微服算力舱,nvidia 芯片,64g 统一内存的机器。
    hmbb
        43
    hmbb  
    OP
       12 小时 24 分钟前
    @shuimugan 我研究一下
    mewking
        44
    mewking  
       12 小时 14 分钟前
    @shuimugan 请问,GLM 4.5 Air 的 4bit 量化比较 Qwen3-30B-A3B BF16 如何?本地 code
    hmbb
        45
    hmbb  
    OP
       11 小时 50 分钟前
    @wnpllrzodiac 训练搞不了
    hmbb
        46
    hmbb  
    OP
       11 小时 47 分钟前
    @aqqwiyth 参数量大的虽然能跑但很慢
    hmbb
        47
    hmbb  
    OP
       11 小时 43 分钟前
    @misaki321 用这个卡组主机超预算了
    hmbb
        48
    hmbb  
    OP
       11 小时 42 分钟前
    @bigtear 我看看
    dosmlp
        49
    dosmlp  
       11 小时 42 分钟前
    你研究的明白吗
    hmbb
        50
    hmbb  
    OP
       11 小时 37 分钟前
    @312ybj 暂时应该不会入手了
    bitmin
        51
    bitmin  
       11 小时 31 分钟前
    7840u 核显我自己用,跑 gptoss 20b 都够用了,qwen3 coder 30b 勉强跑

    缺点是是能划分到 16G 显存,上下文大小限制在两万以下,要更大的上下文就得更大的显存,395 这种 cpu 就是用来解决这个问题的吧

    这种 cpu 可以装在掌机里方便我随身带者到处跑
    wnay
        52
    wnay  
       11 小时 29 分钟前   ❤️ 1
    当你问这些问题的时候就知道,你对大模型的知识了解很少,建议先学习基础知识比如部署,训练,微调至少概念弄明白了再做这些投入
    当然你要是钱多,无所谓,干就完了
    cornorj6
        53
    cornorj6  
       11 小时 28 分钟前   ❤️ 1
    本地模型只要复杂一点的问题就回答不了,不如调用 API 。本地模型有个优势,没有什么限制。我用的 openrouter ,调用 api 有频率限制,像一些简单的问题就可以用本地模型。我是 mac mini 4 ,跑的 14b
    mandex
        54
    mandex  
       11 小时 16 分钟前
    挺好的,有钱就买,就算 AI 没搞成也可以当普通开发机器使用。
    zx1w1w
        55
    zx1w1w  
       11 小时 4 分钟前   ❤️ 1
    要么买 MacMini 32G 以上内存,要么买 5090D 32G 的。AMD 的别碰,或者直接上云租算力。
    shuimugan
        56
    shuimugan  
       11 小时 2 分钟前
    @mewking 这个问题要看你写什么语言的,Qwen3 30B-A3B 没必要追求 BF16 ,Q6 就差不多了,我测 unsloth 的 Q6_K_XL 那档动态量化和 mlx 的 4bit DWQ 没啥区别,接入 Roo Code 自助完成一些 Node 和 Go 的任务都差不多,但是写 Rust 的话 Qwen3 Coder 30B-A3B 会在写了 50 多 K 上下文之后决定删除所有文件重头开始一个简单的版本…丢给 GLM 4.5 Air 4bit 就能完成而且修复一些 bug 都是点一下 Fix With Roo Code 就搞定了。

    我本地 192GB 的 M2 Ultra 现在常驻内存的是 GLM 4.5 Air 4bit 和 gpt-oss-120B ,再留一个 mellum 做补全和 text-embedding-nomic-embed-text-v1.5 做代码 embedding
    MaybeRichard
        57
    MaybeRichard  
       10 小时 44 分钟前
    导之前充了 1w 多玩大模型,还剩好几千用不完,有想玩的朋友 5 折出了,量大 3-4 折出,3060 到 A100 80G 都有,现成的公开项目也有都,开机即用,视觉、视频、LLM 模型都有 TWF5YmVSaWNoYXJk
    BQsummer
        58
    BQsummer  
       9 小时 15 分钟前
    a 卡没 cuda, 推理有各种库, 自己训练模型就不行了
    blackmont
        59
    blackmont  
       8 小时 27 分钟前   ❤️ 1
    395+ 不太行,vllm RCom 好像还没适配,你要启动的话只能通过 llama 系列的衍生产品。不太建议购买,建议 CUDA 生态,或者租服务器。而且可以自己先去学一学再决定。
    mewking
        60
    mewking  
       8 小时 26 分钟前
    @shuimugan 感谢详细的回复。看了看 GLM 4.5 Air 4bit 部署成本还是挺高,Qwen3 Coder 30B-A3B 如果是 Q6 ,DDR5 内存应该也能跑挺快~

    这些小的本地模型对于 Java 和 C# 效果如何?想来应该是不如 js 和 py

    C/C++,Rust 就更差?
    renyi1986
        61
    renyi1986  
       7 小时 31 分钟前
    @objectgiga 能跑多少 token gpt 20 和 120
    leeg810312
        62
    leeg810312  
       7 小时 27 分钟前   ❤️ 1
    自己配机器学习大模型,我觉得是效率较低灵活性极差的方式,当想尝试的模型需要更大算力,你就没有扩展余地。云平台就很灵活,效率也高,资金宽裕就多用一些高性能机器,资金少可以用较低性能慢慢跑。有专门的算力平台,比如 autodl 或者 modelscope ,也可以用通用云平台的资源,比如阿里云的 ECS 抢占式实例,成本比常规实例低不少。花几万配一台机器,算上电费,你可以在云平台用很久了。
    shenqi
        63
    shenqi  
       7 小时 17 分钟前   ❤️ 1
    当你问出这个问题的时候,感觉你还是没到需要真的自己购买一台实体机的程度。一堆按量租聘的云主机能供你选择避免你中途退坑。
    hmbb
        64
    hmbb  
    OP
       7 小时 15 分钟前
    @leeg810312 可以先尝试一下这种方式学习大模型
    hmbb
        65
    hmbb  
    OP
       7 小时 14 分钟前
    @shenqi 确实是,目前才刚开始
    shuimugan
        66
    shuimugan  
       3 小时 25 分钟前   ❤️ 1
    @mewking 这个问题,首先要看不同编程语言是否有高质量的庞大的数据集,比如在 https://huggingface.co/datasets?sort=trending 搜数据集看加起来的行数,以及 github 仓库上 star 数多的各语言仓库。

    结合这个榜单也能看出来 https://huggingface.co/spaces/bigcode/bigcode-models-leaderboard ,不过这个榜单很久没更新过了,现阶段只能靠自己测了。

    其次看自己的水平了,使用 context7 这种 MCP Server 或者手工在上下文补全最新文档可以大幅度降低模型幻觉,加上现阶段小模型对于主流编程语言的语法没啥问题(关键词、类型、循环、判断、函数等),写出来的代码头头是道的。但是对于一些理论、概念的理解程度就不好说了。

    我一般假定 Q6 级别量化已经近乎无损了,然后去模型官网比如 https://chat.qwen.ai/ 选择 Qwen3-Coder-Flash 、Qwen3-30B-A3B-2507 这种 30B 级别的问一下看看,它能写对的话那么 Q6 级别的量化也能写对,Q4 的话可能再差个 1%到 2%,大不了我给它纠正。其实上限在于用户自己,比如我 java 水平不行,它写得头头是道我也评判不出好坏,因为语法已经没问题了,甚至库也用对了,但是实际上跑起来碰到 bug 就一脸懵逼。要是 CRUD 这种还好,要是问题底层一些的话 30B 级别的解决起来很容易像是鬼打墙一样,跑了几十 k 上下文也没有个结果。

    比如我自己最爱用来测大模型的一道题:“用 [x 语言] 的实现一个高性能的 HTTP Proxy ,要求支持普通 HTTP 请求转发和 HTTPS 隧道 (HTTP CONNECT),尽可能使用标准库”,把 [x 语言] 换成你最熟悉的那个然后让模型来跑几次,先看 api 有没有用对来判断幻觉大不大,再看能不能完成需求跑起来,反正在 c#、java 、rust 这种语言就经常搞不定,能一次性写对的就成为我常用的模型。

    也就是因为这个原因,我现在考虑把技术栈从 node 往 golang 转移,开源的模型写 golang 的能力挺不错,以前不想碰 golang 是因为水平差的人写起来就像是用 php 堆屎山一样,维护性、可读性太没下限了。现在有 ai ,默认就是中高级的水平,而且我本地跑 gpt-oss-120b 实在是太快了,写 golang 准确性也非常高,代码的可读性、可维护性、性能下限、资源占用都有保障了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1225 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:37 · PVG 01:37 · LAX 10:37 · JFK 13:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.