想整台 macbook pro 跑 llama3 70b，请问用啥配置合适？ M3 max 128G？

nino

222 天前

128G 可以跑起来 70b ，但是还是挺慢的，没有什么实用性，本地还是跑 8b 的合适。追求效果还是买 Groq ，DeepSeek 之类的吧。

maolon

222 天前

接近是接近，推理和跟随用户指令上来说还是差点意思，中文能力更差点意思，另外用 groq 就可以了，个人用直接免费那一档不会超限制。

idblife

222 天前

多谢 #1 #2 ，groq 还是不错的，哈哈

jimmy

222 天前

MBP M2 Max 64G 跑 Llama3 8B 速度很快，效果么，没对比过不知道具体情况。

idblife

222 天前

@jimmy #4
还是想试试 70b 的 llama3

Rorysky

222 天前

16gb 能跑什么模型

keakon

222 天前

@Rorysky 跑过 7B int8 的推理，每秒大概 20 tokens

uCVqn130hR86WDU8

222 天前

你只是单纯想买台新电脑🤪

icestraw

222 天前

我用过，得用压缩后的。q8 大概会占用 70G 的内存，只是对话的话可以正常进行。效果只能说能正常对话，想要处理点工作估计够呛。

winson030

222 天前

好奇个人用户在本地跑这么大的模型需求点是啥？我算了下，70b 这种大模型用 api （加上解决网络问题）花的钱比自己攒机器跑要便宜很多。本地运行 llama3 8b 这种模型倒是很合适。目前我的想法是，找机会把各种大模型平台的 API 都开了（反正都是 pay as you go ），整合到 one api 里，想用哪个用哪个。本地机器跑小模型，保证输出效率

qweruiop

222 天前

很慢。。。m3 max 128 走过。。。老老实实买 4090 吧。。。

idblife

222 天前

@winson030 #10
本机做一些相关的实验或者小玩具，另外可以顺道换台新机器啊，哈哈

Chihaya0824

222 天前

q4 64g 的都能跑，大概 8tokens/s ，4090 想跑还得买两个，但是会快特别多

wclebb

221 天前

@qweruiop 4090 24G 跑不了，很多模型需要显存/内存容量大才能跑。如果我没记错，70B 24G 是跑不了的。

但 128G 勉强能跑。

volvo007

221 天前

在等公司的 H800 计算节点下来，可能禁运影响只能买 A800 的，那也行啊，慢归慢点，显存还是 640G ，能玩好多东西

moudy

221 天前

ipad pro 刚上 m4 ，建议观望一下下个月发布会，看看 mbp 会不会也上 m4

idblife

221 天前

@volvo007
羡慕

jimmy

221 天前

@idblife 试了一下，响应时间大概 20 秒，内容大概一秒钟 5 个字

wsbqdyhm

209 天前

我用 m1max64g 跑的这个，只能说能用吧，有点慢，gpu 占用 70-80%

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039254

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.