想整台 macbook pro 跑 llama3 70b,请问用啥配置合适? M3 max 128G?

222 天前
 idblife
据说 llama3 70b 能接近 gpt4 的效果,有用过的兄弟没?
2683 次点击
所在节点    MacBook Pro
19 条回复
nino
222 天前
128G 可以跑起来 70b ,但是还是挺慢的,没有什么实用性,本地还是跑 8b 的合适。追求效果还是买 Groq ,DeepSeek 之类的吧。
maolon
222 天前
接近是接近,推理和跟随用户指令上来说还是差点意思,中文能力更差点意思,另外用 groq 就可以了,个人用直接免费那一档不会超限制。
idblife
222 天前
多谢 #1 #2 ,groq 还是不错的,哈哈
jimmy
222 天前
MBP M2 Max 64G 跑 Llama3 8B 速度很快,效果么,没对比过不知道具体情况。
idblife
222 天前
@jimmy #4
还是想试试 70b 的 llama3
Rorysky
222 天前
16gb 能跑什么模型
keakon
222 天前
@Rorysky 跑过 7B int8 的推理,每秒大概 20 tokens
uCVqn130hR86WDU8
222 天前
你只是单纯想买台新电脑🤪
icestraw
222 天前
我用过,得用压缩后的。q8 大概会占用 70G 的内存,只是对话的话可以正常进行。效果只能说能正常对话,想要处理点工作估计够呛。
winson030
222 天前
好奇个人用户在本地跑这么大的模型需求点是啥?我算了下,70b 这种大模型用 api (加上解决网络问题)花的钱比自己攒机器跑要便宜很多。本地运行 llama3 8b 这种模型倒是很合适。目前我的想法是,找机会把各种大模型平台的 API 都开了(反正都是 pay as you go ),整合到 one api 里,想用哪个用哪个。本地机器跑小模型,保证输出效率
qweruiop
222 天前
很慢。。。m3 max 128 走过。。。老老实实买 4090 吧。。。
idblife
222 天前
@winson030 #10
本机做一些相关的实验或者小玩具,另外可以顺道换台新机器啊,哈哈
Chihaya0824
222 天前
q4 64g 的都能跑,大概 8tokens/s ,4090 想跑还得买两个,但是会快特别多
wclebb
221 天前
@qweruiop 4090 24G 跑不了,很多模型需要显存/内存容量大才能跑。如果我没记错,70B 24G 是跑不了的。

但 128G 勉强能跑。
volvo007
221 天前
在等公司的 H800 计算节点下来,可能禁运影响只能买 A800 的,那也行啊,慢归慢点,显存还是 640G ,能玩好多东西
moudy
221 天前
ipad pro 刚上 m4 ,建议观望一下下个月发布会,看看 mbp 会不会也上 m4
idblife
221 天前
@volvo007
羡慕
jimmy
221 天前
@idblife 试了一下,响应时间大概 20 秒,内容大概一秒钟 5 个字
wsbqdyhm
209 天前
我用 m1max64g 跑的这个,只能说能用吧,有点慢,gpu 占用 70-80%

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039254

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX