Apple Silicon 运行 LLaMa 的性价比似乎还不错

M2 Max + 96GB unified memory == 7B @ 10 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1460500315)
12700k + 128GB RAM + 8GB 3070Ti == 65B @ 0.01 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1460464011)
Ryzen 5800X + 32GB RAM + 16GB 2070 == 7B @ 1 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1457172578)
2x 8GB 3060 == 7B @ 3 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1457437793)
8x 24GB 3090 == 65GB @ 500 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1455284428)

tool2d

2023-03-09 10:03:16 +08:00

烦躁，AI 聊天对机器硬件要求，比起早期的 AI 绘图，要高上整整一大截。

fantasyjm

2023-03-09 10:06:06 +08:00

这一条写错了
应该是
Ryzen 5800X + 32GB RAM + 8GB 2070s == 65B @ 0.02 token/s ( https://github.com/facebookresearch/llama/issues/79#issuecomment-1457172578)

Champa9ne

2023-03-13 00:49:23 +08:00

感觉虽然 M1 的架构有容易达到大显存的优势，但是算力强度不够啊。听说只能对标到 1050 Ti ？那 65B 推理一次补得等上三五年 O-o

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.