线上部署 llama 2 的最佳方式是什么?

2023-07-19 19:04:04 +08:00
 livc

想到的几种方式

  1. 本地跑
  2. 用 replicate 的 api
  3. 用 aws 或微软的 api
2668 次点击
所在节点    OpenAI
5 条回复
jangit
2023-07-19 19:39:06 +08:00
线上部署第一种是不大可能的,还是要等 gptq 支持,不然现在 7b 以上消费级显卡都不够跑的
captray
2023-07-20 17:32:22 +08:00
livc
2023-07-20 17:54:56 +08:00
@captray #2 感谢 有预估需要多少钱吗
GL8885
2023-07-21 11:01:39 +08:00
本地应该是能跑的,量化过的模型可以用 CPU 加内存跑,一个好点的主板最多可以插 192G 内存,主要是这样推理很慢。
AIGod
2023-07-22 09:29:50 +08:00
用 GPU 服务器部署呢,如 V100 的服务器

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/958095

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX