ollama 本地模型 GPU 跑不满

215 天前

CNYoki

在本地部署了 ollama 的 API 做生成任务，现在有 4 块 A800 的 GPU ，ollama 已经开启了并行任务。

现在的问题是，模型速度提不上去，GPU 也没有跑满，占用在 80%左右，显存也只用了 1/2 。

是其他什么硬件到了瓶颈吗？影响模型生成速度的内存带宽？如何能提升速度？

3057 次点击

所在节点

Local LLM

12 条回复

1119745302

215 天前

换个后端?

CNYoki

215 天前

@1119745302 #1 这个跟后端没太大关系吧，直接用的 python 调的 ollama 的库

KylinYou

215 天前

在 llama.cpp 那边提个 issue 呢

swulling

215 天前

为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。

neteroster

215 天前

用 vLlm 。

CNYoki

215 天前

vLLM 现在有 json mode 了吗

0x3933030

215 天前

只有卡 0 用起来了，怎么想都是模型实现的问题

CNYoki

215 天前

@0x3933030 #7 再加载另一个模型的话，ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来

1119745302

215 天前

@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了

crackidz

215 天前

当然是换个后端... vllm 算是比较流行的企业级后端

GrayXu

214 天前

@CNYoki #2 就是后端问题，ollama 是依赖 llama.cpp 的吧，llama.cpp 只能模型并行，不能提升 token 速度。用 vllm 。

clemente

214 天前

开大 batch size

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1059496

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX