用了一台昇腾 910b 跑 qwen32b 的模型,
一个 dify 知识库的回答,跑 LLM 用了 30s ,这个正常吗?手头没有 H100 这样 nb 的机器。
https://i.imgur.com/N63dxld.jpg