ai 小白请教，大模型必须要 gpu 服务器吗，单纯推理是不是 cpu 就可以了。

纯 ai 小白，我想做一个特定类型的 AI ，类似于给人翻译或者聊天这种。

想了想，可不可以在自己的本地的高配置 GPU 电脑上训练好模型，再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧，普通的 1c2g 的服务器是不是也可以，之后要迭代大模型，再次本地训练上传上去。搜了一圈资料，都说需要 gpu ，大家都是线上一边训练一遍推理的吗

skallz

2 天前

同样价格的 cpu 和 gpu ，同个模型用 gpu 几乎都快实时翻译了，cpu 还在那里等结果。。。

qiniu2025

2 天前

现在模型够强了,不需要你再训练了,把提示词写好就可以了,你可以用公共大模型 API,用你的提示词做个网站,用户用手机都可以访问

rus4db

2 天前

本质上是矩阵运算，CPU 不是不能干，只是太慢而已。

不妨试试我的智障电子鹦鹉，浏览器 CPU 推理的，并不实用，只是为了说明语言模型推理的原理：
https://bd4sur.com/Nano/infer/

qiniu2025

2 天前

@hoodjannn #14 chatgpt,kimi 哪些聊天机器人,干不了正经事,比如翻译一部视频字幕,需要一个工作流,先提取字幕,调用大模型翻译(字幕翻译需要很多技巧),压制字幕,这些都可以大量周边软件支持,聊天机器人根本不行,这种工作流就是做应用的机会,大模型相当于操作系统

zuotun

2 天前

成本最低的方案就是调 API ，想要自己训练就用本地显卡跑然后内网穿透出去。效果最好的还是 GPU 服务器直接部署在机房同时准备一套备用的 API 以免业务寄了，但看你需求感觉是想做个没什么大流量的偏自用服务，这样一切从简就好。
看得出你对这方面的知识几乎为零，不要折腾自己了，有时间还是先去学一下基础点的东西吧，不要一上来就想着做出产品。

falconwang0110

2 天前

无 GPU 推理有两个方案：
1. 调用 API ，这样你自己的服务端只需要接受用户输入并返回模型输出即可，1c2g 应该问题不大。
2. 线上推理，对于语言模型也可以用 CPU 进行 inference ，但是会很慢，量化为 INT4 后，4 代 Xeon 大概能做到每个 token 20~80ms （ 3B~20B 模型），reference: [Efficient LLM Inference on CPUs]

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094414

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.