ai 小白请教,大模型必须要 gpu 服务器吗,单纯推理是不是 cpu 就可以了。

2 天前
 hoodjannn

纯 ai 小白,我想做一个特定类型的 AI ,类似于给人翻译或者聊天这种。

想了想,可不可以在自己的本地的高配置 GPU 电脑上训练好模型,再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧,普通的 1c2g 的服务器是不是也可以,之后要迭代大模型,再次本地训练上传上去。 搜了一圈资料,都说需要 gpu ,大家都是线上一边训练一遍推理的吗

2209 次点击
所在节点    程序员
26 条回复
skallz
2 天前
同样价格的 cpu 和 gpu ,同个模型用 gpu 几乎都快实时翻译了,cpu 还在那里等结果。。。
qiniu2025
2 天前
现在模型够强了,不需要你再训练了,把提示词写好就可以了,你可以用公共大模型 API,用你的提示词做个网站,用户用手机都可以访问
rus4db
2 天前
本质上是矩阵运算,CPU 不是不能干,只是太慢而已。

不妨试试我的智障电子鹦鹉,浏览器 CPU 推理的,并不实用,只是为了说明语言模型推理的原理:
https://bd4sur.com/Nano/infer/
qiniu2025
2 天前
@hoodjannn #14 chatgpt,kimi 哪些聊天机器人,干不了正经事,比如翻译一部视频字幕,需要一个工作流,先提取字幕,调用大模型翻译(字幕翻译需要很多技巧),压制字幕,这些都可以大量周边软件支持,聊天机器人根本不行,这种工作流就是做应用的机会,大模型相当于操作系统
zuotun
2 天前
成本最低的方案就是调 API ,想要自己训练就用本地显卡跑然后内网穿透出去。效果最好的还是 GPU 服务器直接部署在机房同时准备一套备用的 API 以免业务寄了,但看你需求感觉是想做个没什么大流量的偏自用服务,这样一切从简就好。
看得出你对这方面的知识几乎为零,不要折腾自己了,有时间还是先去学一下基础点的东西吧,不要一上来就想着做出产品。
falconwang0110
2 天前
无 GPU 推理有两个方案:
1. 调用 API ,这样你自己的服务端只需要接受用户输入并返回模型输出即可,1c2g 应该问题不大。
2. 线上推理,对于语言模型也可以用 CPU 进行 inference ,但是会很慢,量化为 INT4 后,4 代 Xeon 大概能做到每个 token 20~80ms ( 3B~20B 模型),reference: [Efficient LLM Inference on CPUs]

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094414

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX