ai 小白请教,大模型必须要 gpu 服务器吗,单纯推理是不是 cpu 就可以了。

2 天前
 hoodjannn

纯 ai 小白,我想做一个特定类型的 AI ,类似于给人翻译或者聊天这种。

想了想,可不可以在自己的本地的高配置 GPU 电脑上训练好模型,再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧,普通的 1c2g 的服务器是不是也可以,之后要迭代大模型,再次本地训练上传上去。 搜了一圈资料,都说需要 gpu ,大家都是线上一边训练一遍推理的吗

2223 次点击
所在节点    程序员
26 条回复
cbythe434
2 天前
直接调用 api
lance07
2 天前
模型推理计算量也很大的, 不用 gpu 会非常慢, 而且...你 2g 内存连模型都装不下
hoodjannn
2 天前
@lance07 以前弄那种人脸识别的 tensorflow 模型我直接用的这种服务器,甚至有几个业务为了省成本直接放到了用户端。现在的大模型是运行都有很大计算量吗
raycool
2 天前
现在的大模型和以前的人脸识别,算力那是天壤之别。
lance07
2 天前
@hoodjannn 人脸那种很小的, 现在你描述的能翻译聊天的大模型推理也要十几个 G 显存的(不用量化啥的, 而且用了也不会有数量级上变化)
hoodjannn
2 天前
@lance07 好的👌🏻 多谢告知
vishun
2 天前
现在的开源大模型都是已经训练好的了,但部署使用仍然要 gpu ,不然的话显卡也不会卖这么贵。
CannedFishsan
2 天前
纯推理的话也需要很大的 GPU 硬件需求的……纯 CPU 的话要么就直接花钱调 API (最佳方案),要么试试轻量化后的小参数 LLM (我怀疑可行性)
GeekGao
2 天前
对于参数量级超过 7b 的模型,只有高性能 gpu 才能发挥出推理性能啊。cpu 目前还是不太行。
Donaldo
2 天前
@lance07 #5 没数量级的变化,但是很可能不量化塞不下,量化了塞得下。。
gaobh
2 天前
主要是看并发,只有你自己用,CPU 也可以,但是给用户用,服务器不得冒烟了
HetFrame
2 天前
买 api ,才试了阿里百炼的通义模型,有些内容也不是很快
hoodjannn
2 天前
感谢楼上各位大佬回复。总结了一下,不知道说得对不对,个人开发者最好的方案是使用现成的 ai 大模型服务调 api ,感觉有点推翻了我这个小白之前的认知。那我理解,大家的 ai 业务应用本质上不是一模一样吗?用的都是一样的公用的现成大模型,我在一个爱情聊天机器人里问健康食谱也是可以。
hoodjannn
2 天前
那大家目前在应用领域在竞争的点在于哪里,用户理论上直接使用 chatgpt,kimi 和豆包就能够实现所有需求了。
me1onsoda
2 天前
有竞争力的产品肯定是自己训练自己部署。你说的那些给业务人套一下 prompt ,业务直接就寄了,就是个赛博斗蛐蛐的乐子
WonderfulRush
2 天前
普通 1c2g 肯定是不行的,7b 模型 13600k int4 量化推理只有大概 7token/s
june4
2 天前
@hoodjannn 怎么会一样,写提示也是个大工程。那个 v0 ,这么牛逼的东西,也只是个调公用模型的 app ,但是你看看有人扒出来的巨型提示,提示才是核心技术。
unco020511
2 天前
大模型你可以理解为知识基础服务,上层的应用也是很关键的,各种错综复杂的大模型推理步骤结合起来,最终组成一个 AI 产品
raptor
2 天前
docker 跑个 ollama ,下个不太大的模型试试就知道了,反正我用 16 核的 4800U 跑 13b 的模型都是一分钟蹦一个字的样子。
skallz
2 天前
cpu 只能跑轻量化的,翻译之前我也尝试过一个轻量化的模型,cpu 能用,但是效果非常差,速度也不太行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094414

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX