ai 小白请教,大模型必须要 gpu 服务器吗,单纯推理是不是 cpu 就可以了。

50 天前
 hoodjannn

纯 ai 小白,我想做一个特定类型的 AI ,类似于给人翻译或者聊天这种。

想了想,可不可以在自己的本地的高配置 GPU 电脑上训练好模型,再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧,普通的 1c2g 的服务器是不是也可以,之后要迭代大模型,再次本地训练上传上去。 搜了一圈资料,都说需要 gpu ,大家都是线上一边训练一遍推理的吗

2705 次点击
所在节点    程序员
26 条回复
cbythe434
50 天前
直接调用 api
lance07
50 天前
模型推理计算量也很大的, 不用 gpu 会非常慢, 而且...你 2g 内存连模型都装不下
hoodjannn
50 天前
@lance07 以前弄那种人脸识别的 tensorflow 模型我直接用的这种服务器,甚至有几个业务为了省成本直接放到了用户端。现在的大模型是运行都有很大计算量吗
raycool
50 天前
现在的大模型和以前的人脸识别,算力那是天壤之别。
lance07
50 天前
@hoodjannn 人脸那种很小的, 现在你描述的能翻译聊天的大模型推理也要十几个 G 显存的(不用量化啥的, 而且用了也不会有数量级上变化)
hoodjannn
50 天前
@lance07 好的👌🏻 多谢告知
vishun
50 天前
现在的开源大模型都是已经训练好的了,但部署使用仍然要 gpu ,不然的话显卡也不会卖这么贵。
CannedFishsan
50 天前
纯推理的话也需要很大的 GPU 硬件需求的……纯 CPU 的话要么就直接花钱调 API (最佳方案),要么试试轻量化后的小参数 LLM (我怀疑可行性)
GeekGao
50 天前
对于参数量级超过 7b 的模型,只有高性能 gpu 才能发挥出推理性能啊。cpu 目前还是不太行。
Donaldo
50 天前
@lance07 #5 没数量级的变化,但是很可能不量化塞不下,量化了塞得下。。
gaobh
50 天前
主要是看并发,只有你自己用,CPU 也可以,但是给用户用,服务器不得冒烟了
HetFrame
50 天前
买 api ,才试了阿里百炼的通义模型,有些内容也不是很快
hoodjannn
50 天前
感谢楼上各位大佬回复。总结了一下,不知道说得对不对,个人开发者最好的方案是使用现成的 ai 大模型服务调 api ,感觉有点推翻了我这个小白之前的认知。那我理解,大家的 ai 业务应用本质上不是一模一样吗?用的都是一样的公用的现成大模型,我在一个爱情聊天机器人里问健康食谱也是可以。
hoodjannn
50 天前
那大家目前在应用领域在竞争的点在于哪里,用户理论上直接使用 chatgpt,kimi 和豆包就能够实现所有需求了。
me1onsoda
50 天前
有竞争力的产品肯定是自己训练自己部署。你说的那些给业务人套一下 prompt ,业务直接就寄了,就是个赛博斗蛐蛐的乐子
WonderfulRush
50 天前
普通 1c2g 肯定是不行的,7b 模型 13600k int4 量化推理只有大概 7token/s
june4
50 天前
@hoodjannn 怎么会一样,写提示也是个大工程。那个 v0 ,这么牛逼的东西,也只是个调公用模型的 app ,但是你看看有人扒出来的巨型提示,提示才是核心技术。
unco020511
50 天前
大模型你可以理解为知识基础服务,上层的应用也是很关键的,各种错综复杂的大模型推理步骤结合起来,最终组成一个 AI 产品
raptor
50 天前
docker 跑个 ollama ,下个不太大的模型试试就知道了,反正我用 16 核的 4800U 跑 13b 的模型都是一分钟蹦一个字的样子。
skallz
50 天前
cpu 只能跑轻量化的,翻译之前我也尝试过一个轻量化的模型,cpu 能用,但是效果非常差,速度也不太行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094414

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX