有人用 4070、4060 显卡的笔记本测试过跑 llama3,问问题,或者读取文档做总结,需要多长时间吗?

33 天前
 godqueue

有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ,问问题,或者读取文档做总结,需要多长时间吗?

2281 次点击
所在节点    程序员
31 条回复
godqueue
33 天前
@rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧
godqueue
33 天前
@lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。
looveh
33 天前
macM1 跑 8B 都有点卡,我试了一下服务器上的 3090 ,跑 8B 完全没问题,跑 70B 也很卡
godqueue
33 天前
你们不会拿笔记本显卡跑 70b,如此大模型吧。。
rabbbit
33 天前
@godqueue
没错,能输出长宽就是符合要求的。
可以按小时租 gpu ,便宜的几块钱一小时,不用的时候关掉。
Ayahuasec
33 天前
@godqueue 现在软件兼容性上,AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话,CPU 跑起来 int4 的 14b 左右的模型,虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去,或者虚拟机内部要能调用到主机的 CUDA ,不然 GPU 加速跑不起来。
godqueue
33 天前
@rabbbit 还有这种业务,非常棒,适合我~~~我之前看阿里云啥的都贵的要死。。
godqueue
33 天前
@Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~
kenvix
33 天前
@beginor #19 我指的是对模型表现
bibi012
32 天前
同问, 一直想自己搭环境
Charon2050
32 天前
外行人有个疑问,能不能用时间换空间,不考虑速度的情况下,在小内存的机器上跑 70b 之类稍大的模型呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044111

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX