有人用 4070、4060 显卡的笔记本测试过跑 llama3，问问题，或者读取文档做总结，需要多长时间吗？

211 天前

godqueue

有人用 4070 、4060 显卡的笔记本测试过跑 llama3 ，问问题，或者读取文档做总结，需要多长时间吗？

3346 次点击

所在节点

程序员

31 条回复

godqueue

210 天前

@rabbbit 我用 llam3:8b 输出的和 lrigi 一样。。应该是正确的吧

godqueue

210 天前

@lrigi 哈哈。。我知道 llama3 默认是 8b,你们说的 4bit 不懂。。。fp16 也不懂。。还得回炉学习下。。

looveh

210 天前

macM1 跑 8B 都有点卡，我试了一下服务器上的 3090 ，跑 8B 完全没问题，跑 70B 也很卡

godqueue

210 天前

你们不会拿笔记本显卡跑 70b,如此大模型吧。。

rabbbit

210 天前

@godqueue
没错，能输出长宽就是符合要求的。
可以按小时租 gpu ，便宜的几块钱一小时，不用的时候关掉。

Ayahuasec

210 天前

@godqueue 现在软件兼容性上，AMD 和 Intel 没有太大区别吧。我感觉支持 AVX 然后内存带宽不差、内存容量够的话，CPU 跑起来 int4 的 14b 左右的模型，虽说不算快但是起码可用了。

虚拟机的话主要考虑 GPU 能不能直通进去，或者虚拟机内部要能调用到主机的 CUDA ，不然 GPU 加速跑不起来。

godqueue

210 天前

@rabbbit 还有这种业务，非常棒，适合我~~~我之前看阿里云啥的都贵的要死。。

godqueue

210 天前

@Ayahuasec 嗯。。看来也可以考虑 AMD 的 cpu 了~~~

kenvix

210 天前

@beginor #19 我指的是对模型表现

bibi012

210 天前

同问，一直想自己搭环境

Charon2050

210 天前

外行人有个疑问，能不能用时间换空间，不考虑速度的情况下，在小内存的机器上跑 70b 之类稍大的模型呢？

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044111

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.