折腾 Llama3 跑在 NAS...结果确实一言难尽

233 天前
 CoffeeLeak

链接: https://github.com/ansonhe97/Llama3-NAS

前几天简单折腾 Llama3 跑在 NAS 上,结果确实也和预期一样,卡成...

分享下 docker 配置,也希望后续大模型会往边缘端发展,让 NAS 发光发热!

2414 次点击
所在节点    Local LLM
6 条回复
vicalloy
233 天前
除非要做 RAG ,或用自己的知识库进行二次训练,不然本地跑 chatGPT 没有太大意义。
试了一下 16fp 的 7B 模型,效果不太行。
另外一定要 GPU ,CPU 慢的无法接受。
xJogger
233 天前
3060 6G 笔记本 用 ollama 跑 Llama3 8B 的,还挺流畅
不过就试了几轮对话,没尝试太多轮
shuimugan
233 天前
CPU 跑大模型推理瓶颈就是在内存带宽,按 ddr4 双通道内存带宽为 30GB/s 的速度来算,7B 规格的 8bit 量化,也就 4 token/s 左右的速度,4bit 量化就速度 x2 ,14B 规格就速度除以 2 ,偏差不会太大。
lchynn
232 天前
@xJogger 3060 跑 LLAMA3-8B, 平均每秒多少 token 生成速度啊?谢谢,想了解下性能? OLLAMA /SET VERBOSE 麻烦测一下看看?
xJogger
232 天前
lchynn
232 天前
@xJogger 谢谢, 那看来日常够用了。不知道综合能力对比 Qwen1.5 7B 如何。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1037541

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX