有没有产线拿 llama.cpp 跑大模型的案例？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

可能是我做过三年的优化重构，又主持过一些创业项目，特别重视节能减排。
我拿 llama.cpp 在集显笔记本上跑 llama3 中文-4bit ，毫无压力。
准备将来有机会产线也这么干。
求问有没有这样的产线案例，服务器是怎么样的，体验如何？

2 条回复 • 2024-05-18 18:38:19 +08:00

june4

14 天前

多大的模型，我的闲置老机上用 cpu 跑好慢，本来想用于给文章打标签，全文是肯定不行，但哪怕就标题和简介，也要要 20 秒一个。

gaobh

14 天前 via iPhone

得看有多少人访问，并发 token 多少，再决定上多少 gpu 服务器