有人用 4070、4060 显卡的笔记本测试过跑 llama3，问问题，或者读取文档做总结，需要多长时间吗？

beginor

211 天前

确实，13b 以下的都只能称之为小模型，用于学习其原理或者娱乐一下还可以。

真正能用的得 30b 以上的模型，最好是非量化版本的，然而 30b 以上的模型又不是一般电脑能跑得动的。

godqueue

210 天前

就是用来学习，就看看返回速度快不快而已。。其他的不重要。。

godqueue

210 天前

现在用的是 mac pro2017 笔记本，有点老。。新的 mac 好像跑这些也不太行。。
看了下 4080 、4090 的笔记本都比较贵。。想先看看 4060 、4070 之类的本能不能简单的满足学习的场景

好像除了这个，我对显卡没啥要求。。这样来看去买 4080 、4090 笔记本又感觉有很费钱。。

rabbbit

210 天前

小的 0.5b 都有。问题是他瞎编的时候，搞不清楚到底是数据、提示词有问题，还是模型的问题。

haiku

210 天前

7b 有三五十 token 一秒吧，13b 好像只有十左右了

godqueue

210 天前

@rabbbit 我还没遇到这个情况。。只是学了一下提示词、function calling 。然后自己用了下公司的知识库。。随便问回答的感觉还可以，用的 llama3 模型。一般情况下用提示词基本都能解决。。

sentanl869

210 天前

最近用笔记本的 3070Ti 跑 llama3:8B 模型，问问题响应很快，有点出乎意料，本来以为会挺慢的；文档总结还测过；
目测模型推理使用的显存 4G 左右，长时间的推理开销也还没来得及测试；

rabbbit

210 天前

@godqueue
这个看应用场景，如果是法律、客服类的要求是尽可能的按照知识库资料回答，很忌讳模型不跟据资料回答，瞎编内容。
你用的多少 b 的模型？

rabbbit

210 天前

试试这个

根据已知资料,回答用户问题.不要回答已知资料中没有的内容. \n 已知资料: 爱达·魔都号（英语：Adora Magic City ）是中国第一艘国产大型邮轮，由上海外高桥造船于 2019 年 10 月 18 日开始建造，2023 年 11 月 4 日交付中船嘉年华，2024 年 1 月 1 日正式营运，将以上海为母港，执航日本及东南亚航线。该船长 323.6 米，宽 37.2 米，总吨 13 万 5500 吨，有 24 层楼高，2125 间客房，可载乘客 5246 人。船上有豪华酒店、影院剧场、水上乐园、健身房、篮球场、免税店、海上探索营等设施，全船有 5G 信号覆盖。船上一共配备了 20 艘救生艇。 \n 用户问题: 魔都号的尺寸是多少?

lrigi

210 天前

@rabbbit 我测了一下 mac 上 ollama 默认模型,均为 4bit 量化
wizardlm2:8b
根据已知资料，爱达·魔都号（ Adora Magic City ）的尺寸为：长度 323.6 米，宽度 37.2 米。
phi3:4b
魔都号的尺寸为 323.6 米长，37.2 米宽。
Llama3:8b
根据已知资料，爱达·魔都号（ Adora Magic City ）的尺寸是：

* 长 323.6 米
* 宽 37.2 米

因此，这艘邮轮的长宽为 323.6 米 x 37.2 米。

BernieDu

210 天前

@lrigi 这还用测吗，你看模型大小就看出来了啊，70b 的才 40g 大小。

gpt5

210 天前

大几十 b 的模型，大概需要什么配置跑？

BernieDu

210 天前

@lrigi 看了一眼只是默认是 4bit ，可以选 q6 fp16 的 branch 。

Ayahuasec

210 天前

用 7840HS+RTX4050Laptop 的笔记本跑过 llama.cpp ，卸载了 20 层到 GPU 上，把 context 限制在 2048 的话，跑 q4km 量化的 14b 模型，日志文件里记录的一次速度如下：
llama_print_timings: prompt eval time = 1300.29 ms / 385 tokens ( 3.38 ms per token, 296.09 tokens per second)
llama_print_timings: eval time = 52142.44 ms / 331 runs ( 157.53 ms per token, 6.35 tokens per second)

有 GPU 加速的话 Prompt Eval 的速度会非常快，基本上发出几百个字的文本给模型以后，马上就能开始回复了。纯 CPU 计算的话 Prompt Eval 的速度只有 10 Tokens/s 左右，体现在应用上就是发了一段比较长的文本给模型要等很久才开始回复（ 500 字可能要等半分钟的样子）。

但是 RTX4050 的显存比较小，如果要开启比较大的 context 的话，就只能往显存上放更少的层，模型的输出速度就会慢下来。不过我感觉可用性还是挺好的，至少出门在动车上的时候连不上网就可以直接问本地模型了。

kenvix

210 天前

@beginor #3 量化影响不大，参数量才是关键

godqueue

210 天前

@Ayahuasec amd cpu 不影响跑大模型吗？现在 amd 的 cpu 咋样，还有啥东西会存在兼容问题之类的么？
跑虚拟机或者安装 linux 系统会有影响吗？

我是用 ollama run llama3 "summarize this file $(cat test.txt)" --verbose 这个命令来看速度的

total duration:4m16.4180938s
load duration:524.8u
。。。。。

beginor

210 天前

@kenvix 也有影响的，70b 的话 q5_k_m 跑不动，提示超内存，q4_k_m 勉强能跑起来

lrigi

210 天前

@BernieDu 我知道，楼主或其他人不一定知道默认是 4bit 啊，我不看我也知道有 fp16 ，但有 fp16 又怎样？你能说一下 4bit 和 fp16 在实际中区别在哪吗？我测一下只是为了说明这种任务模型不一定非要 70b ，

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044111

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.