目前性能/资源消耗最高的 70 以下中小开源模型是哪几个？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 396 天前的主题，其中的信息可能已经有所发展或是发生改变。

拿自己电脑跑，处理分析自然语言数据（中文）
硬件是 1080TI 显卡
首先，不管参数多少，必须要量化到 4bit ，然后用 llama.cpp 跑，下面说的都是 4BIT 量化后用 llama.cpp 跑的表现
70B 往上的模型，应该都无缘。就算能跑起来，推理速度也是个大的问题。或者大家看有没有更好的部署方案

上午测试了一些 10B 以下的模型，表现较好的有下面三个：
Qwen2.5-7B-Instruct: 10B 以下，表现最好
Gemma 2 9b It SimPO：缺点是经常会夹杂英文单词。普林斯顿的 NLP 小组微调出来的，看照片和人名清单，一堆 Chinese
Yi-1.5-9B-Chat：表现次于 Qwen2.5-7B

其它的，比如 MiniXXXX-4B ，只能说是个“玩具”，离“工具”的差距还不小
还有一些模型，目的似乎只是研究，只能冲冲排行榜

正在下几个 1XB 和 3XB 的模型，下午继续测试

看大家有没有推荐的

第 1 条附言 · 2024-10-24 16:33:40 +08:00

最后选择了 gemma 2 9b it 4bit

模型

测试

量化

1 条回复 • 2024-10-14 14:16:37 +08:00

kevan

2024-10-14 14:16:37 +08:00

试试 B 站的 Index-1.9B-Chat-GGUF 4bit 版本，我觉得还可以

目前 性能/资源消耗 最高的 70 以下中小开源模型是哪几个？

目前性能/资源消耗最高的 70 以下中小开源模型是哪几个？