🦙 对话效果最好的 7B/1.5B 模型大家用的哪个？

restkhz

26 天前

正好这两天在玩。

1-3b 小模型：
LLAMA 的中文不够好，这种尺寸甚至有时候中文语法会出问题，完全不推荐。
Gemma-2-2b 还算正常，智商不咋高，但是能用。
千问 3b 值得一试。Qwen 有一个 0.5b 模型，跑起来没问题，但是没啥用。
其实这种 3b 以下的模型都不算特别实用。我在手机上运行过 llama 那个，卡，非常卡。
简而言之，这个等级的模型我目前没找到什么特别好的用处。可能一些非常简单又机械的任务可以用吧。

PC 能跑的：
我用的 Gemma-2-9b 。有 GPT-3.5 的感觉，但是逊于 GPT-3.5 。我的机器配置不好，在 CPU 中跑的，9b 跑起来不快。大概 3 token/s 这样，但是能用！
DeepSeek R-1 蒸馏那些 7-8b 的模型就比较痛苦。因为经常一言不合开始推理，一推理就要推理一两分钟，给出的结果还是错的。完全不推荐弱 GPU 的 PC 跑。
Llama 3 中文依然不好。我做的测试中，只要用中文，智商就低一个档次。英文感觉还行。

云端：
R-1 在云端跑大一些的模型就量变引起质变了。30B 左右那个等级加上烧钱的配置才有用处。感觉接近 o1-mini 但成本真的高。
Gemma-2-9b 在云端能流畅跑，成本高，而且 token 限制问题，不如你一个好一些的 PC 本地跑一个量化模型了。
Gemma-2-27b 终于能流畅跑，但是质量基本就是 GPT-3.5-turbo ，没必要。

Msty 在我电脑上默认下载的是 Gemma-2b 。可以在网上搜索和总结，效果惊人的还行，速度快，质量算能用。

综上，PC 上 Gemma2 2b 或 9b ，推荐。看你配置了。
手机如果你性能够好，如果 Gemma2 2b 能跑就选择这个。

有条件的话，用 lmstudio 都跑跑。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1107837