m1max64g+2t 目前在跑的三个模型，还有其他推荐吗？

m1max64g+2t ，21 年 16 寸顶配那个 mbp ，目前在跑的三个模型：

文字：llama3:70b ，（ llama3:8b 秒开，但这个速度肯定一般般，启动之后可以接受，gpu 占用 60-80%，内存 48-55g ，没有提示过资源不足，摸起来键盘上面有点热，但没有听到风扇声音，模型中文支持太差，效果没有 gtp4o 好，就这样）

语音：GPT-SoVITS （训练、推理都很快，但经常吞字，还有功能有点单一）

图片：sd （ 512 的图 10 多秒就出，大图或复杂点的都慢，半小时都试过，对了，安装了那个 SadTalker 视频插件，无奈在菜单栏找不到入口（插件文件夹有文件），版本不兼容还是？有其他推荐吗？）

各位，还有其他模型推荐吗？同类型或不同的都可以，谢谢。

eachann

273 天前

请问一下跑这类模型的用途是什么呢？是工作相关吗？还是只是为了折腾呀？

tanrenye

273 天前

中文模型还是看看国内的吧

wsbqdyhm

273 天前

@eachann 兼职做自媒体的，文字类的用 gpt4o 和 llama3:70b 一起，搭配 GPT-SoVITS 语音出片很好，声音自由度高一点，不会浓浓的 ai 味道，其次需要用到大量照片素材，网络搜寻的大多有版权，用 sd 输出的，版权要求没那么高。希望可以继续优化所用的工具，去掉一些明显 ai 味道、高效以及低成本是方向。多个纬度相互平衡，没有最好，只有更好。

uCVqn130hR86WDU8

273 天前

llama3 可以用中文微调过的

idlerlestat

273 天前

据说 qwen 的中文模型不错

kenshinhu

273 天前

M2 本地跑 Mistral 还不错，phi 可以做成低推理的。

kenshinhu

273 天前

@wsbqdyhm 可以请教一下怎样做自媒体吗？

beginor

272 天前

64G 跑 70b 的 llama3 ，应该是 q4_k_m 量化版本的吧，我跑 q5_k_m 版本的会报错的？

wsbqdyhm

272 天前

@beginor 就这个命令拉的，ollama run llama3:70b
怎么区别版本？

beginor

272 天前

@wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3)，这个和原始模型相比，损失比较多，不推荐。

可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型，自己量化，也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

一般推荐 q5_k_m 或 q4_k_m 版本的量化模型，接近原始模型，如果配置够的话，更建议运行 f16 版本模型。

依据自己电脑的配置，建议的优先级是：f32 > f16 > q5_k_m > q4_k_m > others .

另外我不玩 ollama ，ollama 虽然简单，却隐藏了很多细节。我玩的是 llama.cpp ，可以体会到更多的技术细节。

模型需要的内存大小大概就是模型文件的大小，量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型，当然其它应用还要占用一些内存，所以只能勉强运行 q4_k_m 的 70b 模型。

beginor

271 天前

@wsbqdyhm 不好意思，我搞错了，ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags)，q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来

yjhatfdu2

271 天前

@beginor 大模型有 f32 ？现在训练基本都拿的 bf16/f16 来的，哪来 f32 的？

wsbqdyhm

271 天前

@beginor #11 好的，有空试一下一个有什么区别

beginor

271 天前

@yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 ，以前是 f16 。

urlpha

271 天前

感觉可以开个 AI 板块了😁

a66243766

270 天前

先加入收藏可以一起玩，本地的情况下，其实本地跑确实资源不够，但是能感受很多技术细节

a66243766

268 天前

@beginor 我看过 ollama 的源码了他里面编译了 llama.cpp ，模拟了在不同设备上的部署
func InitScheduler(ctx context.Context) *Scheduler {
sched := &Scheduler{
pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests),
unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests),
loaded: make(map[string]*runnerRef),
newServerFn: llm.NewLlamaServer,
getGpuFn: gpu.GetGPUInfo,
}
sched.loadFn = sched.load
return sched
}
都在 llm 包下对于熟悉 golang 的这个框架有比较好的参考价值

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1043941

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.