m1max64g+2t 目前在跑的三个模型,还有其他推荐吗?

32 天前
 wsbqdyhm
m1max64g+2t ,21 年 16 寸顶配那个 mbp ,目前在跑的三个模型:

文字:llama3:70b ,( llama3:8b 秒开,但这个速度肯定一般般,启动之后可以接受,gpu 占用 60-80%,内存 48-55g ,没有提示过资源不足,摸起来键盘上面有点热,但没有听到风扇声音,模型中文支持太差,效果没有 gtp4o 好,就这样)

语音:GPT-SoVITS (训练、推理都很快,但经常吞字,还有功能有点单一)

图片:sd ( 512 的图 10 多秒就出,大图或复杂点的都慢,半小时都试过,对了,安装了那个 SadTalker 视频插件,无奈在菜单栏找不到入口(插件文件夹有文件),版本不兼容还是?有其他推荐吗?)

各位,还有其他模型推荐吗?同类型或不同的都可以,谢谢。
1774 次点击
所在节点    macOS
17 条回复
eachann
31 天前
请问一下跑这类模型的用途是什么呢?是工作相关吗?还是只是为了折腾呀?
tanrenye
31 天前
中文模型还是看看国内的吧
wsbqdyhm
31 天前
@eachann 兼职做自媒体的,文字类的用 gpt4o 和 llama3:70b 一起,搭配 GPT-SoVITS 语音出片很好,声音自由度高一点,不会浓浓的 ai 味道,其次需要用到大量照片素材,网络搜寻的大多有版权,用 sd 输出的,版权要求没那么高。希望可以继续优化所用的工具,去掉一些明显 ai 味道、高效以及低成本是方向。 多个纬度相互平衡,没有最好,只有更好。
uCVqn130hR86WDU8
31 天前
llama3 可以用中文微调过的
idlerlestat
31 天前
据说 qwen 的中文模型不错
kenshinhu
31 天前
M2 本地跑 Mistral 还不错,phi 可以做成低推理的。
kenshinhu
31 天前
@wsbqdyhm 可以请教一下怎样做自媒体吗?
beginor
31 天前
64G 跑 70b 的 llama3 ,应该是 q4_k_m 量化版本的吧,我跑 q5_k_m 版本的会报错的?
wsbqdyhm
30 天前
@beginor 就这个命令拉的,ollama run llama3:70b
怎么区别版本?
beginor
30 天前
@wsbqdyhm ollama 只提供了 q4_0 版本的 [llama3]( https://ollama.com/library/llama3), 这个和原始模型相比,损失比较多,不推荐。

可以从 huggingface 直接下载 [meta/llama-3]( https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) 的原始模型,自己量化, 也可以下载 [已经转换好的 gguf 文件]( https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GGUF)

一般推荐 q5_k_m 或 q4_k_m 版本的量化模型, 接近原始模型,如果配置够的话, 更建议运行 f16 版本模型 。

依据自己电脑的配置, 建议的优先级是:f32 > f16 > q5_k_m > q4_k_m > others .

另外我不玩 ollama ,ollama 虽然简单, 却隐藏了很多细节。 我玩的是 llama.cpp , 可以体会到更多的技术细节。

模型需要的内存大小大概就是模型文件的大小,量内存大小而行。64G 的 M1 Max 最多能分出 48G 内存来跑模型, 当然其它应用还要占用一些内存, 所以只能勉强运行 q4_k_m 的 70b 模型。
beginor
30 天前
@wsbqdyhm 不好意思, 我搞错了,ollama 也提供了[各种量化版本的 llama-3 模型]( https://ollama.com/library/llama3/tags),q5_k_m 量化版本是这个 https://ollama.com/library/llama3:70b-instruct-q5_K_M , 你可以拉下来看看还能不能跑起来
yjhatfdu2
30 天前
@beginor 大模型有 f32 ?现在训练基本都拿的 bf16/f16 来的,哪来 f32 的?
wsbqdyhm
30 天前
@beginor #11 好的,有空试一下一个有什么区别
beginor
29 天前
@yjhatfdu2 现在 llama.cpp 默认转出来的 gguf 就是 f32 , 以前是 f16 。
urlpha
29 天前
感觉可以开个 AI 板块了😁
a66243766
29 天前
先加入收藏可以一起玩,本地的情况下,其实本地跑确实资源不够,但是能感受很多技术细节
a66243766
27 天前
@beginor 我看过 ollama 的源码了 他里面编译了 llama.cpp ,模拟了在不同设备上的部署
func InitScheduler(ctx context.Context) *Scheduler {
sched := &Scheduler{
pendingReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
finishedReqCh: make(chan *LlmRequest, envconfig.MaxQueuedRequests),
expiredCh: make(chan *runnerRef, envconfig.MaxQueuedRequests),
unloadedCh: make(chan interface{}, envconfig.MaxQueuedRequests),
loaded: make(map[string]*runnerRef),
newServerFn: llm.NewLlamaServer,
getGpuFn: gpu.GetGPUInfo,
}
sched.loadFn = sched.load
return sched
}
都在 llm 包下 对于熟悉 golang 的这个框架有比较好的参考价值

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1043941

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX