各位的 m4 设备都陆续到货了,能否跑一下 ollama/llama.cpp ,看看大模型这块的算力究竟比 m1 max m2 ultra , 提升有多少?

70 天前
 beginor

跑不太大的模型, 比如 Llama 3.1 8B

https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/blob/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf

这个模型 16G 内存的丐版也能跑起来。

3093 次点击
所在节点    Local LLM
24 条回复
volvo007
69 天前
@beginor 受限于国内买不到正规渠道的 H100 ,可能有合规风险,现在还不敢上…… 不知道明年租的那个 H800 x 8 的计算节点能不能搞下来。另外 A100 如果要建模的话就无能为力了,所以现在还是不得不多端操作,A100 服务器、4090 台式、mbp 主打移动和查阅……
beginor
69 天前
@volvo007 真壕!
volvo007
69 天前
@beginor 公款消费是这样的 lol ,我们作为零部件供应商会测试一些物料兼容性,但是硬件到手没人会玩,就便宜我了。闲着也是闲着,我来搞点东西还能加点有效负载让测试更贴近一般使用情况
hongjic93
28 天前
本地模型意义很大,你可以给他所有本地传感器和资料的访问权限,不能理解本地模型没有意义的说法。以后不只是厂商 token 会变便宜,模型部署门槛和消费算力成本一定降低得更快,大模型和小模型的智能差距缩短得会很快。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1087869

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX