Grok-1 开源了

3 月 18 日消息马斯克旗下 AI 初创企业 xAI 今天发布新闻稿，宣布正在开源 3140 亿参数的混合专家模型 Grok-1 ，该模型遵循 Apache 2.0 协议开放模型权重和架构，号称是“迄今为止全球参数量最大的开源大语言模型”可能需要一台拥有 628 GB GPU 内存的机器（每个参数 2 字节）。这么算下来，8xH100 （每个 80GB ）就可以了。https://github.com/xai-org/grok-1

cPO3Im7cn3lD39cU

306 天前

@Bluecoda 又乱说了
明明是一大批自主研发的，不可能用别人的技术来创新的

Beginner1

306 天前

话说 Meta 的 13B 的 chat 如何，有没有人搭建过，准备搞一个，如果效果不好就算了

DIMOJANG

305 天前

这下那些说苹果统一内存适合搞大模型的人说不出话了

huluhulu

305 天前

Grok-1 之前测试成绩好像不太行，属于量大，但是不行的那种

Chihaya0824

305 天前

这个是一个 MoE 模型，然后也是 8 个 expert 然后同时激活两个的架构
所以大概率并不是 OP 算的那样要整个丢进去，大概硬要求只是需要类似 90B 模型的大小的空间就行了
苹果的统一内存还是很可能能用的，特别是这还是没有 Quantization 之前的大小
所以老黄能不能下一代 90 系列变成 48G 显存秋梨膏

kokutou

305 天前

搜了下
“它是 314B int8 参数，因此您需要 314GB 内存来加载模型，再加上一些用于 K/V 缓存等内容”

看来得撕裂者才行了...

kokutou

305 天前

@kokutou #14
内存-->显存
“一旦 llama.cpp 添加支持并且有人发布 4 位（或更低）量化权重，就可以在 CPU 上运行它。您将需要大约 256 GB RAM ，这对于普通用户来说比需要这么多 VRAM 更合理。”

lovestudykid

305 天前

@Bluecoda #3 Grok-1 用了更多的参数，还达不到 QWEN2 的性能，就让你 high 起来了？

lovestudykid

305 天前

这个模型就是马斯克放出来碰瓷的，用了更多的参数还比不上别家的性能，希望用开源道德绑架其他领先的厂商，逼人家也开源。

mumbler

305 天前

这个模型最大价值是用来蒸馏数据，毕竟用了 twitter 全部数据训练，这是其他大模型没有的语料

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1024703

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.