Grok-1 开源了

256 天前
 muzihuaner
3 月 18 日消息马斯克旗下 AI 初创企业 xAI 今天发布新闻稿,宣布正在开源 3140 亿参数的混合专家模型 Grok-1 ,该模型遵循 Apache 2.0 协议开放模型权重和架构,号称是“迄今为止全球参数量最大的开源大语言模型”可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100 (每个 80GB )就可以了。https://github.com/xai-org/grok-1
3533 次点击
所在节点    分享发现
23 条回复
lilei2023
256 天前
没几个牛逼的 GPU ,估计跑不起来吧
muzihuaner
256 天前
@lilei2023 确实
Bluecoda
256 天前
自主创新又可以了
huihuiHK
256 天前
国内一大批自主创新正在路上
tpjaord
256 天前
@Bluecoda 又乱说了
明明是一大批自主研发的,不可能用别人的技术来创新的
Beginner1
256 天前
314B 个参数,得什么水准的设备才能跑
okakuyang
256 天前
老马还是说到做到的
Beginner1
256 天前
话说 Meta 的 13B 的 chat 如何,有没有人搭建过,准备搞一个,如果效果不好就算了
e1d4py0KiD6KgqkQ
256 天前
我看有人把它下载了,几百 G
DIMOJANG
256 天前
这下那些说苹果统一内存适合搞大模型的人说不出话了
huluhulu
255 天前
Grok-1 之前测试成绩好像不太行,属于量大,但是不行的那种
Chihaya0824
255 天前
这个是一个 MoE 模型,然后也是 8 个 expert 然后同时激活两个的架构
所以大概率并不是 OP 算的那样要整个丢进去,大概硬要求只是需要类似 90B 模型的大小的空间就行了
苹果的统一内存还是很可能能用的,特别是这还是没有 Quantization 之前的大小
所以老黄能不能下一代 90 系列变成 48G 显存秋梨膏
RockShake
255 天前
有人跑成功了么?
kokutou
255 天前
搜了下
“它是 314B int8 参数,因此您需要 314GB 内存来加载模型,再加上一些用于 K/V 缓存等内容”

看来得撕裂者才行了...
kokutou
255 天前
@kokutou #14
内存-->显存
“一旦 llama.cpp 添加支持并且有人发布 4 位(或更低)量化权重,就可以在 CPU 上运行它。您将需要大约 256 GB RAM ,这对于普通用户来说比需要这么多 VRAM 更合理。”
lovestudykid
255 天前
@Bluecoda #3 Grok-1 用了更多的参数,还达不到 QWEN2 的性能,就让你 high 起来了?
lovestudykid
255 天前
这个模型就是马斯克放出来碰瓷的,用了更多的参数还比不上别家的性能,希望用开源道德绑架其他领先的厂商,逼人家也开源。
mumbler
255 天前
这个模型最大价值是用来蒸馏数据,毕竟用了 twitter 全部数据训练,这是其他大模型没有的语料
coolair
255 天前
将近 300G ,下载都没那么大硬盘……
wanwaneryide
255 天前
@coolair 300G 的硬盘很难?又不是 300T

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1024703

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX