Nvidia Jetson AGX Ori 开发者套件

2023-09-19 10:53:39 +08:00
 sunmacarenas

有了解 Nvidia Jetson Agx ori 的吗? 想入手一个 64G 的用来玩玩,chatglm2 和 SD,看参数有 270Tops 运算能力。

2866 次点击
所在节点    NVIDIA
42 条回复
sunmacarenas
2023-09-19 14:47:59 +08:00
@mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本,但预算有点超太多了,而且本来也是学习玩票的性质,感觉没啥必要,主要是穷,下不去手。
sunmacarenas
2023-09-19 14:50:28 +08:00
@ambition117 DLA 被放弃,那有下一代的消息么,主要是看他统一交换内存,64G 够大,还能跑 CUDA,价格还合适
timeance
2023-09-19 14:53:54 +08:00
@sunmacarenas #19

64G 开发者套件确实要 1.6w ,不便宜

现在用这个的还不够多,我也很奇怪这个芯片这么贵,什么地方用会合适一些
另外内存是 LPDDR5 ,12 核 A78AE ,2048 Ampere + 64 Tensor ;会影响性能吗?
ShadowPower
2023-09-19 15:00:26 +08:00
有段时间我也想弄一个这种玩意,后来深入研究一下发现不如买一块显卡。

比如 bitsandbytes 这玩意理论上支持 CUDA ,实际上不支持 Jetson 。

有像这样的坑。
sunmacarenas
2023-09-19 15:02:32 +08:00
@timeance #23
这个倒是没太了解,不过看了几个大佬的教程和视频,感觉没太影响性能
sunmacarenas
2023-09-19 15:05:47 +08:00
@ShadowPower #24
不是买显卡的问题,主要是买了显卡还要配一整套环境,感觉就像为了这点醋,特意包了顿饺子。
而且一整套环境,体积太大了,桌面和桌子底下也没地方,功耗还高。
ambition117
2023-09-19 15:26:52 +08:00
@sunmacarenas DLA 对 transformer 没啥用,transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了
yewuya
2023-09-19 16:38:14 +08:00
@wodong 第一次在 V2EX 遇见跟我做差不多业务的研发,不容易
wodong
2023-09-19 16:40:11 +08:00
@yewuya #28 好兄弟你做啥的
yewuya
2023-09-19 16:46:12 +08:00
@wodong 我业务做点机载端算法部署,主要是做无人机飞行控制,处理业务逻辑相关的,航线飞行,推流,数据传输乱七八糟的。
wodong
2023-09-19 16:46:38 +08:00
@yewuya #30 来加波好友吗?我也差不多就这样的
yewuya
2023-09-19 16:50:42 +08:00
@wodong VX : d3VqaW5odWkwMjA2
lingeo
2023-09-19 16:57:13 +08:00
工作需要,搞过 nano 和 nx ,我的工作偏数采,另一个同事负责模型。我的感觉就是性能不够,视频编解码方面,官方比较侧重用 gstreamer ,学习成本高,ffmpeg 官方只提供了解码功能,社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版😟。
mushuanl
2023-09-19 20:45:05 +08:00
要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ,跟得上自己的速度。但是关键是现在没有 ai 应用场景,也就是除了 gpt4 场景外 其他的比较弱,如果你不喜欢玩 roleplay ,并且没有自己的 ai 想法,那么可能过段新鲜感时间后基本就不玩了
mushuanl
2023-09-19 20:49:38 +08:00
现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天,功能太弱,最大的那个 180b 刚出,看看有没人调教,我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能
WuSiYu
2023-09-19 20:52:04 +08:00
@sunmacarenas
首先跑 LLM 和跑 stable diffusion 是截然不同的工况,LLM 如果你个人用,也就是 batch 1 的话,对计算的需求很低,GPU 上基本都跑不满,但 llama2-13b 2token/s 也不算快的了。
int4 量化仅是权重是 int4 的,主要还是为了节省显存,实际推理的时候都是 fp16 (更常见)或者 int8 ,并且都不是稀疏。

而 stable diffusion 非常的计算密集(尤其是跑大图),对显存容量需求不高,十几 G 肯定够用,4090 是最合适的,从浮点算力上估计会比 orin agx 快 5 到 10 倍
WuSiYu
2023-09-19 20:56:18 +08:00
@sunmacarenas 作为参考,A100 上跑推理大概能到 3000+ token/s ,当然这是比较大 batch 的情况
sunmacarenas
2023-09-19 21:39:23 +08:00
@mushuanl 后续可能会在企业中微调生成行业模型
sunmacarenas
2023-09-19 21:41:55 +08:00
@mushuanl 个人先玩玩,企业会用 H100 之类的微调吧
sunmacarenas
2023-09-19 21:43:16 +08:00
@WuSiYu 个人玩具,其实慢一点也就能接受。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/975113

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX