Nvidia Jetson AGX Ori 开发者套件

有了解 Nvidia Jetson Agx ori 的吗？想入手一个 64G 的用来玩玩，chatglm2 和 SD,看参数有 270Tops 运算能力。

sunmacarenas

2023-09-19 14:47:59 +08:00

@mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本，但预算有点超太多了，而且本来也是学习玩票的性质，感觉没啥必要，主要是穷，下不去手。

sunmacarenas

2023-09-19 14:50:28 +08:00

@ambition117 DLA 被放弃，那有下一代的消息么，主要是看他统一交换内存，64G 够大，还能跑 CUDA,价格还合适

timeance

2023-09-19 14:53:54 +08:00

@sunmacarenas #19

64G 开发者套件确实要 1.6w ，不便宜

现在用这个的还不够多，我也很奇怪这个芯片这么贵，什么地方用会合适一些
另外内存是 LPDDR5 ，12 核 A78AE ，2048 Ampere + 64 Tensor ；会影响性能吗？

ShadowPower

2023-09-19 15:00:26 +08:00

有段时间我也想弄一个这种玩意，后来深入研究一下发现不如买一块显卡。

比如 bitsandbytes 这玩意理论上支持 CUDA ，实际上不支持 Jetson 。

有像这样的坑。

sunmacarenas

2023-09-19 15:02:32 +08:00

@timeance #23
这个倒是没太了解，不过看了几个大佬的教程和视频，感觉没太影响性能

sunmacarenas

2023-09-19 15:05:47 +08:00

@ShadowPower #24
不是买显卡的问题，主要是买了显卡还要配一整套环境，感觉就像为了这点醋，特意包了顿饺子。
而且一整套环境，体积太大了，桌面和桌子底下也没地方，功耗还高。

ambition117

2023-09-19 15:26:52 +08:00

@sunmacarenas DLA 对 transformer 没啥用，transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了

yewuya

2023-09-19 16:38:14 +08:00

@wodong 第一次在 V2EX 遇见跟我做差不多业务的研发，不容易

wodong

2023-09-19 16:40:11 +08:00

@yewuya #28 好兄弟你做啥的

yewuya

2023-09-19 16:46:12 +08:00

@wodong 我业务做点机载端算法部署，主要是做无人机飞行控制，处理业务逻辑相关的，航线飞行，推流，数据传输乱七八糟的。

wodong

2023-09-19 16:46:38 +08:00

@yewuya #30 来加波好友吗？我也差不多就这样的

yewuya

2023-09-19 16:50:42 +08:00

@wodong VX : d3VqaW5odWkwMjA2

lingeo

2023-09-19 16:57:13 +08:00

工作需要，搞过 nano 和 nx ，我的工作偏数采，另一个同事负责模型。我的感觉就是性能不够，视频编解码方面，官方比较侧重用 gstreamer ，学习成本高，ffmpeg 官方只提供了解码功能，社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版😟。

mushuanl

2023-09-19 20:45:05 +08:00

要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ，跟得上自己的速度。但是关键是现在没有 ai 应用场景，也就是除了 gpt4 场景外其他的比较弱，如果你不喜欢玩 roleplay ，并且没有自己的 ai 想法，那么可能过段新鲜感时间后基本就不玩了

mushuanl

2023-09-19 20:49:38 +08:00

现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天，功能太弱，最大的那个 180b 刚出，看看有没人调教，我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能

WuSiYu

2023-09-19 20:52:04 +08:00

@sunmacarenas
首先跑 LLM 和跑 stable diffusion 是截然不同的工况，LLM 如果你个人用，也就是 batch 1 的话，对计算的需求很低，GPU 上基本都跑不满，但 llama2-13b 2token/s 也不算快的了。
int4 量化仅是权重是 int4 的，主要还是为了节省显存，实际推理的时候都是 fp16 （更常见）或者 int8 ，并且都不是稀疏。

而 stable diffusion 非常的计算密集（尤其是跑大图），对显存容量需求不高，十几 G 肯定够用，4090 是最合适的，从浮点算力上估计会比 orin agx 快 5 到 10 倍

WuSiYu

2023-09-19 20:56:18 +08:00

@sunmacarenas 作为参考，A100 上跑推理大概能到 3000+ token/s ，当然这是比较大 batch 的情况

sunmacarenas

2023-09-19 21:39:23 +08:00

@mushuanl 后续可能会在企业中微调生成行业模型

sunmacarenas

2023-09-19 21:41:55 +08:00

@mushuanl 个人先玩玩，企业会用 H100 之类的微调吧

sunmacarenas

2023-09-19 21:43:16 +08:00

@WuSiYu 个人玩具，其实慢一点也就能接受。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/975113

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.