有了解 Nvidia Jetson Agx ori 的吗? 想入手一个 64G 的用来玩玩,chatglm2 和 SD,看参数有 270Tops 运算能力。
1
sunmacarenas OP 有 Nvidia 大佬吗,能给个优惠码么?
|
2
ysc3839 2023-09-19 11:28:51 +08:00 via Android
坑多,个人感觉意义不大,虽然都支持 CUDA ,但相关软件未必像 N 卡那样能开箱即用。而且视频编解码接口是完全不兼容 N 卡的那套的,至少老产品是不兼容的。
|
3
leimao 2023-09-19 11:35:56 +08:00
是 Orin 不是 Ori
|
4
sunmacarenas OP @ysc3839 主要为了折腾,坑多倒是不怕。YouTube 上看了一些视频,跑 llama2-13b 能有 2tokens 左右的速度,主要看它体积小,如果换 n 卡 4090 的话体积太大,功耗太高,而且两张 4090 有些超预算了。
|
5
sunmacarenas OP @leimao 多谢指正
|
6
leimao 2023-09-19 11:39:06 +08:00
@ysc3839 Orin 上有低功耗的 Deep Learning Accelerator ,这个是 data center GPU 不具备的。
|
7
leimao 2023-09-19 11:40:44 +08:00
@sunmacarenas llama 我没怎么用过,建议去找一下 NVIDIA 官方 examples 或者询问社区。计算机视觉的一些模型运行起来速度还是很快的,比上一代 Xavier 快了特别多。
|
8
leimao 2023-09-19 11:44:18 +08:00
@sunmacarenas 另外,这个 270TOPS 的运算能力有相当大一部分是 Deep Learning Accelerator 的 TOPS 。而目前 Deep Learning Accelerator 对于 LLM 模型的支持,可能还在开展中。如果 LLM 是主要应用的话,建议提前做好调研。
|
9
sunmacarenas OP @leimao 好的,非常感谢大佬
|
10
WuSiYu 2023-09-19 12:20:04 +08:00 via iPhone
jetson 是给嵌入式(比如车机)用的,规模和普通 GPU 还是差不少,那个 270TOPS 是 int8+稀疏,实际跑常见的 fp16 非稀疏得除 4 ,实际性能会比 3070 还低一两倍,跑 sd 会非常慢。另外 nvdla 主要是低功耗用途,性能不高,跑大模型没帮助
|
11
leimao 2023-09-19 12:25:35 +08:00
|
12
sunmacarenas OP @WuSiYu 跑 int4 的量化模型呢,速度也非常慢吗?
|
13
elechi 2023-09-19 13:29:08 +08:00
淘宝
|
14
ambition117 2023-09-19 13:34:46 +08:00 via iPhone
orin 出了好久了,而且最近有传言 DLA 要被放弃
|
15
mushuanl 2023-09-19 13:56:00 +08:00 via iPhone
计算力上去后大模型主要跟内存速度有关,要跑大模型并且想简单,还是建议 mac + llama.cpp, 800gb/s 速度可以直接跑 falcon 180b (得 192g 内存版本的) 个人觉得这个模型虽然微调难度大,但微调结果超过 gpt3.5
|
16
wodong 2023-09-19 14:17:49 +08:00
|
17
timeance 2023-09-19 14:18:20 +08:00
|
19
sunmacarenas OP @timeance 64G 的,主要是用来推理,价格大概 16000 左右。是 Jetson AGX ORIN 64G
|
21
sunmacarenas OP @mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本,但预算有点超太多了,而且本来也是学习玩票的性质,感觉没啥必要,主要是穷,下不去手。
|
22
sunmacarenas OP @ambition117 DLA 被放弃,那有下一代的消息么,主要是看他统一交换内存,64G 够大,还能跑 CUDA,价格还合适
|
23
timeance 2023-09-19 14:53:54 +08:00
@sunmacarenas #19
64G 开发者套件确实要 1.6w ,不便宜 现在用这个的还不够多,我也很奇怪这个芯片这么贵,什么地方用会合适一些 另外内存是 LPDDR5 ,12 核 A78AE ,2048 Ampere + 64 Tensor ;会影响性能吗? |
24
ShadowPower 2023-09-19 15:00:26 +08:00 via Android
有段时间我也想弄一个这种玩意,后来深入研究一下发现不如买一块显卡。
比如 bitsandbytes 这玩意理论上支持 CUDA ,实际上不支持 Jetson 。 有像这样的坑。 |
25
sunmacarenas OP @timeance #23
这个倒是没太了解,不过看了几个大佬的教程和视频,感觉没太影响性能 |
26
sunmacarenas OP |
27
ambition117 2023-09-19 15:26:52 +08:00
@sunmacarenas DLA 对 transformer 没啥用,transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了
|
33
lingeo 2023-09-19 16:57:13 +08:00
工作需要,搞过 nano 和 nx ,我的工作偏数采,另一个同事负责模型。我的感觉就是性能不够,视频编解码方面,官方比较侧重用 gstreamer ,学习成本高,ffmpeg 官方只提供了解码功能,社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版😟。
|
34
mushuanl 2023-09-19 20:45:05 +08:00 via iPhone
要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ,跟得上自己的速度。但是关键是现在没有 ai 应用场景,也就是除了 gpt4 场景外 其他的比较弱,如果你不喜欢玩 roleplay ,并且没有自己的 ai 想法,那么可能过段新鲜感时间后基本就不玩了
|
35
mushuanl 2023-09-19 20:49:38 +08:00 via iPhone
现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天,功能太弱,最大的那个 180b 刚出,看看有没人调教,我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能
|
36
WuSiYu 2023-09-19 20:52:04 +08:00
@sunmacarenas
首先跑 LLM 和跑 stable diffusion 是截然不同的工况,LLM 如果你个人用,也就是 batch 1 的话,对计算的需求很低,GPU 上基本都跑不满,但 llama2-13b 2token/s 也不算快的了。 int4 量化仅是权重是 int4 的,主要还是为了节省显存,实际推理的时候都是 fp16 (更常见)或者 int8 ,并且都不是稀疏。 而 stable diffusion 非常的计算密集(尤其是跑大图),对显存容量需求不高,十几 G 肯定够用,4090 是最合适的,从浮点算力上估计会比 orin agx 快 5 到 10 倍 |
37
WuSiYu 2023-09-19 20:56:18 +08:00
@sunmacarenas 作为参考,A100 上跑推理大概能到 3000+ token/s ,当然这是比较大 batch 的情况
|
38
sunmacarenas OP @mushuanl 后续可能会在企业中微调生成行业模型
|
39
sunmacarenas OP @mushuanl 个人先玩玩,企业会用 H100 之类的微调吧
|
40
sunmacarenas OP @WuSiYu 个人玩具,其实慢一点也就能接受。
|
41
mushuanl 2023-09-19 22:16:52 +08:00 via iPhone
企业微调要求全尺寸 nv gpu ,个人玩可以用量化模型。另外现在企业微调的效果并不是很好,包括 rag(提供上下文进行推理),所以现在大模型开始有点冷了,就看看谷歌出的模型如何了。
|
42
mushuanl 2023-09-19 22:18:04 +08:00 via iPhone
全尺寸模型,也就是 gpu 内存要求很大微调成本很高。一般就租云服务器去练习。
|