Nvidia Jetson AGX Ori 开发者套件

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› 下载 GeForce Experience

› NVIDIA SHIELD

› GPU Ray Tracing

› ShadowPlay

› NVIDIA Unix Driver

这是一个创建于 735 天前的主题，其中的信息可能已经有所发展或是发生改变。

有了解 Nvidia Jetson Agx ori 的吗？想入手一个 64G 的用来玩玩，chatglm2 和 SD,看参数有 270Tops 运算能力。

第 1 条附言 · 2023-09-19 15:00:02 +08:00

看到有大佬的教程，跑 llama2 7B 和 13B ，感觉推理速度还可以，有兴趣的可以看下链接内容
https://www.hackster.io/pjdecarlo/llama-2-llms-w-nvidia-jetson-and-textgeneration-web-ui-96b070

42 条回复 • 2023-09-19 22:18:04 +08:00

sunmacarenas

2023-09-19 11:01:24 +08:00

有 Nvidia 大佬吗，能给个优惠码么？

ysc3839

2023-09-19 11:28:51 +08:00 via Android

坑多，个人感觉意义不大，虽然都支持 CUDA ，但相关软件未必像 N 卡那样能开箱即用。而且视频编解码接口是完全不兼容 N 卡的那套的，至少老产品是不兼容的。

leimao

2023-09-19 11:35:56 +08:00

是 Orin 不是 Ori

sunmacarenas

2023-09-19 11:36:01 +08:00 via Android

@ysc3839 主要为了折腾，坑多倒是不怕。YouTube 上看了一些视频，跑 llama2-13b 能有 2tokens 左右的速度，主要看它体积小，如果换 n 卡 4090 的话体积太大，功耗太高，而且两张 4090 有些超预算了。

sunmacarenas

2023-09-19 11:36:18 +08:00 via Android

@leimao 多谢指正

leimao

2023-09-19 11:39:06 +08:00

@ysc3839 Orin 上有低功耗的 Deep Learning Accelerator ，这个是 data center GPU 不具备的。

leimao

2023-09-19 11:40:44 +08:00

@sunmacarenas llama 我没怎么用过，建议去找一下 NVIDIA 官方 examples 或者询问社区。计算机视觉的一些模型运行起来速度还是很快的，比上一代 Xavier 快了特别多。

leimao

2023-09-19 11:44:18 +08:00

@sunmacarenas 另外，这个 270TOPS 的运算能力有相当大一部分是 Deep Learning Accelerator 的 TOPS 。而目前 Deep Learning Accelerator 对于 LLM 模型的支持，可能还在开展中。如果 LLM 是主要应用的话，建议提前做好调研。

sunmacarenas

2023-09-19 11:46:35 +08:00 via Android

@leimao 好的，非常感谢大佬

WuSiYu

2023-09-19 12:20:04 +08:00 via iPhone

jetson 是给嵌入式（比如车机）用的，规模和普通 GPU 还是差不少，那个 270TOPS 是 int8+稀疏，实际跑常见的 fp16 非稀疏得除 4 ，实际性能会比 3070 还低一两倍，跑 sd 会非常慢。另外 nvdla 主要是低功耗用途，性能不高，跑大模型没帮助

leimao

2023-09-19 12:25:35 +08:00

https://www.nvidia.com/content/dam/en-zz/Solutions/gtcf21/jetson-orin/nvidia-jetson-agx-orin-technical-brief.pdf

sunmacarenas

2023-09-19 12:27:57 +08:00 via Android

@WuSiYu 跑 int4 的量化模型呢，速度也非常慢吗？

elechi

2023-09-19 13:29:08 +08:00

淘宝

ambition117

2023-09-19 13:34:46 +08:00 via iPhone

orin 出了好久了，而且最近有传言 DLA 要被放弃

mushuanl

2023-09-19 13:56:00 +08:00 via iPhone

计算力上去后大模型主要跟内存速度有关，要跑大模型并且想简单，还是建议 mac + llama.cpp, 800gb/s 速度可以直接跑 falcon 180b (得 192g 内存版本的) 个人觉得这个模型虽然微调难度大，但微调结果超过 gpt3.5

wodong

2023-09-19 14:17:49 +08:00

一直在 Orin 上做无人机自动识别相关，但完全没考虑到太多性能问题

，但是比上一代确实流畅太多了，公司购买的 16+256 4G 版本，8200 左右(设备全都封装好了，开箱即用)

timeance

2023-09-19 14:18:20 +08:00

@ambition117 #14 22 年中才出的 AGX Orin ，而且相比上一代这代 NV 推的力度还是比较大的

而且 Jetson 这个板子，主打的是低功耗跑推理用的。拿来做训练不合适

timeance

2023-09-19 14:20:14 +08:00

@wodong #16 如果是 16g ，我猜是 Orin NX ，这个价格真的贵了（

市场价在 6-7k 是比较合适的

sunmacarenas

2023-09-19 14:44:28 +08:00

@timeance 64G 的，主要是用来推理，价格大概 16000 左右。是 Jetson AGX ORIN 64G

wodong

2023-09-19 14:46:32 +08:00

@timeance #18 没办法，自己公司没有封装封装能力，就只能给人家转这笔钱了

sunmacarenas

2023-09-19 14:47:59 +08:00

@mushuanl 也有考虑过 Mac Studio Ultra 192G+2T 版本，但预算有点超太多了，而且本来也是学习玩票的性质，感觉没啥必要，主要是穷，下不去手。

sunmacarenas

2023-09-19 14:50:28 +08:00

@ambition117 DLA 被放弃，那有下一代的消息么，主要是看他统一交换内存，64G 够大，还能跑 CUDA,价格还合适

timeance

2023-09-19 14:53:54 +08:00

@sunmacarenas #19

64G 开发者套件确实要 1.6w ，不便宜

现在用这个的还不够多，我也很奇怪这个芯片这么贵，什么地方用会合适一些
另外内存是 LPDDR5 ，12 核 A78AE ，2048 Ampere + 64 Tensor ；会影响性能吗？

ShadowPower

2023-09-19 15:00:26 +08:00 via Android

有段时间我也想弄一个这种玩意，后来深入研究一下发现不如买一块显卡。

比如 bitsandbytes 这玩意理论上支持 CUDA ，实际上不支持 Jetson 。

有像这样的坑。

sunmacarenas

2023-09-19 15:02:32 +08:00

@timeance #23
这个倒是没太了解，不过看了几个大佬的教程和视频，感觉没太影响性能

sunmacarenas

2023-09-19 15:05:47 +08:00

@ShadowPower #24
不是买显卡的问题，主要是买了显卡还要配一整套环境，感觉就像为了这点醋，特意包了顿饺子。
而且一整套环境，体积太大了，桌面和桌子底下也没地方，功耗还高。

ambition117

2023-09-19 15:26:52 +08:00

@sunmacarenas DLA 对 transformer 没啥用，transformer memory bound 。而且 drive thor 这个下一代也没提 DLA 了

yewuya

2023-09-19 16:38:14 +08:00

@wodong 第一次在 V2EX 遇见跟我做差不多业务的研发，不容易

wodong

2023-09-19 16:40:11 +08:00

@yewuya #28 好兄弟你做啥的

yewuya

2023-09-19 16:46:12 +08:00

@wodong 我业务做点机载端算法部署，主要是做无人机飞行控制，处理业务逻辑相关的，航线飞行，推流，数据传输乱七八糟的。

wodong

2023-09-19 16:46:38 +08:00

@yewuya #30 来加波好友吗？我也差不多就这样的

yewuya

2023-09-19 16:50:42 +08:00

@wodong VX : d3VqaW5odWkwMjA2

lingeo

2023-09-19 16:57:13 +08:00

工作需要，搞过 nano 和 nx ，我的工作偏数采，另一个同事负责模型。我的感觉就是性能不够，视频编解码方面，官方比较侧重用 gstreamer ，学习成本高，ffmpeg 官方只提供了解码功能，社区里有人提供了 ffmpeg 的编码支持。可能是因为我们公司用的都是丐版😟。

mushuanl

2023-09-19 20:45:05 +08:00 via iPhone

要跑 llama213b 那么 13900+ddr5 也够了, llama.cpp 大概 1 秒 5token ，跟得上自己的速度。但是关键是现在没有 ai 应用场景，也就是除了 gpt4 场景外其他的比较弱，如果你不喜欢玩 roleplay ，并且没有自己的 ai 想法，那么可能过段新鲜感时间后基本就不玩了

mushuanl

2023-09-19 20:49:38 +08:00 via iPhone

现在开源大模型除了企业研究外其他普通人一般就用来生成 s 文和 s 聊天，功能太弱，最大的那个 180b 刚出，看看有没人调教，我体验过基本超过 gpt3.5 但是没到 gpt4, 不知道是否有人能发挥出它的性能

WuSiYu

2023-09-19 20:52:04 +08:00

@sunmacarenas
首先跑 LLM 和跑 stable diffusion 是截然不同的工况，LLM 如果你个人用，也就是 batch 1 的话，对计算的需求很低，GPU 上基本都跑不满，但 llama2-13b 2token/s 也不算快的了。
int4 量化仅是权重是 int4 的，主要还是为了节省显存，实际推理的时候都是 fp16 （更常见）或者 int8 ，并且都不是稀疏。

而 stable diffusion 非常的计算密集（尤其是跑大图），对显存容量需求不高，十几 G 肯定够用，4090 是最合适的，从浮点算力上估计会比 orin agx 快 5 到 10 倍

WuSiYu

2023-09-19 20:56:18 +08:00

@sunmacarenas 作为参考，A100 上跑推理大概能到 3000+ token/s ，当然这是比较大 batch 的情况

sunmacarenas

2023-09-19 21:39:23 +08:00 via Android

@mushuanl 后续可能会在企业中微调生成行业模型

sunmacarenas

2023-09-19 21:41:55 +08:00 via Android

@mushuanl 个人先玩玩，企业会用 H100 之类的微调吧

sunmacarenas

2023-09-19 21:43:16 +08:00 via Android

@WuSiYu 个人玩具，其实慢一点也就能接受。

mushuanl

2023-09-19 22:16:52 +08:00 via iPhone

企业微调要求全尺寸 nv gpu ，个人玩可以用量化模型。另外现在企业微调的效果并不是很好,包括 rag(提供上下文进行推理），所以现在大模型开始有点冷了，就看看谷歌出的模型如何了。

mushuanl

2023-09-19 22:18:04 +08:00 via iPhone

全尺寸模型，也就是 gpu 内存要求很大微调成本很高。一般就租云服务器去练习。