neopenx 最近的时间轴更新
neopenx

neopenx

V2EX 第 502557 号会员,加入于 2020-08-05 23:17:39 +08:00
今日活跃度排名 1394
neopenx 最近回复了
8 小时 59 分钟前
回复了 paulguo 创建的主题 Apple 请教关于新款 MacBook Pro M2 Max 的配置问题,用于大模型训练
@bleaker ANE 只能跑推理。训练要在 GPU 上跑 Metal/MPS 。搞笑的是 GPU 的 FP32/FP16 算力只有 Ultra 上才能超过 ANE 的 FP16 算力。所以用 AppleSilicon 做训练就是来搞笑的
M2 Max 的 training 算力等价于 3060 。洗洗睡吧。还不如买块 4090
你还是去看看 Ilya Sutskever 和老黄的谈话,当模型拟合的数据是世界的投影(World Projection)的时候,你就很难用简单 corner case 来测试是否是 AI 了。意识本身没什么意义,你只要维护一个持续观测预测的流水线就可以近似意识了。类 GPT 竞品基本上对答几次就开始暴力输出无意义的预测了,根本没法构建预测永动机
@adonishong RDNA 游戏卡没有 TensorCore 对标单元,处境和果子类似,没啥用。你要用 FP16 只能买 CDNA 的数据中心卡,好像优化的还可以。不过 CDNA 肯定没 GeForce 划算,GeForce 现在砍掉的只有 PCIE/NVLINK P2P ,等于只禁掉你在数据中心的高速互联。
这俩 GPU 的 FP32 Peak 本来就差不多。
MPS 的 Gemm 实现太差,你跑一下就知道大概只能到 65%的 peak 。
Transformer 的 90%计算量都在 Gemm 上。
cublas 的 Gemm 都优化多少年了,上 90%以上的 peak 非常简单。
就这一点上,苹果要用更高的设计峰值才能去打 N 卡。
你要是换 FP16 ,10 系后的卡大部分靠 TensorCore 就能把果子 GPU 计算打到自闭
MPS 默认跳过 intel 集显。所以你 100%是 CPU 在跑。
你换 M2 还不如去租 GPU ,M2 pro 的 MPS 性能也就 1060 水平,跑 Transformer 惨不忍睹
45 天前
回复了 feather12315 创建的主题 NVIDIA NVIDIA GPU CUDA core 数对性能的影响
@okakuyang CUDA core 是 Stream Processor 或(Shading Unit)的黄氏叫法,就是物理数量。逻辑概念是 CUDA thread ,thread 在代码中可以开到 2**31-1 以上, 但是没有足够的 CUDA core ,所以是分批次调度完的(一次 60K~120K threads)。但凡你写过 cuda 或者 shader 就不会这么说了
45 天前
回复了 feather12315 创建的主题 NVIDIA NVIDIA GPU CUDA core 数对性能的影响
你代码问题吧。gpu spec 给出了两者的渲染性能 perf 就是 2 倍。
https://www.techpowerup.com/gpu-specs/geforce-rtx-2060.c3310
考虑到 2060 的 fp32 peak flops 才是 A4500 的四分之一,跑个 cublas 的 gemm 能摸到 fp32 peak 的完全是暴打 2060 了
130 天前
回复了 op351 创建的主题 云计算 求推荐提供 gpu 计算租赁的平台
关于   ·   帮助文档   ·   博客   ·   nftychat   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   901 人在线   最高记录 5556   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 17ms · UTC 21:45 · PVG 05:45 · LAX 14:45 · JFK 17:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.