V2EX › neopenx 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2024-03-09 19:19:12 +08:00

回复了 wangbin11 创建的主题 › 程序员 › 你们有搞 gpu 算力平台的吗

ToC 做分布式算力，用户机器的稳定性和数据隐私都是问题。自己搞搞玩玩可以，出了事故就完蛋了

2024-01-26 13:38:47 +08:00

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

@LeeReamond 并没有啥问题啊。你的维度困惑在于把 Q·K 理解成逐元素向量乘法了..上面一堆回答都歪了..

2024-01-26 10:31:29 +08:00

回复了 LeeReamond 创建的主题 › Python › Transformer 是不是缺乏跨维度关系捕捉能力？

你可能不熟悉矩阵乘法把。Q·K 的注意力矩阵乘法是[2,3]@[3, 2], 也就是做了 2x2 四次向量点积，每个点积都用到了全部三维。这是单头注意力情况。维度更高需要用多头减少每组点积向量的维度，避免参与的维度过多导致注意力不 diverse

2023-12-06 19:06:42 +08:00

回复了 Rorysky 创建的主题 › Apple › Apple 发布新的机器学习框架 MLX

看起来目前只是一个跑一些简单的 metal compute kernels 的练习作品，连 MPS routines 都没 dispatch
Python API 山寨 PyTorch 不说，还相当简陋。

2023-11-01 18:20:19 +08:00

回复了 oppurst 创建的主题 › Apple › M3 Max 的神经引擎是否已经不够看了？

ANE 需要走 CoreML 跑。18T 应该就是 FP16 的设计峰值。
要是通过 GPU 走 Metal 的话，满血 M2 Max 的 FP32 才 14T 。
苹果短期内应该不打算融合 ANE 和 GPU ，也就是维持 ANE 以低功耗优势，继续挤牙膏。
鬼知道几年后可以追平 3060 的 50T FP16 TensorFlops 设计峰值。

2023-08-04 11:25:50 +08:00

回复了 746970179 创建的主题 › Apple › 关于 mac 的内存的好奇

@iamqk apple silicon 的延迟确实比 X86 非统一大，M1 是 110ns ，没比 PS5 的 140ns 好到哪里去。高带宽牺牲延迟是很正常的

2023-08-04 10:34:52 +08:00

回复了 746970179 创建的主题 › Apple › 关于 mac 的内存的好奇

大于 100GB/s 以上的带宽基本是给 GPU 用的。通过 CPU 大量的 memcpy 基本很难跑到 100 以上。
但是对于 Metal 的 MTLBuffer ，就有足够大的 Blob 把带宽跑上去了。在 CPU 应用上和 X86 比没什么优势。

2023-07-26 17:08:27 +08:00

回复了 lrigi 创建的主题 › MacBook Pro › 搞 AI 的兄弟们都选的多大的内存？ 32 还是 64？

@lrigi M2Max 只是 FP32 的 FLOPS 接近 V100 而已。FP16 的硬件加速在 ANE 上，做不了训练而且峰值还不如 FP32 。

2023-07-01 21:34:46 +08:00

回复了 justincnn 创建的主题 › macOS › 看个这个视频，感觉苹果是不是真的偷了变形金刚的技术了？

Transformer 的实际需要空间复杂度有很多技术降下去，果子这点小聪明只能说聊胜于无
跑的大部分都是矩阵乘法，M2U 也就和 3060 五五开

2023-05-12 10:55:37 +08:00

回复了 wulili 创建的主题 › 程序员 › AI 计算框架为啥不能统一一下，感觉大家都各玩各的

@MeePawn666 这个不仅仅 shader language 的 DSL 不统一问题，各类加速器的都是 ASIC, 都在自家芯片内塞私有硬件和指令集，所以即使有统一的 DSL ，也要根据不同硬件编译 N 个版本的 DSL ，最后搞得 release 啥都能跑的框架二进制有 10GB 以上，谁都不舒服

2023-05-12 10:47:53 +08:00

回复了 wulili 创建的主题 › 程序员 › AI 计算框架为啥不能统一一下，感觉大家都各玩各的

@tyzandhr 去年 WWDC 苹果还真秀了下用雷电 4 连接 4 台 M1 Ultra 做数据并行训练
不过也只有 Ultra 级别的 FP32 算力才能摸到 3060 的屁股

2023-05-12 10:28:55 +08:00

回复了 wulili 创建的主题 › 程序员 › AI 计算框架为啥不能统一一下，感觉大家都各玩各的

你要类比也应该类比到 shader 吧。
cuda/metal kernel 本质就是 shader ，你看游戏几十年了，不同 GPU 的 shader 很好统一么
基于 LLVM 可以对 GPU shader 做一个抽象，所以 AI compiler 现在也在干同样的事。

2023-04-06 12:59:34 +08:00

回复了 BrbiwsFtd9zDGZqB 创建的主题 › 程序员 › Facebook 开源通用图像分割模型 Segment Anything

本质上是把 FAIR 之前的基于 RCNN 的实例感知工作整合起来了，带头人就是 RCNN 作者 Ross 。你可以把格点作为 prompt ，在仅提取一次的全图特征上无限制地做 query ，就有 Faster/Mask/KeyPoint R-CNN 了

2023-03-31 20:45:49 +08:00

回复了 paulguo 创建的主题 › Apple › 请教关于新款 MacBook Pro M2 Max 的配置问题，用于大模型训练

@bleaker ANE 只能跑推理。训练要在 GPU 上跑 Metal/MPS 。搞笑的是 GPU 的 FP32/FP16 算力只有 Ultra 上才能超过 ANE 的 FP16 算力。所以用 AppleSilicon 做训练就是来搞笑的

2023-03-30 18:51:44 +08:00

回复了 paulguo 创建的主题 › Apple › 请教关于新款 MacBook Pro M2 Max 的配置问题，用于大模型训练

M2 Max 的 training 算力等价于 3060 。洗洗睡吧。还不如买块 4090

2023-03-30 17:05:07 +08:00

回复了 binbinjp0915 创建的主题 › 程序员 › gpt-4 gpt-5 是否依然只是函数拟合和逼近离产生自主意识还有多远

你还是去看看 Ilya Sutskever 和老黄的谈话，当模型拟合的数据是世界的投影(World Projection)的时候，你就很难用简单 corner case 来测试是否是 AI 了。意识本身没什么意义，你只要维护一个持续观测预测的流水线就可以近似意识了。类 GPT 竞品基本上对答几次就开始暴力输出无意义的预测了，根本没法构建预测永动机

2023-02-27 16:58:32 +08:00

回复了 adonishong 创建的主题 › MacBook Pro › M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测

@adonishong RDNA 游戏卡没有 TensorCore 对标单元，处境和果子类似，没啥用。你要用 FP16 只能买 CDNA 的数据中心卡，好像优化的还可以。不过 CDNA 肯定没 GeForce 划算，GeForce 现在砍掉的只有 PCIE/NVLINK P2P ，等于只禁掉你在数据中心的高速互联。

2023-02-27 13:22:13 +08:00

回复了 adonishong 创建的主题 › MacBook Pro › M2 Max(14) 对比 M1 Max(16) 的 pytorch 推理性能简测

这俩 GPU 的 FP32 Peak 本来就差不多。
MPS 的 Gemm 实现太差，你跑一下就知道大概只能到 65%的 peak 。
Transformer 的 90%计算量都在 Gemm 上。
cublas 的 Gemm 都优化多少年了，上 90%以上的 peak 非常简单。
就这一点上，苹果要用更高的设计峰值才能去打 N 卡。
你要是换 FP16 ，10 系后的卡大部分靠 TensorCore 就能把果子 GPU 计算打到自闭

2023-02-17 11:11:42 +08:00

回复了 athomas 创建的主题 › 程序员 › 什么配置的电脑能把 OpenAI 的 Whisper 跑快一点

MPS 默认跳过 intel 集显。所以你 100%是 CPU 在跑。
你换 M2 还不如去租 GPU ，M2 pro 的 MPS 性能也就 1060 水平，跑 Transformer 惨不忍睹

1 2

❮

❯