V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mogutouer
V2EX  ›  Apple

AI 开发时代, APPLE MAC 落后了

  •  
  •   mogutouer · 186 天前 · 6975 次点击
    这是一个创建于 186 天前的主题,其中的信息可能已经有所发展或是发生改变。

    由于 Apple 抛弃了 N 卡,黑苹果驱动不支持,白苹果没独立 N 卡。

    几乎所有的 AI 项目都以 python 为主,然后因为要 N 卡参与训练和推理,导致现在绝大部分 AI 项目都在 linux/windows 平台上,众多个人开发者或者学习者都是以 win 平台为主。

    对于刚接触的,想要跑一下试试的,mac 平台也没有太方便的一键运行测试的东西,后面真正要用了,发现还是要云 GPU 运算或者 windows 平台搭配 N 卡才是王道。

    apple 跟 nvdia 没有紧密合作,在 AI 开发时代感觉已经落后了,介于 mac 平台困难重重,最后还是买了一台 pc ,搭配 14 代 i728 核,4070tis ,性能上超过 mac ,尤其是 AI 方面的性能 mac 根本没法比。

    新出来的 M4 ,比起独立 N 卡,算力方面差的不是一星半点,并且 N 卡 Tesla 还能并联算力翻倍,大部分的 GPU 服务器也是 linux 或 windows ,导致开发环境包括工具都偏向 win 。

    apple 想要靠自己干翻 intel+nvdia ,基本不可能了,M 系列芯片出来之后,大家都很兴奋,平时开发都够用且好用。没想到时代巨变,AI 越来越普及,导致 M 的算力和优势荡然无存,期待什么时候 mac 再次跟 nvdia 合伙,AMD 实在是扶不上墙。

    60 条回复    2024-10-31 01:28:23 +08:00
    yidinghe
        1
    yidinghe  
       186 天前
    苹果的产品设计过于强调通过用户体验来驱动,最终导致技术全部为体验服务,为了独特的体验而造成硬件技术的封闭。
    Morriaty
        2
    Morriaty  
       186 天前
    1. 只用 mac 开发,使用 remote interpreter 运行
    2. 本地开发、本地运行,调用各大平台 LLM API
    3. 再有,model.to("mps") 小模型也能玩
    liprais
        3
    liprais  
       186 天前   ❤️ 2
    说的好像 nvidia 的游戏卡有多大显存似的
    mumbler
        4
    mumbler  
       186 天前   ❤️ 6
    本地跑大模型,96G 内存的 mac 是唯一能跑 llama3 70B 的
    mengdu
        5
    mengdu  
       186 天前
    苹果只想做高利润产品。
    wequart
        6
    wequart  
       186 天前
    @mumbler 64G 也可以跑
    LuckyLauncher
        7
    LuckyLauncher  
       186 天前
    我不觉得可用的 AI 产品是家用级别的显卡可以搞定的
    你要是玩玩当我没说
    shinsekai
        8
    shinsekai  
       186 天前
    为何 AI 开发没有出现像 vulkan 这种跨平台的
    oisc
        9
    oisc  
       186 天前
    MLX 和统一内存了解一下
    ShadowPower
        10
    ShadowPower  
       186 天前
    @mumbler 能跑其实很容易,只是跑得快不快……
    用 cpu 就能跑,而且也有 1.2~1.4token/s
    chendy
        11
    chendy  
       186 天前
    一来真正干 AI 开发的人没多少
    二来正经干 AI 开发的人都用服务器不用 PC
    三来 APPLE MAC 除了干 APPLE 是刚需其他方面谈不上领先
    Code00911
        12
    Code00911  
       186 天前
    MAC 也就在自己小圈子玩玩
    YooboH
        13
    YooboH  
       186 天前   ❤️ 3
    你是从业者吗?搞深度学习的我就没见过本地跑的,本地跑只能是初学者玩票性质的,哪怕你 4090 也没用啊,不是速度的问题,是显存完全不够。更别说这还只是推理,你要是训练的话怎么可能用本地机器,全部都是服务器,实验室里我就没见过本地部署的,要么实验室里给的服务器,我么云服务器厂商像 autodl ,企业的话就更不可用自己的小破电脑了了
    ShadowPower
        14
    ShadowPower  
       186 天前   ❤️ 1
    @LuckyLauncher 除了参数量很大的 LLM 以外,大多数东西用消费级显卡还真能搞定。
    很多生产力任务都已经用上了,比如:
    高质量视频插帧、视频降噪、视频超分辨率、SDR 转 HDR 、光追渲染加速(少量采样+AI 预测最终结果)
    Stable Diffusion XL 也达到了生产可用的程度,当然,没达到“能直接取代人”的程度……

    娱乐方面也有:
    同上,视频插帧、超分辨率等,但也可以运用于实时游戏中,例如 SDR 游戏画面转 HDR ( Windows AutoHDR )、游戏超分辨率( DLSS 2 )、游戏插帧( DLSS 3 )、优化光追效果( DLSS 3.5 )

    这些技术虽然有传统算法实现的替代方案,但是质量不如基于神经网络的……

    还有很多不用显卡就能搞定的,例如歌声合成(像 Synthesizer V 这样的软件),语义分割,光学字符识别,语音识别等等。

    最大的开源端到端的语音识别有 Whisper ,只要消费级显卡就可以跑了。

    用不那么大的 LLM (~13B ,量化以后可以用消费级显卡跑)跑文本翻译之类的任务,也能满足不少需求。


    如果是指训练模型,公司就有用 3090 、4090 来训练的模型,做下游任务的微调还真能用。
    yzbythesea
        15
    yzbythesea  
       186 天前   ❤️ 1
    op 平时是做 ML 的吗?
    YooboH
        16
    YooboH  
       186 天前 via iPhone
    "大部分的 GPU 服务器也是 linux 或 windows" 也是很奇怪,没见过 windows 当服务器的,windows 比 linux 有任何优势吗
    lithiumii
        17
    lithiumii  
       186 天前 via Android   ❤️ 2
    你要是说云端的 AI 训练和推理,那苹果妥妥落后了。但首先苹果就不做云服务的硬件,其次除了英伟达所有人都落后。

    你说 AI 开发,你要不要看看 OpenAI 纪录片里大家都用的啥电脑?正经训练谁跑本地啊。

    再说个人玩票性质的本地 AI 开发,如果你的需求是把大模型在本地跑起来,苹果那金贵的统一内存不仅很有性价比,而且很现实。24G 以上的 N 卡没有便宜的,24G 及以下的卡做多卡平台的体积、功耗、噪音也不是人人都能接受的。软件上
    lithiumii
        18
    lithiumii  
       186 天前 via Android
    @lithiumii 软件上 mlx 当然不比 CUDA ,但是比一比莫名其妙的 rocm 不知方便到哪里去了
    lithiumii
        19
    lithiumii  
       186 天前 via Android
    @YooboH 有句讲句 Windows 服务器挺多的,市场占有率可能有 20%,不过带 gpu 的 ai 服务器就不知道了
    gouflv
        20
    gouflv  
       186 天前 via iPhone
    你自己也说了,场景就是新手 “跑一下试试”
    正经做事的,谁还在本机呢
    ShadowPower
        21
    ShadowPower  
       186 天前   ❤️ 4
    @lithiumii 还真不行,个人用其实 2x3090 最划算,Mac 的问题在于速度实在是太慢了。
    别看 NVIDIA 的显存不大,但个人项目如果模型不大,全参数训练完全没问题。如果模型大的话,NVIDIA 有 bitsandbytes 和 flash attention 这些生态,又能省显存又能提速。

    用 Lora 、Dora 这类方法来微调模型的时候,基础模型的权重其实可以保持在量化状态,只要能推理就行。但 Mac 用不了 bitsandbytes ,反而需要巨大显存(内存)+缓慢的速度。

    哪怕能用 MPS 后端来跑(无论上层框架是什么)且没有兼容问题,对于训练任务,提速效果都不好。一般也就比 CPU 跑快 1~2 倍,苹果的 ANE 是完全用不上的(好像是因为不支持反向传播,我不太确定)。

    大内存的 Mac 几乎就是 llama.cpp 推理专用机……如果只用过这个,确实会觉得在家里训练不了什么模型。

    至于大公司的例子,他们都有一大堆 A100 ( A800 )、H100 ( H800 ),当然不会用消费级显卡来跑,而且 NVIDIA 的许可协议在几年前就专门规定禁止将消费级显卡运用于数据中心等用途了。这不代表普通消费者不能这么干。
    freeloop1
        22
    freeloop1  
       186 天前
    日常使用 a100 主机开发跑吗?
    fredweili
        23
    fredweili  
       186 天前
    试过 ollama 了么?闭源的用 api key 能有什么区别?有东西拿出来看看么?
    BenX
        24
    BenX  
       186 天前   ❤️ 2
    Mac Studio 升级到 192GB 统一内容,了解一下。几乎是最便宜的 AI 开发用机
    两张 A6000 多少钱?
    fovecifer
        25
    fovecifer  
       186 天前
    你是从业者吗?
    什么时候跑 AI 需要苹果设备了?
    mogutouer
        26
    mogutouer  
    OP
       186 天前
    生产环境和训练当然是在服务器上,这里指的是开发阶段的逻辑开发和简单推理,因为你不可能直接在服务器上远程慢慢开发调试嘛。

    可能是这么多年习惯了随时随地在 mac 上开发测试再部署服务器运行,AI 的开发流程普通的开发者 mac 越来越不合适了,所以才由此感叹。
    lDqe4OE6iOEUQNM7
        27
    lDqe4OE6iOEUQNM7  
       186 天前
    苹果·确实落后·了这几天微软 Ai PC 本地大模型嵌入操作系统,加上本地自研的 npu ,实现了很多系统层面的回忆,翻译,绘图,再结合云端大模型,陪你玩游戏,工作,实时交互
    lDqe4OE6iOEUQNM7
        28
    lDqe4OE6iOEUQNM7  
       186 天前
    苹果有没有那么多云服务器,算力,看苹果的开源模型加论文本地大模型还是智障,3.5 都没有,就看下个月和 open ai 合作手机上有没有改变了
    lDqe4OE6iOEUQNM7
        29
    lDqe4OE6iOEUQNM7  
       186 天前
    希望苹果能玩出一点东西来
    maolon
        30
    maolon  
       186 天前 via Android
    @James2099 mac 上的一个叫 rewind 的 app 了解下? recall 不就是个 win 版的 rewind 嘛,人还出的早多了
    jcdv2
        31
    jcdv2  
       186 天前
    我印象中 mac 最大显存版本应该是同显存容量最低成本的
    yvescheung
        32
    yvescheung  
       186 天前
    组个 4070tis 的机器来搞 AI 开发,对不起我想笑
    chhtdd
        33
    chhtdd  
       186 天前   ❤️ 1
    大部分使用 mac 的 ai 从业者是将 mac 作为瘦主机使用
    aero99
        34
    aero99  
       186 天前
    没有高利润和前景的行业苹果不做,或者说傲慢也好,总有跌跟头的时候
    hellojsonlv
        35
    hellojsonlv  
       186 天前
    你说的 AI 开发不会是本地跑个模型自娱自乐吧,真正做 AI 开发的哪个不用服务器,当然苹果在 AI 方面确实落后
    felixcode
        36
    felixcode  
       186 天前 via Android
    mac 只是瘦客户机啊,为什么要用 ai 呢
    txydhr
        37
    txydhr  
       186 天前 via iPhone
    @ShadowPower sdr 转 hdr 还是算了,白色的东西强行当成光源提亮,十分诡异
    ZedRover
        38
    ZedRover  
       186 天前
    "大部分的 GPU 服务器也是 linux 或 windows ,导致开发环境包括工具都偏向 win"
    认真的么,公司之前有台 windows 服务器,很多 python 的包都装不上比如 SharedArray ,pytorch 跟 tf 的一些特性必须要用 WSL ,旧版的 windows server 上装 wsl 非常麻烦,同时 windows 没有 ubuntu 上 /dev/shm 直接访问内存的功能,只能用 ramdisk ,麻烦不少。后来直接被我改成 ubuntu 舒服多了。windows + gpu 最适合的场景是挖矿,因为很多挖矿软件只有 windows 平台上有,教程也多。苹果对 pytorch tensorflow 的支持也一直在进步,从无到有的过程也能看出进步来,跑点 demo 模型没什么问题。本地跑模型 mac 确实不如 windows ,不过要说 windows 多么好用我看也不见得。
    ShadowPower
        39
    ShadowPower  
       186 天前
    @ZedRover 可以用 WSL2 来开发和调试,依赖 N 卡的东西也能调得通(不必临时改掉)。
    调通了再放服务器上。
    zhangdp
        40
    zhangdp  
       186 天前
    干 ai 开发的都是本地开发,然后 linux 服务器跑
    ysc3839
        41
    ysc3839  
       186 天前 via Android
    @shinsekai ONNX 也许算,但是似乎只能推理,不能训练,而且限制很多,基本是要配合厂商专用工具使用的,不像 Vulkan 是 API 层兼容,重新编译一般就能用。
    另外 CUDA 事实上也跨平台了,AMD 的 ROCm 是 API 层面兼容 CUDA 的,不过这一套只有 NV 和 AMD 在用,别的厂商不用。
    fanhed
        42
    fanhed  
       186 天前
    模型训练不都是在服务端的吗? 训练模型的不都是大型服务器集群吗, 一般是 Linux 服务器吧.
    本地运算的话, 好像现在流行弄个 NPU 来加速?
    Blanke
        43
    Blanke  
       186 天前
    据说 m 芯片对 pytorch 或相关有加持,是这样吗
    houshuu
        44
    houshuu  
       186 天前
    从本科到现在工作, 遇到大部分学术人员和公司都是主要在 Linux 下工作, 自己电脑说白了也就是个 SSH 连接器.
    从这一点上 Mac 设计还是挺不错的, 大家都爱用
    Focus9
        45
    Focus9  
       186 天前
    唱衰苹果到底有什么乐趣。。。
    lambohu
        46
    lambohu  
       185 天前
    @fanhed 他应该是训练都在本地,壕
    PandaIsGood
        47
    PandaIsGood  
       185 天前
    苹果 on-device ML 布局挺早的,可惜一直没有弄 LLM
    qweruiop
        48
    qweruiop  
       185 天前
    这次 win 发了 ai pc ,mac 确实落后了。。。
    leonz95
        49
    leonz95  
       185 天前 via iPhone
    苹果做好推理能力就好了
    lategege
        50
    lategege  
       185 天前
    mac 在开发效率上无与伦比,因为其完备的开发工具和系统的稳定性,但是它不适合跑服务,所有图形化系统本身就非常吃资源,你服务当然是要跑在单独的 linux 中才能让利用率最大化。
    MC
        51
    MC  
       185 天前
    第三方能做的,第一方为什么一定要下场做?苹果也不是一家 AI 公司啊。。。
    Baratheon
        52
    Baratheon  
       185 天前
    斗蛐蛐爱好者踢到铁板了
    dangotown
        53
    dangotown  
       185 天前
    @LuckyLauncher 超分就行啊
    xdtx
        54
    xdtx  
       185 天前
    软件兼容性好就行了,比如我是 MBA 还是 8G 的 M1 ,Pytorch 切换 MPS 和 CUDA 也不算太复杂的迁移
    KoreaFish
        55
    KoreaFish  
       185 天前
    也不是,蘋果芯片的 NPU 是這麼多移動處理器裡最強的,基礎有了,只是缺一些應用。
    phub2020
        56
    phub2020  
       183 天前
    AI 已经这么屌了吗?在本地跑也能有生产力啦?我版本落后这么多啦?
    5177748
        57
    5177748  
       169 天前
    Wow~~ Amazing! Only Apple Can Do!
    babyedi31996
        58
    babyedi31996  
       26 天前
    @mumbler 这几天新出的 M4 Mac Mini 有 64G 版本,17000 左右能上 64G 网 10Gb 的,有搞头吗?

    能跑量化的 70b 吗
    babyedi31996
        59
    babyedi31996  
       26 天前
    @YooboH 不是什么从业者,深度学习的问题.玩家想本地跑 llm...现在的大模型都有审查,没法玩最好玩的部分阿
    mumbler
        60
    mumbler  
       26 天前
    @babyedi31996 #58 本地跑 70B 意义不大,能跑是能跑,但太慢没有实用价值。只有 10B 以下模型可以流畅运行,基本上当前 7B ,8B 就能达到上一代 70B 左右的水平,比如 gemma2 9B 就比 qwen1.5 72B 要强
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1327 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 17:42 · PVG 01:42 · LAX 09:42 · JFK 12:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.