SteveRogers
V2EX  ›  Local LLM

本地大模型最佳 Mac 配置选择

  •  
  •   SteveRogers · May 27 via iPhone · 2071 views
    近期看了下,因为人在深圳,去 hk 非常方便,加上有教育渠道,想选一台 mac studio 作为个人本地跑龙虾专用,也不准备全部本地,那个内存最低都要 128G ,性价比太低,想着端云结合着来。

    模型估计是:
    1.gemm4 31b
    2.qwen3 32b

    想问问有本地跑模型的吗,跑的怎么样?

    初步计划硬件为

    M4Max 64G 1Tb 这个版本,22749 折合下来估计在 19000 左右
    23 replies    2026-05-31 21:33:40 +08:00
    andyskaura
        1
    andyskaura  
       May 27
    看出来了,你单纯就是想买个 mac studio
    anerevol
        2
    anerevol  
       May 27
    64G 能跑的也不多吧. 现在 deepseek v4 flash 感觉跟不要钱一样随便用了, 干简单的活也完全没问题的.
    snachx
        3
    snachx  
       May 27   ❤️ 1
    https://apxml.com/zh/tools/vram-calculator

    可以用这个试试看到底需要什么配置的 mac
    novaren
        4
    novaren  
       May 27 via Android
    降价了吗
    AIgogo
        5
    AIgogo  
       May 27
    现在端侧或者本地部署,适合特别有兴趣或者能和工作任务挂钩的情况,不然就是吃灰、投资硬件。。。
    SteveRogers
        6
    SteveRogers  
    OP
       May 27 via iPhone
    @andyskaura 想去采集分析一些帖子、包括评论区,看看消费者到底喜欢什么样的产品
    niubilewodev
        7
    niubilewodev  
       May 27
    @SteveRogers 你的这些需求用 API 就好了。
    burp2019
        8
    burp2019  
       May 27
    @snachx 这个可以,真直观
    xxq2334
        9
    xxq2334  
       May 27 via iPhone
    256g 应该能跑量化后 deepseek v4 flash
    SteveRogers
        10
    SteveRogers  
    OP
       May 28 via iPhone
    @xxq2334 256g 太贵了,普通人砸下去很难回本
    uprit
        11
    uprit  
       May 28
    30B 左右的这个级别,本地只能干简单的活儿。比如翻译、写个 commit 文档什么的。
    qwen3.6 27B 被传的那么邪乎,实际也就是比其他本地模型强一些。别抱太大期望。
    俺试过用这个模型写代码,吭哧吭哧写两天,一大堆问题解决不了,换用线上 API ,结果俩小时搞定,架构还更简洁。
    sn0wdr1am
        12
    sn0wdr1am  
       May 28
    我总感觉的,目前的情况下,端侧部署本地大模型,要么是土豪的不行,要么就是性价比太差。
    frantic
        13
    frantic  
       May 28   ❤️ 1
    @SteveRogers 你这诉求直接 deepseek v4 flash 就好了,买设备的预算拿出来 2000 够你用大半年的
    coefu
        14
    coefu  
       May 28   ❤️ 2
    mac studio m4 max 的 内存带宽才 410GB/s ,跑 30B 左右的 dense ,虽然可以用 mtp 加速,但是依然鸡肋。

    mac studio 只能买 ultra ,m3 ultra 的内存带宽 819GB/s ,nvidia tesla v100 的 hbm2 900GB/s ,可以接近,但是容量超过 128G 就是鸡肋。

    mac studio 最大的优势是 功耗低,最大持续功耗 480 瓦,也就 2 张 N 卡的功耗。
    zhongzh
        15
    zhongzh  
       May 28   ❤️ 2
    我的 M5 Pro 64G ,用 omlx ,gemma-4-31b-it-OptiQ-4bit 会在 prefill 时强行触发内存保护导致 omlx 退出,Qwen3.6-27B-OptiQ-4bit ,占用内存大概是 40G 多一点。不好用
    ahdw
        16
    ahdw  
       May 30
    https://omlx.ai/benchmarks?chip=&chip_full=M4%7CMax%7C32&model=gemma+4+31b&quantization=&context=&pp_min=&tg_min=

    你看看真实 benchmark 你能接受吗。

    Qwen 27b 和 gemma 31b 这种 dense 模型还是得显卡
    ahdw
        17
    ahdw  
       May 30
    @zhongzh 你跑多大的 context ?

    oMLX - LLM inference, optimized for your Mac
    https://github.com/jundot/omlx
    Benchmark Model: Qwen3.6-27B-MLX-VL-oQ8-fp16 (DFlash)
    ================================================================================

    Single Request Results
    --------------------------------------------------------------------------------
    Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
    pp1024/tg128 9841.9 24.30 104.0 tok/s 41.5 tok/s 12.927 89.1 tok/s 31.94 GB
    pp4096/tg128 38659.6 23.87 106.0 tok/s 42.2 tok/s 41.691 101.3 tok/s 34.03 GB
    pp8192/tg128 77367.7 24.89 105.9 tok/s 40.5 tok/s 80.529 103.3 tok/s 35.27 GB
    pp16384/tg128 160222.9 25.85 102.3 tok/s 39.0 tok/s 163.506 101.0 tok/s 37.61 GB
    pp32768/tg128 349855.4 49.53 93.7 tok/s 20.3 tok/s 356.146 92.4 tok/s 42.01 GB
    pp65536/tg128 801931.3 51.50 81.7 tok/s 19.6 tok/s 808.472 81.2 tok/s 47.38 GB
    yiranw09
        18
    yiranw09  
       May 30
    除非有保密需求,我已经想不出用本地模型的理由了
    SteveRogers
        19
    SteveRogers  
    OP
       20h 55m ago via iPhone
    @yiranw09 本地大模型可以跑越狱的大模型,比如加壳破解、程序逆向分析。除此之外,也可以可以自由的把很多大作包括马克思等进行无灌输中立性的客观分析。

    可以理解开局就是一把刀,什么都可以自由创造,这就是科学的原始形态。

    不过这种模型也很危险,最近用了 qwen3.6 越狱模型,这种无束缚的模型需要意志坚定、伦理道德观念强一些的人才能掌控
    zhongzh
        20
    zhongzh  
       13h 30m ago
    zhongzh
        21
    zhongzh  
       13h 28m ago
    内存占用是 omlx 的问题,我看最新的提交已经在修复了。本地布署最难受的是,让他改代码,他总是提供错误的字符导致修改失败,有时一轮对话,十几次尝试修改,全是错误。
    ahdw
        22
    ahdw  
       10h 18m ago
    @zhongzh 我试了一圈下来,Qwen3.6-35b-a3b-oQ8 不开思考模式是最稳的,我 hot cache 设置成 2GB ,memory guard 设置成 aggressive ,用 Pi Coding Agent ,在一个 session 里面反复探索、深入,体验和用 DSv4 Flash 这样的模型很接近了。当然,智力是明显差一些的。但是真的已经是能用的程度了。

    27B 和 31B 两个,在我的 M1 Max 上最大的问题是 PP 太慢。这两个 Dense Model 对量化的容忍程度比 MoE 高,为了速度,我选了 4bit 量化,但是还是慢。差不多 10 tokens/s 的生成速度我能忍,但是真实场景里面到了中途以后,动辄 10 分钟起步的 PP 令我难以忍受。
    SteveRogers
        23
    SteveRogers  
    OP
       7h 26m ago via iPhone
    @ahdw 可以再让子弹飞一会,等 m5 u 。看看带宽上去是不是更快
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   837 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 68ms · UTC 20:59 · PVG 04:59 · LAX 13:59 · JFK 16:59
    ♥ Do have faith in what you're doing.