本地大模型最佳 Mac 配置选择

近期看了下，因为人在深圳，去 hk 非常方便，加上有教育渠道，想选一台 mac studio 作为个人本地跑龙虾专用，也不准备全部本地，那个内存最低都要 128G ，性价比太低，想着端云结合着来。

模型估计是：
1.gemm4 31b
2.qwen3 32b

想问问有本地跑模型的吗，跑的怎么样？

初步计划硬件为

M4Max 64G 1Tb 这个版本，22749 折合下来估计在 19000 左右

Mac

模型

配置

23 replies • 2026-05-31 21:33:40 +08:00

andyskaura

May 27

看出来了，你单纯就是想买个 mac studio

anerevol

May 27

64G 能跑的也不多吧. 现在 deepseek v4 flash 感觉跟不要钱一样随便用了, 干简单的活也完全没问题的.

snachx

May 27

https://apxml.com/zh/tools/vram-calculator

可以用这个试试看到底需要什么配置的 mac

novaren

May 27 via Android

降价了吗

AIgogo

May 27

现在端侧或者本地部署，适合特别有兴趣或者能和工作任务挂钩的情况，不然就是吃灰、投资硬件。。。

SteveRogers

May 27 via iPhone

@andyskaura 想去采集分析一些帖子、包括评论区，看看消费者到底喜欢什么样的产品

niubilewodev

May 27

@SteveRogers 你的这些需求用 API 就好了。

burp2019

May 27

@snachx 这个可以，真直观

xxq2334

May 27 via iPhone

256g 应该能跑量化后 deepseek v4 flash

SteveRogers

May 28 via iPhone

@xxq2334 256g 太贵了，普通人砸下去很难回本

uprit

May 28

30B 左右的这个级别，本地只能干简单的活儿。比如翻译、写个 commit 文档什么的。
qwen3.6 27B 被传的那么邪乎，实际也就是比其他本地模型强一些。别抱太大期望。
俺试过用这个模型写代码，吭哧吭哧写两天，一大堆问题解决不了，换用线上 API ，结果俩小时搞定，架构还更简洁。

sn0wdr1am

May 28

我总感觉的，目前的情况下，端侧部署本地大模型，要么是土豪的不行，要么就是性价比太差。

frantic

May 28

@SteveRogers 你这诉求直接 deepseek v4 flash 就好了，买设备的预算拿出来 2000 够你用大半年的

coefu

May 28

mac studio m4 max 的内存带宽才 410GB/s ，跑 30B 左右的 dense ，虽然可以用 mtp 加速，但是依然鸡肋。

mac studio 只能买 ultra ，m3 ultra 的内存带宽 819GB/s ，nvidia tesla v100 的 hbm2 900GB/s ，可以接近，但是容量超过 128G 就是鸡肋。

mac studio 最大的优势是功耗低，最大持续功耗 480 瓦，也就 2 张 N 卡的功耗。

zhongzh

May 28

我的 M5 Pro 64G ，用 omlx ，gemma-4-31b-it-OptiQ-4bit 会在 prefill 时强行触发内存保护导致 omlx 退出，Qwen3.6-27B-OptiQ-4bit ，占用内存大概是 40G 多一点。不好用

ahdw

May 30

https://omlx.ai/benchmarks?chip=&chip_full=M4%7CMax%7C32&model=gemma+4+31b&quantization=&context=&pp_min=&tg_min=

你看看真实 benchmark 你能接受吗。

Qwen 27b 和 gemma 31b 这种 dense 模型还是得显卡

ahdw

May 30

@zhongzh 你跑多大的 context ？

oMLX - LLM inference, optimized for your Mac
https://github.com/jundot/omlx
Benchmark Model: Qwen3.6-27B-MLX-VL-oQ8-fp16 (DFlash)
================================================================================

Single Request Results
--------------------------------------------------------------------------------
Test TTFT(ms) TPOT(ms) pp TPS tg TPS E2E(s) Throughput Peak Mem
pp1024/tg128 9841.9 24.30 104.0 tok/s 41.5 tok/s 12.927 89.1 tok/s 31.94 GB
pp4096/tg128 38659.6 23.87 106.0 tok/s 42.2 tok/s 41.691 101.3 tok/s 34.03 GB
pp8192/tg128 77367.7 24.89 105.9 tok/s 40.5 tok/s 80.529 103.3 tok/s 35.27 GB
pp16384/tg128 160222.9 25.85 102.3 tok/s 39.0 tok/s 163.506 101.0 tok/s 37.61 GB
pp32768/tg128 349855.4 49.53 93.7 tok/s 20.3 tok/s 356.146 92.4 tok/s 42.01 GB
pp65536/tg128 801931.3 51.50 81.7 tok/s 19.6 tok/s 808.472 81.2 tok/s 47.38 GB

yiranw09

May 30

除非有保密需求，我已经想不出用本地模型的理由了

SteveRogers

20h 55m ago via iPhone

@yiranw09 本地大模型可以跑越狱的大模型，比如加壳破解、程序逆向分析。除此之外，也可以可以自由的把很多大作包括马克思等进行无灌输中立性的客观分析。

可以理解开局就是一把刀，什么都可以自由创造，这就是科学的原始形态。

不过这种模型也很危险，最近用了 qwen3.6 越狱模型，这种无束缚的模型需要意志坚定、伦理道德观念强一些的人才能掌控

zhongzh

13h 30m ago

@ahdw

zhongzh

13h 28m ago

内存占用是 omlx 的问题，我看最新的提交已经在修复了。本地布署最难受的是，让他改代码，他总是提供错误的字符导致修改失败，有时一轮对话，十几次尝试修改，全是错误。

ahdw

10h 18m ago

@zhongzh 我试了一圈下来，Qwen3.6-35b-a3b-oQ8 不开思考模式是最稳的，我 hot cache 设置成 2GB ，memory guard 设置成 aggressive ，用 Pi Coding Agent ，在一个 session 里面反复探索、深入，体验和用 DSv4 Flash 这样的模型很接近了。当然，智力是明显差一些的。但是真的已经是能用的程度了。

27B 和 31B 两个，在我的 M1 Max 上最大的问题是 PP 太慢。这两个 Dense Model 对量化的容忍程度比 MoE 高，为了速度，我选了 4bit 量化，但是还是慢。差不多 10 tokens/s 的生成速度我能忍，但是真实场景里面到了中途以后，动辄 10 分钟起步的 PP 令我难以忍受。

SteveRogers

7h 26m ago via iPhone

@ahdw 可以再让子弹飞一会，等 m5 u 。看看带宽上去是不是更快