想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题，有人测试过速度吗？

29 条回复 • 2026-04-14 08:27:36 +08:00

1

MacsedProtoss

23 小时 30 分钟前 via iPhone

这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主

2

qweruiop

23 小时 16 分钟前

受限于上下文，太慢了，回复质量太差了。。。

3

Jh1n

23 小时 16 分钟前

64G 我试过，龙虾请求频次太高了顶不住的，还有龙虾过时了建议用 Hermes

4

huanxianghao

23 小时 15 分钟前

感觉智商不够，等 gemma5

5

Ken1028

OP

23 小时 9 分钟前

@MacsedProtoss 纯 LM Studio 跑速度如何？

6

zyxk

23 小时 5 分钟前

我使用 lm studio ，加载不了 gemma4 mlx 系列，提示是不支持，gguf 系列可以正常用，想问一下 mlx 系列怎么正常使用。

7

penisulaS

23 小时 1 分钟前

3

小模型像是弱智员工,啥工作都不派给他就是最省心的

8

liu731

PRO

22 小时 58 分钟前

参数太小了，玩玩可以。生产还是 opus 吧～

9

Ken1028

OP

22 小时 58 分钟前

@zyxk mlx 我在 MBP 也是加载失败，gguf 可以

10

wangtufly

22 小时 49 分钟前 via Android

试过了，不得行。Mac mini m4pro 64G 基本上不能用的状态。

11

Dream4U

22 小时 48 分钟前

本来 AI 最大的问题就是不确定性，你再配这么个本地模型，纯折腾。

12

nc

22 小时 47 分钟前

搞个 nsfw 版提供情绪价值倒是挺好

13

kirbyzhu

22 小时 46 分钟前 via iPhone

小模型不行

14

EchoWhale

22 小时 44 分钟前

64G macmini m4 pro, gemma4 31B Q6K
很慢, 非常慢, 10token/s. 而且智商也一般
有个钱买套餐都够好多年了

15

EchoWhale

22 小时 43 分钟前

16

nabanbaba

22 小时 42 分钟前

工作，正常用途，还是调公有云接口吧
像楼上说的数据本地化，nsfw 折腾才考虑本地部署，基本上也就是折腾着玩，打发时间。
m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。

17

Ken1028

OP

22 小时 38 分钟前

@EchoWhale Q4 能用吗😂

18

EchoWhale

22 小时 36 分钟前

@Ken1028 速度快一点, 智商再低一点. 有啥用

19

MacsedProtoss

22 小时 26 分钟前 via iPhone

@Ken1028 我在 5090 跑的话主要是上下文开不到非常高，几万吧，到不了 256K ，速度受限在 preprocessing ，吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多

20

nexo

22 小时 20 分钟前

你用这个给龙虾不是找罪受找气受嘛

21

Link99

22 小时 6 分钟前

除非你是有数据安全的需求绝对不能联网
否则性价比还是比较低的

22

salor

21 小时 41 分钟前

本地小模型仅用于文生图/AI 女友搞涩涩娱乐，再怎么折腾小学生也干不了大学生的活。

23

timeyoyo

19 小时 3 分钟前

我用 MBP M4 MAX 36G ？尝试部署了一个千问小模型，温度达到了铁板烧，然后还是乖乖充值了

24

jieee

18 小时 24 分钟前

我测试的 m4 max 配置满上下文内存占用 70G+，20t/s

25

AmericanExpress

18 小时 16 分钟前 via iPhone

M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行，除了第一个回复要等一会
问题是 mem 一下就不够了，随便跑个 skill mem 占用直接跑到 70gb
local llm 还是只能跑跑简单的问答

26

ggBalloon

13 小时 0 分钟前

让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ，结果都说 qwen3.5-35b-a3b 表现最稳定，直接淘汰 gemma4-26b-a4b

27

TheOutgoing

11 小时 1 分钟前

实测，M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ，tg 分别为 75 和 28 ，都是非常可用的状态。跑 claude code 不建议，会有 2-3 个并发很影响带宽

28

ligogid

10 小时 30 分钟前 via iPhone

@EchoWhale 古诗题别说小模型，就是正常模型不调用搜索都是胡说

29

EchoWhale

6 分钟前

@ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
当然这种问答白嫖 grok/gemini 就行了, 更快更好