V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ken1028
V2EX  ›  macOS

想掏一台 Mac mini M4 Pro 64G 跑 gemma4 31b Q4 接 openclaw 处理日常的问题,有人测试过速度吗?

  •  
  •   Ken1028 · 23 小时 37 分钟前 · 2459 次点击
    29 条回复    2026-04-14 08:27:36 +08:00
    MacsedProtoss
        1
    MacsedProtoss  
       23 小时 30 分钟前 via iPhone
    这个玩意估计不太行 openclaw 还是跑蛮多代码相关的。这个模型感觉还是传统对话为主
    qweruiop
        2
    qweruiop  
       23 小时 16 分钟前
    受限于上下文,太慢了,回复质量太差了。。。
    Jh1n
        3
    Jh1n  
       23 小时 16 分钟前
    64G 我试过,龙虾请求频次太高了顶不住的,还有龙虾过时了建议用 Hermes
    huanxianghao
        4
    huanxianghao  
       23 小时 15 分钟前
    感觉智商不够,等 gemma5
    Ken1028
        5
    Ken1028  
    OP
       23 小时 9 分钟前
    @MacsedProtoss 纯 LM Studio 跑速度如何?
    zyxk
        6
    zyxk  
       23 小时 5 分钟前
    我使用 lm studio , 加载不了 gemma4 mlx 系列,提示是不支持,gguf 系列可以正常用, 想问一下 mlx 系列怎么正常使用。
    penisulaS
        7
    penisulaS  
       23 小时 1 分钟前   ❤️ 3
    小模型像是弱智员工,啥工作都不派给他就是最省心的
    liu731
        8
    liu731  
    PRO
       22 小时 58 分钟前
    参数太小了,玩玩可以。生产还是 opus 吧~
    Ken1028
        9
    Ken1028  
    OP
       22 小时 58 分钟前
    @zyxk mlx 我在 MBP 也是加载失败,gguf 可以
    wangtufly
        10
    wangtufly  
       22 小时 49 分钟前 via Android
    试过了,不得行。Mac mini m4pro 64G 基本上不能用的状态。
    Dream4U
        11
    Dream4U  
       22 小时 48 分钟前
    本来 AI 最大的问题就是不确定性,你再配这么个本地模型,纯折腾。
    nc
        12
    nc  
       22 小时 47 分钟前
    搞个 nsfw 版提供情绪价值倒是挺好
    kirbyzhu
        13
    kirbyzhu  
       22 小时 46 分钟前 via iPhone
    小模型不行
    EchoWhale
        14
    EchoWhale  
       22 小时 44 分钟前
    64G macmini m4 pro, gemma4 31B Q6K
    很慢, 非常慢, 10token/s. 而且智商也一般
    有个钱买套餐都够好多年了
    EchoWhale
        15
    EchoWhale  
       22 小时 43 分钟前
    nabanbaba
        16
    nabanbaba  
       22 小时 42 分钟前
    工作,正常用途,还是调公有云接口吧
    像楼上说的数据本地化,nsfw 折腾才考虑本地部署,基本上也就是折腾着玩,打发时间。
    m3ultra 在 openclaw 这种十万级别的上下文推理效果估计都一般。
    Ken1028
        17
    Ken1028  
    OP
       22 小时 38 分钟前
    @EchoWhale Q4 能用吗😂
    EchoWhale
        18
    EchoWhale  
       22 小时 36 分钟前
    @Ken1028 速度快一点, 智商再低一点. 有啥用
    MacsedProtoss
        19
    MacsedProtoss  
       22 小时 26 分钟前 via iPhone
    @Ken1028 我在 5090 跑的话主要是上下文开不到非常高,几万吧,到不了 256K ,速度受限在 preprocessing ,吐 token 有几十。如果是 Mac 的话考虑到 preprocessing 估计 64G 的上下文长度和 5090 差不多的情况下速度慢很多
    nexo
        20
    nexo  
       22 小时 20 分钟前
    你用这个给龙虾不是找罪受 找气受嘛
    Link99
        21
    Link99  
       22 小时 6 分钟前
    除非你是有数据安全的需求 绝对不能联网
    否则性价比还是比较低的
    salor
        22
    salor  
       21 小时 41 分钟前
    本地小模型仅用于文生图/AI 女友搞涩涩娱乐,再怎么折腾小学生也干不了大学生的活。
    timeyoyo
        23
    timeyoyo  
       19 小时 3 分钟前
    我用 MBP M4 MAX 36G ?尝试部署了一个 千问小模型 , 温度达到了铁板烧,然后还是乖乖充值了
    jieee
        24
    jieee  
       18 小时 24 分钟前
    我测试的 m4 max 配置满上下文内存占用 70G+,20t/s
    AmericanExpress
        25
    AmericanExpress  
       18 小时 16 分钟前 via iPhone
    M4 max 64gb mem mac studio 跑 gemma4 31b 搭配 opencode 在 mem 够的时候还行,除了第一个回复要等一会
    问题是 mem 一下就不够了,随便跑个 skill mem 占用直接跑到 70gb
    local llm 还是只能跑跑简单的问答
    ggBalloon
        26
    ggBalloon  
       13 小时 0 分钟前
    让 Gemini 和 gpt 分别出各种问题测试大模型 qwen3.5-35b-a3b 和 9b 以及 gemma4-26b-a4b ,结果都说 qwen3.5-35b-a3b 表现最稳定,直接淘汰 gemma4-26b-a4b
    TheOutgoing
        27
    TheOutgoing  
       11 小时 1 分钟前
    实测,M5 Max Qwen3.5-122b-a10b, gemma4-31b 都是 4bit ,tg 分别为 75 和 28 ,都是非常可用的状态。跑 claude code 不建议,会有 2-3 个并发很影响带宽
    ligogid
        28
    ligogid  
       10 小时 30 分钟前 via iPhone
    @EchoWhale 古诗题别说小模型,就是正常模型不调用搜索都是胡说
    EchoWhale
        29
    EchoWhale  
       6 分钟前
    @ligogid zai-org/glm-4.7-flash 这个模型不错, 43 tokens/s
    当然这种问答白嫖 grok/gemini 就行了, 更快更好
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3347 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 00:33 · PVG 08:33 · LAX 17:33 · JFK 20:33
    ♥ Do have faith in what you're doing.