V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
beginor
V2EX  ›  Local LLM

各位的 m4 设备都陆续到货了,能否跑一下 ollama/llama.cpp ,看看大模型这块的算力究竟比 m1 max m2 ultra , 提升有多少?

  •  
  •   beginor · 38 天前 via Android · 2607 次点击
    这是一个创建于 38 天前的主题,其中的信息可能已经有所发展或是发生改变。

    跑不太大的模型, 比如 Llama 3.1 8B

    https://huggingface.co/lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF/blob/main/Meta-Llama-3.1-8B-Instruct-Q8_0.gguf

    这个模型 16G 内存的丐版也能跑起来。

    23 条回复    2024-11-10 14:15:48 +08:00
    234ygg
        2
    234ygg  
       38 天前
    本地跑的全是弱智模型。。做个翻译都嫌蠢
    第三方 gpt api 还不够便宜?
    Tubbs
        3
    Tubbs  
       38 天前
    @234ygg 并不是这样的,体验一下 qwen2.5 32b 的量化模型,本地可以跑,评测水平和 gpt-4o-mini 差不多水准了,日常用起来感觉也是不错的
    lrigi
        4
    lrigi  
       38 天前 via iPhone   ❤️ 1
    @234ygg llama3.2 弱智?你太逗了,跟不上时代了已经
    slayer
        5
    slayer  
       38 天前
    @berchtesgaden #1 这个不错,现在 mac 应该在 lm studio 下跑了转换的 mlx 模型,貌似 ollama 还不支持 mlx 格式的。
    Gotchaaa
        6
    Gotchaaa  
       38 天前
    我 M1 pro 都能跑
    piero66
        7
    piero66  
       38 天前 via Android
    8b 太蠢了
    shinecurve
        8
    shinecurve  
       38 天前
    原本计划买 M4 Max + 128G 跑 ollama 的,后来从 llama 70b 的能力、算力成本和实际应用场景考虑我最终放弃了,感觉还需在在等两年,我认为目前最好的选择还是 ChatGPT 。
    希望对你能有些帮助。
    234ygg
        9
    234ygg  
       38 天前   ❤️ 1
    我已经懒得试了,最后一次跑本地模型是几个月前 gemini27b ,远不及 gpt3.5 ,勉强能干个不涉及较多专业词汇的简单翻译,功耗在我的 4090 上高达 250W 。。但凡问点其他问题,我都不说回答的对不对了,甚至不能持续稳定保持中文回答。再早几个月的 llama3 更是一坨。
    llama3.2 11b 充其量也就那点水平,合理推断也是个弱智
    gpt4o 的 apt 都那么便宜了,更不要说 3.5 了,不要骗我浪费电 听显卡电感箫叫了
    yinmin
        10
    yinmin  
       38 天前 via iPhone
    13:20 m4max 跑大模型的评测

    beginor
        11
    beginor  
    OP
       38 天前
    @berchtesgaden
    @yinmin

    M4 确实好强! 看完之后瞬间感觉手上的 M1 Max 64G 一点儿都不香了,AC 还没过期 😂
    dilidilid
        12
    dilidilid  
       38 天前 via iPhone
    真的没啥意思,我一直不能理解本地跑大模型推断的意义所在
    tanranran
        13
    tanranran  
       38 天前   ❤️ 1
    spike0100
        14
    spike0100  
       37 天前 via iPhone
    inter 问个问题 10 秒回答完,m4pro 只要一秒。
    spike0100
        15
    spike0100  
       37 天前 via iPhone
    问题是:推荐一种基于标记的存活预测模型。答案在 200 字左右。
    mike163
        16
    mike163  
       37 天前 via Android
    用 mlx 是不是比 ollama 性能更好?
    mkyos
        17
    mkyos  
       37 天前
    除非你能花几万块买英伟达的显卡,否则就别琢磨本地大模型了,还是使用商业模型吧。随着发展,商业模型肯定会各种第三方定制应用的软件或服务,以及,价格大大降低。
    volvo007
        18
    volvo007  
       36 天前
    看来离手里的 A100 还是有不小的差距,即使换 M4 ,在我这里还是做一个终端用比较合适了
    beginor
        19
    beginor  
    OP
       36 天前
    @mike163 性能上应该不会有太大的差距,llama.cpp/ollama 胜在支持更多的系统和加速器,目前对多模态模型支持比较弱,mlx M 芯片专用, 多模态 (借助 mlx-vlm ) 支持稍微好一些 。

    不过两者都不能用上 M 芯片的 NPU 加速。
    beginor
        20
    beginor  
    OP
       36 天前
    @volvo007 有 A100 振金内存加持, 肯定不用考虑苹果了。
    volvo007
        21
    volvo007  
       36 天前
    @beginor 受限于国内买不到正规渠道的 H100 ,可能有合规风险,现在还不敢上…… 不知道明年租的那个 H800 x 8 的计算节点能不能搞下来。另外 A100 如果要建模的话就无能为力了,所以现在还是不得不多端操作,A100 服务器、4090 台式、mbp 主打移动和查阅……
    beginor
        22
    beginor  
    OP
       36 天前 via Android
    @volvo007 真壕!
    volvo007
        23
    volvo007  
       36 天前
    @beginor 公款消费是这样的 lol ,我们作为零部件供应商会测试一些物料兼容性,但是硬件到手没人会玩,就便宜我了。闲着也是闲着,我来搞点东西还能加点有效负载让测试更贴近一般使用情况
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3578 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 04:14 · PVG 12:14 · LAX 20:14 · JFK 23:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.