mac mini 24g 大模型推理怎么样

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 633 days ago, the information mentioned may be changed or developed.

背景：之前有一个 2018 年的 mac intel 16g 的 mbp ，但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理，使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型，发现 2018 mbp 的更加流畅（目测 10token/秒），2023 mbp 比较卡顿（目测 3token/秒）。

问题：

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过，Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

Mac

mini

推理

27 replies • 2024-08-14 21:51:51 +08:00

unidotnet

Aug 11, 2024

24G 算了，64G 路过表示 14b ，int4 的话，占 40G 内存左右，自己算算吧。

xe2vherd

Aug 11, 2024

刚入了台 24g 的 mini ，还没测

neteroster

Aug 11, 2024

@unidotnet #1
14B 4 位怎么可能 40G ，bf16 不加上下文都没这么大

ChipWat

Aug 11, 2024

@zmxnv123 #2 求帮忙测测，其它模型也行，给个参考

xe2vherd

Aug 11, 2024

@ChipWat 怎么测，留你 tg 私聊

ChipWat

Aug 11, 2024

@unidotnet #1 我帖子里使用 Qwen1.5 parameters：14.2B quantization：Q4_0 文件大小：8.2GB 测的。老哥是不是还有其它应用，macos 系统策略是尽可能多的使用内存吧。

slowgen

Aug 11, 2024

大模型跑推理速度首先取决于带宽，带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾，只有 ultra 才值得跑大模型。
速度一览： https://github.com/ggerganov/llama.cpp/discussions/4167
简单粗暴的推理速度公式计算就是：同样的量化，14B 速度不到 7B 的 1/2 ，70B 的速度不到 7B 的 1/10

heyjei

Aug 11, 2024

在 mac 上面，你们是怎么跑大模型的？用 ollama 吗？

KcKXpykSg2777f5I

Aug 11, 2024 via Android

AMD 7840hs ，32G 内存，分配 8G 显存，跑 14B 能用的状态，所以 24G 跑 14B 应该问题不大，7B 很轻松了

Attenton

Aug 11, 2024

@unidotnet 14b 即使是 fp16 也只是大概 28G 左右，int4 怎么可能要 40G

alexmy

Aug 11, 2024

2018 16G mbp 还在服役中，也想换个，瞧瞧 m4 出来后什么情况。

graetdk

Aug 11, 2024

18G 的 M3 ，ollama 跑所有的 10B 以下的模型都很爽，而且感觉够用

mumbler

Aug 11, 2024

gemma2 9B 能打 qwen1.5 110B ，M 芯片下能跑到 20+token 的速度，且中文支持很好

可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包，支持 mac ，自带 ollama+图形界面+知识库

234ygg

Aug 12, 2024 via iPhone

gemma2 9b 勉强能跑的水平吧？但效果很差，满嘴胡言乱语也就仅适合做做翻译。。
效果应该比我 4090 好点，4090 跑这玩意功耗 250W 简直爆炸，最烦的是电感在那丝丝叫。
做翻译那还不如直接用 gpt4o ，四舍五入不要钱

yinmin

Aug 12, 2024 via iPhone

个人在本地部署跑 9b 、14b 实用价值不大，也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计（个人使用），功能远超开源小模型。

目前企业（尤其是涉密单位）在内网部署小模型，做些文字审查、文字格式提炼的专项业务比较实用。

bugcreator

Aug 12, 2024 via iPhone

32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明

ZiM77FAp328moIuB

Aug 12, 2024 via iPhone

最近在纠结买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块）

murmur

Aug 12, 2024

如果没有研究或者折腾的打算，买付费商业大模型更划算

kzzhr

Aug 12, 2024 via Android

m 几呀？ 3t/s 感觉像是没走 GPU ，可以看下监控

lairdnote

Aug 12, 2024

macbook. 32G. 跑 gemma2b 还可以

weixind

Aug 12, 2024

@jwwwii 秋季发布会会发 m4 的 mac mini 吧。

xing7673

Aug 12, 2024

@unidotnet llm 推理内存很好算，q4 约等于当前参数/2=内存，比如 14b 应该是 7g 内存左右。
以此类推 q8 14b=14g
f16 14b=28g
还需要加一些推理机制内存，不过大抵可以这么推算。
建议先自己运行检查一遍

wingerwwang

Aug 12, 2024 via iPhone

m1max 32g 跑 llama3.1 7B 效果不错，6g 内存上下。效果比我试过的其他几个 13B 都要好。

beyondsoft

Aug 12, 2024

建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s

8355

Aug 12, 2024

只能跑小模型吧。。大模型好像要内存拉满了

unidotnet

Aug 14, 2024

@xing7673
@neteroster
@ChipWat
@Attenton

计算模型要多少内存没问题，我是个人使用经验。但 mac 共享内存，总不见得啥别的系统开销都不要吧，纯命令行裸写一堆 json 去交互。。。跑模型把别的应用都关了就没啥实用价值。再多做点，开始 embed ，比如跑点 neo4j 什么的是吧，界面要有个吧，跑个 docker ，web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理，GPU full ，内存虽然 64G 没用满，但是基本在 40 几 G ，除非 pumas 命令显示不正确。

xing7673

Aug 14, 2024

@unidotnet #26 你这回复。。。。。没必要