Air M3 24G 能不能跑不量化的 7B 本地大模型推理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 582 天前的主题，其中的信息可能已经有所发展或是发生改变。

无风扇：温度应该不是问题，跑几分钟，然后就可以休息一下，不会太被温度墙限制。

看了一下 ollama 上的 7B fp16 （或者 bf16 ）模型，权重文件大多在 15GB~17GB 范围内，内存应该内放下，还能给别的应用留一点儿空间。（我看到 PyTorch 的 issues 中提到加载模型过程，即使开了 mmap 也会有剧烈的内存波动，峰值内存占用会到模型权重文件的两倍大，这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。）

cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ，大概桌面版 4060 Ti 的三分之一。担心即使能跑，token 输出速度也很低。

所以，有 V 友真的用 Air 跑过本地大模型吗？

Air

推理

14 条回复 • 2024-03-29 10:08:32 +08:00

noyidoit

2024-03-28 15:08:54 +08:00

用 16g 的 m1 跑过 4bit 4B 的 llama2 ，大概占用 6g 内存，但也只是能跑而已，输出巨慢

RHG

2024-03-28 15:09:28 +08:00

18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右，感觉用着没问题，只是这些本地模型还是不够智能

maizero

2024-03-28 15:12:39 +08:00

M2PRO 32G 不知道能跑 13b 么

SakuraYuki

2024-03-28 15:14:02 +08:00

能跑是能跑，但你应该也不会太想用

WuSiYu

2024-03-28 15:29:38 +08:00

并不是 4060ti 的三分之一，而是二十五分之一（纯算力），n 卡跑模型都会上 tensor core ，4060ti 的 tensor core 有 177 TFLOPS ，当时受限于内存带宽实际能跑到一半就不错了

CatCode

2024-03-28 16:25:13 +08:00

@WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型，发现 fp16 非量化比 int8 量化的快至少一倍，因为 20 系并没有原生支持 int8 ，而原生支持了 fp16 。

wensonsmith

2024-03-28 17:37:00 +08:00

M1 Pro 16G ，跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大

ShadowPower

2024-03-28 18:58:43 +08:00

@CatCode 这种情况是运算性能有瓶颈，而显存带宽无瓶颈。
量化之后实际上并不会真的用量化的精度来计算，计算时都会还原到 fp16 或者 fp32 。（不同的算子好像要求不同）。

而还原到 fp16/fp32 的过程需要消耗额外的算力。

jasdkasdjkas

2024-03-28 19:07:37 +08:00 via iPhone

不要幻想 Apple 机子跑模型了老老实实 N 卡

WuSiYu

2024-03-28 19:18:21 +08:00

@CatCode 我这里说的都是 fp16

oIMOo

2024-03-28 22:46:20 +08:00

你搜下这个应用 jan.ai
里面有一些预制的模型，你可以看哪些可以跑做个参考

oIMOo

2024-03-28 22:46:33 +08:00

@oIMOo #11 预置*

mumbler

2024-03-28 23:12:27 +08:00

fp16 和 q5_k_m 差距几乎忽略不计，7b 只需要 5G 多内存

ozOGen

2024-03-29 10:08:32 +08:00

NAME ID SIZE MODIFIED
gemma:latest 430ed3535049 5.2 GB 2 weeks ago
llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

试过这几个都在 M2 Air 24G 上跑的，无压力