想整台 macbook pro 跑 llama3 70b，请问用啥配置合适？ M3 max 128G？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 508 天前的主题，其中的信息可能已经有所发展或是发生改变。

据说 llama3 70b 能接近 gpt4 的效果，有用过的兄弟没？

MacBook

llama3

配置

19 条回复 • 2024-05-22 14:13:54 +08:00

nino

2024-05-09 22:15:28 +08:00

128G 可以跑起来 70b ，但是还是挺慢的，没有什么实用性，本地还是跑 8b 的合适。追求效果还是买 Groq ，DeepSeek 之类的吧。

maolon

2024-05-09 22:26:45 +08:00 via Android

接近是接近，推理和跟随用户指令上来说还是差点意思，中文能力更差点意思，另外用 groq 就可以了，个人用直接免费那一档不会超限制。

idblife

2024-05-09 22:38:25 +08:00

多谢 #1 #2 ，groq 还是不错的，哈哈

jimmy

2024-05-09 23:24:29 +08:00

MBP M2 Max 64G 跑 Llama3 8B 速度很快，效果么，没对比过不知道具体情况。

idblife

2024-05-09 23:52:19 +08:00

@jimmy #4
还是想试试 70b 的 llama3

Rorysky

2024-05-10 00:00:22 +08:00

16gb 能跑什么模型

keakon

2024-05-10 00:25:47 +08:00

@Rorysky 跑过 7B int8 的推理，每秒大概 20 tokens

uCVqn130hR86WDU8

2024-05-10 01:14:41 +08:00

你只是单纯想买台新电脑🤪

icestraw

2024-05-10 06:55:31 +08:00 via Android

我用过，得用压缩后的。q8 大概会占用 70G 的内存，只是对话的话可以正常进行。效果只能说能正常对话，想要处理点工作估计够呛。

winson030

2024-05-10 08:12:25 +08:00

好奇个人用户在本地跑这么大的模型需求点是啥？我算了下，70b 这种大模型用 api （加上解决网络问题）花的钱比自己攒机器跑要便宜很多。本地运行 llama3 8b 这种模型倒是很合适。目前我的想法是，找机会把各种大模型平台的 API 都开了（反正都是 pay as you go ），整合到 one api 里，想用哪个用哪个。本地机器跑小模型，保证输出效率