1
mumbler 1 天前 ![]() 能跑,很酷,但性价比很低
目前跑大模型最划算的是 2080ti 魔改 22G ,用 128G M4 的价格可以买 8 块 2080 交火 176G ,多并发流畅跑 32B fp16 和 70B fp16 ,剩下的钱还能再买个 16G m4 用 |
![]() |
3
chiaf 1 天前
你指的训练大模型吧,那不能。
本地跑的那种跑,绝对没问题,除了那种超大的模型,比如什么迪普稀客满血版🌝 |
![]() |
4
lithiumii 1 天前 via Android
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
|
5
noobjalen 1 天前
|
![]() |
6
neteroster 1 天前 via Android
[同时]满足下面几个要求的情况下有优势:
1. bs=1 (不并发) 2. 轻 prefill 负载(仅类似 chatbot 任务,没有 rag 这样的工况) 3. 静音与便携 4. 需要跑较大的模型(很慢但能跑) --- 一旦你要并发或者重 prefill 任务就会原地爆炸,被多消费卡方案杀出几十上百倍的吞吐都不是不可能的。就算你不考虑吞吐只是单线程,也只有跑 MoE 的时候有比较显著的性价比优势,可惜这 128G 左右也没啥合适的 MoE 。 综合意见就是,大体上优势只有功耗静音。Ultra 的话能装下 R1 还有点看头,Max 除了功耗这些外围的基本可以说没什么跑 LLM 的优势。 |
![]() |
7
killgfat 1 天前 via Android
除非你对输出速度没什么要求,但对能耗很有要求,而且预算很充足,不然不建议这么干,这个钱组 PC 都够组一套勉强能通过 ktransformers 跑 dsv3 的玩意了
|
8
hefish 23 小时 41 分钟前
gpu 太弱, 本机跑跑问题不大。 针对 apple metal 的工具链也不够完善。 至少 vllm 目前还不支持 apple 的 gpu 。。。ollama 倒是支持了,exo 也支持了,但是开源的模型不能直接用,ollama 需要导入,有时候会因为 gpu 架构问题导入失败,exo 都不知道怎么导入自己下载的模型。。。
|
![]() |
9
liulicaixiao 22 小时 50 分钟前 ![]() 个人觉得不要为了跑大模型而买设备,而应该是有刚需买这个设备,而这个设备恰好能跑大模型。因为大模型的需求是无止尽的,你买一个超级豪华配置的钱,足够你使用 api 很久,而且还能免去你配置中出现的各种问题
|
![]() |
10
yiios 22 小时 39 分钟前
|
![]() |
11
icyalala 22 小时 16 分钟前
如果你买 Mac 做生产力工具,大模型刚好是其中的一个需求,那非常合适。
如果你买这个目的就只跑大模型,那就没意义了,楼上大部分对比都是基于这个假设。。。 |
![]() |
12
ShadowPower 22 小时 1 分钟前
这个容量能跑的实用模型,消费级 N 卡都能单卡或者双卡跑( 32B / 70B )
实用程度更高的模型,128GB 内存不够跑,想方设法跑起来也会有很严重的性能/质量问题 |
13
BernieDu 21 小时 41 分钟前
@mumbler 8 块 2080ti 魔改 22g 交火带宽是多少,没记错的话 2080ti 不支持 nvlink 。PCIe 3.0 每卡双向带宽 7.88 GB/s 。是 m4 ultra 内存带宽的 100 分之一。你确定能流畅跑 70B fp16 ? 每秒输出多少 token ?
|
![]() |
14
azhangbing 21 小时 8 分钟前 via iPhone
充钱用 token 可以到天荒地老
|
15
DICK23 21 小时 6 分钟前
我之前也是这么个想法,但是后面想想如果只是运行不训练,那直接用云服务 API 不是更便宜吗?数据敏感的场景除外
|
![]() |
17
ShadowPower 20 小时 46 分钟前
@DICK23 数据敏感的场景拿出来租几天 VPS 跑,没有哪家厂商会花成本去监听和解析内存数据
|
18
234ygg 20 小时 31 分钟前
压根跑不动比较大的模型,吐第一个字要等半个世纪,上下文越长,吐第一个字速度越慢
|
![]() |
20
Liftman 15 小时 38 分钟前
我就是,明确的跟你讲,除非 mlx 优化的,一般不咋的。正常你如果 ollama 拉一个。32b 及以下参数量的模型。速度还算不错。如果到 70b 。就 10tokens 左右了。
但是。这应该是能买到的本地化+移动便携最好的设备了。。。。我出去做讲座都是开 32b+70b+7b+1.5b 给人家演示参数的差别。。所以还算不错啦。。。毕竟你想现在买个 2 个 4090 的设备也就那么点显存。还不够跑个寂寞呢。。。也不能带出门。。。 |
![]() |
21
clf 15 小时 33 分钟前
挺适合。
2080Ti 方案的话,残值低,买到手=亏 70%,还没算额外的电源成本和 8 卡主板等周边配套的成本。 起码在能耗、性能和省事上来说,M4 Max 很不错。(至少后续没兴趣在本地跑大模型了,也能卖二手,保值率还是挺高的) |
![]() |
22
wclebb 10 小时 58 分钟前 via iPhone
Mac Studio M2 Max 64G 跑过 70B DS ,能跑。只是找不到实用性价值(都是用 API 和 ChatGPT 聊天)。
DS 问多了也会把我搞抑郁,不敢问了。所以 128G 肯定能跑。只是得问一下实用性的价值在哪里而已。iOS Craft 已经支持离线下载 DS 可以用 AI (估计 Mac 也能)。 后面估计可以玩更好玩的玩法,只是现在还没有。 |
![]() |
23
rogerer 5 小时 55 分钟前
为了考虑要不要在本地跑 LLM 买设备,不如考虑一下这个钱拿去买 token 会不会更好。开源的模型,deepseek qwen llama ,它们的 api 也都不算贵。
|
24
newbeelity 4 小时 2 分钟前
请教一下 8 张 2080 怎么硬件交火,用什么交火硬件
@mumbler |
![]() |
25
ShadowPower 3 小时 36 分钟前
@BernieDu 推理对 PCIe 带宽要求很低,训练的要求倒是很高
|
26
newbeelity 2 小时 30 分钟前
多张民用显卡叠加跑模型一直是个问题,目前仅有软件方案 exo 等(仍在 beta ),虽然官方出了 nvlink 硬件,但支持的显卡,及数量都是优先的。所以用民用显卡显存堆起来跑大尺寸模型本身就不可行。我给楼主的建议是,mac studio 可行,速度还能接受,每秒 20 个 token 左右
-- 来自 m3 ultra 512G 统一内存用户 |
27
BernieDu 1 小时 49 分钟前
@ShadowPower 如果推理不要求带宽那都用内存推理了。。
|
![]() |
28
ShadowPower 1 小时 40 分钟前
@BernieDu
PCIe 接口在推理的过程中,传输的数据只有用户输入的文本和模型返回的文本(一次一 Token ) 多卡的话,再加上一些层与层之间传输的信息以及一些上下文更新信息,也非常少 吃的带宽都是 GPU-显存之间的带宽,这部分不走 PCIe 。为什么吃:因为生成一个 Token 就得访问一次所有激活参数。但你需要注意的是,这是 GPU 访问自己负责的那部分参数,多 GPU 也不会需要 A GPU 去访问 B GPU 上的显存。 如果用 NVIDIA 以前的 SLI 技术,那倒是会有上面说的情况。但跑模型并不采用这种技术方案,AI 工程师不会那么蠢…… |
![]() |
29
ShadowPower 1 小时 30 分钟前 via Android
@BernieDu 我现在用来跑 LLM 的显卡,实际 PCIe 带宽是 7.88GB/s (用的平台太老),显卡的显存带宽是 288GB/s ,跑 5bpw 量化 14B 模型实际有 28 token/s
|
30
BernieDu 1 小时 11 分钟前
@ShadowPower 14B 5bit 的小模型大概需要 9g 显存,你这用不着交火吧。我自己没试过 pcie 显卡交火跑模型,但是 ds 查的模型并行(场景是模型过大,需拆分到多个 GPU) 前向传播时需频繁传递中间张量(如层间输出)。PCIe 带宽 7.88GB/s 会限制大张量传输。成为推理瓶颈。让我用 nvlink 。(应该不会封号吧)
|
![]() |
31
ShadowPower 40 分钟前
@BernieDu
你用 DeepSeek 的话,那就好办了。 你应该这么问 DeepSeek: --------------- 这是 LLAMA 模型的尺寸信息: 'llama3_70b': dict( base_model='llama3_8b', vocab_size=128256, hidden_size=8192, intermediate_size=28672, num_hidden_layers=80, num_attention_heads=64, num_key_value_heads=8, max_position_embeddings=8192, rms_norm_eps=1e-5, rope_theta=5e5, ), 双显卡跑 LLAMA 70B 模型,batch_size=1 ,模型拆分到两块显卡上,采用流水线并行。激活值精度为 float16 ,计算生成单个 token 时,两块显卡之间前向传播数据大小。 ----------------- 它给你算出一个大小,然后,PCIe 4.0 x16 的带宽大约有 32GB/s ,用带宽除以每 token 传输的数据量,就可以算出这个瓶颈会限制 Token/s 到多大了。 |