如题。
纯推理,主要用于个人学习(sd, ollama 小参数模型), 没有微调需求。
1
justFxxk2060 130 天前
2080ti 魔改
|
2
13240284671 130 天前
3060ti 16g
|
3
13240284671 130 天前
说错了,4060 16g
|
4
hez2010 130 天前
本地一般是跑量化后的模型,你的显卡起码得支持 INT8 和 INT4 。
|
5
netizenHan 130 天前
应该要求不高吧,前两天看公司里有人用 M3 的 macpro 都能部署 LLaMA3-8B ,不过就是比较慢
|
6
cinlen OP @justFxxk2060 有看到 2080ti + 22g 的方案,这个靠谱吗?
|
8
my101du 130 天前
@13240284671 非 ti 的 4060 , 好像都是 8G 的? 618 想装机都没找到 16G 的 4060.
|
9
cinlen OP @netizenHan 目前我是 m1 跑小模型没啥问题。 但还有 sd webui 和 sd comfyui 的需求,所以应该会攒台新机器。
|
10
ccloving 130 天前
如果是 SD 和 ollama ,用 A 卡是不是就可以
|
13
gam2046 130 天前
@netizenHan #5 8B 效果很一般,基本处于完全胡诌的状态,我用 3090 跑过,响应速度快,但是胡说八道。而 70B ,我的 3090 就跑不起来了。
|
14
SamLacey 130 天前
@cinlen 矿卡老祖了,如果售后有保障,或者你动手能力强可以冲,40 系老黄刀法太好了,60superti 与 70 价格差一倍,性能也刚好差一倍,显存不爆的情况下,只有时间差别
|
15
SamLacey 130 天前
反正挺推荐 4070ts 的
|
16
luchenwei9266 130 天前
看预算,3000 以下无脑选 2080ti 22G
|
17
goxxoo 130 天前
我算过了, 和一台 MBP 价格差不多...2w 以内
|
18
zysuper 130 天前
没钱选 NVIDIA GeForce RTX 4060 Ti ,
|
19
billgreen1 130 天前
M2 ULTRA 192GB,
|
20
cinlen OP @luchenwei9266 可以考虑看看 , 魔改的 22g 踩雷概率高吗?
|
21
FlintyLemming 130 天前
@cinlen ollama 默认下的都是 int8 int4 的量化模型,根本就不会给你下 fp16 的,你显存小也没有必要跑没量化的模型
|
22
afeiche 130 天前
个人感觉显存大的,新一点的,毕竟现在有些大模型必须用 cuda12 以上了,我印象中 2 系列的,不支持 12
|
23
cinlen OP @FlintyLemming 请教一下,如果我想要学习量化这个过程(我可以找一个 fp16 但是参数量小一点的模型例如 phi-2), 大致需要的显存应该如何计算? 和推理一样用参数量乘以数据类型占用 bit 数吗?
|
25
FlintyLemming 130 天前
@cinlen 量化跟推理不一样,显存没上限的,越多越快。建议你选一种量化方式比如 GGUF 然后看他的文档,然后根据设置的参数计算。
|
26
Greendays 130 天前
不能接受改装的话, 应该就是 4060ti 16G 了吧,或者 3060 12G
|
27
Champa9ne 129 天前
居然没人推 P40 ?最廉价的 24G 显存,现在 LLM 能上大参数效果才可堪一用啊。自己一个人用,推理一次多等两分钟无所谓了吧?
|
28
woorz 129 天前
轻度最好用这个
[爽过甲骨文 9 条街] 免费用 A100 、V100 !搭建 AI 工作站的终极攻略 https://www.bilibili.com/video/BV1nS421d72h/?share_source=copy_web&vd_source=b7bbd24169acd7296a98465ee4ab67ea |
29
shuimugan 129 天前
@Champa9ne P40 太老了,带宽小,算力差,朋友拿 10 张去跑 Command R Plus 104B 8bit 推理,速度不到 2 token/s ,拿 M2 Ultra 192GB 跑起码还有 5.x token/s ,各种意义上的电子垃圾。
|
30
shuimugan 129 天前
@cinlen 2080ti 22g 我手头有 2 张,分别 24 小时开机 1 年和 1 年半,没啥问题。不建议买水冷版,单张的话建议买 2~3 风扇的。
涡轮卡适合挤多张但是噪音大,把功耗限制在 70%左右,风扇拉一下可以得到很好的噪音/性能表现,跑 AI 性能下降在 10%左右。买了一张就会买第二张,迟早走上 4 卡/8 卡的道路。 |
31
yianing 129 天前 via Android
4090, you buy more, you save more
|
32
flymeto 129 天前
2080ti 魔改,自己用一年了,没啥问题
|
33
cowcomic 129 天前
建议上安培架构的显卡,也就是 30 系和 40 系
印象一些推理加速技术还有一些量化的技术对显卡架构有要求需要安培架构以上的显卡 |
35
crackidz 129 天前
跑 SD 最好还是显存足够大,跑 LLM 的话量化 int4 损失也不大,但 SD 是不一样的,基本上都需要 fp16 ,这样子的话 24G 显存是最好的选择,比如 3090 。当然你要是知道魔改卡的话那就...
|
36
luchenwei9266 128 天前
@cinlen #20 没什么雷,用了一年多了。建议上三风扇版本。
|