现在买 3090TI 玩 AI 靠谱吗

3090TI

显卡

AI

91 条回复 • 2024-05-24 05:35:42 +08:00

1

09EdgqomQp5z019t

2024-05-18 08:56:22 +08:00

1

如果只是玩 llm ，建议 mac pro

2

hunk

2024-05-18 09:09:54 +08:00

要不要考虑租用主机，试用先，4090 我记得有的才 3-5 块/小时。
硬件投入感觉变数大。

3

x86

2024-05-18 09:38:30 +08:00

试试 2080ti 改 22g 的方案？

4

go522000

2024-05-18 09:43:10 +08:00

现在能用，但明年就不一定了，我的显存 12G 只能下载别人量化好的来用。
我看到群友们是搞魔改版本 22G * 4 , 才能跑 72b 的模型，而 110b 以上模型得自己量化为 4bit 才能跑。

5

jamfer

2024-05-18 09:48:33 +08:00

最近刚好看到一个视频，说苹果的统一内存（显存），对训练大模型很有用，本人不太懂，仅给 LZ 一个参考： https://www.bilibili.com/video/BV1MH4y1g77V

6

jamfer

2024-05-18 09:56:05 +08:00

@jamfer 视频比较长，可以直接看 5:10 的位置

7

sleepyfevniv

2024-05-18 10:33:27 +08:00

2

虽然我不懂跑 ai 模型的需求，但是为啥这里也有无脑吹 mac 的果粉啊

8

Desiree

2024-05-18 11:17:20 +08:00

@hunk 在哪里能出租？

9

vivisidea

2024-05-18 11:25:27 +08:00

@Desiree 直接 google 搜 4090 租用，我看选择还不少的，没试过，可以先买几个小时试试看

10

rabbbit

2024-05-18 11:28:07 +08:00

先按需租个试试,便宜的几块钱一小时，L4 T4 v100 A100 型号一大堆。

11

plasticman64

2024-05-18 11:28:33 +08:00

10

@sleepybear1113 所以你不懂为什么要出来叫，M 芯片跑 LLM 性能确实很好啊

12

libook

2024-05-18 11:48:33 +08:00 via Android

显存大小是硬性需求，算力只是速度快慢的问题。

看你要玩的模型要多大显存，另外训练和推理需要的显存大小可能是不一样的，以及你是否有需要同时加载多个模型。

13

pinecone1

2024-05-18 12:31:51 +08:00

M 芯片因为有统一内存结构，笔记本都上 36G-48G 的统一内存了，是能跑起更大参数量的模型的。但是推理速度会比 4090 慢好多

14

pinecone1

2024-05-18 12:32:58 +08:00

@pinecone1 即使 ultra 128 个 G 的统一内存能跑起 70b 的模型，估计一秒钟都吐不出几个 token

15

WilliamZuo

2024-05-18 12:34:53 +08:00

不了解硬件，但如果 AI 无法在短时间内把推理硬件门槛降低到 3090Ti 或者 4060 ，那这个行业真的值得被长期看好吗？

16

blob

2024-05-18 12:36:06 +08:00

2

偶尔使用的话推荐租用 GPU,我用的是这个平台
https://www.autodl.com/
只花了 150 都不到就退烧了,因为其实真的没有那么多喜欢的角色 lora 需要训练,而且画了快一万张图感觉有点腻了😂

17

jadehare

2024-05-18 12:41:25 +08:00

3

@plasticman64 性能确实好性价比确实好么？买下来加内存买下来比 4090 还贵，跑下来还不如 4090 。有 mac 可以不用买显卡，但是已经有台式机更新肯定是更新显卡，推荐 mac 不是搞耍？

18

sweat89

2024-05-18 12:42:21 +08:00

@sleepybear1113 所以你不懂还要在这尬喷？人麻了都

19

neteroster

2024-05-18 12:51:38 +08:00 via Android

4

真要考虑 Apple Silicon 跑 LLM 的话先看看这个：

https://github.com/ggerganov/llama.cpp/discussions/4167

不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。

除非你非跑超大模型不可，否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。

然后就是如果涉猎比较广泛，不止玩 LLM ，当然还是 NVIDIA ，毕竟生态再这里。

20

devlnt

2024-05-18 13:03:07 +08:00

1

@pinecone1 #14 m3max 64G 跑 llama3:70b 能达到 9tokens/s ，而 4090+64G 内存只能 2tokens/s 。8b 的话 4090 能 100tokens/s, m3max 是 50 多 tokens/s 。

21

liuyangmengqi

2024-05-18 13:10:04 +08:00

@sleepybear1113 虽然你什么都不懂，但是也不妨碍你看到苹果就咬啊

22

neteroster

2024-05-18 13:36:06 +08:00

@neteroster 再补充几句，70B 还没到 Mac 的适应区间，2 * 3090 就能拉爆 M3 Max 了，还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。

再大的模型？那就要想清楚你是不是真的需要那么大的模型了，现在大部分模型都集中在 <100B 区间，就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ，不过现阶段并不多，可能战未来吧。

23

Caitlyn

2024-05-18 13:58:06 +08:00

我的 4070tis 跑 ai 绘图、ai 唱歌，速度非常快，显存占用基本在 14g 左右，我觉得 70tis 性价比很高，4080s 贵了 1500 提升不是很大不划算了

24

JayZXu

2024-05-18 13:58:16 +08:00

如果只是玩一玩，组个 GPU 的钱也就几块钱一个小时，就当上网吧了，而且环境配置时还不算钱，挺合算。自己试试真实需求再下手不迟

如果是真的深入要微调模型啊之类的需求，买一张 3090ti 也不顶用。
哪怕是 24G 跑大模型也顶多只能跑个优化好的 13B ，14B 。70B 就不要想了。
画图参数拉高了，显存一样不够用。

25

thinkershare

2024-05-18 14:37:01 +08:00

租卡是最合适的，弄个 A100*2 或者 3090*4 的集群，基本啥都能跑。。另外你是要搞推理还是训练?
等到你真的需要自己训练大模型时，你一样需要专业的集群，而不能靠你手头那点资源。

26

clear

2024-05-18 14:44:11 +08:00

6

上面吹 Mac 跑大模型的自己真的用过吗，那么多坑都淌完了？

还是看了个视频张口就来了。

— 来自顶配 Studio 用户的评论。

另附：租用目前是最合适的，退烧快，性价比高，以 AI 名义打游戏另说。

27

tr1v1z

2024-05-18 15:01:29 +08:00 via Android

4

说 mac 的基本就是限定了顶配，然后只适用 llama.cpp ，然后呢，买回来纯推理 llama ？楼主都说了 sdxl ，怎么可能推荐 mac ，不知道咋想的…

至于为啥 4090 看上去拉，因为显存不够只能走 pcie 走内存走 cpu 。换成 2x3090 就会立竿见影。话又说回来，sd 又不特别吃显存，4090 绝对是好选择。

不要只看评测视频吧。。

28

kenvix

2024-05-18 16:24:35 +08:00

有很多人说 mac 跑 LLM 很好，我比较好奇，这个跑是推理还是微调？ mac 能 SFT 微调 LLM 吗？

29

LaurelHarmon

2024-05-18 16:53:28 +08:00

3090 很好的，跑跑模型没啥问题，训练推理都在行，老当益壮

30

herozzm

2024-05-18 17:00:47 +08:00

小模型可以，稍大就抓瞎

31

ansor

2024-05-18 18:13:33 +08:00

mac 跑 LLM,跟 wsl 跑 LLM 有什么区别，价格还更便宜。

32

sola97

2024-05-18 19:02:37 +08:00 via Android

推理速度太慢没有实用价值，什么 14b 都不如免费的 kimi

33

lithiumii

2024-05-18 19:17:20 +08:00 via Android

@sleepybear1113 因为老黄的显存跟果子的统一内存都是金子价。果子 96G 内存的机器是一台可以拎走的笔记本，同等价格 96G 显存的机器是一台体积功耗噪音都惊人的服务器。个人玩特别大的模型，苹果忽然就有性价比了。

34

sighforever

2024-05-18 20:05:22 +08:00

@ansor mac 现在是统一内存，内存也是显存，mac 有个 192G 版本的，相当于有 150+ 的显存了，等于 6 块 4090 了

35

SkywalkerJi

2024-05-18 20:17:13 +08:00 via Android

3

果粉只考虑显存大小，不考虑算力的吗？ gt610 大狂牛？

36

michaelzxp

2024-05-18 20:34:21 +08:00

就等苹果 wwdc 看会不会发布自己的 ai ，年底上 m4 大内存版本

37

1138743695

2024-05-18 20:43:45 +08:00

感觉想学习不管是从成本还是便利性上都推荐用租的，能避免很多问题（我是本科 ai 专业，长时间的课题自然用实验室的，平时自己想试点什么就用租的，我用的 autodl ）

38

Francost

2024-05-18 21:00:01 +08:00

我是在 runpod 上租用 gpu ，有很多 option 可供选择，或者你也可以在 vast.ai 上看看

39

BernieDu

2024-05-18 21:20:37 +08:00

@tr1v1z Mac 跑 sdxl 有什么问题吗，sdxl 这种啥机器跑不了，无非是快点慢点，大部分家庭需求还在乎时间？后台慢慢生成就是了。

40

secondwtq

2024-05-18 21:32:56 +08:00

SD 和 LLM 这两个需求其实是不一样的
LLM 看个人需求，跑得快当然好，有的场景慢一点也无所谓
但是 SD 实际使用中需要迭代调参才能试出相对满意的结果，这种情况下能快速推理生成预览是非常有用的
就像过去 3D 建模调材质，CPU 渲染很慢影响效率，但是后来 CPU 核数上来了，又可以用 GPU 硬件加速光追，效率指数级上升

41

kenvix

2024-05-18 21:37:14 +08:00

@ansor #31 WSL 也是统一内存，但只限软件层面，然后 x86 兼容机的内存和 CPU 离得很远，又受接口带宽限制，导致速度非常慢

42

muxiaofei

2024-05-18 21:56:08 +08:00

请教一下大佬们，如果只是做向量模型来跑模型，以及微调模型，这种需求是买 3090ti 还是 4070 呀

43

muxiaofei

2024-05-18 22:15:40 +08:00

或者说做一个定制化的企业知识库用的模型进行微调需要什么显卡（ CHATGLM2 和 M3E ）或者笔记本也行。

44

r6cb

2024-05-18 22:41:09 +08:00

@muxiaofei #43 只是知识库就只需要推理就行，显存能放下模型的显卡就够用了。但是微调 CHATGLM2 要多张 A100/A800 级别的 GPU 才干得了

45

NewHere

2024-05-18 22:56:59 +08:00

@Desiree AutoDL 2.XX/h 4090

46

NewHere

2024-05-18 23:00:04 +08:00

@sleepybear1113 统一内存比较吃香，老黄要 80g 的显存得 A100 和 H100 了，mac 可以几万拿下一整套，老黄价格比这贵还只是一张显卡

47

PeneceaQwQ

2024-05-18 23:11:09 +08:00

首先，先建议租一下显卡试一试，说不定吃不满。可以尝试的平台：autodl ，vast.ai

关于矿卡：3090ti 发布的比较晚，而且对矿老板性价比不高，就算挖的话也挖不了多久

关于矿卡的危害：问题就是不稳定。连续高温满载工作。首先显存可能先炸（如果是 3090 到手建议换显存），硅脂因为高温会渗出硅油，除此之外还可能会有各种各样的小问题。可以捡，但是做好心理预期，建议观摩一下靓女维修佬的视频，做好功课再说。捡到个人买家也不是不可能（）

48

iixy

2024-05-18 23:38:50 +08:00

@plasticman64 问题 op 明确了需求是 SDXL+四五个 lora ，你哪里看到有 LLM 了？

49

iixy

2024-05-18 23:40:52 +08:00

这楼我没看完都不知道你们能吵这么多关于 mac 的，SDXL+lora 几个大字看不见疯狂辩论 LLM ，绝绝子

50

hunk

2024-05-19 00:02:54 +08:00

@Desiree 还有其他的很多，一时找不齐了。
https://www.autodl.com/home
https://openbayes.com/gear/

51

tr1v1z

2024-05-19 01:28:43 +08:00 via Android

@BernieDu 可能只有你不在乎时间

52

muxiaofei

2024-05-19 01:50:49 +08:00

@r6cb 感谢大佬的回复，我现在如果是想用 llama3 进行中文微调的话（其实我也只是一个小白），大概需要什么样子的显卡呢？目前有一台 3060 12GB

53

muxiaofei

2024-05-19 01:53:20 +08:00

@1138743695 您好，想了解下，如果租用算力来微调自己的模型，这样是可行的吗？

54

ljyst

2024-05-19 02:43:49 +08:00

ai 说到底还是 cpu 语法套模版。玩的是硬件.没意思

55

neteroster

2024-05-19 08:04:08 +08:00

@muxiaofei

中文微调推荐 Qwen 系列，llama3 预训练估计没多少中文语料。

微调分不同类型，全量，LoRA ，QLoRA 等，最近也有一些新兴技术。例如，llama3 8b 用 LoRA 基本 24G 能满足，但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好，但是也有很多任务是不及全量微调的，需要实际测试。

租算力完全可行。

另外，知识库不推荐微调，先试试 RAG 。

56

locoz

2024-05-19 10:07:39 +08:00 via Android

玩图片生成买个二手 3090 玩没啥问题，无论是要长期放着跑还是玩腻了打游戏都可以，不过 3090 会很热、风扇很吵，这个可能要考虑一下。

如果明确只是短期玩玩，使用频率和时长没那么高，那租硬件是最具有性价比的选择，性能又好，实际产生的成本又低，又省事。

吹苹果的看看就得了，拿苹果统一内存跑起来了大模型又怎么样？就那点速度完全不具备可用性。说白了就是个放企业级场景嫌慢、个人场景嫌贵的鸡肋。而且买了高配之后不想玩了干其他事又是纯浪费，想卖二手这过高的配置又不好出手，麻烦得很。

57

cnevil

2024-05-19 11:17:48 +08:00

@WilliamZuo 因为你要是不执著于本地部署的话，你没显卡都能用

58

HojiOShi

2024-05-19 12:05:32 +08:00

现在 5090 都要出了，就算有 3090TI ，别人凭什么把体质好的锻炼少的卡卖给你啊。。。

59

leconio

2024-05-19 13:57:09 +08:00 via iPhone

MacOS 可以跑 llm 呀，有这个示例工程工程 https://github.com/ml-explore/mlx-examples ，有人在 macos 跑起了 32B 的大模型，lora 微调。。。而用 cuda 要 64 显存

60

leconio

2024-05-19 14:00:50 +08:00 via iPhone

但 huggingface 上的大部分模型，开发者只给出 cuda 的例子，除非你特别知道自己在干什么，否则为了生态我还是劝你入英伟达 40 系列显卡

61

Tuatara

OP

2024-05-19 14:30:33 +08:00

@digd 不止 llm ，啥都想试哈哈哈，sd 跑跑图，再做做 tts ，其实也是探索自己的兴趣

62

Tuatara

OP

2024-05-19 14:31:24 +08:00

@hunk 我之前就是租用云 gpu ，这个主要弊端是只能 linux ，很多大神的整合包都是 windows ，另外每次用完都要重新搭建环境，时间长了也挺麻烦的。。

63

Tuatara

OP

2024-05-19 14:32:06 +08:00

@x86 听过这个方案，而且效果据说很强，主要是咱硬件一窍不通不敢这么弄😂 有靠谱渠道倒是完全可以考虑

64

Tuatara

OP

2024-05-19 14:32:39 +08:00

@go522000 那老哥有啥推荐吗，就直接上魔改？

65

Tuatara

OP

2024-05-19 14:33:33 +08:00

@jamfer 感激，我来看看

66

Tuatara

OP

2024-05-19 14:34:32 +08:00

@libook 我估计大概率不会到训练，主要是推理。但加在多个模型可能会有，比如加载多个 lora

67

Tuatara

OP

2024-05-19 14:35:36 +08:00

@WilliamZuo 硬件要求确实也在降低中，外国很多老哥在把模型优化成 12g 显存能跑。不过也都是开源小模型，毕竟有一定局限性

68

Tuatara

OP

2024-05-19 14:36:41 +08:00

@imoru 这个我试过，国内的 autodl ，国外的 runpod ，说实话都还不错。主要问题是只能 linux 没有图形界面，但很多整合包还是要图形界面操作，时间长了觉得租的还是不方便

69

Tuatara

OP

2024-05-19 14:41:13 +08:00

@neteroster 我估计最多也就跑个 70b 了，再大确实也没啥必要，而且也可以租 gpu 来玩

70

Tuatara

OP

2024-05-19 14:41:44 +08:00

@Caitlyn 老哥你的 70tis 跑图通常是多大的图，加 lora 吗

71

Tuatara

OP

2024-05-19 14:42:42 +08:00

@JayZXu 24g 啊，显存跑 70b 不行吗，我其实是想在本地尝试 70b 的。回头我去租个 gpu 试试看

72

Tuatara

OP

2024-05-19 14:44:24 +08:00

@thinkershare 我自己玩主要是推理，训练确实可以租 gpu 。有点之前忘说了，云 gpu 主要是只能 linux 有些大神的整合包用不了，而且每次都要重新搭建环境，时间长了感觉有点蛋疼

73

Tuatara

OP

2024-05-19 14:44:52 +08:00

@clear 哈哈啊哈老哥清醒！

74

Tuatara

OP

2024-05-19 14:58:41 +08:00

@1138743695 我之前也都是租，但我看很多大神出的整合包都是 windows 的，租的 gpu 都是 linux 用不了。加上每次要重新配环境有点蛋疼，这才考虑组机器。前面这两问题老哥怎么解决的？

@Francost 我之前也是用 runpod （现在上面都还有钱笑死），租卡主要是👆这俩问题，老哥有啥好办法吗

@secondwtq 蛮有道理的，能快速生成预览还蛮重要的

@leconio 老哥点解，为啥为了生态要选 40 系？ 30 和 40 的生态不一样吗，我理解都是 cuda

75

Tuatara

OP

2024-05-19 15:04:48 +08:00

大家讨论好多，很感谢哈哈哈

原题忘了说了，我之前也一直是租 GPU 的，主要是 runpod 和 autodl 两个平台上。性价比上绝对是租划算，主要问题是 1 ）想玩一些大神的整合包，但只能 windows/可视化，租的 gpu 都是只有 linux 这种整合包就跑不了；再来租的每次都要重新搭环境，时间长了有点蛋疼，这才考虑组机器。

不过说实话我动手也没有那么多，看了一圈下来大家分歧还是比较大😂 准备再租 gpu 一段时间，真要入的话目前倾向 4070tis 了。

至于 mac ，我工作电脑是个 M2 pro 芯片，跑 llm 倒是挺好。sd 的话还是慢的过分了，我感觉体验不是很能接受。但更新的 M3 + 统一内存没试过，我理解速度上还是不如显卡？因为它只是显存大，计算还是得 cpu

76

BernieDu

2024-05-19 16:12:05 +08:00

@tr1v1z m3max 3 秒一张图和 3090 2 秒一张图差多少？而且楼主是为了研究 ai ，3090 能跑 llam 70b ？跑内存里是吧。这就不是浪费时间了？

77

Oct31Dec25

2024-05-19 16:37:36 +08:00

@devlnt #20 70b 模型，4090 显存是不够的

4090*3 ，跑 70b ，每张显卡占用 13G 显存。

78

wsbqdyhm

2024-05-19 17:54:50 +08:00

目前使用 mac m1max 只会用 sd ，出图有点慢，搭车问下，mac 有没有一些免费项目可以训练自己的语音，然后用文本可以输出自己的专属语音。

79

neteroster

2024-05-19 18:45:42 +08:00

@wsbqdyhm 这个 https://github.com/RVC-Boss/GPT-SoVITS

如果不会用的话 B 站搜搜教程，现在应该听多了。

80

1138743695

2024-05-19 20:21:04 +08:00

@Tuatara #74 这个我跟你的想法恰好相反，大多数开源的代码不应该都是基于 linux 的吗，所以才会主力用 mac 和云服务器做实验（不管是 github repo 还是 HuggingFace 默认都是 linux 吧），不过我猜你说的可能是 ai 绘画的整合包，这个我确实不是很了解😂

81

Tuatara

OP

2024-05-19 20:30:54 +08:00

@1138743695 对，我看的很多是 b 站 up 的 SD 教程，大多是要图形化工具，而且是打包好的只有 windows

82

Tuatara

OP

2024-05-19 20:37:09 +08:00

@1138743695 其实还有一些工具也都是只有 windows ，我之前做 ai 孙燕姿，要做人声分离，用到的软件就只有 win

83

first2wood

2024-05-19 21:21:05 +08:00

刚好看到这个，我看好多人用的 P100 和 P40 。https://www.reddit.com/r/LocalLLaMA/comments/1cu7p6t/llama_3_70b_q4_running_24_toks/

84

ShadowPower

2024-05-20 02:29:54 +08:00 via Android

我想起这个模型：
https://civitai.com/models/332076/kohaku-xl-delta

用两块 3090 显卡，在 360 万张图片（只比初代 NovelAI 少一点）上微调 SDXL 不到一个月得到的模型……

85

rainbowmolly

2024-05-20 04:54:47 +08:00

@sleepybear1113 “因为我不懂，所以别人都是无脑”

86

FlashEcho

2024-05-20 13:45:32 +08:00

@plasticman64 能比得上同售价的 N 卡吗？除了显存大其他不全是劣势？

真的性能好怎么只看见论坛和视频博主在吹，发论文和做大模型的商用的团队里，有 0.01%用 mac 吗？

87

jimrok

2024-05-20 14:36:15 +08:00

学习和调试机应该是要配置一台的，N 卡就行。租卡适合模型都调试完毕了，要进行大规模训练。

88

Tuatara

OP

2024-05-23 08:36:44 +08:00

@first2wood 这些卡太高级了，我都不会组😂另外好像还有些兼容性问题，感觉还是更适合真正研究/训练 AI 的人用，我这种业余玩家主流 N 卡最主要的好处是教程多社区大，有问题好解决

89

Tuatara

OP

2024-05-23 08:37:29 +08:00

@ShadowPower 有意思，更纠结了哈哈哈😂

@jimrok 我也是这么想

90

lancelvlu

2024-05-23 10:15:35 +08:00

https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference 苹果芯片 LLM 推理可以参考这个

91

glouhao

2024-05-24 05:35:42 +08:00 via Android

@imoru 大佬，这个关机后训练的东西还在么？能跑激动人心的图么？