V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
davidyin
40.35D
13.68D
V2EX  ›  Local LLM

想折腾一个 AI 主机,请行家出手

  •  
  •   davidyin · 1 day ago via Android · 4381 views
    打算自组一 AI 主机,用于本地 llm 。 可用于 kiro IDE 的,gitlab duo 。


    可行性有多大,能否代替订阅的那些 ai 服务?

    配置有没有推荐的,各 AI 行家请出手相助。
    Supplement 1  ·  1 day ago
    我把同 copilot 讨论的,以及这里的答复交给它。

    分享给大家看看。
    https://copilot.microsoft.com/shares/JboxwuxJm4jZRAK8Sqjkd
    Supplement 2  ·  6h 19m ago
    算是成功劝退我了。

    但还是埋着一颗 self hosting 的心。
    等着看大量二手 ai 机器出来的时候再说。
    74 replies    2026-05-11 17:00:34 +08:00
    qfdk
        1
    qfdk  
    PRO
       1 day ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    qfdk
        2
    qfdk  
    PRO
       1 day ago via iPhone
    看了明矾系列的 到现在没下手... 要不要等等 mac mini ? 说不定有新科技? 本来打算买 m4 , 后来一拉配置,直接充 cc 了. 我 m1 跑 llm 吐字都不如我打的快... 也这里蹲一个吧
    yusf
        3
    yusf  
       1 day ago
    老老实实买用 api 吧
    davidyin
        4
    davidyin  
    OP
       1 day ago via Android
    @yusf
    订阅很方便,只是有洁癖,不想自己的东西暴露到外面。

    希望都在局域网内。
    yusf
        5
    yusf  
       1 day ago
    @davidyin https://www.bilibili.com/video/BV1zmSoBnEYM 看下这个 up 的本地部署体验
    davidyin
        6
    davidyin  
    OP
       1 day ago via Android
    @yusf

    Mac 不考虑。基本没有用苹果的产品。
    对于性价比敏感。
    davidyin
        7
    davidyin  
    OP
       1 day ago via Android
    现在有个初步的配置清单:
    RTX 4070 SUPER 12GB
    Intel i5 14600K
    Asus TUF B760
    DDR5 32GB(2*16gb)
    SSD 1TBx2
    看看合适吗?
    AastroLula
        8
    AastroLula  
       1 day ago   ❤️ 2
    还是考虑买 api 吧,当然实在有钱可以折腾玩玩,如果 op 是需要正式干活可能 anthropic 博客里提的用聪明的大模型指导小模型是个算是能用的方案,但是这块一来需要折腾很久,二来还是得买外面的 api. 我之前也是想搞本地大模型折腾玩玩,后来发现纯粹是垃圾佬的馋瘾上来了,再说现在啥都涨价的买了也是大冤种,如果 op 想买 aimax 395 算是个选择吧,当然有特殊需求部署几 b 模型能用上也是好事,12g 显存骗骗哥们还行,别把自己骗了,以上是我的一点想法
    devzhangyu
        9
    devzhangyu  
       1 day ago
    可以看看这个项目 https://github.com/AlexsJones/llmfit

    1. 找出你的硬件能运行哪些模型
    2. 估算某个模型配置需要什么硬件
    3. 硬件模拟,可查看哪些模型适合目标硬件
    ntedshen
        10
    ntedshen  
       1 day ago   ❤️ 2
    降价期间屯硬件,那 bro 你很勇哦(

    4070s 有没有 4060ti 好使我不知道。。。
    但是 14600k 和 d5 的意义在哪?
    Livid
        11
    Livid  
    MOD
    PRO
       1 day ago   ❤️ 1
    @davidyin 瓶颈是显存。

    可以看一下 DGX Spark 系列的产品。
    davidyin
        12
    davidyin  
    OP
       1 day ago via Android
    @Livid
    这个超出预算了。就我的使用情况,估计太大才小用了。


    @AastroLula
    订阅过 kiro 的那些模型。挺好用,只是不想把自己丑陋的代码上传上去,才想着全部在本地。
    是啊,配件涨价太多。的确有些下不去手。


    @ntedshen
    Intel CPU 和 DDR5 是也不是一定,你有好的建议欢迎提出来。

    @devzhangyu
    谢谢推荐,我去看看。
    iango
        13
    iango  
       1 day ago
    @davidyin 再等等,技术升级太快了。
    看看这个:
    https://github.com/antirez/ds4

    128M Apple MBP 跑 DeepSeek V4 Flash
    viskem
        14
    viskem  
       1 day ago
    64G M4 MacMini 循环跑 DeepSeek V4 Pro 中,MLX 31B 27B 啥的放那一堆 都停用了。
    是的,不如买个 AIR ,走到哪 Vibe 到哪……
    luodan
        15
    luodan  
       1 day ago
    就看显存大小,其它可以全部忽略。要么独立显卡,要么统一内存。
    davidyin
        16
    davidyin  
    OP
       1 day ago via Android
    @luodan
    大显存重要,GPU 级别低一点,问题不大?
    gtchan13579
        17
    gtchan13579  
       1 day ago
    Intel Arch B50 16G
    铭瑄 H610I
    Ultra 230F
    DDR5 5600 16G*2
    差不多就可以了
    MrLonely
        18
    MrLonely  
       1 day ago   ❤️ 1
    @davidyin 显存大小决定能不能跑,GPU 高低决定跑得快慢。
    zzutmebwd
        19
    zzutmebwd  
       1 day ago via Android   ❤️ 4
    5 万以内无法替代 minimax deepseek-v4-flash 这种比较蠢的国产,20 万以内无法代替 glm 这种比较比较聪明的国产,无论花多少钱都无法达到 gpt5.5 和 opus4.7 这种顶尖的。
    如果你的厌蠢症胜过受迫害妄想症,用订阅。
    bzw875
        20
    bzw875  
       1 day ago
    除了为了学习本地训练 AI ,买大显存电脑用来推理的都不是划算。就和买 deepseek 一体机一样鸡肋
    restkhz
        21
    restkhz  
       1 day ago   ❤️ 4
    @davidyin 我不专业,但是有些经验你可以参考:

    12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。

    另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。

    还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...

    精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。

    说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
    如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。

    我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
    我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...
    csunny
        22
    csunny  
       1 day ago
    5060ti 16G + 32G ddr5 跑 qwen3.6 35B Q5 。llama.cpp 速度大概 56/s 。
    csunny
        23
    csunny  
       1 day ago
    @csunny 纠正一下,是 64G ddr5
    2000wcw
        24
    2000wcw  
       1 day ago
    为啥大家都不支持 PO 主?我倒觉得应该大力支持一下,然后 PO 主真金白银花了后说一下实际感受,这样我们才好避坑。
    bytesfold
        25
    bytesfold  
       1 day ago via iPhone
    我的建议直接 rtx pro 6000 ,不好用直接出掉
    frankies
        26
    frankies  
       1 day ago
    @davidyin #7 4070 部署不了大模型,部署量化后的阉割模型也费劲,推理慢不说还智障。提升不了预算就用 api ,钱包会告诉你并不洁癖
    cin
        27
    cin  
       1 day ago   ❤️ 1
    你的这个"初步的配置清单"能跑起来的模型大概有 gemma4:e4b gemma-3-12b qwen3.5-9b 之类的,先建议找个对应的 api 尝试下
    另外 24GB/32GB 显存能跑的模型: qwen3.6:27b gemma4:31b
    tcper
        28
    tcper  
       1 day ago
    如果你真想跑 LLM ,显存顶到最高就行,不过就怕又来一句,也想玩玩 3A 游戏
    whusnoopy
        29
    whusnoopy  
       1 day ago
    1. 预算多少?上可到 512G 的 M3 Ultra 的 Mac Studio ,或 128G 的 nVidia DGX Spark
    2. 是否专用用途,还是日常还可娱乐游戏?专用用途的话就可以不在乎必须 Windows 或 NV 的游戏卡,日常还要娱乐游戏那就要选大显存的游戏卡了
    3. 性能期望?要能跑大参数模型,就得显存大,这时候 Mac 这样的统一内存就有优势,但速度可能不行。要速度可能就得 NV 的游戏卡或专业卡,但显存可能不够大,不够加载更大参数的模型
    zls3201
        30
    zls3201  
       1 day ago
    @davidyin cpu 高了 显卡我觉得 5060ti 16G 可能比你这个好

    我最近看 reddit ,很多用 unsloth/Qwen3.6-35B-A3B 量化版本的,有内存 8g 都用起来的
    smlcgx
        31
    smlcgx  
       1 day ago
    如果你玩本地推理的话,M3 ultra 确实是必备选项之一,电费账单是一笔隐藏开支,尤其是长期下来
    davidyin
        32
    davidyin  
    OP
       1 day ago via Android
    诸位快把我劝退了。


    @zzutmebwd
    没用过国产的。也只用过 kiro 订阅的几种。

    @bzw875
    不训练,只是推理。


    @restkhz
    你的经验非常有用,谢谢这么详细的回复。那就是 16g 显卡还是可以用用的意思喽?

    @2000wcw
    别这样,我很听劝的。本来也不是用来谋生,只是爱好者。


    @frankies
    也不是那么洁癖,主要担心一不小心把什麽密钥啊,API 溜出去。

    @cin
    这个建议好,我去试试。

    @tcper
    玩游戏也想过,不过我的 Xbox series x 也刚买不久。
    davidyin
        33
    davidyin  
    OP
       1 day ago via Android
    @whusnoopy
    目前的预算在两千美元,再多就感觉自己不配用这么贵的东西了。




    @smlcgx
    电费的话,应该不用二十四小时开机的话,还好吧。之前用过 r710 服务器,玩了一年,觉得厌了就出手了。
    uprit
        34
    uprit  
       1 day ago   ❤️ 1
    显卡俺在用双卡 2080ti-22GB ,总共 44GB 显存,主机还是 1151 的老平台。可以跑 qwen3.6-27B-Q4KM ,256K 上下文,推理速度大概 20T/s
    alinwu05
        35
    alinwu05  
       1 day ago via Android
    不划算,机器便宜了,LLM 不够聪明,没有意义啊,请一个小学生干活当然便宜,但是干不了活也不中呀
    maolon
        36
    maolon  
       1 day ago
    楼上提议的挺好的,
    另外 qwen3.6:27b gemma4:31b 像这个等级的模型只能算是可用,能拿来干些像是数据清洗,小代码库编程,或者是指令非常明确的 computer use 这种 agentic flow ,或者随便写点文案,性能大概相当于去年 100B 级别的模型

    跟现在的旗舰或者次旗舰模型还是差很远的(尤其是现在各家都开始往 1T 到几 T 的参数量发展),对本地模型的期望还是要明确的好
    Kevin2
        37
    Kevin2  
       1 day ago via Android
    同蹲方案,我也有这想法。另外再玩虚拟化系统,多开几个电脑玩
    Moonkin
        38
    Moonkin  
       1 day ago via Android
    @davidyin 12g 来搞笑的?臭打游戏的都看不上。3090 都比这强,显存直接觉得模型能不能用。32G 的改装卡/更大的走私卡如果不想要,那就 5090d ,或者 API 等 60 系。
    HojiOShi
        39
    HojiOShi  
       1 day ago
    lz 这帖子提醒我一件事,我有一台双 A770 的机器吃灰有点久了,现在想再看看 LLM 性能提升了多少。
    ntedshen
        40
    ntedshen  
       1 day ago
    @davidyin ddr4 目前是 ddr5 的半价,而且 14k 口碑并不怎么样。。。你可以在加钱或者减钱里面选(
    你不如抄个入门级学生打游戏配置单,然后显卡换自己的。。。
    taotaodaddy
        41
    taotaodaddy  
       1 day ago
    用于本地 llm ✅
    代替订阅 ❌
    taotaodaddy
        42
    taotaodaddy  
       1 day ago
    因为你会发现家用主机上的本地模型,蠢得惊人
    j1132888093
        43
    j1132888093  
       1 day ago
    本地部署能代替订阅的模型,那价格得过百万人民币吧
    tootfsg
        44
    tootfsg  
       1 day ago via Android
    @davidyin 用 12g 显存跑本地 llama.cpp ?这是真的吗,我 16g 显存都不够,像 26b 27b 这种 q4km 都 15,16g 了,1,2g 给上下文要极致压缩 kv 类型和特别低的上下文
    coefu
        45
    coefu  
       1 day ago   ❤️ 1
    @davidyin #33 真正的行家来告诉你,2000$的方案。

    amd epyc 单路 9004 12 通道 ddr5 主板,目前大概 4000 。12 通道全插满 4800 MT/s DDR5 内存时,12 个通道的总带宽约为 500GB/s 以上。使用更高频率(如 6400 MT/s )的内存时,理论总带宽可达到约 614 GB/s 。几乎摸到了 hbm2 的边。关键是容量可伸缩。

    ddr5 6400 16G 目前单条价格大概 700*12 ,8400

    amd epyc 9124 cpu 目前大概 4000

    总成本正好 2000$ 左右。

    此时,你有 192G 内存( Qwen3.5-122B-A10B ,这种都能跑),带宽 500 ~ 614G 左右,500G 的带宽足够让你跑 MOE ,20 ~ 25 token/s ,再加一块几百块的 16G hbm2 gpu ,完全够。
    huaweii
        46
    huaweii  
       1 day ago via Android
    个人本地 llm 能做的事情和 vibe coding 两回事😅 性价比敏感还在这浪费钱呢,建议问一下 AI 一些基本的常识
    version
        47
    version  
       1 day ago
    本地就算了.如果真能行.ai 行业的股价缩水到 1/10
    差距就像你骑单车去拉萨..别人坐飞机去的
    drafter
        48
    drafter  
       1 day ago   ❤️ 1
    昨天刚买的主机 跟你一样,5060ti 16G 显存 +96G 内存,270kcpu ,场景家里主机挂着,公司电脑通过 tailScale 连接 跑 qwen3.6-35B-A3B ,开启思考模式会比较慢,跟官方 api 比,3 ~ 5 分钟吧,我后面把思考模型关了会快点,但是像一个小的项目用 claude 进行/init 要处理 10 多分钟,如果非编程 用 Lm studio 对话框对话很快 ,输出 40t/s ,还在研究怎么在 coding 下推理速度加快
    davidyin
        49
    davidyin  
    OP
       1 day ago via Android
    @huaweii

    这个配置就是问的 chatgpt, copilot 和
    davidyin
        50
    davidyin  
    OP
       1 day ago via Android
    Gemini 得到的。
    我想还是问问活人更可靠,毕竟这里高手多。
    davidyin
        51
    davidyin  
    OP
       1 day ago via Android
    @drafter
    所以可行,就是慢。对吗
    aklllw
        52
    aklllw  
       1 day ago
    这个价位的跑起来的 AI...送我跑龙虾我都嫌弃
    大概就这个性价比吧,无意攻击,只是给个参考
    drafter
        53
    drafter  
       1 day ago   ❤️ 1
    @davidyin 对的 https://benchlm.ai/coding 可以看这个模型 coding 能力排行榜,Qwen3.6-27B 排名 19 ,比很多的收费模型都强,但是这个量化版也要 24G 显存以上才行,4090 ,5090 太贵,3090 矿卡风险高,Qwen3.6-35B-A3B 排名 30 ,基本上觉得大多工作都能做,我上午开始试的,效果可以,至少做同样的事比 minimax 2.7 显得专业很多,还是稀疏模型,一些权重可以放内存里,但是推理慢,这个很关键,同样的问题 trae 里的 minimax 2.7 大该 1 分钟,这个模型我用 claude 大概 11 分钟。。。 反正未来 20B ,30B 模型 在消费级显卡上的效果应该会越来越好,可以观望下
    hao150
        54
    hao150  
       1 day ago
    别买 A U 就对了,反正我现在这个 A U 带的 NPU ,买的时候说能力多好,实际用的时候没几个应用适配的。哪怕跑个视频转码都调不动 NPU
    pxlxh
        55
    pxlxh  
       1 day ago
    你这个预算和你要求的隐私性本身就是矛盾的
    订阅就行了 无人在意
    davidyin
        56
    davidyin  
    OP
       1 day ago via Android
    @pxlxh

    说了,我在意。自己的东西自己在意。
    smlcgx
        57
    smlcgx  
       1 day ago   ❤️ 1
    @davidyin 其实最后还是落实到需求,看你是想玩一玩还是想作为生产力。前者的话随便一个主机和显存吃得下的 int 之类的模型就可以了,只是聪明程度差一些。后者你想作为 api 的替代,就要认真选型了,没个几万入场费就不要想了,这些钱还不如买个正规 api
    hanli
        58
    hanli  
       1 day ago   ❤️ 1
    前面研究过这个问题,新配显卡的话显存至少考虑 24G 以上,不然模型效果都比较一般。现在用的 12G 的 3080ti ,都跑 QWEN Q4 量化模型,跑 27b 稠密架构的基本用不了,35b 的 moe 架构勉强能用下。
    sn0wdr1am
        59
    sn0wdr1am  
       1 day ago
    劝退劝退。

    电费不要去,显卡不要钱。

    本地搭建根本不划算。
    cs8425
        60
    cs8425  
       1 day ago   ❤️ 1
    刚好手上有 4070S 跟 9060xt, 最近也在尝试这块
    先说结论:
    12G 显存完全不够用
    16G 也只是勉强能动
    拿去辅助编程不是智商太低就是速度太慢
    要嘛买更好的卡, 不嘛就 api 算了

    我只测了 gemma-4-E2B Q4 、gemma-4-E4B Q4 跟 gemma-4-26B Q4 (MoE 类型)
    4070S 跑 E4B 没啥问题, 速度大概 90t/s, 26B 就完全不行了
    9060xt 跑 E4B 大概 60t/s, 26B 能动但最高只有 20t/s 通常在 15~19 之间
    用的是 llama.cpp, backend vulkan
    E4B 辅助编程错误很多, 要一直叫他修正
    26B 错误是少很多, 勉强算堪用吧, 但运行太慢, 结果最后总花费时间跟 E4B 多轮差不多....
    虽然不排除目前对 gemma 4 系列的支持不是很好/有 bug 就是了

    跑 SDXL 的话
    4070S 速度大概是 9060xt 的 1.7~2 倍 (1536x1024 一个 45 秒一个 80 秒)
    但解析度/模型大一些就先炸了
    afkool
        61
    afkool  
       1 day ago via Android
    菜鸟想法(我自己)
    买 388h 或者 ai395max 128g 的跑推理
    需要训练了租云端练丹,不知道是否性价比可行?
    Dream4U
        62
    Dream4U  
       1 day ago
    能替代的话,A 家和 O 家不用活了
    WhatIf
        63
    WhatIf  
       1 day ago
    24G 的 3090 ,4090 之类 可以跑 30B 上下规模的模型,但是上下文很小, 项目大了估计就不行。
    但是感觉 32G 48G 的也好不了太多。
    那么只有 pro 6000 96G 显存 能全量跑 32B ,这两天狗东刚看了下价格, 有提供整机的,84000 左右
    kinghly
        64
    kinghly  
       1 day ago via iPhone
    本地成本太高了,而且现在发展太快了.
    Cheree
        65
    Cheree  
       22h 42m ago   ❤️ 1
    @davidyin 明显不合适,上了 D5 内存,结果还在搞 B760M+14600K,低预算新卡最合适的是 5060Ti 16G ,或者 5070Ti
    Nidhoggur
        66
    Nidhoggur  
       21h 46m ago
    @coefu 想问下 122B 的本地智商大概和 api 差多少?我本地只跑过 35B 的 qwen 3.5 Q4 ,酒馆用着都觉得降智
    dongfanga
        67
    dongfanga  
       21h 37m ago
    等 mac 新一代的 studio 最高配版,或者海外购 5090 双卡组建(不跑 llm 还能用来游戏),如果没有太大必要,直接调用 api 更实惠
    coefu
        68
    coefu  
       20h 52m ago
    @Nidhoggur 母鸡,我也没这资源跑过这种大模型啊。
    davidyin
        69
    davidyin  
    OP
       20h 3m ago via Android
    没想着要同旗舰款比美,或者替换的意思。
    目的只是辅助编程,能分析一下代码,做的东西又是很小的。
    @Cheree
    是低预算。你能给个建议配置吗?
    slowgen
        70
    slowgen  
       16h 50m ago   ❤️ 1
    预算鸡肋不如买 api ,而且你低估了 Mac Studio 在跑大模型这件事上是极致性价比,官方翻新的 Mac Studio 库存已经 3 个月没补过货了,坐等 M5 Ultra 是最好的选择,因为曾经的 prefill 短板已经不短了。

    跑大模型不是说你现在部署了之后就不动了,非要选择方案,当前性价比最高的是 DFlash + Qwen3.6 27B 方案,人家在单张 3090 上优化到极致跑的,直接抄作业就行。

    但是,如果 2 个月之后出了一个开源模型,能力比你现在跑的模型提升 20%~ 30%,部分能力追平 Opus 4.7 ,体积在 40 ~ 60B 这个尺寸,你手头的硬件跑不动了,升级空间也没了,你怎么想。
    很遗憾,现在的模型就是月更,你无法预计到下一个月有什么模型出现,它们的能力又达到了什么程度。

    而且从已有的信息来看,你对模型类型( Dense / Moe 和显存带宽 or 内存带宽的关系是如何影响到 token/s 的)、prefill 速度取决于什么、模型尺寸和不同的量化方案( Q4_K_M/Q4_K_X_L/NVFP4/MXFP4/Q5/Q6/Q8/FP8 的差异)和上下文大小对于显存占用是如何计算的,这些信息你都没有任何概念。
    更别说评估你的任务需要注意模型 benchmark 分数的哪几项指标,同时这些指标在能选的模型里哪个最好。

    当你解了之后,你的结论就回到了我这条评论的第一句话了。
    davidyin
        71
    davidyin  
    OP
       14h 9m ago via Android
    @slowgen
    先感谢劝退我的网友。

    Mac 的事情,纯粹是我个人不喜欢。
    的确对你提到的这些没概念,所以才想着能有些东西学习,总不能意念学习啊,所以想着自己动手。要用 API 或者订阅对于我还是很简单的,毕竟加拿大很方便。

    我太太问我是要工作还是考虑玩。我的答复是,必须“军民两用”,游戏和工作相结合才更有意思啊。
    imqiyue
        72
    imqiyue  
       11h 6m ago via iPhone   ❤️ 1
    @davidyin 这配置不太建议,最多也就跑个 9b 的模型,还需要考虑 kv 缓存,而 9b 又做不了什么事
    imqiyue
        73
    imqiyue  
       11h 0m ago via iPhone   ❤️ 1
    @2000wcw 是因为亲身经历过,所以不建议。23 年 4090 跑 13b 、25 年搭 256g ddr4 跑 ds r1 (这纯玩,做不得数)速度奇慢,macmini m4 16g 和 m1pro 16g 跑 qwen 3.5 9b ,都试玩过,做不了生产力。
    deep123
        74
    deep123  
       9h 52m ago
    配个机器的钱,能用订阅多久 claude 和 gpt 呢,本地的算力和模型再聪明能多聪明呢,去折腾还不如多用用一线 ai
    mewking
        75
    mewking  
       3h 32m ago
    @slowgen 嘿嘿,就知道这贴会把你炸出来

    目前,我觉得个人部署底线应该是 2*3090 或者 4*5060ti ,各有优劣,二手 3090 年数很久了,不知道什么时候会炸,5060ti 主板,电源,延长线折腾,卡多麻烦;加上 192G DDR5 ,这套配置 27b 和 31b dense ,dflash 速度不错了。等 Deepseek V4 flash 的 llama.cpp,dflash,nvfp4 支持到位,本地对话速度应该可以,vibe 就等不起

    上限就不封顶了,看有人尝试用 dgx spark + mac studio 集群搞 DP 分离
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3325 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 186ms · UTC 12:33 · PVG 20:33 · LAX 05:33 · JFK 08:33
    ♥ Do have faith in what you're doing.