zhengfan2016
V2EX  ›  Local LLM

消费级显卡(16G A 卡)是不是不适合运行 vllm 和 sglang,好像使用 transformer 推理都比这两个框架快,并且占用显存低

  •  
  •   zhengfan2016 · 18h 19m ago · 1534 views

    如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。

    transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?

    17 replies    2026-06-01 03:14:06 +08:00
    bnull
        1
    bnull  
       17h 32m ago
    我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢
    ashong
        2
    ashong  
       16h 33m ago via iPhone
    rocm 还是原生 linux 效率高,我是 7900xtx
    01802
        3
    01802  
       16h 8m ago via Android
    nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行
    wwhc
        4
    wwhc  
       16h 7m ago
    除非你是在为大公司或企业开发 AI 推理系统,建议使用 llama.cpp ,这是目前最好的 AI 推理框架
    zhengfan2016
        5
    zhengfan2016  
    OP
       16h 6m ago
    @ashong 79xtx 推理 rocm 对常见 gguf 和 pytorch 模型兼容性怎么样啊,打算攒钱搞块 r9700 当推理卡,但是看网上很多说不如买 4080ti 魔改卡 cuda 吊打一切,我感觉 1.2w 买张魔改卡万一坏了,风险还是蛮大的
    zhengfan2016
        6
    zhengfan2016  
    OP
       16h 4m ago
    @wwhc llama.cpp 好像用不了那些 vllm 的什么 vllm paged attention 和 kv 前缀缓存的优化吧
    wwhc
        7
    wwhc  
       16h 1m ago
    7900xtx 在 llama.cpp 下支持良好,推理时的预填充速度可能只比 4060ti 稍强,但 token 生成速度与 3090ti 相差不大
    wwhc
        8
    wwhc  
       15h 59m ago
    llama.cpp 的优化参数也很多,绝对性能目前可能仍不及 vllm 强,但可用性、易用性、可调性及部署能力都远强于 vllm
    ashong
        9
    ashong  
       15h 56m ago via iPhone
    @zhengfan2016 rocm 生态越来越丰富了,目前没遇到什么问题,qwen 3.6 27B Q4 大概 28tokens/s
    ashong
        10
    ashong  
       15h 51m ago via iPhone
    最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了
    oldlamp
        11
    oldlamp  
       14h 11m ago
    16G 显存,是什么核心呢?

    好像如果是 RX580 之类的就会比较慢,看人运行 omnicode-2-9b-q4_KM 能有十几个 tokens/s:

    https://mp.weixin.qq.com/s/7c-Lj_xg33r6dswMhH7bRg
    zhanying
        12
    zhanying  
       14h 9m ago
    用 rocm 还不如 vulkan 跑。。。
    zhengfan2016
        13
    zhengfan2016  
    OP
       12h 14m ago via Android
    @oldlamp 9070
    pnczk2019
        14
    pnczk2019  
       10h 48m ago
    这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
    我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾.
    yinanc
        15
    yinanc  
       10h 36m ago
    @zhengfan2016 我在用 7900xtx 跑 comfyui 的图/视频生成,需要配合 Claude code 解决各种问题,目前还没有遇到 hard block 的情况,体验还是很好的。4080s 32G 价格几乎是 7900xtx 的 3 倍了,还是魔改的,个人觉得完全不值
    irrigate2554
        16
    irrigate2554  
       7h 14m ago
    是的,消费级推荐 lm studio
    wwhc
        17
    wwhc  
       1h 47m ago
    RX9070 对标 Nvidia Titan V 的 AI 推理性能
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   842 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 67ms · UTC 21:01 · PVG 05:01 · LAX 14:01 · JFK 17:01
    ♥ Do have faith in what you're doing.