ollama 本地模型 GPU 跑不满 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 465 天前的主题，其中的信息可能已经有所发展或是发生改变。

在本地部署了 ollama 的 API 做生成任务，现在有 4 块 A800 的 GPU ，ollama 已经开启了并行任务。

现在的问题是，模型速度提不上去，GPU 也没有跑满，占用在 80%左右，显存也只用了 1/2 。

是其他什么硬件到了瓶颈吗？影响模型生成速度的内存带宽？如何能提升速度？

第 1 条附言 · 2024-07-24 14:57:53 +08:00

多谢诸位。换 vllm 了，72b 的模型用两张卡都没跑起来，四张都用才行（

12 条回复 • 2024-07-24 15:03:17 +08:00

1

1119745302

2024-07-23 17:10:09 +08:00

换个后端?

2

CNYoki

OP

2024-07-23 17:19:32 +08:00

@1119745302 #1 这个跟后端没太大关系吧，直接用的 python 调的 ollama 的库

3

KylinYou

2024-07-23 17:23:46 +08:00 via Android

在 llama.cpp 那边提个 issue 呢

4

swulling

2024-07-23 17:27:25 +08:00

为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。

5

neteroster

2024-07-23 17:27:47 +08:00 via Android

用 vLlm 。

6

CNYoki

OP

2024-07-23 17:59:43 +08:00 via iPhone

vLLM 现在有 json mode 了吗

7

0x3933030

2024-07-23 18:26:56 +08:00

只有卡 0 用起来了，怎么想都是模型实现的问题

8

CNYoki

OP

2024-07-23 18:36:09 +08:00

@0x3933030 #7 再加载另一个模型的话，ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来

9

1119745302

2024-07-23 18:46:41 +08:00

@CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了

10

crackidz

2024-07-23 23:05:30 +08:00

当然是换个后端... vllm 算是比较流行的企业级后端

11

GrayXu

2024-07-24 11:22:47 +08:00

@CNYoki #2 就是后端问题，ollama 是依赖 llama.cpp 的吧，llama.cpp 只能模型并行，不能提升 token 速度。用 vllm 。

12

clemente

2024-07-24 15:03:17 +08:00

开大 batch size

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 2536 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 12:40 · PVG 20:40 · LAX 05:40 · JFK 08:40
♥ Do have faith in what you're doing.