|  |      11119745302      2024-07-23 17:10:09 +08:00 换个后端? | 
|      2CNYoki OP @1119745302 #1 这个跟后端没太大关系吧,直接用的 python 调的 ollama 的库 | 
|      3KylinYou      2024-07-23 17:23:46 +08:00 via Android 在 llama.cpp 那边提个 issue 呢 | 
|  |      4swulling      2024-07-23 17:27:25 +08:00 为啥 A800 还用 ollama 或 llama.cpp 。直接用 vLLM 。 | 
|  |      5neteroster      2024-07-23 17:27:47 +08:00 via Android 用 vLlm 。 | 
|      6CNYoki OP vLLM 现在有 json mode 了吗 | 
|      70x3933030      2024-07-23 18:26:56 +08:00 只有卡 0 用起来了,怎么想都是模型实现的问题 | 
|      8CNYoki OP @0x3933030 #7 再加载另一个模型的话,ollam 会优先放在空闲的卡上。但是单模型不知道为什么就是推理速度起不来 | 
|  |      91119745302      2024-07-23 18:46:41 +08:00 @CNYoki llama.cpp 似乎不支持张量并行,就算 4 张卡显存占满了也跑不快. https://www.bilibili.com/video/BV1DH4y1c7gK/ 可以参考一下这个, 换个 vllm 啊啥的后端一般就是随便跑了 | 
|      10crackidz      2024-07-23 23:05:30 +08:00 当然是换个后端... vllm 算是比较流行的企业级后端 | 
|      11GrayXu      2024-07-24 11:22:47 +08:00 @CNYoki #2 就是后端问题,ollama 是依赖 llama.cpp 的吧,llama.cpp 只能模型并行,不能提升 token 速度。用 vllm 。 | 
|  |      12clemente      2024-07-24 15:03:17 +08:00 开大 batch size |