1
coefu 2 小时 45 分钟前
unsloth/Qwen3.5-397B-A17B-GGUF, UD-Q6_K,327G,留 50G 跑 context ,看情况;如果 context 不够,就换 UD-Q4_K_XL ,245G ,留 130G 跑 context ,肯定够的。
IDE 用开源的 continue 即可。想完全 agent ,估计够呛,你自己得盯着。local 的能力肯定不如云端 api 的。 |
2
coefu 2 小时 43 分钟前
先试 llama.cpp 的 8 卡 tensor parallel 。反正一年前的 8 卡 TP 模式,是有点问题的,不知道修复没有。如果不行,就上 vllm 。
|