|      1Marshaii      226 天前 via iPhone | 
|      5waityan      226 天前 别想了,这最大只能部署 1.58 -bit 的版本吧,用处不大。不如直接用 QWQ-32B 吧 | 
|  |      8ychost      226 天前 建议 QWQ 吧,你这个部署低级量化版本效果不理想 | 
|  |      9Chihaya0824 PRO 4*8*24=768G 这显存应该够,为啥只能部署低精度的... 神奇,ray+vllm 不能用,ray list nodes 正常吗? 那要不试一下 llama.cpp rpc mode? https://github.com/ggml-org/llama.cpp/blob/master/examples/rpc/README.md | 
|  |      10Clannad0708      226 天前 ollama 吧看看,网上不是很多方案吗 | 
|  |      11dayanshenjun      226 天前 @mcsddjyd #6 7 楼老哥说的是对的,但是 RoCE 的话带宽估计也不行,我们也在研究,想要部署 671B FP8 版本的话,单台八卡至少是 H20 96G 的,集群的话,供应商推荐至少是 400G 的 IB 网卡起步,初步算至少 200W 吧😂 | 
|      12SeaRecluse      226 天前 没有 NVLink 还想部署,老老实实换 X100 系列 | 
|  |      13kd9yYw2RyhQwAwzn      226 天前 单纯跑起来的话 sglang 或者 ray cluster 就行 | 
|  |      14Zaden      226 天前 4090 没法做服务器之间集群的,普通的 pcie 连接带宽不够,需要 nvlink 、hccs 之类专用总线 | 
|      15businessch      187 天前 via iPhone 大哥,能分享下你的硬件配置方案吗。 |