Hi V2EXers 👋
我们正在构建全球最具适应性的「推理基础设施底座」——不仅服务于当下的大语言模型( LLM ),更面向未来十年的前沿模型、异构加速器( GPU/NPU/ASIC )以及符合数据主权与合规要求的部署实践。
从单节点开发集群,到横跨公有云、国家级私有云与物理隔离数据中心的多区域 GPU/NPU 异构算力舰队——大装置在「模型实际运行的位置」完成推理请求的智能路由、弹性编排与深度可观测性:保障可预期的低延迟、严苛的服务等级目标( SLO ),且彻底杜绝厂商锁定( zero vendor lock-in )。这一切,均由 Rust 实现——它足够安全,可贴近内核级系统;足够高效,能支撑微秒级关键路径;也足够表达力丰富,可精准建模全权衡:从 HTTP 头字段解析,到 RDMA 队列对( queue pair )调度。
你不会只是"胶水式对接 API"。你将与团队共同设计定义下一代大规模、生产级 AI 推理所依赖的基础设施原语( infrastructure primitives )——让推理真正变得可靠、高效、可持续演进:
- 支持跨地域与硬件代际( H200 、Ascend 910B 等)的全局网关;
- 面向场景自适应的控制器(适配合规性、延迟敏感性或成本约束);
- 原生集成 Kubernetes 的 Operator ,将基础设施意图( infrastructure intent )转化为可观测、自愈合的运行现实——服务于研究人员、初创公司、国家实验室,以及中国最具雄心的 AI 战略项目。
基于 pingora 自研高吞吐、低延迟 Rust HTTP 反向代理与智能路由系统:
为不同推理模态( LLM 、ASR 、TTS 、OCR 、向量嵌入、重排序、视觉-语言多模态等)定制嵌入式 HTTP 适配器:
text/event-stream、分块二进制传输); 深度集成 Kubernetes Endpoints / EndpointSlices / Service APIs,并通过 eBPF 实现毫秒级、业务感知的存活探针( liveness probe ):动态加权路由决策依据包括——实时 token 吞吐量、GPU 显存压力、RDMA/PCIe 互连带宽饱和度等真实负载信号。
跨硬件部署单元(单机 / 集群 / 跨云)进行智能负载均衡——不依赖传统 CPU/内存指标,而是基于推理引擎反馈的深层 telemetry:请求队列积压率、PCIe 总线带宽利用率、NCCL Ring 健康状态等。
将请求元数据(租户 ID 、模型名称、部署区域、SLA 等级)与底层硬件指标( GPU 显存带宽、DRAM 访问周期、NIC 卸载使用率)精确关联,实现细粒度、可审计的资源成本核算。
与 GPU/NPU 内核与固件团队协同:针对特定模型优化 CUDA/Ascend Kernel 、调优 NCCL 集体通信、加固基于 eBPF 的可观测性模块——因为推理可靠性始于运行时( runtime )之下。
“我们选择去中心化 JWK 分发 + 每请求 JWS 验证,而非 mTLS ,以在跨地域、跨云厂商、跨主权网络场景下实现零信任服务身份——用微量 CPU 开销换取跨集群证书同步消除带来的运维韧性。”
SO_KEEPALIVE,长连接流式场景会崩溃在哪一环?“根因定位为 ASR 网关音频 Handler 与后端 Dispatcher 之间使用了 unbounded channel ,在突发流量下积压数千请求,导致 async runtime 饿死、P99 延迟激增 12 倍、最终触发 OOM Kill 。修复方案:替换为容量 128 的 bounded channel +
try_send()驱动的背压机制,并在满载时返回 HTTP 429 。下一步:按模态采集 channel 深度直方图,基于实测 token 吞吐量自动伸缩容量。”
HTTP/2 HEADERS → Tokio task → HTTP handler → K8s Endpoints watch → eBPF socket filter → NIC RX ring,并在任意环节卡顿时,知道该看哪里、查什么。在大装置,你不会"支持"AI 推理——你将参与重新定义"生产级 AI 推理基础设施"的内涵:跨越硬件、软件、地理与应用场景。
你将参与决策:
如果你相信:卓越的 AI 基础设施,必须由通晓内核、分布式系统、Kubernetes 控制平面与监管边界的通才型工程师来构建;
如果你渴望以充分的技术自主权、真实的业务影响力、零历史技术债务的方式打造下一代 AI 底座——
我们诚挚邀请你加入这场基础设施的共同创造。
1
adamcavendish OP 想要邮箱投递的也可以联系: [email protected]
|
2
Grapevine 1 天前
请问有前端 HC 嘛
|
3
adamcavendish OP @Grapevine 应该是有的,可以发邮件给我,我问问前端组
|
4
enrolls 21 小时 39 分钟前
举手试试,虽然 Python 才是我 powerful ,不过最近有看 cf 的 pingora ,而且 rust 优化了我 Python 的好多东西,譬如 geoip 的 search ,Loyalsoldier/geoip 的版本产出文件还是大了。rust + python 协助我完成 中国地址的标准化,顺便 支持了 ISO 3166 和相关抽象的
|
5
coefu 21 小时 28 分钟前
80%的 v2exer 可能看不懂你的 jd 。😄
|
6
adamcavendish OP @enrolls 要不要邮件或者官网投递一下
|
7
adamcavendish OP @coefu 不至于不至于,我们只是抛砖引玉
|
8
coefu 2 小时 6 分钟前
@adamcavendish #7 完全匹配条件的,不会超过 2 位数。
一则 rust 拦住一波,二则熟悉 ML 底层工程实现的拦住一波,三则 k8s 深入到 operator 能力的拦住一波,四则 sys 内核底层拦住一波,五则可能还得从 ML 原理层面有所理解才能有真正的性能剖析优化的能力。这五个条件一筛,还能有几个人能达到条件? 就不要说 V2EX 上 80%都是搞 web 前后端的了。 |