悬赏 1000 RMB，求一个 Elasticsearch 相关的解决方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 572 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前用 es 做了一个全文检索服务，索引 3T 大小左右。

9 点上班有个访问高峰，其他时间访问量不高，9 点的时候，Es 服务需要支撑至少 1w 人同时访问，其他时间不超过 1000 。

在这种场景下，部署一个能同时支撑 1w 人的 Es 服务开销太大。

有没有一种解决方案，动态调整 Es 资源（类似于阿里云的 Elasticsearch serverless ，按量付费），1w 个人来就给你能支撑 1w 人访问的计算资源，1000 人来就给 1000 人的资源，这样能节省很大一笔开支。

第 1 条附言 · 2024 年 7 月 2 日

我没有表述清楚，假设用户量 60w ，这 60w 个人在一分钟内发请求过来，平均每秒 1w 个请求，并发至少 1w 是这么来的。

用户搜索词有 90% 的可能不一样，缓存可能有点用，但是光靠缓存不太行。

有信心的可直接加 V: d3VrYWlnZWUK

能帮忙部署一个 demo 更好，钱好说（反正不是我出），只要能解决这个场景。

Elasticsearch

动态调整

资源

36 条回复 • 2024-07-03 14:25:04 +08:00

Aliencn

2024 年 7 月 2 日

那就直接用阿里云 ES 的弹性伸缩不就行了嘛。
自己实现的话也是够买弹性服务器加入集群。

wukaige

2024 年 7 月 2 日

@Aliencn

阿里云 ES 的弹性伸缩，并发量上不了 1w

bronyakaka

2024 年 7 月 2 日

简单说就是资源可以减少，但是要上缓存，缓存层支撑高并发

angeni

2024 年 7 月 2 日

搜索应该也讲二八原则，那给 80%的套上缓存可能行

oudemen

2024 年 7 月 2 日

es 部署到 k8s 中，定时弹性扩缩容？

my3157

2024 年 7 月 2 日

就用 ES 原生的 ILM 最方便, 部署用 k8s, 配置好 k8s 的 nodegroup, 每天九点之前, 扩容一批 es hot/warm 节点, 并且将 index 从 cold 节点提升上来, 完事了再降回 cold 节点, 缩掉扩容的 k8s 节点, 实现起来也不复杂

justest123

2024 年 7 月 2 日

感觉像是个 AB 问题。。

先确认下，这 1W 人是真的都需要访问到 ES 吗，用缓存转移走部分重复请求或者没必要的请求吧

sdoq19

2024 年 7 月 2 日

阿里云 elasticsearch serverless

fengjianche

2024 年 7 月 2 日

这种分布式存储问题都一个样，先上多级缓存，再扛不住就加机器。1w 人同时访问，也不是很多啊。

JunMemon

2024 年 7 月 2 日

ES 拆分节点类型，可以横向扩展非 data 节点，data 节点采用冷热数据部署

bootvue

2024 年 7 月 2 日

k8s hpa

hallDrawnel

2024 年 7 月 2 日

感觉像是个 XY 问题，你最终要做的可能不是扩容你的 ES 。试着从搜索分布分析一下？

zhenjiachen

2024 年 7 月 2 日

k8s hpa 或者 node hpa 应该不行把。以为他们只扩充节点，但是数据不会同步到新节点并且节点关闭了数据也丢了

Xu3Xan89YsA7oP64

2024 年 7 月 2 日

有悬赏平台吗，没有的话谁去开发一个，我要抢单

winglight2016

2024 年 7 月 2 日

ES 的缓存就是靠内存，你要是裸机安装就内存弹性增加，如果是 k8s 安装，那就用 HPA 弹性加内存

ss098

2024 年 7 月 2 日

部署 ElasticSearch Helm 到 Kubernetes ，声明 ElasticSearch 不同 node role 的 resources 以及 autoscaling 的配置。

https://github.com/bitnami/charts/tree/main/bitnami/elasticsearch

ChoateYao

2024 年 7 月 2 日

阿里云有这种业务啊，包括 RDS 之类的数据库都有动态扩容方案

https://help.aliyun.com/zh/es/user-guide/perform-auto-scaling-for-a-cluster?spm=a2c4g.11186623.0.0.6f397de1Etkjdj

wukaige

2024 年 7 月 2 日

@justest123

真的要访问，1w 可能还不保险。

lasuar

2024 年 7 月 2 日

你需要一个 es 专家

mightybruce

2024 年 7 月 2 日

"假设用户量 60w ，这 60w 个人在一分钟内发请求过来，平均每秒 1w 个请求，并发至少 1w 是这么来的。"

首先这个公式就是有问题，怎么可能 60w 人都是活跃用户，并且用户量根本不能直接这样换算，你这什么应用

就是一个 XY 问题。

Jinnrry

2024 年 7 月 2 日 via Android

不改业务代码，纯改 es 架构不太现实，你有没有想过 3T 数据扩容的时候主节点复制到从节点要多久？如果高峰瞬间过来，这时你又加节点，从节点复制数据把主节点机器大部分 io 都占了，服务瞬间 GG ，还不如不扩容

除非你能分钟级准确预估峰值时间，否则怎么定扩容策略

另外，1 万人同时访问，这也不多啊，就算缩容，每个月省几千块钱？

brom111

2024 年 7 月 2 日

说起来既然都用阿里云了有没有考虑过 Lindorm 这套东西

Coolwinds

2024 年 7 月 2 日

从 IT 的角度上来说，你假如自己做伸缩，你多出来的计算资源譬如服务器在闲时怎么办，企业一般不会允许你在一台机器上部署多个服务，除非只是测试环境节省资源

skymei

2024 年 7 月 2 日

感觉业务描述不够清晰，数据是否有冷热区分，是只有基本的全文检索服务，还是会有 agg 聚合统计，数据有没有业务状态，目前分片和副本怎么配置的，分词粒度咋样，这些都可能影响性能。

keakon

2024 年 7 月 2 日

计算挺奇怪的，60 万用户全在一分钟内访问，这是主动发起的，还是定时任务啊？

平时还能有 1000 qps ，他们是有多闲，每 10 分钟都会查询一次…

说实话你这问题靠扩容没法解决，比如 8:59 时还是 1000 qps ，假设 1 台机器刚好。9:00 突然到 1 万 qps ，立刻再起 9 台机器，启动要半分钟，同步数据几分钟，然后发现 qps 回到 1000 了，它们又可以下线了。