我们这边每天都会落几十 GB 日志,埋点+调试都有。 想法比较简单:
之前看过对象存储 + Presto(Trino) 这套,但有点懒得自己搭建和维护,感觉太折腾。 大家平时是怎么搞的?有没有省心点的办法?
1
chesha1 12 天前 ![]() grafana 可视化+promtail 收集+loki 日志聚合+任意对象存储,k8s helm chart 一个 loki-stack 全搞定了,只要调调 yaml 配置,相当不折腾
|
2
c00WKmdje2wZLrSI 12 天前
阿里云或者腾讯云的日志服务?
|
![]() |
4
Nitroethane 12 天前 via iPhone
试试阿里云 maxcompute ?内部叫 odps ,挺好用
|
![]() |
5
nm1st 12 天前 ![]() duckdb+s3
|
![]() |
6
Smileh 12 天前
买个 10T 硬盘
|
![]() |
7
linhrdom OP @c00WKmdje2wZLrSI 有点贵,1TB 一年 2700 左右。有点恐怖了
|
![]() |
8
COW 12 天前 via Android
presto 非常吃内存的,而且也不太推荐用于块存储查询,要不看看 ck ?
|
![]() |
10
Maboroshii 12 天前 ![]() 没有银弹... 最简单就是存文件,grep 查
|
![]() |
11
bruce0 12 天前
我前几天刚搭了一套 ELK, filebeat 收集,logstash 分析处理,ES 存, kibana 展示. 除了 filebeat 都是 docker(podman) 跑的, 现在只收集程序运行 log.每天 2G 左右,保存 14 天,原始 log 永久保存(gov 规定的)
前几天想把玩家行为 log 也写入 ES,每天可能在 10G 左右,打算保存 1 年+, 算了一下,硬盘需求太大,还是用原来的吧(原来有一套程序+脚本能通过原始 log 文件查找分析玩家行为) 就没必要把行为 log 再写入 ES 了 |
12
vincentWdp 12 天前
aws Athena? 虽然成本也不低
|
13
ladypxy 12 天前 via iPhone
aws s3
|
14
fuzzsh 12 天前 via Android
买冷存储块,3 天后就放入冷库,要查在捞出来
|
15
DefoliationM 12 天前 via Android
quickwit+s3 ,完美符合你的要求,支持全文搜索。
|
![]() |
16
ETiV 12 天前 via iPhone
https://github.com/openobserve/openobserve
🚀 10x easier, 🚀 140x lower storage cost, 🚀 high performance, 🚀 petabyte scale - Elasticsearch/Splunk/Datadog alternative for 🚀 (logs, metrics, traces). OpenObserve (O2 for short) is a cloud-native observability platform built specifically for logs, metrics, traces, analytics, RUM (Real User Monitoring - Performance, Errors, Session Replay) designed to work at petabyte scale. |
![]() |
17
perfectlife 12 天前 via Android
云上直接用云平台的日志服务,想降低成本就设置把历史日志扔到归档存储里
|
![]() |
18
sjbsjb233 12 天前 ![]() 我有一技:
你去 steam 上买个 wallpaper engine 然后使用 SteamCMD 命令行向 wallpaper engine 创意工坊上传作品,在这个作品里把你的日志文件加密丢进去,然后随便整个图片包装下上传,描述或者标题就写你的日志备份日期 一次传十几个 G 的文件没太大问题,还能免费用到 steam 的 CDN 下载服务 而且完全可以自动化进行,因为 steam 有 SteamCMD 功能可以命令行运行,可以部署在 linux 或者 docker 上 |
19
w568w 12 天前
看看 InfluxDB ? https://www.influxdata.com/influxdb-pricing/
|
![]() |
20
ETiV 12 天前 via iPhone ![]() 我也给我们项目写过
- 日志每天 gzip 上传到阿里云 oss 、AWS S3 这种地方,存储路径、文件名都有规律的 - 配置好归档冷存储策略 - 等需要搜索的时候,大批量开按量计费的虚拟机,然后用分布式、多进程、管道化的方式来 gunzip | grep 想要搜索的内容 * 机器都开在了同 region ,访问走内网域名,不会收取 egress 流量费 - 上面的工作是一个异步的任务,开跑了就可以挂着了 - 跑完会给企业微信群里发条消息,说最终 grep 匹配出来的结果放在了什么路径下。然后把跑任务的机器自动关机。 |
21
lscho 12 天前 ![]() 便宜
不折腾 能直接用( SQL 能直接捞出来) 以上不可能三角 |
![]() |
23
wupher 12 天前
- 常用查询放 ELK ,一般双周或一月,视各项目重要情况。
- 归档日志存放于 Hadoop ,通过 API 进行检索。 |
27
1423 12 天前 ![]() 每天上传几十 GB 日志,会不会被认定跑 PCDN 被限速?
|
28
512357301 12 天前 via Android
用 duckdb 转成 parquet ,然后随便放哪里(本地或者 s3 ,甚至 http 文件服务器也行),用 duckdb 读取,速度也很快。
|
29
512357301 12 天前 via Android
每天啊,那这量不算小,一般建议数仓了,可以先用 duckdb 试试,不行就上 ck 数仓
|
30
dji38838c 12 天前 ![]() 如果一年几万块,不值得出
那么大概率这数据也不值得放 |
![]() |
31
marquina 12 天前 via iPhone
@dji38838c #30 +1 ,用价格竞争最充分的对象存储来算,每月几十 g 的数据一年下来也得 5 位数了。如果这钱都不想出那说明这数据没那么值钱。
|
32
billccn 12 天前
以前 AWS S3 还支持直接运行 SQL-like 查询呢: https://docs.aws.amazon.com/AmazonS3/latest/userguide/selecting-content-from-objects.html
当然这种好事已经结束了 |
33
guo4224 12 天前 via iPhone
找个大善人给你出钱出精力维护
|
![]() |
34
xuanbg 12 天前
日志留够 1 年是你想多了,除非用于数据恢复。查问题的话,7 天足够了。一般也就 24 小时内的问题要查。
|
![]() |
35
bk201 12 天前
自己买 nas 存储设备存储最便宜。
|
36
ExplodingFKL 12 天前
一楼的方案算是比较好的了,prometheus 也可以顺便用 grafana ,只不过每天落几十 GB 日志有点难崩,假如 30G/d, 一年就是 10T + 了
|
37
jnliyan1 12 天前
啥问题需要一年后查..
|
38
kzfile 12 天前
既要低成本又要方便查询,我感觉需要建多层缓存
|
![]() |
39
opengps 12 天前
其实一块大容量的移动硬盘已经足够靠谱了
|
40
spritecn 12 天前
年? 没审计需求的话,到月就可以了吧,我只存 10 天,方案是 OpenObserve 走 s3
|
41
spritecn 12 天前
OpenObserve 存储也是 parquet
|
![]() |
42
yudoo 12 天前
ilogtail+clickhouse 最简单的 单节点就行 压缩比 es 高 7 倍,硬盘 1T 差不多了
|
43
guanyujia5444 12 天前
对象存储+分层存储,要不就降低保留时间,再便宜的方案可能可用性就受影响了
|
44
i8086 12 天前
频繁查询都是 15 天内的,我这里 3 个月前的日志很少要查,平均下来 1 年查不到 2 次,那时候把日志导出为文本,直接用 winrar + 大字典压缩归档了,超级省空间,10G 日志压缩完不到 1G 。
完善后续恢复导入流程就可以了。 |
45
i8086 12 天前
按月归档。
|
![]() |
46
TaiShang 12 天前
victorialog
|
![]() |
47
tomatocici2333 12 天前
|
![]() |
48
Goooooos 12 天前
日志我们最多只存 30 天
|
![]() |
49
RedisMasterNode 12 天前
一年 2700 的成本都不愿意..吗 这不对吧
|
50
dode 12 天前
试试 clickhouse ,带压缩功能
|
![]() |
51
evan1 PRO @RedisMasterNode #49 这是 1t 的价格。op 一天就产生几十 g 的日志。一年下来也要几万块钱了。
|
![]() |
52
RedisMasterNode 12 天前
@evan1 按 30G 一年只有 10T 左右,现在日志存储压缩率极高,轻松可以有 10x 以上的压缩率把存储开销保持在 2T 内。
See: https://victoriametrics.com/products/victorialogs/ |
![]() |
53
joyoyao 12 天前
clickhouse 上手简单。支持到期日志自动删除,压缩算法也给力。也支持 sql 。搞个大一点的机械硬盘就行了。
|
54
guxingke 12 天前
doris ,MySQL 协议兼容,支持分层存储(冷数据丢到 OSS)
|
![]() |
55
duanxianze 12 天前
买两块硬盘不就好了,互为备份就行了,五年内还是稳的
|
![]() |
56
fengfisher3 12 天前
日志最好能留够 1 年。
偶尔要查问题,用 SQL 能直接捞出来就行。 不想自己搭 ES/数仓,成本太高、维护也麻烦 ------------------------------------------------------- 大量长时间存储,还要方便能直接使用,又不想麻烦的,真的如 @lscho 所说,不可能三角。 每天 几十 GB 日志,这个量,光存储的钱都不少,还不想麻烦,真的不可能,换方案吧。 |
57
luzihang 12 天前
年初遇到个需求,金融机构上面来检查,按照订单号,要查 5 年内的日志:请求和响应 2 条。后面写个脚本,读按照日期归类的日志压缩文件。
|
58
salmon5 12 天前
@duanxianze #53 的方案可以了,买 2 块大硬盘足够了
|
59
laminux29 12 天前
你既要方便地能直接 SQL 查询,又懒得搭建和维护。
这边建议您花钱找人帮您搭建。 |
![]() |
61
la2la 12 天前
假设 1 天 100 GB 数据,1 年 大概 36.6 TB 左右的数据
这点数据可以考虑一下云厂商的 OSS 服务,在加上冷热模式,用不了几个钱。 不过你要支持可查,那么用数据湖格式,存储落到 OSS 上,使用 Doris 或者 Spark 挂个外表就能查了。 |
63
JoeDH 12 天前
一年有没有必要?如果接受不了云服务的价钱,那还是自己买存储搭一套吧
|
![]() |
64
Moatkon 11 天前
找一个压缩算法,规划好分片维度。后面业务如果需要找到指定分片解压
|
65
zhangxiangperson 11 天前 ![]() 如果不想自己拼组件,可以考虑全托管的湖仓,(对象存储 + 表格式 + SQL 引擎一体化)。例如把日志直接落到云器 Lakehouse ,一年存储免费的 “资源包”,1TB 存储免费,存储+SQL 即席查询的诉求能一次到位:
https://www.yunqi.tech/product/one-year-package |
![]() |
66
linhrdom OP @vincentWdp AWS Athena 我简单算了一下,可能要 4000 多美金,更恐怖了。
|
![]() |
67
linhrdom OP @DefoliationM 可以,但不是 SQL
|
![]() |
68
linhrdom OP @fengfisher3 感谢分析
|
![]() |
69
linhrdom OP @zhangxiangperson 这个好,试试
|
70
wineejam 11 天前
直接上 SLS
|
![]() |
71
tooroot 11 天前
Doris 存算分离模式 + OSS 冷备
|
![]() |
72
gzldc 11 天前
公司出钱 让公司买现成的 没钱就不留呗
|
![]() |
73
yidinghe 11 天前 via Android
几十 TB 一年的存储费用可不少,任何云服务都不便宜。一个方案是用 btrfs 文件系统存储原始日志文件,挂载时加上压缩参数,能压缩 80%左右,35TB 原始文本可压缩成 7TB ,一个硬盘就能装下,查询日志用 grep 即可。
|
74
vopsoft 11 天前
"我们这边每天都会落几十 GB 日志,埋点+调试都有。 想法比较简单" 最后这个句改成 "想法太天真"吧
需求能实现 也是野路子或者薅羊毛 感觉就是给 2 毛钱预算 让你做核弹 ...唉 |
![]() |
75
js2854 11 天前
腾讯云 CLS 低频版,关闭全文索引,添加需要的键值索引,成本还比较低
|
![]() |
76
Gilfoyle26 11 天前
|
![]() |
77
howencilx 11 天前
重要就会花钱,舍不得花钱那还是不太重要
|
![]() |
78
wangtian2020 11 天前
|
79
quicksandznzn 11 天前
我们是 es 保留近几天 其它的云服务深度归档(便宜) 需要的时候在恢复
|
80
BlueSkyXN 11 天前
网盘+压缩
|
81
DLOG 11 天前
filebeat -> kafka -> (ck -> S3)
才几十个 G ,随便玩 |
83
maximdx 11 天前
这得上数仓吧,我们公司用 pinot 或者 clickhouse
|
84
HappyAndSmile 11 天前
ClickHouse 按天分区,简单,不用那么折腾
|
![]() |
85
luciankaltz 11 天前
可以考虑 GreptimeDB ,和常见的日志存储在官网都有对比文章。写了一大堆 v2 不让我发,麻了
利益相关 |
86
yingqi1 11 天前
我也推荐 duckdb+云存储方案, 文件压缩率也是第一梯队,duckdb 也可以, 然后 duckdb 安装极其简单,使用也简单,查询速度丝毫不弱。
|
87
deplives 11 天前
@linhrdom #7 一天几十 G 一年就差不多得 17T 日志,又想冷数据大容量存储存储,又想热数据随时调用,又想不花钱,又想不麻烦。讲真,寿命这个数据不重要,你们干脆自己买个几块企业硬盘吧。够用了。
|
![]() |
88
qweruiop 11 天前
楼上的各位佬,最近有个内部文档,看介绍 duckdb 可以直接挂在 cloudflare r2/s3 来实现全文搜索?不知道,是否有简单的例子,或者 demo 。。。
|
![]() |
89
tudou1514 11 天前
直接物理存,买硬盘,做好报警,满了就换
|
90
pinylin 11 天前
vector -> clickhouse -> S3
vector -> quickwit-> S3 我觉得 都行 |
![]() |
91
Maboroshii 11 天前
补充一下我之前说的文件方案:
保存到支持透明压缩的文件系统里,比如 btrfs ,不仅支持快照,也支持方便的备份 然后文件是可以天然支持根据日期分区的 最后,直接用 warp 等 ai 终端帮你查找想要的内容,都不用自己拼 grep 或写脚本分析了 |
![]() |
92
guyueyiren 11 天前
@ETiV #20 感觉是邪修,从未想过如此办法,哈哈
|
![]() |
93
tianshiyeben 11 天前
|
94
lichon 11 天前
signoz clickhouse 存储 支持 S3 fallback
|
95
RicardoY 10 天前
没有审计需求留一年干嘛,一个月足够了(大多数是 7 天)
|
![]() |
96
nicoljiang PRO @linhrdom #69 兄弟是会做推广的。
|
97
z12cryoto 9 天前
可以试试 web3.storage
|