bi 大量 parquet 小文件存储方案求助

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1841 天前的主题，其中的信息可能已经有所发展或是发生改变。

背景：目前在做的一个 bi 系统，后台有大量用户由上传文件生成的 parquet(一个项目对应两个 parquet，一个原始数据，一个新增数据，大小主要是几十 k~几百 m)，操作是随机读部分列 /更新列，由于 pyarrow 操作 parquet 不支持更新部分列，为了性能考虑更新列是操作新增数据 parquet 。当前 parquet 是储存在 nfs 。

请教： 1.有没有更好的文件储存方案？要求读文件时不用整个文件取出，因为一般只需读部分列；用户的请求路由到对应文件储存的机器上。 2.有更好的 parquet 处理方案吗？我现在用 pyarrow/pandas 处理，要求还是用 python 。

parquet

文件

pyarrow

储存

1 条回复 • 2021-01-28 11:37:03 +08:00

levelworm

2021 年 1 月 28 日

我们公司之前是用 s3 + databrick 的，不过我也不太了解技术细节。。。同样也是大量 parquet 。