背景: 目前在做的一个 bi 系统,后台有大量用户由上传文件生成的 parquet(一个项目对应两个 parquet,一个原始数据,一个新增数据,大小主要是几十 k~几百 m),操作是随机读部分列 /更新列,由于 pyarrow 操作 parquet 不支持更新部分列,为了性能考虑更新列是操作新增数据 parquet 。当前 parquet 是储存在 nfs 。
请教: 1.有没有更好的文件储存方案?要求读文件时不用整个文件取出,因为一般只需读部分列;用户的请求路由到对应文件储存的机器上。 2.有更好的 parquet 处理方案吗?我现在用 pyarrow/pandas 处理,要求还是用 python 。
1
levelworm 2021-01-28 11:37:03 +08:00
我们公司之前是用 s3 + databrick 的,不过我也不太了解技术细节。。。同样也是大量 parquet 。
|