标题: “查询类型” 权重: 43


Hudi支持以下查询类型:

  • 快照查询: 查询可以看到给定提交或压缩操作时表的最新快照。对于合并读取表,它通过实时合并基础文件和最新文件切片的增量文件来提供近实时数据(几分钟)。对于复制写入表,它提供了现有Parquet表的即插即用替代方案,同时提供了upsert/delete和其他写入侧功能。

  • 增量查询: 查询只能看到自给定提交/压缩操作以来写入表的新数据。这有效地提供了变更流,以支持增量数据管道。

  • 读优化查询: 查询可以看到给定提交/压缩操作时表的最新快照。仅公开最新文件切片中的基础/列式文件,并保证与非Hudi列式表相同的列式查询性能。

以下是按表类型划分的查询支持:

表类型 支持的查询类型
复制写入 快照查询 + 增量查询
合并读取 快照查询 + 增量查询 + 读优化查询

下表总结了这两种查询类型之间的权衡:

权衡 快照 读优化
数据延迟 较低 较高
查询延迟 较高(合并基础/列式文件 + 行式增量/日志文件) 较低(原始基础/列式文件性能)