Introduction > Hudi

Hudi

ApacheHudi

Apache Hudi（Hadoop Upsert Delete and Incremental）是一个开源的数据管理框架，用于简化增量数据处理和数据管道开发。

该框架通过对存储在S3中的Hudi数据集进行记录级别的更新和删除，为基于Hadoop的数据湖带来了ACID合规性。

Hudi 支持以下表类型。

Copy On Write : 使用专门的列式文件格式(例如 parquet)存储数据。更新只需要版本化和重写文件，通过执行同步合并来完成。 CoW 表非常适合读密集型工作负载。
Merge On Read : 使用列式(例如 parquet)和行式(例如 avro)文件格式的组合存储数据。更新被记录到增量文件中，并稍后同步或异步地被压缩到生成新版本的列式文件中。 MoR 表非常适合写密集型工作负载。

下表总结了这两种表类型之间的权衡: