:: AWS Workshop

Introduction > Hudi >

标题: “Apache Hudi 简介” 权重: 10

:image[ApacheHudi]{src=”/static/CustomIconApacheHudi.png” width=400}

什么是 Apache Hudi?

Apache Hudi 是一种开放表格式，可简化增量数据处理和数据管道开发。它通过将核心仓库和数据库功能直接引入亚马逊简单存储服务(Amazon S3)或Apache HDFS上的数据湖来实现这一目标。Apache Hudi提供表管理、高效的upserts/deletes、高级索引、流式摄取服务、数据和文件布局优化以及并发控制，同时将我们的数据保留在Apache Parquet和Apache Avro等开源文件格式中。

Apache Hudi与开源大数据分析框架(如Apache Spark、Apache Hive、Apache Flink、Presto和Trino)集成。

Apache Hudi的优势

将开放表格式Apache Hudi添加到数据湖中可为其提供:

事务支持 允许写入完全成功或完全回滚
记录级操作 - 允许单个行被插入、更新或删除
索引 - 除了分区等数据湖技术外，还可提高性能
并发控制 - 允许多个进程同时读写同一数据
模式演化 - 允许在表的生命周期内添加或修改列
时间旅行 - 使我们能够查询过去某个时间点的数据