标题: “Apache Hudi 简介” 权重: 10


:image[ApacheHudi]{src=”/static/CustomIconApacheHudi.png” width=400}

什么是 Apache Hudi?

Apache Hudi 是一种开放表格式,可简化增量数据处理和数据管道开发。它通过将核心仓库和数据库功能直接引入亚马逊简单存储服务(Amazon S3)或Apache HDFS上的数据湖来实现这一目标。Apache Hudi提供表管理、高效的upserts/deletes、高级索引、流式摄取服务、数据和文件布局优化以及并发控制,同时将我们的数据保留在Apache Parquet和Apache Avro等开源文件格式中。

Apache Hudi与开源大数据分析框架(如Apache Spark、Apache Hive、Apache Flink、Presto和Trino)集成。

Apache Hudi的优势

将开放表格式Apache Hudi添加到数据湖中可为其提供:

  • 事务支持 允许写入完全成功或完全回滚
  • 记录级操作 - 允许单个行被插入、更新或删除
  • 索引 - 除了分区等数据湖技术外,还可提高性能
  • 并发控制 - 允许多个进程同时读写同一数据
  • 模式演化 - 允许在表的生命周期内添加或修改列
  • 时间旅行 - 使我们能够查询过去某个时间点的数据