标题: “Apache Hudi 简介” 权重: 10
:image[ApacheHudi]{src=”/static/CustomIconApacheHudi.png” width=400}
Apache Hudi 是一种开放表格式,可简化增量数据处理和数据管道开发。它通过将核心仓库和数据库功能直接引入亚马逊简单存储服务(Amazon S3)或Apache HDFS上的数据湖来实现这一目标。Apache Hudi提供表管理、高效的upserts/deletes、高级索引、流式摄取服务、数据和文件布局优化以及并发控制,同时将我们的数据保留在Apache Parquet和Apache Avro等开源文件格式中。
Apache Hudi与开源大数据分析框架(如Apache Spark、Apache Hive、Apache Flink、Presto和Trino)集成。
将开放表格式Apache Hudi添加到数据湖中可为其提供: