• 1. EMR基础操作
    • 1. 启动EMR集群
    • 2. SSH登录集群
    • 3. 使用spark-submit执行任务
    • 4. 监控任务执行状态
    • 5. 使用Jupyter Notebook提交任务
    • 6. EMR Steps
    • 7. 使用Hive运行任务
    • 8. RunJobFlow与CreateCluster
  • 2. EMR Configuration
    • 1. Livy配置
    • 2. 跨帐号查询Glue
    • 3. EMR上节点类型
    • 4. instance fleet
    • 5. Bootstrap action
    • 6. Reconfiguration
  • 3. Iceberg
    • 1. 环境准备
    • 2. 创建EMR Studio
    • 3. Iceberg表的操作 - 环境准备
    • 4. Iceberg表的操作 - 创建数据库和表
    • 5. Iceberg表的操作 - 插入、更新和删除
    • 6. Iceberg表的操作 -Time Travel和回滚
    • 7. Iceberg表的操作 - Schema Evolution
    • 8. Iceberg on Athena
    • 9. 隐藏分区 - Hidden Partitioning
    • 10. 使用Merge进行CDC
    • 11. 过期快照
    • 12. 数据压缩 - Data Compaction
    • 13. Partition evolution
  • 5. EMR on EKS
    • 1. EMR on EKS基础
      • 1. 在EKS上创建EMR集群
      • 2. 在EKS上向EMR提交作业
      • 3. 监控和日志
      • 4. 监控和日志 II
      • 5. Spark ETL 任务
      • 6. 与AWS Glue MetaStore集成
      • 7. EMR on EKS定价
    • 2. EMR on EKS进阶
      • 1. Node Placement
      • 3. Pod Template
  • 6. EMR Serverless - I
    • 1. 控制台将Spark Job提交到 EMR Serverless
    • 2. 从CLI提交 Spark Job
    • 3. 使用 Custom Image
    • 4. 提交 Hive Job
    • 5. Spark任务的监控
    • 6. CloudWatch Dashboard监控EMR Serverless Job
    • 7. Hive的监控
  • 7. EMR Serverless - II
    • 1. 与Glue MetaStore集成
    • 3. Transaction型数据湖 - Hudi
    • 4. Transaction型数据湖 - Hudi II
  • 8. EMR的计算成本优化
    • 1. 环境搭建
    • 2. EMR on EC2使用Spot
    • 3. 通过EMR on EKS提交任务
    • 4. EKS上的spot中断
    • 5. 使用KubeCost进行成本可视化
    • 6. 通过EMR on EKS提交任务
    • 7. 通过EMR on EKS提交任务
  • 9. Trino
    • 1. Trino架构
    • 2. EMR搭建Trino
    • 3. 跨数据源查询
    • 4. 查询S3
    • 5. trino常用命令

  • 清除历史

© 2021 Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Introduction > Hudi > 创

创