Lab 2 - Daily upserts and queries


标题: “实验 2 - 每日增量更新和查询” 权重: 26


在这个实验中, 我们将执行将无人机数据每日批量增量更新到在实验 1 - 批量插入 中创建的 Hudi 表中。我们将评估这两个表的读取和增量更新性能, 并继续调整配置以优化增量更新性能。

在开始之前, 请确保我们已完成[实验 1 - 批量插入](/hands-on-lab/bulk-insert)。
如果需要, 我们可以浏览[Hudi 复习 - 可选](/optional)部分以了解 Hudi 的基础知识。

开始实验

  1. 下载 :link[此 notebook]{href=”/static/hudi-tuning-workshop-Upsert.ipynb” action=download}。

  2. 进入我们的 EMR Studio 工作区, 使用 上传文件 按钮将下载的 notebook 上传到我们的 EMR Studio 工作区(如下图所示)。

  1. 双击 notebook 打开它。如果尚未设置, 请使用右上角的 切换内核 按钮将内核设置为 PySpark(如下图所示)。

  1. 现在按照 notebook 的说明运行实验, 逐个执行代码单元。

实验完成后

完成 notebook 后, 请关闭所有正在运行的内核:

  1. 在左侧导航窗格中, 打开 正在运行的终端和内核 图标(如下图所示)。

  1. 单击 关闭全部

  2. 内核关闭后, 它应该如下所示:

我们已成功完成实验。

更多信息

有关增量更新、查询以及应用的配置和优化选择的更多详细信息, 请查看每日增量更新和查询优化 部分。