Lab 1 - Bulk insert


标题: “实验 1 - 批量插入” 权重: 25


在这个实验中,我们将批量插入初始批次的无人机数据到一个新的Hudi表中。我们将创建两个Hudi表,一个使用未优化的配置,另一个使用针对该用例优化的配置。这将展示调优决策对下一个实验中读取和更新性能的影响。

在开始之前,请确保我们已完成[在EMR Studio中设置工作区](/hands-on-lab/emr-studio)。
如果需要,我们可以浏览[Hudi 复习 - 可选](/optional)部分以了解Hudi的基础知识。

开始实验

  1. 下载 :link[此笔记本]{href=”/static/hudi-tuning-workshop-BulkInsert.ipynb” action=download}。

  2. 进入我们的EMR Studio工作区,使用上传文件按钮将下载的笔记本上传到我们的EMR Studio工作区(如下图所示)。

  1. 双击笔记本打开它。如果尚未设置,请使用右上角的切换内核按钮将内核设置为PySpark(如下图所示)。

  1. 现在按照笔记本的说明运行实验,逐个执行代码单元。

实验完成后

完成笔记本并在进入下一个实验之前,请关闭所有正在运行的内核:

  1. 在左侧导航窗格中,打开正在运行的终端和内核图标(如下图所示)。

  1. 单击关闭全部

  2. 内核关闭后,应如下所示:

我们现在可以继续进入[实验 2 - 每日更新和查询](/hands-on-lab/daily-upserts)。

更多信息

有关批量插入和应用的配置选择的更多详细信息,请查看批量插入调优 部分。