+++
title = " Self-paced”
weight = 23
pre = “23. ”
+++
标题: “自主学习” 权重: 7
堆栈部署完成后,我们可以按照以下步骤准备研讨会所需的数据集。
:image[EMR]{src=”/static/emrstudio-1.png” width=600}
:image[集群等待状态]{src=”/static/bucket-content.png” width=600}
:image[集群等待状态]{src=”/static/bucket-content-spark-app.png” width=600}
:image[EMR]{src=”/static/steps-tab.png” width=600}
Prepare Daily Batch Data
command-runner.jar
spark-submit --deploy-mode cluster --name prepare-daily-batch-data --num-executors 39 --executor-memory 4G --executor-cores 4 --conf spark.dynamicAllocation.enabled=false s3://hudi-tuning-workshop-<your-account-id>/prepare_daily_batch_data.py hudi-tuning-workshop-<your-account-id>
:image[集群等待状态]{src=”/static/step-preparation.png” width=600}
请确保用我们的AWS帐户ID替换上述代码中的每个<your-account-id>。
:image[EMR]{src=”/static/step-completed.png” width=600}
:image[EMR]{src=”/static/new-bucket-content.png” width=600}
Add Outlier Record
command-runner.jar
bash -c "echo \"drone_id,current_lat,current_lon,current_height,current_order_id,direction,loaded,package_delivered,timestamp\" > outlier.csv; echo \"D000,53.3572085,-6.4498488,51,W0120200115029605,1,1,0,202001150700\" >> outlier.csv; aws s3 cp outlier.csv s3://hudi-tuning-workshop-<your-account-id>/datasets/e-commerce/drones/warehouse_id=W01/year=2020/month=1/"
请确保用我们的AWS帐户ID替换上述代码中的每个<your-account-id>。
:image[EMR]{src=”/static/step-preparation-2.png” width=600}
:image[EMR]{src=”/static/step2-completed.png” width=700}
:image[EMR]{src=”/static/bucket-content-2.png” width=700}
**我们现在已准备好开始研讨会了。我们可以转到[下一部分](/overview)并开始研讨会。**
完成实践操作后,请务必完成下面的**完成研讨会后的清理**部分。
完成实践操作后,请务必按以下方式清理所有资源: