使用Jupyter Notebook提交任务

打开EMR控制台,找到JupyterHub地址, 并打开:-

image-20240305100422858

选择信任证书并打开:

image-20240305100517688

注意:chrome浏览器可能提示证书风险问题,加载不出该页面。如果出现这种情况,可以使用safari浏览器打开。

使用用户名jovyan和密码jupyter登录

image-20240305100557248

登录成功后,创建一个新的PySpark Notebook:

image-20210430204105378

将下面代码复制到notebook,并使用shift + enter 来运行。

import sys
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

image-20240305100725852

继续运行以下代码:

input_path = "s3://<YourS3BucketName>/input/JC-202202-citibike-tripdata.csv"
output_path = "s3://<YourS3BucketName>/output/"
nyTaxi = spark.read.option("inferSchema", "true").option("header", "true").csv(input_path)

继续执行:

nyTaxi.count()

image-20240305100952451

nyTaxi.show()

image-20240305101009590

nyTaxi.printSchema()

image-20240305101024267

updatedNYTaxi = nyTaxi.withColumn("current_date", lit(datetime.now()))
updatedNYTaxi.printSchema()

image-20240305101047403