打开EMR控制台,找到JupyterHub地址, 并打开:-
选择信任证书并打开:
注意:chrome浏览器可能提示证书风险问题,加载不出该页面。如果出现这种情况,可以使用safari浏览器打开。
使用用户名jovyan和密码jupyter登录
登录成功后,创建一个新的PySpark Notebook:
将下面代码复制到notebook,并使用shift + enter 来运行。
import sys
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
继续运行以下代码:
input_path = "s3://<YourS3BucketName>/input/JC-202202-citibike-tripdata.csv"
output_path = "s3://<YourS3BucketName>/output/"
nyTaxi = spark.read.option("inferSchema", "true").option("header", "true").csv(input_path)
继续执行:
nyTaxi.count()
nyTaxi.show()
nyTaxi.printSchema()
updatedNYTaxi = nyTaxi.withColumn("current_date", lit(datetime.now()))
updatedNYTaxi.printSchema()