JUPYTERHUB NOTEBOOKS

打开EMR控制台,找到主节点的DNS地址:

image-20210430203537212

新开一个新的浏览器页面,输入此地址:

https://<MasterDNSIp>:9443

注意:chrome浏览器可能提示证书风险问题,加载不出该页面。如果出现这种情况,可以使用safari浏览器打开。

使用用户名jovyan和密码jupyter登录

登录成功后,创建一个新的PySpark Notebook:

image-20210430204105378

将下面代码复制到notebook,并使用shift + enter 来运行。

import sys
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

image-20210430204255756

继续运行以下代码:

input_path = "s3://<YourS3BucketName>/input/tripdata.csv"
output_path = "s3://<YourS3BucketName>/output/"

jupyterhub image

nyTaxi = spark.read.option("inferSchema", "true").option("header", "true").csv(input_path)

jupyterhub image

继续执行:

nyTaxi.count()

jupyterhub image

nyTaxi.show()

image-20210430204651980

nyTaxi.printSchema()

jupyterhub image

updatedNYTaxi = nyTaxi.withColumn("current_date", lit(datetime.now()))
updatedNYTaxi.printSchema()

image-20210430204843141