环境准备

数据集介绍

我们将使用以下TPC-DS数据集和表。

TPC数据 代表了数千种产品的交易数据,以及客户信息、人口统计、家庭详情、库存、网络销售、促销和退货信息。下图说明了它们在在线销售中的关系:

我们将重点关注TPC数据库(100GB)中的以下表:

  • customer:客户记录,将用于Apache Iceberg基本功能测试。(200万条记录)
  • web_sales:销售记录,将用于Apache Iceberg高级功能测试。web_sales表通过date_dim表获取交易日期时间信息。(约7200万条记录)

表定义

完整的TPC数据字典可在此处 获取。

部署CloudFormation

在美东1,部署cloudformation:

image-20250312194050891

使用以下S3链接:

https://pingfan.s3.amazonaws.com/files/otf_in_a_box.yaml

image-20250312194119194

进入下一步,保留默认设置:

image-20250312194153391

最终点击创建,我们应该会看到一个新CloudFormation正在创建中。等待堆栈状态变为CREATE_COMPLETE后再继续。

部署完大约需要等待10分钟