进入EMR服务,点击"创建集群”,选择EMR版本(建议选择最新版本,如EMR 7.9.0或更高版本),在应用程序中选择"Trino”
在Cluster termination and node replacement
部分,选择手动关闭集群:
选择EC2 pem文件、EMR的service role和EC2 role:
最后点击创建。
EMR已经预装了Trino,但您可能需要进行一些配置调整:
连接到主节点
ssh -i your-key-pair.pem hadoop@your-master-node-public-dns
检查Trino安装:
# 检查Trino服务状态
sudo systemctl status trino-server
# 查看Trino版本
trino-cli --version
[hadoop@ip-172-31-37-81 bin]$ trino-cli --version
Trino CLI 467-amzn-2
Trino的主要配置文件位于/etc/trino/conf/
:
[hadoop@ip-172-31-37-81 bin]$ ls /etc/trino/conf/
catalog config.properties jvm.config log.properties log.properties.default node.properties trino-env.sh
重要的配置文件包括:
config.properties
:主要配置文件jvm.config
:JVM配置catalog/
:连接器配置目录jvm.config
中):sudo nano /etc/trino/conf/jvm.config
调整以下参数:
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
config.properties
中):sudo nano /etc/trino/conf/config.properties
可以调整以下参数:
coordinator=true
http-server.http.port=8889
query.max-memory=10GB
query.max-memory-per-node=3GB
重启Trino服务:
sudo systemctl restart trino-server
默认/etc/trino/conf/catalog
下面配置了hudi和hive的连接器:
[hadoop@ip-172-31-37-81 catalog]$ ls
hive.properties hudi.properties
检查hive配置:
cat /etc/trino/conf/catalog/hive.properties
启动Trino CLI:
trino-cli --server localhost:8889 --catalog hive --schema default
执行基本查询:
-- 列出所有目录
SHOW CATALOGS;
-- 列出Hive中的所有schema
SHOW SCHEMAS FROM hive;
-- 列出默认schema中的所有表
SHOW TABLES FROM hive.default;
-- 创建一个新表
CREATE TABLE hive.default.test_table (
id BIGINT,
name VARCHAR,
created_date DATE
);
-- 插入数据
INSERT INTO hive.default.test_table VALUES (1, 'test', current_date);
-- 查询数据
SELECT * FROM hive.default.test_table;
# 查看服务日志
sudo journalctl -u trino-server
# 查看Trino日志文件
ls -la /var/log/trino/
cat /var/log/trino/server.log