用init动作脚本轻松地在Dataproc上部署Trino

2022-05-12 00:00:00 集群 订阅 客户端 代码 复制

教你在Dataproc上轻松部署Trino,寻找Trino的初始化脚本

下载"trino.sh",并将其上传到你的GCS桶中

这是我的github链接github.com/sametkarada…,它是github.com/GoogleCloud…(在写这篇文章时正在等待拉动)。

如果你想使用Trino的BigQuery连接器来查询BigQuery数据,用你的项目ID替换init动作中的第162行。

bigquery.project-id=set-your-project-id
复制代码

然后创建你的数据采集集群

gcloud dataproc clusters create trino-test — enable-component-gateway — region europe-west4 \
复制代码
 — zone europe-west4-c — master-machine-type n1-standard-4 — master-boot-disk-size 100 — num-workers 8 \
复制代码
 — worker-machine-type n1-standard-4 — worker-boot-disk-size 100 — image-version 2.0-debian10 \
复制代码
 — scopes 'https://www.googleapis.com/auth/cloud-platform' — initialization-actions ‘gs://trino-init/trino.sh’ — project change-with-your-project-id
复制代码

在这里,我使用Trino在短暂的Dataproc集群上进行BigQuery查询,这意味着我在处理之前创建集群,之后删除它以降低成本。

我不会在Dataproc上存储任何数据,因此磁盘大小(worker-boot-disk-size,master-boot-disk-size)被设置为100gb。

我只使用了2个工人节点的n1-standard-4机器,它有15GB的内存。如果你需要更快的查询速度,可以增加这些。

就是这样--现在你有了Trino:)

后,如何连接?

你可以使用Trino CLI客户端或JDBC客户端,如SquirrelSQL、DBeaver(免费)或DataGrip(需要付费订阅)。

你也可以配置你的JDBC客户端连接到BigQuery,让一个客户端有两个不同的会话来分析BQ数据。

如果你想看看这个操作,这里有一个youtube视频和match_recognize演示。

相关文章