用init动作脚本轻松地在Dataproc上部署Trino
教你在Dataproc上轻松部署Trino,寻找Trino的初始化脚本
下载"trino.sh",并将其上传到你的GCS桶中。
这是我的github链接github.com/sametkarada…,它是github.com/GoogleCloud…(在写这篇文章时正在等待拉动)。
如果你想使用Trino的BigQuery连接器来查询BigQuery数据,用你的项目ID替换init动作中的第162行。
bigquery.project-id=set-your-project-id
复制代码
然后创建你的数据采集集群。
gcloud dataproc clusters create trino-test — enable-component-gateway — region europe-west4 \
复制代码
— zone europe-west4-c — master-machine-type n1-standard-4 — master-boot-disk-size 100 — num-workers 8 \
复制代码
— worker-machine-type n1-standard-4 — worker-boot-disk-size 100 — image-version 2.0-debian10 \
复制代码
— scopes 'https://www.googleapis.com/auth/cloud-platform' — initialization-actions ‘gs://trino-init/trino.sh’ — project change-with-your-project-id
复制代码
在这里,我使用Trino在短暂的Dataproc集群上进行BigQuery查询,这意味着我在处理之前创建集群,之后删除它以降低成本。
我不会在Dataproc上存储任何数据,因此磁盘大小(worker-boot-disk-size,master-boot-disk-size)被设置为100gb。
我只使用了2个工人节点的n1-standard-4机器,它有15GB的内存。如果你需要更快的查询速度,可以增加这些。
就是这样--现在你有了Trino:)
后,如何连接?
你可以使用Trino CLI客户端或JDBC客户端,如SquirrelSQL、DBeaver(免费)或DataGrip(需要付费订阅)。
你也可以配置你的JDBC客户端连接到BigQuery,让一个客户端有两个不同的会话来分析BQ数据。
如果你想看看这个操作,这里有一个youtube视频和match_recognize演示。
相关文章