Google Cloud 专业数据工程师经验分享

2022-04-26 00:00:00 索引 缓存 选项 这是 它是

写在前面:

考试结束后,趁还记着的时候我赶紧记录下来。因为这些是没有顺序的,我只是根据自己遇到的问题总结一下考点。我记录考点的目的不是为您提供问题,而是为您提供您可以备考的重点。 我经常被一些问题困扰; 希望你可以根据我的经验做好准备。 祝你一切顺利!

因为我以前有参加过其他认证考试的经验,我觉得数据工程师认证整体相对简单。在考试结束后我又回顾了一下所有的问题,方便后期提醒我覆盖的知识点,我觉得知识点几乎都覆盖了,没有一个是直接可以给出答案的,所有问题都是基于一个场景或者一个案例。

  • BigQuery Data Transfer Service.  涉及到储存传输服务和BigQuery Connectors 
    https://cloud.google.com/bigquery/transfer/
  • IAM + Dataflow. Dataflow 开发模式和允许开发人员在没有数据访问权限的情况下使用管道的IAM权限设置
  • https://cloud.google.com/dataflow/docs/concepts/access-control
  • IAM + BigQuery. 这里有好几个问题, Bigquery相关的多。至少 2 or 3 与访问权限有关tables/datasets. 记住:你不能基于tables分配权限,只能基于datasets.
    https://cloud.google.com/bigquery/docs/access-control
  • BigQuery: partitioning tables. 基于它们分区的内容 - 摄取时间,时间戳,日期。 他们是如何命名的? 然后如何在查询中访问它们? 使用_PARTITIONTIME
    https://cloud.google.com/bigquery/docs/partitioned-tables
  • BigQuery. 名称中通配符的语法
    https://cloud.google.com/bigquery/docs/querying-wildcard-tables
  • BigQuery: bq的表日期范围。 使用TABLE_DATE_RANGE,_TABLE_SUFFIX,TABLE_QUERY等函数访问包含日期和分区表的表
    https://stackoverflow.com/questions/22641894/bigquery-wildcard-using-table-date-range
  • Cloud Spanner: 第二索引、如何创建索引和第二索引
    https://cloud.google.com/spanner/docs/secondary-indexes
  • Datastore: 索引
    https://cloud.google.com/datastore/docs/concepts/indexes
  • BigTable: row key 结构.  ?  推荐创建row_key的方式?如何避免hotspotting? 如何时候使用时间戳以及哪里使用
    https://cloud.google.com/bigtable/docs/schema-design
  • BigTable: 优化方法. 
    https://cloud.google.com/bigtable/docs/performance
  • PubSub, Dataflow, Dataproc —这些产品的特性和用途。 没有直接的问题,但适用于一个场景。 Coursera,Linux Academy和Cloud Academy的课程涵盖了这些课程
  • Dataproc: 使用gcs而不是现有的文件系统。 佳做法是使用Google云端存储而不是使用HDFS, 您可以在数据处理后销毁计算节点并节省成本 .
  • BigQuery+DataStudio — 缓存/预取缓存。 了解如何将DataStudio连接到存储解决方案。 了解默认缓存(无法禁用)和预取缓存(可以禁用)之间的区别。 使用Viewer凭据和所有者凭据执行此操作有何不同。
    https://support.google.com/datastudio/answer/7020039?hl=en
  • Dataprep: jobs. Dataprep作业是如何创建和运行的? 你需要什么权限? 我看到的一个术语是,这是一种更“随意”的数据清理方式。 我想,Dataproc / Dataflow会更具程序性,因此“强烈”。
    https://cloud.google.com/dataprep/docs/html/Jobs-Page_57344842
  • DataStudio: visualisation. 旧数据产生的原因是什么? 你怎么得到新的? 您需要设置哪些缓存选项?
  • Machine Learning : feature crosses. 无法提供更多信息,或者我会透露这个问题。 了解这些是什么以及它解决了什么问题。
    https://developers.google.com/machine-learning/crash-course/feature-crosses/video-lecture
  • Machine Learning. 还有一个关于特征交叉和计算特征的问题。 这是关于ML的Coursera材料的直接提升.
    https://www.coursera.org/learn/serverless-machine-learning-gcp/home/welcome
  • Machine Learning: 处理过拟合. 
    https://developers.google.com/machine-learning/crash-course/generalization/peril-of-overfitting
  • Machine Learning: 正则化. 困扰我的一个选择是“增加正规化”。 增加或减少正规化意味着什么? 增加或减少数值或增加或减少要正则化的参数数量? 您可能想知道这意味着什么。 我个人认为这是令人困惑的措辞,我随机选择了两个选项. 
    https://www.coursera.org/lecture/deep-neural-network/why-regularization-reduces-overfitting-T6OJj
  • Dataproc: 如何控制缩放? 配置自动扩展? 我可能没有正确地解释这个问题,但我对这个选项感到困惑。 当我们设置自动缩放时,我们应该设置或不设置工人数量或大工人数量? (或者它是节点?)我完全不知道这个答案。  
    https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/autoscaling
  • Avro file format. 这在选项和问题中多次出现。 查看它是什么,并知道它是一种压缩格式。 此外,bigquery / dataflow可以直接使用它。.
    https://cloud.google.com/bigquery/docs/loading- style=" box-sizing:="" border-box;="" outline:="" 0px;="" margin:="" 8px="" 0px="" 32px;="" padding:="" font-weight:="" normal;="" list-style:="" disc;="" overflow-wrap:="" break-word;"="">我注意到至少有两个问题,其中选项对于不完整性是错误的。 例如。 这里有3个需要满足的要求。 这是一个只满足其中两个但是按照gcp建议进行的选项。 这是另一个涵盖所有三个要求的选项,但在方法中显然是错误的。 我一遍又一遍地阅读这些问题,寻找明确的线索,选择哪个选项,但我什么都没看到。 如果你遇到这种情况,老实说我没有任何建议.
  • https://cloud.google.com/bigquery/docs/loading- style=" box-sizing:="" border-box;="" outline:="" 0px;="" margin:="" 8px="" 0px="" 32px;="" padding:="" font-weight:="" normal;="" list-style:="" disc;="" overflow-wrap:="" break-word;"="">有一个问题我必须从非GCP产品列表中进行选择。 例如。 Redis,Cassandra,Hbase with Hive,MySQL等。所以这需要了解其他技术及其存储/查询格式。 看起来只是心烦意乱的GCP不会削减它.
  • https://cloud.google.com/bigquery/docs/loading- style=" box-sizing:="" border-box;="" outline:="" 0px;="" margin:="" 8px="" 0px="" 32px;="" padding:="" font-weight:="" normal;="" list-style:="" disc;="" overflow-wrap:="" break-word;"="">密钥管理服务。 这个问题是关于将KMS与非GCP产品一起使用。 请注意,有一个默认密钥管理,Google管理所有密钥,然后是客户管理的加密密钥,还有客户提供的加密密钥.
    https://cloud.google.com/kms/docs/
  • BigQuery query plan. BigQuery允许您查看运行的查询的查询计划和执行配置文件。 了解阶段,平均时间和长时间之间的差异,为什么计划可能存在偏差,以及如何优化计划.
    https://cloud.google.com/bigquery/query-plan-explanation
  • BigQuery + GCS. 知道如何将GCS和BigQuery之间的表链接为表和临时表。
    https://cloud.google.com/bigquery/external- style=" box-sizing:="" border-box;="" outline:="" 0px;="" margin:="" 8px="" 0px="" 32px;="" padding:="" font-weight:="" normal;="" list-style:="" disc;="" overflow-wrap:="" break-word;"="">大约8个问题来自案例研究,FlowLogistics和MJTelco。 你没有心理,但要好好研究它们。 通过自己解决方案。 Linux Academy课程有一个模块可以用于案例研究.
  • https://cloud.google.com/bigquery/external- style=" box-sizing:="" border-box;="" outline:="" 0px;="" margin:="" 8px="" 0px="" 32px;="" padding:="" font-weight:="" normal;="" list-style:="" disc;="" overflow-wrap:="" break-word;"="">Bigquery. 知道联合表是什么。 在您熟悉它的同时,还要了解群集表.
    https://cloud.google.com/bigquery/external->翻译:原文: https://medium.com/@sathishvj/notes-from-my-google-cloud-professional-data-engineer-exam-530d11966aa0

相关文章