Azure Synapse Analysis 开箱 Blog

2022-03-30 00:00:00 数据 代码 复制 水线 表格

    前一篇 Blog 中我们完成了通过 Azure Function 完了从上游 Cosmos DB ChangeFeed 数据的抽取并转存至 Azure Data Lake 中。回顾一下整个演示方案架构,后续我们需要在 Azure Data Warehouse 中拉入增量数据 CDC(Change Data Capture)。并对 Azure Data Warehouse 现有的数据进行更新。

  在上述架构中,Data Lake 的下一跳是 Data Factory 服务,Data Factory 服务扮演数据水线工具可以自动完成整个 CDC 数据 ETL 并 Update 到 Data Warehouse 中的数据。整个方案中 ETL 和 Update 都借助 DW 的算力来实现,即 Data Warehouse 的 ELT 架构,先将 CDC Raw 导入到 Data Warehouse 然后在 DW 中进行 Transform 和 Update 操作。本片 Blog 先为大家演示整个过程在 Data Warehouse 中手动触发 T-SQL 执行实现的方式,下一篇 Blog 再为大家介绍如何将整个过程通过 Data Factory 实现数据处理水线的自动化。

         操作步骤如下:

1. 创建 Azure Synapse Analysis 资源

参考:https://docs.microsoft.com/en-us/azure/synapse-analytics/quickstart-create-workspace

2. 创建 Azure Synapse Analysis SQL Pool

参考:https://docs.microsoft.com/en-us/azure/synapse-analytics/quickstart-create-sql-pool-portal

3. 通过 Azure Synapse Studio 创建 T-SQL Script

参考:https://docs.microsoft.com/en-us/azure/synapse-analytics/quickstart-synapse-studio

4. 创建数据表格,创建 DW 表格,演示中使用 demotable 命名

相关文章