Azure Synapse Analysis 开箱 Blog
前四篇文章带大家通过 Azure Synapse Analysis 服务的内置的 ETL 能力,实现了上游 CosmosDB 内的 Transaction 数据的增量数据(CDC)推送至下游的数据仓库内。通过 Azure Synapse Analysis 类似的方式,我们可以针对不同上游数据系统 CDC 数据与下游系统同步。整个数据路径中我们需要提取,转换,再到加载更新到数据仓库。Azure Synapse Analysis 目前对于 CosmosDB 提供了更加简洁的解决方案 Synapse Link。通过 Synapse Link 可以实现一键同步,上述数据路径只需要简单在产品上一键打开开关即可。Synapse Link 将 CosmosDB 内的实时数据直接暴露给 Azure Synapse Analysis 进行消费,简化了中间进行 CDC ETL 的过程。目前 Synapse Link 只支持 CosmosDB SQL 引擎,未来会对更多数据库产品进行支持。
具体操作步骤如下:
1. 在 Azure Cosmos DB 中打开 Synapse Link 功能
2. 创建 Cosmos Container 并开启 Analysis Store 能力
3. 在 Azure Synapse Analysis 中创建 Cosmos 数据源,登入 Azure Synapse Studio,选择 Data -> Connect to external data -> Azure Cosmos DB
4. 在 Azure Synapse 中使用 Notebooks 访问 CosmosDB 中的数据,需要注意目前 Cosmos Synapse Link 在 Preview 阶段,暂时只支持通过 Spark 引擎进行数据访问,后续会支持 T-SQL 引擎
5. 通过前面的数据仿真程序代码,添加或更新数据,再次通过 Azure Synapse Analysis 进行访问,验证数据实时性。
从上面到家可以看到整个过程非常简单,数据的访问过程开箱即用。后续 Synapse Link 可以更广泛的支持主流的数据产品,还是非常值得期待的。通过这个系列文章的介绍,希望能帮助大家对 Azure Synapse Analysis 初步了解,让 Azure Synapse Analysis 助力企业在数字化转型之路上越跑越快。
相关文章