azure_初探Azure Synapse

2022-03-30 00:00:00 查询数据分析自己的构建

MSDN -> Synapse -> QuickStarts -> 2 Analyze using serveless SQL pool

azure

Azure之类的超大规模云服务旨在处理大量数据，在购买存储硬件时会利用其规模经济优势。他们与必应（Bing）和Google等搜索引擎的密切关系使他们可以基于为分析公共互联网而开发的算法和工具。这种结合使它们成为构建需要处理海量数据集的应用程序的理想平台，而这在您自己的数据中心中是无法实现的。

自成立之初，Microsoft就在Azure上提供了一系列数据和分析服务，从其自己SQL数据库（该数据库很快成为了熟悉SQL Server的云托管版本）开始，为Hadoop和其他Apache数据服务添加了HDInsight，以及提供了一个大型数据湖，可让您混合结构化和非结构化数据。直到近，这些服务中的大多数还是独立的，如果您想将它们组合在一起，则需要构建自己的分析工具。在Ignite 2019上，Microsoft将Azure现有SQL数据仓库作为Azure Synapse进行了发布，重新组织和重新命名，从而增加了对Apache Spark及其自己的Studio开发和分析工具的支持。

[ 也在InfoWorld上：人工智能，机器学习和深度学习：您需要知道的一切 ]

引入Azure Synapse

Azure Synapse 不仅仅是对现有产品的品牌重塑，其重点是将许多Azure的数据分析功能集成到单个服务中。与传统的数据仓库不同，它支持混合的关系数据和非结构化数据，同时仍然允许您使用现有SQL技能来构建和测试分析模型，并基于Azure SQL的PolyBase大数据查询引擎。因为它使用内存中的列存储，所以它快速高效，这是使用云服务使用模型时的重要功能。

Synapse与其他数据仓库产品的不同之处在于其源于Azure SQL的hyperscale选项。它使用Microsoft称为“数据仓库单元”的群集，而不是由单个计算节点处理所有查询。这些独立于基础存储的查询计算，使Synapse可以采用海量数据并行方法来处理您的查询。每个数据仓库单元都具有计算和自定义应用程序，即数据移动服务，该应用程序跨节点并与Azure存储一起使用，以确保在正确的节点中可获得正确的数据。肯定很快； Ignite的一个演示将其与30 PB数据集上的Google Big Query进行了比较，并显示Synapse的速度提高了75倍。

这种架构也有价格优势。与Azure的Paas功能一样，它基本上是无服务器的，可以按需旋转，并在不再需要时暂停。这样，您只需为用于运行查询和基础存储的计算付费，并根据需要添加更多计算以进行更复杂的分析。

[ 通过InfoWorld的机器学习和分析报告时事通讯来掌握机器学习，人工智能和大数据分析的新进展 ]

Azure Synapse SQL池入门

为Azure Synapse创建新SQL池遵循与Azure数据仓库相同的路径。首先在Azure门户中创建新SQL数据仓库资源。这使您可以创建具有登录名和密码的新服务器。选择性能级别将选择默认服务器类型，该服务器类型将设置池的计算成本。设置好并设置了适当的防火墙规则后，您可以选择SQL Server管理工具开始对其进行管理。查询是使用熟悉的T-SQL方言构建的。您可以使用PolyBase 将Azure blob存储中的数据加载到暂存表中，该暂存表用于构建生产表，然后将这些表用于查询。

如果您更喜欢使用Apache Spark分析数据，则该平台将与Apache Spark而不是SQL一起使用。这种方法为您提供了额外的灵活性，使您可以为问题选择适当的工具。

相关文章