建立数据驱动的devop实践的任何人都面临的主要问题之一就是,您正在收集的数据规模。 来自数百万用户的日志Swift增加,物联网或任何其他大型数据源也是如此。 在这个世界中,您正在生成数TB的数据,您需要从中快速了解该数据在告诉您什么。
传统数据库并没有太大帮助,因为即使您正在考虑使用数据仓库样式的分析工具,也必须通过提取,转换,加载(ETL)流程来运行这些数据,然后才能开始对其进行探索。 处理海量数据的工具变得越来越重要,不仅对于分析系统,而且对于提供构建机器学习模型所需的训练数据也是如此。
[InfoWorld的要点: 什么是大数据分析? 您需要了解的所有内容 • 什么是数据挖掘? 分析如何发现见解 。 |分析如何发现见解 。 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]
引入Azure数据资源管理器
那就是Azure的数据资源管理器的用武之地。它是一种用于浏览数据,进行即席查询的工具,同时可以将您的数据快速放入中央存储。 微软声称每个节点的导入速度高达200MB /秒,对十亿条记录的查询所需的时间不到一秒钟。 可以使用常规技术或跨时间序列使用完全托管的平台来分析数据,在该平台中,您只需要考虑数据和查询即可。
在云规模上工作可能意味着生成大量数据,这可能很难使用传统工具进行分析。 与Cosmos DB一样,Azure Data Explorer是Microsoft向客户提供自己的内部工具的另一个示例。 大规模运行公共云意味着Microsoft需要创建新工具来处理在处理TB级数据和管理大型数据中心方面的问题。 Azure数据资源管理器将这些元素组合在一起,并将它们变成可以与您的日志文件和流数据一起使用的工具。 这使它成为任何在内部或在云中构建大量分布式应用程序的必备工具。
Azure Data Explorer初的代号为Kusto,是Microsoft用于在Azure中管理自己的日志记录数据的工具的商业版本。 早在2016年,Microsoft每天就处理超过1万亿个事件和600 TB以上的数据,足以对底层系统进行正确,真正的压力测试。 除非您为BP或另一家大型石油公司运行所有的IoT系统,否则不太可能需要处理那么多数据,但是很高兴知道有这种选择。
Azure数据资源管理器:云规模数据的查询引擎
Azure数据资源管理器的核心是自定义查询引擎,它具有自己的查询语言,该查询语言针对处理大量数据进行了优化,并且能够处理来自许多来源的结构化和非结构化数据的混合。 这是一个只读工具,对处理日志和列存储特别有用。 Microsoft在其他Azure工具中使用了Kusto查询语言的元素,其中包括Application Insights工具,该工具是Azure DevOps的许多操作方面的核心。
首先, 请先创建具有关联数据库的集群, 然后再提取数据 。 数据接收到位并接收数据后,就可以开始使用可作为独立应用程序使用或托管在Azure门户中的查询引擎来浏览数据。 将其添加到现有数据管道中不会影响您的应用程序; 这是您管道中的另一个分支,它利用Azure的分布式体系结构在应用程序流之外进行操作。
作为数据管道的一部分,但不在应用程序之外,这是使用Azure Data Explorer的重要方面。 它是一种对数据进行推测性分析的工具,可以告知您所构建的代码,优化查询内容或帮助构建可以成为机器学习平台一部分的新模型。 查询不会修改您的数据,它们可以与其他用户共享,这使它成为数据科学团队的有用工具。
将Azure Data Explorer与应用程序数据一起使用
使用事件中心和事件网格是使用Azure数据资源管理器的更有用的方法之一。 首先,在Data Explorer实例中创建一个表,该表将映射到事件中心正在处理的JSON数据的结构。 安装到位后,您可以使用JSON映射将事件中心供稿连接到表,以填充数据。 您还需要设置任何连接字符串,以授权事件中心和Data Explorer表之间的链接。 运行之后,您可能需要等待一段时间才能查询数据,因为提取过程会先将数据批处理,然后再将其输入到表中。
将数据馈入数据浏览器表后,您可以开始构建查询。 使用Azure门户通过其查询生成器工具进行个查询。 如果您希望在不创建自己的数据源的情况下开始使用,Microsoft提供了可用于查询实验的预配置测试群集。
要查询表,您只需以其名称开始查询,然后在过滤掉要使用的数据之前应用排序条件。 基于Azure门户的查询构建器将结果显示在表中。 使用更复杂的查询,您可以选择要显示表的哪些元素,而“调用”命令将带回先前的查询,以便您可以比较同一数据的不同遍历。
列视图网格中的工具面板提供了更多的查询选项,从而为您提供了更多过滤数据甚至应用基本数据透视表选项的方式。 如果您使用过Excel的数据分析功能,您会发现它非常熟悉,可以快速发现有趣的数据点,从而推动更深入的分析。 查询构建器还包括用于基本可视化的工具,您可以从一系列图表类型中进行选择。
您不仅限于使用门户网站查询生成器,因为Microsoft还发布了针对数据科学家的Python库。 使用Python作为机器学习的重要工具 ,您可以开始使用Anaconda分析环境和Jupyter Notebook之类的工具来处理Azure Data Explorer数据集。 数据科学家并不是Azure Data Explorer的受众。 还有一个供商业分析师使用的Power BI连接器。