riak优点_Riak TS用于大规模时间序列分析

2022-04-26 00:00:00 序列 数据 分析 数据库 开源

riak优点

直到近,大规模的时间序列分析还是很昂贵的,而且几乎完全是大型企业的领域。 是什么使时间序列成为难以解决且昂贵的问题? 在NoSQL数据库出现之前,进行扩展以满足不断增长的数据速度和数据量通常意味着通过添加CPU,内存或其他硬盘来垂直扩展硬件。 当与按处理器核心计费的数据库许可模型结合使用时,大多数情况根本无法实现扩展成本。

幸运的是,开源社区正在使大规模数据分析Swift民主化,我很幸运能在一家在此领域做出贡献的公司工作。 在今年的All Things Open上的演讲中,我将介绍Riak TS (一个键值数据库),该键值数据库经过优化,可以存储和检索海量数据集的时间序列数据,并演示如何与其他三个开源工具结合使用- Python,Pandas和Jupyter-建立一个完全开源的时间序列分析平台。 并不需要很长时间。

Riak TS入门需要了解的基本知识:

  • 安装:在哪里获取Riak TS,如何安装它以及如何随着数据问题规模的扩大而扩大规模
  • 如何开始使用内置的riak-shell和Riak Python客户端与Riak TS进行交互
  • 如何在Riak TS中创建新表并验证其是否已创建
  • 如何使用riak-shell和Python查询Riak TS

在我的演讲中,我将从Bay Area Bike Share开放数据集中加载350,000条记录,以展示Riak TS在读取和写入数据方面的速度。 我将使用Python数据分析库和Jupyter(每个Python程序员都应该知道的两个开源工具)来:

  • 查询Riak TS
  • 将Riak TS结果集转换为Pandas DataFrame
  • 演示熊猫的一些内置数据分析功能
  • 使用matplotlib库演示如何创建数据可视化

Riak TS是开源数据库世界中一个特别令人兴奋的补充,这有两个原因。 ,您很难找到一个时间序列数据库,该数据库可以在操作硬件上花费很少的精力就可以在商品硬件上从一个节点扩展到100多个节点。 还有两个,Riak TS自动处理节点群集周围的数据分布,重复三次数据以确保高可用性,并具有大量专门设计用于大化正常运行时间的自动化功能。

对于使用Java,Python,Ruby,GO,Node.js,PHP,.Net或Erlang在Riak TS之上开发应用程序,酷的功能之一是Riak TS使用符合ANSISQL。 使用SQL使Riak TS可以为广泛的开发人员以及重要的是业务数据分析人员访问。

如果您特别有动机开始分析时间序列数据,可以从GitHub上获取我的所有示例代码 。

翻译自: https://opensource.com/life/16/9/time-series-analysis-riak-ts

相关文章