Vertica隐藏功能大揭秘 | 为时间序列而生的分析平台
前几天,我正像往常一样关注行业的新型趋势,一个标题映入我的眼帘——《你知道时间序列数据库是增长速度快的专业数据库平台之一吗?》。这个标题点醒了我,于是我开始了更深入的研究。
日积月累,数据当道
我们先来探讨一下什么是时间序列。毕竟,这个主题相关的大部分数据已经有了相关的“时间标记”。你每次登陆购物网站、打卡每天任务,甚至是访问Aleax时,每个事件都带有事件发生相关的时间标记。
但棘手的问题是,当我开始进行下一个事件,它会以“上次登陆时间(last-login)”的时间标记为基础进行更新。这种逻辑方法的好处是,不会将每个时间节点作为每个用户的新行为进行处理和存储,这样一来,当业务量增加的时候,数据量呈爆炸式增长,你的业务就不会变的一团糟。
当一家公司把时间作为主轴时,它就有可能产生一套全新的见解。我母亲曾在半夜登录访问Alexa,Amazon不仅仅想了解她的行为,更希望了解到她的使用情况随着时间变化而增减的规律,并收集其他有类似Aleax使用模式的用户,以此确定人口统计数据等等。
当你发现传感器在不断地发送关于智能电表、车辆追踪、物理容器或制造车间监控的数据时,用户案例就变得格外引人注目。
根据我的研究结果来看,一个专业时间序列数据库关键的是性能和规模。时间序列数据,尤其是传感器数据的数据量非常庞大。我曾在一篇文章中读到这样一个例子时大笑起来——“一辆物联网汽车每小时将收集25 GB的数据”。我马上想到了2014年的Facebook实例,当时我在探讨它是如何在Vertica上以每小时35 TB的速度加载数据的,是的,那已经是五年前的事了!
诚然,特斯拉(Tesla)等汽车制造商(以及渴望获得这些数据的保险公司)肯定不止着眼于一辆汽车,因为Vertica生来就是为服务于大规模性能而设计的。虽然Vertica可能不适合所有用例,但它能帮助大部分人,而不需要在满溢的大数据垃圾中安装其他额外工具。
但在大笑之余,我发出了由衷的叹息。我想到与一位Vertica长期用户的席间谈话。他抱怨说,如果Vertica有时间序列分析,他们就能摆脱NoSQL数据库了。我当时努力保持平静,对他说:“Vertica包含时间序列、地理空间、模式匹配,甚至还有数据库内的机器学习。”这个客户非常震惊:“什么?不可能!我怎么不知道!”
我将原因分为三部分。首先,有时候我们会忘记告诉人们隐藏在惊人的Vertica分析平台中的全部功能(这点很重要),特别是当它与行动PoC或当前用例没有直接关系时。其次,在大多数情况下,我们会直接与DBA打交道,而非业务分析师,而DBA就是分析功能(如时间序列)的用户。第三,同时也是我希望大家能记住的一点,市面流行的大多数可视化和BI报告工具,例如Tableau、Qlik、PowerBI等,都没有公开Vertica的分析功能。如果业务分析师社区正在使用Tableau,那么他们极有可能不知道Vertica的全部价值。
为了解决这个问题,我们写了一篇非常引人注目的白皮书,名为《Vertica如何帮助业务分析师成为“摇滚明星”》(How Business Analysts become Rock Stars with Vertica),内容也非常有趣。此外,询问每个客户是否都有时间序列、地理空间、模式匹配等的实例和机器学习项目也同样重要。这对我们的客户,尤其像Snowflake和Redshift这样的“新手”来说尤为重要。它们还没有像Vertica这样的分析功能,但它们可以与对这项业务单独收费的专业平台进行对接。
绝大多数Vertica用户已经在使用Vertica存储时间序列数据,即使他们没有应用来自Vertica分析库的特定时间序列函数。长期以来收集销售数据的零售商现在在收集时间序列数据、存储网络流量元数据的网络/电信运营商也在收集时间序列数据,几乎所有日志数据都是时间序列数据。从本质上来说,任何以时间为主轴的数据都可以被归于时间序列数据的行列。
来源 https://mp.weixin.qq.com/s/56mnqXP31ynclQMz1A5tMQ
相关文章