如何在BigQuery中使用嵌套数据
作者|Christianlauer
编译|VK
来源|Towards Data Science
原文链接:https://towardsdatascience.com/how-to-work-with-nested->
云数据和仓库正在崛起——谷歌的BigQuery就是一个例子。
BigQuery是强大的非规范化数据。与使用星型或雪花型模式等传统模式不同,你应该取消数据规范化,并使用嵌套和循环列。这些列可以保留关系,而不会像关系模式或规范化模式那样降低性能[1]。
什么是嵌套数据
BigQuery支持从支持基于对象的模式(例如JSON)的源格式加载和查询嵌套的和循环的数据。
address列包含一个值数组。数组中的不同地址是循环数据。每个地址中的不同字段是嵌套数据。
实例
对于BigQuery的示例演练,我使用了geo_openstreetmap数据集中的planet_features特征。在这里,数据是以嵌套格式存储的,让我们看一下:
SELECT * FROM `bigquery-public-data.geo_openstreetmap.planet_features` LIMIT 1000
相关文章