如何在BigQuery中使用嵌套数据

2022-04-02 00:00:00 数据 模式 关系 嵌套 在这里
作者|Christianlauer
编译|VK
来源|Towards Data Science
原文链接:https://towardsdatascience.com/how-to-work-with-nested->

云数据和仓库正在崛起——谷歌的BigQuery就是一个例子。

BigQuery是强大的非规范化数据。与使用星型或雪花型模式等传统模式不同,你应该取消数据规范化,并使用嵌套和循环列。这些列可以保留关系,而不会像关系模式或规范化模式那样降低性能[1]。

什么是嵌套数据

BigQuery支持从支持基于对象的模式(例如JSON)的源格式加载和查询嵌套的和循环的数据。

address列包含一个值数组。数组中的不同地址是循环数据。每个地址中的不同字段是嵌套数据。

实例

对于BigQuery的示例演练,我使用了geo_openstreetmap数据集中的planet_features特征。在这里,数据是以嵌套格式存储的,让我们看一下:

SELECT * FROM `bigquery-public-data.geo_openstreetmap.planet_features` LIMIT 1000

相关文章