spark架构是怎么样的
Spark架构是一个分布式的计算框架,它的核心是Spark Core,Spark Core是一个轻量级的、易于扩展的、高度可靠的分布式计算引擎。Spark Core的核心功能包括:
1.分布式数据集的抽象:RDD(Resilient Distributed Dataset),RDD是一个弹性分布式数据集,可以自动处理数据倾斜和网络故障。
2.高级数据抽象:DataFrame和Dataset,它们提供了面向结构化数据的统一编程模型。
3.分布式计算引擎:Spark SQL,Spark SQL是一个高性能的SQL解析引擎,可以让用户使用类SQL的查询语言来查询数据。
4.机器学习库:MLlib,MLlib是一个高效的机器学习库,提供了一系列机器学习算法和工具。
5.图计算库:GraphX,GraphX是一个图计算库,提供了一系列图计算算法和工具。
相关文章