MongoDB Spark Connector 实战指南
Why Spark with MongoDB?
- 高性能,官方号称 100x faster,因为可以全内存运行,性能提升肯定是很明显的
- 简单易用,支持 Java、Python、Scala、SQL 等多种语言,使得构建分析应用非常简单
- 统一构建 ,支持多种数据源,通过 Spark RDD 屏蔽底层数据差异,同一个分析应用可运行于不同的数据源;
- 应用场景广泛,能同时支持批处理以及流式处理
MongoDB Spark Connector 为官方推出,用于适配 Spark 操作 MongoDB 数据;本文以 Python 为例,介绍 MongoDB Spark Connector 的使用,帮助你基于 MongoDB 构建个分析应用。
准备 MongoDB 环境
安装 MongoDB 参考 Install MongoDB Community Edition on Linux
mkdir mongodata
mongod --dbpath mongodata --port 9555
相关文章