如何使用pyspark(或python)将json文件导入到MongoDB?
问题描述
我尝试在与MongoDB连接pysppark后,使用pyspark将文件中的json导入到MongoDB中,
我使用的是ubuntu,我的文件在(file:/home/user/Downloads/newd/hale.json)我是这样写的(‘home/user/downloads/newd/hale.json’))
import json
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
with open('home/user/Downloads/newdb/hale.json') as f:
file = json.load(f)
JSON
您可以使用集合的方法INSERT_ONE或INSERT_MANY,如果它是在加载Python字典(最初是推荐答案对象)或Python字典(最初是JSON对象)的列表(最初是数组)之后加载JSON文件,则通过加载JSON文件来确定。
#in case of array of dictionaries
client['your_database']['your_collection'].insert_many(file)
#in case of dictionary
client['your_database']['your_collection'].insert_one(file)
相关文章