Scrapy 爬虫中的数据存储与处理:使用 MongoDB 进行数据存储
- 安装pymongo库
在命令行中输入以下命令进行安装
pip install pymongo
- 创建MongoDB数据库及集合(相当于表)
首先需要安装MongoDB数据库,安装及使用方法可以参考官方文档。
在MongoDB中创建数据库和集合的方法如下:
import pymongo client = pymongo.MongoClient(host='localhost', port=27017) # 连接MongoDB客户端 db = client['demo'] # 创建名为demo的数据库 collection = db['books'] # 在demo数据库中创建名为books的集合
- 将数据存储到MongoDB中
在爬虫中使用以下代码将数据存储到MongoDB中:
import pymongo import scrapy class MySpider(scrapy.Spider): name = "my_spider" def parse(self, response): data = { 'title': '皮蛋编程', 'url': 'http://www.pidancode.com' } client = pymongo.MongoClient(host='localhost', port=27017) # 连接MongoDB客户端 db = client['demo'] # 创建名为demo的数据库 collection = db['books'] # 在demo数据库中创建名为books的集合 collection.insert_one(data) # 将data插入到books集合中
- 查询MongoDB中的数据
查询MongoDB中的数据可以使用find()方法,例如:
import pymongo client = pymongo.MongoClient(host='localhost', port=27017) # 连接MongoDB客户端 db = client['demo'] # 创建名为demo的数据库 collection = db['books'] # 在demo数据库中创建名为books的集合 results = collection.find({'title': '皮蛋编程'}) # 查询title为“皮蛋编程”的数据 for result in results: print(result)
以上代码演示的是如何使用MongoDB进行数据存储与查询,实际应用中可以根据不同的需求进行适当的调整。
相关文章