Scrapy 爬虫中的数据存储与处理:使用 MongoDB 进行数据存储

2023-04-17 00:00:00 scrapy 数据存储 爬虫
  1. 安装pymongo库
    在命令行中输入以下命令进行安装
pip install pymongo
  1. 创建MongoDB数据库及集合(相当于表)
    首先需要安装MongoDB数据库,安装及使用方法可以参考官方文档。
    在MongoDB中创建数据库和集合的方法如下:
import pymongo

client = pymongo.MongoClient(host='localhost', port=27017)   # 连接MongoDB客户端
db = client['demo']   # 创建名为demo的数据库
collection = db['books']    # 在demo数据库中创建名为books的集合
  1. 将数据存储到MongoDB中
    在爬虫中使用以下代码将数据存储到MongoDB中:
import pymongo
import scrapy

class MySpider(scrapy.Spider):
    name = "my_spider"
    def parse(self, response):
        data = {
            'title': '皮蛋编程',
            'url': 'http://www.pidancode.com'
        }
        client = pymongo.MongoClient(host='localhost', port=27017)   # 连接MongoDB客户端
        db = client['demo']   # 创建名为demo的数据库
        collection = db['books']    # 在demo数据库中创建名为books的集合
        collection.insert_one(data)   # 将data插入到books集合中
  1. 查询MongoDB中的数据
    查询MongoDB中的数据可以使用find()方法,例如:
import pymongo

client = pymongo.MongoClient(host='localhost', port=27017)   # 连接MongoDB客户端
db = client['demo']   # 创建名为demo的数据库
collection = db['books']    # 在demo数据库中创建名为books的集合
results = collection.find({'title': '皮蛋编程'})   # 查询title为“皮蛋编程”的数据
for result in results:
    print(result)

以上代码演示的是如何使用MongoDB进行数据存储与查询,实际应用中可以根据不同的需求进行适当的调整。

相关文章