如何在 Scrapy 中使用自定义的 Item 类型和序列化器进行数据存储和输出？

2023-04-17 00:00:00 数据存储自定义输出

在 Scrapy 中使用自定义的 Item 类型和序列化器进行数据存储和输出需要进行以下步骤：

定义自定义的 Item 类型

首先需要定义一个自定义的 Item 类型，这个类需要继承自 Scrapy 内置的 Item 类型，然后定义需要抓取的字段。例如，定义一个抓取网站名称和网站地址的 Item 类型：

import scrapy

class MyItem(scrapy.Item):
    name = scrapy.Field()
    url = scrapy.Field()

定义自定义的序列化器

接下来需要定义一个自定义的序列化器，用于将抓取的数据存储到指定的数据源（如数据库、JSON 文件等）。例如，定义一个将数据存储到 MongoDB 数据库的序列化器：

import pymongo

class MongoSerializer(object):
    def __init__(self, mongo_uri, mongo_db, collection_name):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
        self.collection_name = collection_name

    @classmethod
    def from_crawler(cls, crawler):
        """
        从 Scrapy 配置中读取 MongoDB 的配置信息
        """
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB'),
            collection_name=crawler.settings.get('MONGO_COLLECTION_NAME'),
        )

    def open_spider(self, spider):
        """
        连接到 MongoDB 数据库
        """
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
        self.collection = self.db[self.collection_name]

    def close_spider(self, spider):
        """
        关闭 MongoDB 连接
        """
        self.client.close()

    def process_item(self, item, spider):
        """
        将 Item 存储到 MongoDB 数据库中
        """
        self.collection.insert_one(dict(item))
        return item

使用定义的自定义类型和序列化器进行数据抓取和存储

最后需要在 Spider 中使用定义的自定义类型和序列化器进行数据抓取和存储。例如，定义一个 Spider 抓取 pidancode.com 网站并将数据存储到 MongoDB 数据库中：

from scrapy import Spider
from myproject.items import MyItem
from myproject.serializers import MongoSerializer

class MySpider(Spider):
    name = 'myspider'
    start_urls = ['http://www.pidancode.com']

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.serializer = MongoSerializer.from_crawler(self.crawler)

    def parse(self, response):
        item = MyItem()
        item['name'] = '皮蛋编程'
        item['url'] = 'http://www.pidancode.com'
        yield self.serializer.process_item(item, self)

在上面的代码中，该 Spider 在解析网页时实例化了一个自定义的 Item 类型 MyItem，然后将数据存储到 MongoDB 数据库中，使用了定义的自定义序列化器 MongoSerializer。

相关文章