关于Python网络爬虫框架scrapy

2023-05-17 20:05:26 框架爬虫网络

scrapy爬虫框架介绍

scrapy不是一个简单的函数功能库，而是一个爬虫框架

爬虫框架：

ENGINE ：已有的，核心，控制所有模块之间的数据流，根据条件触发事件
SCHEDULER：已有的，对所有的爬虫请求进行调度管理
ITEM PIPELINES ：框架出口，用户编写，以流水线方式处理Spider产生的爬取项，由一组操作顺序组成，类似流水线，每个操作是一个item pipline类型，可能操作包括：清理，检验和查重爬取项中的html数据，将数据存储到数据库
SPIDERS ：框架入口，用户编写，解析downloader返回的响应，产生爬取项，以及额外的爬取请求
DOWNLOADER ：已有的，根据请求下载网页
2个MIDDLEWARE：Download Middleware：实施Engine，Scheduler和Downloader之间用户可配置的控制，即用户可以修改、丢弃、新增请求或响应。Spider Middleware，对spider的请求和爬取项的再处理。修改、丢弃、新增请求或爬取项。

相同点：两者都可以进行页面请求和爬取，python爬虫的两个重要技术路线。两者可用性好，文档丰富，入门简单。两者都没有处理js、提交表单、应对验证码等功能（可扩展）

不同点：

到此这篇关于关于python网络爬虫框架scrapy的文章就介绍到这了,更多相关Python爬虫框架scrapy内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

相关文章