scrapy采集数据时暂停和恢复采集的方法

2022-05-03 00:00:00 采集恢复暂停

通过scrapy进行大数据采集时，默认的scrpay crawl spider 是不能暂停的，否则你需要重新来过，非常不方便，实际上scrapy提供了相关的方法保存采集的作业状态，而且非常简单。

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

运行命令式使用上面的命令行代码即可，中途可以你可以使用ctrl+c终止采集程序的运行，恢复是，还是运行上面这条命令即可，
其中crawls/somespider 是一个保存采集列表状态的目录，千万不要同时开多个蜘蛛程序使用同一个目录，会混乱的。
pidancode.com提供这个方法希望能帮助你。
还有更简单的方法，就是在settings.py文件里加入下面的代码：

JOBDIR='pidancode.com'

使用命令scrapy crawl somespider，就会自动生成一个pidancode.com的目录，然后将工作列表放到这个文件夹里

相关文章