scrapy采集数据时暂停和恢复采集的方法

2022-05-03 00:00:00 采集 恢复 暂停

通过scrapy进行大数据采集时,默认的scrpay crawl spider 是不能暂停的,否则你需要重新来过,非常不方便,实际上scrapy提供了相关的方法保存采集的作业状态,而且非常简单。

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

运行命令式使用上面的命令行代码即可,中途可以你可以使用ctrl+c终止采集程序的运行,恢复是,还是运行上面这条命令即可,
其中crawls/somespider 是一个保存采集列表状态的目录,千万不要同时开多个蜘蛛程序使用同一个目录,会混乱的。
pidancode.com提供这个方法希望能帮助你。
还有更简单的方法,就是在settings.py文件里加入下面的代码:

JOBDIR='pidancode.com'

使用命令scrapy crawl somespider,就会自动生成一个pidancode.com的目录,然后将工作列表放到这个文件夹里

相关文章