python爬虫BeautifulSoup快速抓取网站图片

2023-06-01 00:00:00 爬虫抓取快速

本文介绍BeautifulSoup模块的使用方法，以及注意点，帮助大家快速了解和学习BeautifulSoup模块。有兴趣了解爬虫的小伙伴们，赶快学起来吧。关注公众号可获取爬虫教程哦。

第一步：了解需求

在开始写之前，我们需要知道我们要做什么？做爬虫。

抓取什么？抓取网站图片。

在什么地方抓取？图片之家_图片大全_摄影图片为主的国内综合性图片网

大家可以用这个网站练练手，页面也是比较简单的。

第二步：分析网站因素

我们知道我们需要抓取的是那一个网站数据，因此，我们要来分析一下网站是如何提供数据的。

根据分析之后，所有页面似乎都是相同的，那我们选择一个摄影图来为大家做演示。

1、获取列表标题，以及链接

进一步研究页面数据，每一个页面，下方都有一个列表，然后通过列表标题，进入到下一级中。那这个页面我们需要获取列表标题。

2、获取图片列表，以及链接，以及翻页操作

3、获取图片详情，所有图片

再点击继续研究，发现图片还有多张。

分析完成，我们来编写代码。

流程图如下：

第三步：编写代码实现需求

1、导入模块

导入我们需要使用到的所有模块。

2、获取列表标题，以及链接

3、获取分类列表标题，链接，以及翻页。

4、获取详情图片，并保存

知识点总结

学会此文，可掌握知识点。

1、掌握BeautifulSoup

区分find，find_all的用法：find，查找第一个返回字符串，find_all 查找所有，返回列表

区分get，get_text的用法：get获取标签中的属性，get_text获取标签包围的文字。

2、掌握正则，re.findall 的使用

3、掌握字符串切片的方式 str[0,-5] 截取第一个文字，到倒数第5个文字。

4、掌握创建文件夹的方法os.mkdir(name)

5、掌握with open（f，w） as f：的用法

6、掌握requests模块的get请求方法。

相关文章