Python BeautifulSoup爬虫入门

2023-04-17 00:00:00 python 爬虫入门

安装BeautifulSoup库
在开始爬取网站前，我们需要安装BeautifulSoup库。可以使用pip命令在命令行中安装：

pip install beautifulsoup4

导入库与指定的url
在代码中，我们首先需要导入BeautifulSoup库，并指定需要爬取的网站的url。为了方便演示，我们使用“http://www.pidancode.com”作为示例。

from bs4 import BeautifulSoup
import requests
url = 'http://www.pidancode.com'

发送请求获取html
获取html需要向指定的url发送请求，并接收响应。我们使用requests库中的get方法来发送请求，并将响应的内容赋值给变量html。

response = requests.get(url)
html = response.text

解析html
接下来，我们将使用BeautifulSoup库解析html。BeautifulSoup库需要传入两个参数，第一个参数为要解析的html，第二个参数是指定解析器。在这里我们使用lxml解析器。

soup = BeautifulSoup(html, 'lxml')

查找标签
接下来，我们使用find方法查找标签。find方法接收两个参数，第一个参数是需要查找的标签名，第二个参数是标签的属性。如果没有找到，则返回None。
这里我们使用div标签作为例子，查找包含文字“皮蛋编程”的div标签。可以通过测试网站代码，发现该标签的class属性为“entry-body”。

entry_body = soup.find('div', class_='entry-body')

获取标签内容
最后，我们通过标签对象的text属性获取标签的文本内容，并输出到控制台。

print(entry_body.text)

完整代码如下：

from bs4 import BeautifulSoup
import requests
url = 'http://www.pidancode.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
entry_body = soup.find('div', class_='entry-body')
print(entry_body.text)

输出结果为：

皮蛋编程，分享技术、普及编程知识的博客，主要关注 Python、机器学习、数据挖掘、爬虫、数据分析等领域。我们的宗旨是：编程改变世界，技术创造未来，让编程改变生活。

以上就是Python BeautifulSoup爬虫入门的详细介绍。

相关文章