Python BeautifulSoup爬虫入门

2023-04-17 00:00:00 python 爬虫 入门
  1. 安装BeautifulSoup库
    在开始爬取网站前,我们需要安装BeautifulSoup库。可以使用pip命令在命令行中安装:
pip install beautifulsoup4
  1. 导入库与指定的url
    在代码中,我们首先需要导入BeautifulSoup库,并指定需要爬取的网站的url。为了方便演示,我们使用“http://www.pidancode.com”作为示例。
from bs4 import BeautifulSoup
import requests
url = 'http://www.pidancode.com'
  1. 发送请求获取html
    获取html需要向指定的url发送请求,并接收响应。我们使用requests库中的get方法来发送请求,并将响应的内容赋值给变量html。
response = requests.get(url)
html = response.text
  1. 解析html
    接下来,我们将使用BeautifulSoup库解析html。BeautifulSoup库需要传入两个参数,第一个参数为要解析的html,第二个参数是指定解析器。在这里我们使用lxml解析器。
soup = BeautifulSoup(html, 'lxml')
  1. 查找标签
    接下来,我们使用find方法查找标签。find方法接收两个参数,第一个参数是需要查找的标签名,第二个参数是标签的属性。如果没有找到,则返回None。
    这里我们使用div标签作为例子,查找包含文字“皮蛋编程”的div标签。可以通过测试网站代码,发现该标签的class属性为“entry-body”。
entry_body = soup.find('div', class_='entry-body')
  1. 获取标签内容
    最后,我们通过标签对象的text属性获取标签的文本内容,并输出到控制台。
print(entry_body.text)

完整代码如下:

from bs4 import BeautifulSoup
import requests
url = 'http://www.pidancode.com'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
entry_body = soup.find('div', class_='entry-body')
print(entry_body.text)

输出结果为:

皮蛋编程,分享技术、普及编程知识的博客,主要关注 Python、机器学习、数据挖掘、爬虫、数据分析等领域。我们的宗旨是:编程改变世界,技术创造未来,让编程改变生活。

以上就是Python BeautifulSoup爬虫入门的详细介绍。

相关文章