如何使用Python BeautifulSoup使用CSS选择器?

2023-04-17 00:00:00 beautifulsoup 选择器 如何使用

使用Python BeautifulSoup库可以通过CSS选择器来定位HTML文档中的元素。以下是基本步骤:
1. 导入库和创建BeautifulSoup对象

from bs4 import BeautifulSoup
import requests
url = "https://pidancode.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
  1. 使用CSS选择器定位元素
    使用select()方法来定位元素,并且使用CSS选择器语法指定所需要的元素。例如,使用#符号以及id来定位元素:
# 找到id为header的元素
header = soup.select("#header")

使用.符号和class来定位元素:

# 找到class为post-body的元素
post_body = soup.select(".post-body")

使用标签名来定位元素:

# 找到所有的h1标签
h1_tags = soup.select("h1")

使用属性来定位元素:

# 找到所有href属性为"https://pidancode.com"的链接
pidancode_links = soup.select('a[href="https://pidancode.com"]')
  1. 解析元素
    在找到了所需要的元素后,使用text属性获取元素的文本内容,或者使用get()方法获取元素的属性值。
# 打印出header元素的文本内容
print(header[0].text)
# 打印出第一个post-body的文本内容
print(post_body[0].text)
# 打印出第一个pidancode链接的href属性值
print(pidancode_links[0].get("href"))

相关文章