Python BeautifulSoup爬虫入门
- 安装BeautifulSoup库
在开始爬取网站前,我们需要安装BeautifulSoup库。可以使用pip命令在命令行中安装:
pip install beautifulsoup4
- 导入库与指定的url
在代码中,我们首先需要导入BeautifulSoup库,并指定需要爬取的网站的url。为了方便演示,我们使用“http://www.pidancode.com”作为示例。
from bs4 import BeautifulSoup import requests url = 'http://www.pidancode.com'
- 发送请求获取html
获取html需要向指定的url发送请求,并接收响应。我们使用requests库中的get方法来发送请求,并将响应的内容赋值给变量html。
response = requests.get(url) html = response.text
- 解析html
接下来,我们将使用BeautifulSoup库解析html。BeautifulSoup库需要传入两个参数,第一个参数为要解析的html,第二个参数是指定解析器。在这里我们使用lxml解析器。
soup = BeautifulSoup(html, 'lxml')
- 查找标签
接下来,我们使用find方法查找标签。find方法接收两个参数,第一个参数是需要查找的标签名,第二个参数是标签的属性。如果没有找到,则返回None。
这里我们使用div标签作为例子,查找包含文字“皮蛋编程”的div标签。可以通过测试网站代码,发现该标签的class属性为“entry-body”。
entry_body = soup.find('div', class_='entry-body')
- 获取标签内容
最后,我们通过标签对象的text属性获取标签的文本内容,并输出到控制台。
print(entry_body.text)
完整代码如下:
from bs4 import BeautifulSoup import requests url = 'http://www.pidancode.com' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'lxml') entry_body = soup.find('div', class_='entry-body') print(entry_body.text)
输出结果为:
皮蛋编程,分享技术、普及编程知识的博客,主要关注 Python、机器学习、数据挖掘、爬虫、数据分析等领域。我们的宗旨是:编程改变世界,技术创造未来,让编程改变生活。
以上就是Python BeautifulSoup爬虫入门的详细介绍。
相关文章