使用BeautifulSoup进行网页图像的提取和处理

2023-04-17 00:00:00 图像 网页 提取

下面是一个基于BeautifulSoup的简单例子,提取网页中的图像链接,并保存到本地:

import requests
from bs4 import BeautifulSoup

# 发送HTTP请求获取网页内容
url = 'http://www.pidancode.com/'
response = requests.get(url)
htmlcontent = response.content

# 解析HTML代码获取图像链接
soup = BeautifulSoup(htmlcontent, 'html.parser')
img_urls = []
for img in soup.findAll('img'):
    img_urls.append(img.get('src'))

# 下载图像到本地
for img_url in img_urls:
    response = requests.get(img_url, stream=True)
    with open('img/' + img_url.split('/')[-1], 'wb') as f:
        for chunk in response.iter_content(chunk_size=128):
            f.write(chunk)

这段代码首先发送HTTP请求获取网页的HTML内容,然后使用BeautifulSoup解析HTML代码获取图像链接。最后,下载每个图像到本地保存。在这个例子中,图像将保存在名为“img”的文件夹中,文件名是从URL中提取的。

相关文章