使用BeautifulSoup进行网页图像的提取和处理
下面是一个基于BeautifulSoup的简单例子,提取网页中的图像链接,并保存到本地:
import requests from bs4 import BeautifulSoup # 发送HTTP请求获取网页内容 url = 'http://www.pidancode.com/' response = requests.get(url) htmlcontent = response.content # 解析HTML代码获取图像链接 soup = BeautifulSoup(htmlcontent, 'html.parser') img_urls = [] for img in soup.findAll('img'): img_urls.append(img.get('src')) # 下载图像到本地 for img_url in img_urls: response = requests.get(img_url, stream=True) with open('img/' + img_url.split('/')[-1], 'wb') as f: for chunk in response.iter_content(chunk_size=128): f.write(chunk)
这段代码首先发送HTTP请求获取网页的HTML内容,然后使用BeautifulSoup解析HTML代码获取图像链接。最后,下载每个图像到本地保存。在这个例子中,图像将保存在名为“img”的文件夹中,文件名是从URL中提取的。
相关文章