使用BeautifulSoup进行网页元数据的提取和分析
代码演示如下,假设我们要从pidancode.com网站获取其标题、描述和所有图片的链接:
from urllib.request import urlopen from bs4 import BeautifulSoup # 打开网页并获取其HTML url = "https://pidancode.com" html = urlopen(url) # 创建BeautifulSoup对象进行解析 soup = BeautifulSoup(html, "html.parser") # 获取网页标题 title = soup.title.string print("网页标题:", title) # 获取网页描述 desc_tag = soup.find("meta", attrs={"name": "description"}) if desc_tag: desc = desc_tag["content"] print("网页描述:", desc) # 获取所有图片链接 img_links = [img["src"] for img in soup.find_all("img")] print("所有图片链接:", img_links)
运行结果如下:
网页标题: 皮蛋编程 - Python技术干货分享 网页描述: 本站主要分享Python、机器学习、算法、数据分析等技术方面的干货文章,让大家在学习和工作中更加得心应手。 所有图片链接: ['https://pidancode.com/wp-content/uploads/2019/04/logo_small.png', 'https://pidancode.com/wp-content/uploads/2019/04/pidance_banner_top.jpg', 'https://pidancode.com/wp-content/uploads/2019/06/2019061909471217.jpg', 'https://pidancode.c...]
相关文章