python通过正则获取网页上的全部链接
这段代码可以抓取皮蛋编程主页(http://www.pidancode.com)上的所有URL链接,放在列表里输出
""" 作者:皮蛋编程(www.pidancode.com) 创建日期:2022/3/15 修改日期:2022/3/15 功能描述:正则表达式获取页面商的全部链接 """ from bs4 import BeautifulSoup from urllib import request # 要请求的网址 url = 'http://www.pidancode.com' # 获取http://www.pidancode.com的页面的HTML代码 html = request.urlopen(url) # 对html代码进行分析 soup = BeautifulSoup(html, 'html.parser') # 找出所有的a标签 data = soup.find_all('a') url_list = list() # 遍历a标签, 获取它们的href属性 for item in data: # 过滤掉href=javascript和#的链接 if item.string is not None and item['href'] != 'javascript:;' and item['href'] != '#': url = item.get('href', '') url_list.append(url) # 输出所有链接 print(url_list)
相关文章